数据库技术与应用 教学课件 ppt 作者 第13章 数据仓库与数据挖掘

上传人:E**** 文档编号:89495202 上传时间:2019-05-25 格式:PPTX 页数:23 大小:530.51KB
返回 下载 相关 举报
数据库技术与应用 教学课件 ppt 作者 第13章 数据仓库与数据挖掘_第1页
第1页 / 共23页
数据库技术与应用 教学课件 ppt 作者 第13章 数据仓库与数据挖掘_第2页
第2页 / 共23页
数据库技术与应用 教学课件 ppt 作者 第13章 数据仓库与数据挖掘_第3页
第3页 / 共23页
数据库技术与应用 教学课件 ppt 作者 第13章 数据仓库与数据挖掘_第4页
第4页 / 共23页
数据库技术与应用 教学课件 ppt 作者 第13章 数据仓库与数据挖掘_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《数据库技术与应用 教学课件 ppt 作者 第13章 数据仓库与数据挖掘》由会员分享,可在线阅读,更多相关《数据库技术与应用 教学课件 ppt 作者 第13章 数据仓库与数据挖掘(23页珍藏版)》请在金锄头文库上搜索。

1、第十三章 数据仓库与数据挖掘,本章学习目标,理解数据仓库的定义及OLAP应用。 理解数据挖掘的定义。 理解和掌握数据挖掘的应用。 理解数据挖掘与数据仓库的联系与区别。 理解数据挖掘常用的工具。,本章概述,随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理事务和日常业务。这些管理信息系统为企业积累了大量的信息。企业管理者开始考虑如何利用这些信息海洋,提取有用的信息对企业的管理决策提供支持。能否从纷繁复杂、大量沉淀的数据环境中取得有用的决策信息,已成为企业生存、发展、壮大的重要环节。因此,产生了与传统数据库有很大差异的数据环境的要求和从这些海洋数据中获取特殊知识的工具的需要。本章简

2、要介绍数据仓库与数据挖掘的基本概念及应用。,主要内容,13.1 数据仓库概述,13.3 常用的数据挖掘工具优化,13.2 数据挖掘概述,主要内容,13.1 数据仓库概述,13.3 常用的数据挖掘工具优化,13.2 数据挖掘概述,13.1 数据仓库概述,13.1.1 数据仓库的定义,William H.Inmon定义了数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向企业的、最明细的数据存储、数据快照式的数据获取等。这些原则至今依然是指导数据仓库建设的最基本原则。 与传统数据库相比,数据仓库虽然是从数据库发展而来的,但是两者在许多方面都存在着很大的差异,如表13-1所示。

3、 数据仓库的特性主要有面向主题性、数据集成性、数据的时变性、数据的非易失性、数据的集合性、支持决策等作用。 (1)面向主题性 数据仓库中的数据是面向主题的组织方式,这样可以在较高层次上对分析对象的数据给出完整的、一致的描述,排除对于决策无用的数据,提供特定主题的简明视图。 (2) 数据的集成性 构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性。,13.1 数据仓库概述,(3) 数据的时变性 数据存储从历史的角度提供信息。在数据仓库,隐式或显式地包含时间元素。 (4)数据的非易失性 数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发

4、控制。通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问。 (5)数据的集合性 数据仓库以某种数据集合的形式存储。目前,数据仓库采用的集合方式有:多维数据库的多维模式、关系数据库的关系模式、多维模式和关系模式相结合的混合模式。 (6) 支持决策的 数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新,13.1 数据仓库概述,13.1.2数据仓库的基本结构,数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。整个数据仓库系统是一个包含四个层次的体系结构。,13.1 数据仓库概述,13.1.2数据仓库的基

5、本结构,数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括内部数据和外部数据。内部数据包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部数据包括各类法律法规、市场信息和调查数据等。 数据存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。 联机分析处理 (OLAP:On-Line Analytical Processing)服务器:即从数据仓库中抽取详细数据的一个子集,并经过必要的聚集存储到OLAP服务器中供前端分析工具读取,对分析需要的数据进行有效集成,按多维模型予

6、以组织,以便进行多角度、多层次的分析,并发现趋势。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。,13.1 数据仓库概述,13.1.2 数据仓库的主要应用,数据仓库主要应用在以下三个方面: (1) 信息处理 支持查询和基本的统计分析,并使用表或图进行报告。 (2) 分析处理 支持基本的OLAP操作,在汇总的和细节的历史数据上操作。 (3) 数据挖掘 支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果。

7、,13.1 数据仓库概述,13.1.2 数据仓库的主要应用,其中OLAP是数据仓库的一个主要应用,OLAP(联机分析处理)是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。由于SQL对大型数据库进行的简单查询已不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求,这时就需要OLAP联机分析处理来解决这个问题。OLAP不是面向顾客的,用于事务和查询处理,而是面向市场的,用于数据分析;不是管理当前数据而是管理大量历史数据,供汇总和聚集机制;不是采用实体-联系E

8、-R模型和面向应用的数据库设计,而是采用星型或雪花模型和面向主题的数据库设计。,13.2 数据挖掘概述,13.2.1 数据挖掘的定义,数据挖掘(Data Mining,DM)从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。 数据挖掘应该更正确地命名为“从数据中挖掘知识”。还有很多类似术语,如知识发现、数据分析、数据融合以及决策支持等

9、。人工智能领域习惯称之为知识发现,而数据库领域习惯称之为数据挖掘。,13.2 数据挖掘概述,数据挖掘是一个完整的过程,其一般步骤如图13-1所示。数据挖掘主要经过确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析及知识同化这五个阶段。,13.2 数据挖掘概述,13.2.2 数据挖掘技术及应用,1. 数据挖掘的常用技术 数据挖掘的常用技术有聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等,具体功能是用于概念描述、关联分析、分类与预测、聚类分析、偏差分析等。 聚类分析(clustering analysis)是一个比较活跃的数据挖掘领域,源于统计学、生物学以及机器学习等。聚类生成

10、的组叫簇,簇是数据对象的集合。 决策树(decision tree)主要用于分类和预测,提供了一种展示类似在什么条件下会得到什么值这类规则的方法。 人工神经网络(artificial neural network,ANN)是一类比较新的计算模型,它是模仿人的脑神经网络的结构和某些工作机制而建立的一种计算模型。 粗糙集(rough set)是一种处理不确定、不完备数据和不精确问题的新的数学理论。,13.2 数据挖掘概述,关联规则挖掘(association rule mining)是数据挖掘中最活跃的研究方法之一,最早由Agrawal等人提出。关联规则的基本思想:一是找到所有支持度大于最小支持度

11、的频繁项集,即频集;二是使用第一步找到的频集产生期望的规则。其核心方法是基于频集理论的递推方法。关联规则挖掘的主要算法包含关联发现、序列模式发现、时序发现等。 统计分析(statistics analysis)是从事物的外在数量上的表现去推断该事物可能的规律。科学的规律性一般总是隐藏得比较深,最初总是从数量表现上通过统计分析看出一些线索,然后提出一定的假说或学说,做进一步深入的理论研究。当理论研究提出一定的结论时,往往还需要在实践中加以验证,即观测一些自然现象或专门安排的实验所得资料是否与理论相符,在大多数程度上相符,偏离可能是朝哪个方向等等问题。都需要用到统计分析方法。常见的统计分析有回归分

12、析、判别分析以及探索性分析等。,13.2 数据挖掘概述,2. 数据挖掘的应用 随着人们对数据挖掘认识的深入,数据挖掘技术应用越来越广泛。目前数据挖掘应用在金融业和保险业较多,也扩展到了其他应用领域,如零售业、医疗保健、行政司法等社会部分以及科学和工程研究单位。 例如在金融业,可以用数据挖掘分析市场的动向、预测公司的营运能力和股价趋势等。 评估账户信用等级。金融业风险与效益并存,分析账户的信用等级对于降低风险、增加收益是非常重要的。 分析信用卡使用模式。 分析股票趋势。 探测金融政策与金融行情关系。,13.2 数据挖掘概述,13.2.3 数据挖掘与数据仓库的联系与区别,1. 数据仓库与数据挖掘的

13、联系 数据挖掘和数据仓库作为决策支持的新技术,在近十年来发展十分迅速。数据仓库是数据挖掘的对象,数据仓库技术的产生和发展为数据挖掘技术开辟了新的战场,同时也提出了新的要求和挑战。数据仓库和数据挖掘是相互影响,相互促进的。两者的联系主要表现在以下几点。 数据仓库为数据挖掘提供了更好的、更广泛的数据源。 数据仓库为数据挖掘提供了新的支持平台。 数据仓库为更好地使用数据挖掘工具提供了方便。 数据挖掘为数据仓库提供了广泛的技术支持。 数据挖掘和数据仓库技术要结合起来才能充分发挥潜力。,13.2 数据挖掘概述,13.2.3 数据挖掘与数据仓库的联系与区别,2. 数据仓库和数据挖掘的区别 数据仓库是一种存

14、储技术,它包含大量的历史数据、当前详细数据以及综合数据,它能为不同用户的不同决策需要提供所需要的数据和信息。 数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘有用的信息和知识。,13.3 常用的数据挖掘工具,13.3.1 数据挖掘工具的种类,数据挖掘工具按照使用方式,可以分成:决策方案生成工具、商业分析工具和研究分析工具三大类。 按照数据挖掘的技术可以分成:基于神经网络的工具、基于规则和决策树的工具、基于模糊逻辑的工具和综合性数据挖掘工具等。 按照数据挖掘的应用范围可以将挖掘工具分成专用型数据挖掘工具和通用型数据挖掘工具。,13.3.2 常用数据挖掘工具,数据

15、挖掘工具种类繁多,以下介绍几种常用的数据挖掘工具。,13.3 常用的数据挖掘工具,1. SPSS SPSS(Statistical Package for the Social Science,社会科学统计软件包)是一种集成化的计算机数据处理应用软件。1968年,美国斯坦福大学H.Nie等3位大学生开发了最早的SPSS统计软件,并于1975年在芝加哥成立了SPSS公司,广泛应用于通信、医疗、银行、证券、保险、制造、市场研究、科研、教育等多个领域和行业。 2. SAS SAS是由美国北卡罗来纳州立大学于1966年开发的统计分析软件。1976年SAS软件研究所成立,开始进行SAS系统的维护、开发、

16、销售和培训工作。经过多年的完善和发展,SAS系统在国际上已被誉为统计分析的标准软件,在各个领域得到广泛应用。 3. SQL Server 2005 SQL Server是一个全面的、集成的、端到端的数据解决方案,它为组织中的用户提供了一个更安全可靠和更高效的平台,主要用于企业数据和BI应用。SQL Server 2005为IT专家和信息工作者带来了功能强大的数据挖掘分析工具,同时降低了在从移动设备到企业数据系统的多平台上创建、部署、管理和使用企业数据和分析应用程序的复杂性。,13.3 常用的数据挖掘工具,4. Weka Weka(Waikato Environment for Knowledge Analysis,坏卡托智能分析环境),是一个开放源码的数据挖掘软件。Weka的主要开发者来自新西兰的Waikato大学,数据挖掘用户可通过Weka集成的大量算法,执行数据预处理、分类、回归、聚类、关联规则、数据可视化等任务。开发者可以使用java语言在Weka架构上开发出更多的数据挖掘算法。使用Weka可以轻松地进行数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号