数据挖掘技术剖析－金锄头文库

资源描述

《数据挖掘技术剖析》由会员分享，可在线阅读，更多相关《数据挖掘技术剖析（46页珍藏版）》请在金锄头文库上搜索。

1、1,数据挖掘技术,1综述,2,为什么要数据挖掘？,数据的爆炸性增长：从TB到PB 丰富数据的来源：商业：WEB、电子商务、交易数据、股市.科学：遥感、生物信息学、科学模拟，社会及每个人：新闻、数码相机我们被数据所淹没，但却渴望知识,“需要是发明之母” 数据挖掘：海量数据的自动分析技术,3,数据库技术的演化,60-70年代:网络数据库、层次数据库 70-80年代:关系数据库模型和原型系统 80-90年代:各种高级数据模型、各类以应用为导向的数据库。 90-今:数据挖掘、数据仓库、多媒体数据库、WEB,4,什么是数据挖掘？,数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有

2、用的、隐含的、先前未知的和可能有用的模式或知识数据挖掘的替换词数据库中的知识挖掘（KDD）知识提炼数据/模式分析数据考古数据捕捞、信息收获等等。,5,6,在今天，NBA的教练有了他们的新式武器：决策支持下的数据分析。大约20个NBA球队使用了IBM公司开发的数据挖掘软件来优化他们的战术组合。该软件就因为研究了魔术队队员不同的布阵，在魔术队与迈阿密热队的比赛中找到了获胜的机会。 (1) 系统分析显示魔术队先发阵容中的两个后卫哈德卫和伯兰在前两场中被评为17分,这意味着他俩在场上，本队输掉的分数比得到的分数多17分。然而，当哈德卫与替补后卫阿姆斯创组合时，魔术队得分为正14分。 (2

3、) 在下一场中，魔术队增加了阿姆斯创的上场时间。此招果然见效：阿姆斯创得了21分，哈德卫得了42分，魔术队以88比79获胜。,有趣的数据挖掘-美国NBA,7,零售业用于识别顾客的购买模式，在顾客的统计特征中发现关联，预测促销活动的反应，进行市场分析。啤酒和尿布的的关系，我们非常熟悉！如在购买面包和黄油的顾客中，有90%的人同时也买了牛奶”：(面包+黄油)(牛奶)。,数据挖掘其他应用,8,银行洗钱: 发现可疑的货币交易行为二八定律：意大利经济学家帕累托发现了财富和收益间的关系，潜心研究发现，社会上的大部分财富被少数人占有，从大量具体的事实中挖掘出一个简单而让人不可思议的结论：如果社会

4、上20的人占有社会80的财富，那么可以推测，10的人占有了65的财富，而5的人则占有了社会50的财富。,数据挖掘其他应用,9,保险如；保险客户流失性判断,数据挖掘其他应用,10,股票预设预测一支股票的走势几乎是不可能，但是通过相关分析，可以找出一支股票的走势与另一只股票走势的潜在规律，比如数据挖掘曾经得到过这个结论：“如果微软的股票下跌4%，那么IBM的股票将在两周内下跌5%”。医疗探求各种疾病之间的相互关系、各种疾病的发展规律，总结各种治疗方案的治疗效果，以及对疾病的诊断、治疗和医学研究是非常有价值和发展前景的。同时，医疗数据是既有文本、如：预测肝癌患者存活期,数据挖掘其他应用,1

5、1,专家们通过搜集1990年到2002年间因肝癌死亡的456名患者的各项指标，把患者血液检查结果、症状等详细信息数字化，所涉及的数据达77万种，然后运用数据挖掘分析其相关性。结果发现，某些数据和肝癌患者的存活期密切相关，如一种“PIVKA”蛋白质异常程度的数值到一定标准以上，90以上的肝癌患者存活期不到一年。使用新方法不仅可较准确地预测肝癌患者的存活期，而且有助于选择恰当的治疗方法，来保持或改善那些与存活期密切相关的数值，进而延长患者生命。,预测肝癌患者存活期,12,13,14,15,一前言,数据仓库是紧跟internet而上，成为了信息社会中获得企业竞争优势的关键。据相关咨询公司调查

6、，全球2000家大公司已有90%将internet 网络和数据仓库这两项技术列入了企业的未来计划。,16,一前言（续）,IBM 公司所推崇的BI (商业智能)，其核心就是数据仓库。微软从SQL SVRVER7.0以后，将数据仓库功能集成到数据库中，并建立的数据仓库联盟。 ORACLE 公司已经有了自己ORACLE EXPRESS 系列数据仓库产品用来提供决策支持。,我国招商银行等、中国电信、中国移动等都已经建立起了自己的数据仓库系统。,17,一数据仓库概念的提出,顾名思义，数据仓库就是数据的仓库，它在存放大量数据的同时，又像仓库一样将大量的数据有效的管理起来。数据仓库主要侧重于对海量数据

7、的组织和管理，提供有效的数据访问的手段。,18,一数据仓库概念的提出（续）,目前在信息管理方面存在的普遍问题包括： (1) 数据太多，“信息不足”的状况随着数据库技术的发展，各企业积累并存放了大量的业务数据，但真正能为企业提供辅助决策的信息也太少。 (2) 异构环境的数据源由于市场竞争激烈，新产品开发周期缩短，如何综合利用分散的、异构环境的数据源，及时得到准确的信息是使企业取得成功的关键。,19,一数据仓库概念的提出（续）,(3) 事务型处理环境不适宜DSS的应用事务处理和分析处理的性能特性不同事务处理：存取操作频率高而每次操作处理的时间短。分析处理；某个DSS应用程序可能需要连

8、续使用几个小时，从而消耗掉大量的系统资源，将具有如此不同处理性能的两种应用放在一个环境中运行，这种行为是不适当的。数据集成的问题在DSS中数据收集得越完整，得到的结果越可靠。历史数据的问题事务处理一般只需要当前的数据而对于DSS而言，历史数据是非常重要的,20,二数据仓库的概念,1 什么是数据仓库随着大型数据库技术的发展及实际应用的需要，数据仓库技术（Data Warehouse，DW）被提出来解决管理决策应用的问题。1996年，构建数据仓库一书中，对数据仓库做的定义为：,面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策。,21,2 数据仓库的特点,(1)

9、数据仓库是面向主题的数据仓库系统是相对数据库系统而言的，数据库系统是事件驱动、面向应用的；数据仓库系统则是面向主题的。对于银行来说，客户是个永恒的主题，要研究客户的消费行为和心理，就要对客户进行各种分类，以此解决哪些客户的信用好，哪些客户的风险较大，等等诸如此类的问题就是一个主题。 (2) 数据仓库是集成的不同的应用程序设计者设计的程序，可能有许多方面的不同，如数据编码、命名、习惯等。因此，原始数据进入数据仓库之前，必须经过加工与集成。首先要统一原始数据中所有不一致的地方，如字段的同名异义、异名同义、单位不统一、字长不统一等，还要将原始数据结构从面向应用转换为面向主题。,22,2 数据仓库

10、的特点（续）,(3) 数据仓库是非易失的由于数据仓库保存的数据是反映历史的，因此对其操作只有两种，分别为数据载入、数据访问。数据仓库只有经过长时间之后，才会有老化数据的清除等问题的出现。 (4) 数据仓库是随时间变化的数据仓库随时间不断地增加新的数据，不断将当前最新的操作型数据统一集成到数据仓库中。并且数据仓库内的数据一旦被载入，就不能修改。一般的操作性环境中的数据只保持60-90天，虽然数据仓库内的数据在很长的时间（5-10年）不发生变化。但是，数据仓库中必须包含反映时间的属性。,23,3 数据仓库系统和传统数据库系统的区别,数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案

11、，而数据库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。数据仓库系统和传统数据库系统相比，不同点表现在以下几方面。,24,3 数据仓库系统和传统数据库系统的区别（续）,25,26,1 联机分析处理技术产生的背景,六十年代，关系数据库之父E.F.Codd提出了关系模型，促进了联机事务处理(OLTP)的发展。 93年，Codd提出了联机分析处理（OLAP）的概念。他认为OLTP已不能满足终端用户对数据库查询分析的需要，SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，而查询的结果并不能满足决

12、策者提出的需求。因此，E.F.Codd提出了联机分析处理的概念即OLAP。,27,2 相关的概念,1 相关定义定义1：OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。定义2：OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。,28,3 OLAP和OLTP的区别,OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心

13、是“维”这个概念，因此OLAP也可以说是多维数据分析工具的集合。,29,5 OLAP的多维数据分析,多维分析方式迎合了人们的思维模式多维数据分析是指对以多维形式组织起来的数据采取切片、切块、旋转和钻取等各种分析动作。以求剖析数据，使最终用户能从多个角度、多侧面地观察数据仓库中的数据，从而深入地了解包含在数据中的信息、内涵。,30,5 OLAP的多维数据分析（续）,(1) 切片,在多维数组的某一维上选定一维成员的动作成为切片。 (2) 切块：在多维数组的某一维上选定某一区间的维成员的动作。,31,5 OLAP的多维数据分析（续）,(3) 旋转：旋转既是改变一个报告或者页面的维方向。,32,5

14、 OLAP的多维数据分析（续）,(4) 钻取钻取处理是使用户在数据仓库的多层数据中，能够通过导航信息而获得更多的细节性数据，钻取一般是指向下钻取。,33,6 具体实现-1,34,6 具体实现-2,1 ORACLE 产品中的：data warehouse builder 用以完成数据的抽取、转换、装载工具(etl) express olap分析工具 2 其它产品也有 3 通过自己的开发和设计来完成。,35,数据挖掘当前的热点网站的数据挖掘生物信息或基因的数据挖掘文本的数据挖掘,36,3 数据挖掘的发展,37,4 数据挖掘的概念数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集

15、中识别有效的、新颖的、潜在有用的，以及最终可理解的模式的过程。它是一门涉及面很广的交叉学科，包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。,38,5 数据挖掘的功能数据挖掘通过预测未来趋势及行为，做出前瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下五类功能。 (1)自动预测趋势和行为 (2)关联分析 (3)聚类 (4)概念描述 (5)偏差检测数据挖掘可粗略地理解为三部曲：数据准备、数据挖掘，结果的解释评估。,39,6 数据挖掘的方法根据数据挖掘的方法分，可粗分为：统计方法机器学习方法神经网络方法数据库方

16、法又可以进一步的细分为如下的结构！,40,(1) 统计方法回归分析（多元回归、自回归、罗吉斯回归等）判别分析（贝叶斯判别、费歇尔判别、非参数判别等）聚类分析（系统聚类、动态聚类等）探索性分析（主元分析法、相关分析法等）以及模糊集、粗糙集、支持向量机等。 (2) 机器学习归纳学习方法（决策树(ID3算法)、规则归纳等）、基于范例的推理CBR 遗传算法贝叶斯信念网络等。 (3) 神经网络方法前向神经网络（BP算法等）自组织神经网络（自组织特征映射、竞争学习等）等。 (4) 数据库方法基于可视化的多维数据分析或OLAP方法，另外还有面向属性的归纳方法。,41,(1) 统计方法回归分析（多元回归、自回归、罗吉斯回归等）判别分析（贝叶斯判别、费歇尔判别、非参数判别等）聚类分析（系统聚类、动态聚类等）探索性分析（主元分析法、相关分析法等）以及模糊集、粗糙集、支持向量机等。 (2) 机器学习归纳学习方法（决策树(ID3算法)、规则归纳等）、基于范例的推理CBR 遗传算法贝叶斯信

展开阅读全文