数据挖掘入门26553.ppt

资源描述

《数据挖掘入门26553.ppt》由会员分享，可在线阅读，更多相关《数据挖掘入门26553.ppt（92页珍藏版）》请在金锄头文库上搜索。

1、2020/12/19,1,数据挖掘入门,2020/12/19,2,引言 KDD与数据挖掘数据挖掘方法数据挖掘的应用和发展趋势数据预处理可视化数据挖掘,2020/12/19,3,一、引言,什么激发了数据挖掘近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种领域，如商务管理、生产控制、市场分析、工程设计和科学探索等。面对海量数据库和大量繁杂信息，如何才能从中提取有价值的知识，进一步提高信息的利用率，由此引发了一个新的研究方向：基于数据库的知识发现（Knowledge Disc

2、overy in Database）及相应的数据挖掘（Data Mining）理论和技术的研究。,2020/12/19,4,为什么数据挖掘是重要的数据的丰富带来了对强有力的数据分析工具的需求。快速增长的海量数据收集存放在大型和大量的数据库中，没有强有力的工具，这些数据就变成了“数据坟墓”难得再访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识“金块”。,2020/12/19,5,2.1 KDD定义人们给KDD下过很多定义，内涵也各不相同，目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜

3、在有用的、最终可被理解的模式的非平凡过程。,二、KDD与数据挖掘,2020/12/19,6,2.2 KDD过程 KDD是一个人机交互处理过程。该过程需要经历多个步骤，并且很多决策需要由用户提供。从宏观上看，KDD过程主要经由三个部分组成，即数据整理、数据挖掘和结果的解释评估。,2020/12/19,7,知识发现（KDD）的过程,数据清理筛选,数据,目标数据,Knowledge,预处理及变换,变换后的数据,数据挖掘,解释/评估,2020/12/19,8,知识发现（KDD）的步骤,数据准备：了解KDD应用领域的有关情况。包括熟悉相关的知识背景，搞清用户需求。数据选取：数据选取的目的是确定目标数据

4、，根据用户的需要从原始数据库中选取相关数据或样本。在此过程中，将利用一些数据库操作对数据库进行相关处理。数据预处理：对步骤2中选出的数据进行再处理，检查数据的完整性及一致性，消除噪声及与数据挖掘无关的冗余数据，根据时间序列和已知的变化情况，利用统计等方法填充丢失的数据。,2020/12/19,9,数据变换：根据知识发现的任务对经过预处理的数据再处理，主要是通过投影或利用数据库的其它操作减少数据量。确定KDD目标：根据用户的要求，确定KDD要发现的知识类型。选择算法：根据步骤5确定的任务，选择合适的知识发现算法，包括选取合适的模型和参数。,2020/12/19,10,数据挖掘：这是整个KD

5、D过程中很重要的一个步骤。运用前面的选择算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来。模式解释：对在数据挖掘步骤中发现的模式（知识）进行解释。通过机器评估剔除冗余或无关模式，若模式不满足，再返回到前面某些处理步骤中反复提取。知识评价：将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查，以确信本次发现的知识不会与以前发现的知识相抵触。,2020/12/19,11,什么是数据挖掘数据挖掘（从数据中发现知识）从海量的数据中抽取感兴趣的（有价值的、隐含的、以前没有用但是潜在有用信息的）模式和知识。其它可选择的名字数据库中知识挖掘、知识提取、数据/模式分析

6、、数据考古、数据捕捞、信息获取、事务智能等。广义观点数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程。,2020/12/19,12,数据挖掘系统的组成数据库、数据仓库或其他信息库：是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。数据库或数据仓库服务器：根据用户的挖掘请求，数据库或数据仓库服务器负责提取相关数据。知识库：是领域知识，用于指导搜索，或评估结果模式的兴趣度。,2020/12/19,13,数据挖掘引擎：数据挖掘系统的基本部分，由一组功能模块组成，用于特征化、关联、分类、聚类分析以及演变和偏差分析。模式

7、评估模块：使用兴趣度量，并与数据挖掘模块交互，以便将搜索聚焦在有趣的模式上，可能使用兴趣度阈值过滤发现的模式。图形用户界面：该模块在用户和数据挖掘系统之间通信，允许用户与系统交互，指定数据挖掘查询或任务，提供信息，帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。,2020/12/19,14,数据挖掘系统结构,数据仓库,数据清理数据集成,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,2020/12/19,15,3.1 可以分别按挖掘任务、挖掘对象和挖掘方法来分类。按挖掘任务分类：包括分类或预测知识模型发现，数据总结，数据聚类，关联规则发现，时序

8、模式发现，依赖关系或依赖模型发现，异常和趋势发现等。按挖掘对象分类：包括关系数据库，面向对象数据库，空间数据库，时态数据库，文本数据库，多媒体数据库，异构数据库，数据仓库，演绎数据库和Web数据库等。,三、数据挖掘方法,2020/12/19,16,按挖掘方法分类：包括统计方法，机器学习方法，神经网络方法和数据库方法，其中：统计方法可分为：回归分析（多元回归、自回归等），判别分析（贝叶斯判别、费歇尔判别、非参数判别等），聚类分析（系统聚类、动态聚类等），探索性分析（主成分分析、相关分析等）等。机器学习方法可分为：归纳学习方法（决策树、规则归纳等），基于范例学习，遗传算法等。神经网络方法可

9、以分为：前向神经网络（BP算法等），自组织神经网络（自组织特征映射、竞争学习等）。数据库方法分为：多为数据分析和OLAP技术，此外还有面向属性的归纳方法。,2020/12/19,17,数据挖掘技术分类,数据挖掘,验证驱动挖掘,发现驱动挖掘,SQL,SQL生成器,查询工具,OLAP,描述,预测,可视化,聚类,关联规则,顺序关联,汇总描述,分类,统计回归,时间序列,决策树,神经网路,2020/12/19,18,3.2 数据挖掘方法粗糙集 1982年波兰数学家Z.Pawlak针对G.Frege的边界线区域思想提出了粗糙集（Rough Set），他把那些无法确认的个体都归属于边界线区域，而这种边界

10、线区域被定义为上近似集和下近似集之差集。粗糙集理论主要特点在于它恰好反映了人们用粗糙集方法处理不分明问题的常规性，即以不完全信息或知识去处理一些不分明现象的能力，或依据观察、度量到的某些不精确的结果而进行分类数据的能力。,2020/12/19,19,模糊集经典集合理论对应二值逻辑，一个元素要么属于、要么不属于给定集合。因此经典集合不能很好地描述具有模糊性和不确定性的问题。美国加利福尼亚大学的扎德教授于1965年提出了模糊集合论，用隶属程度来描述差异的中间过渡，是一种用精确的数学语言对模糊性进行描述的方法。,2020/12/19,20,定义：论域X=x上的模糊集合A由隶属函数A(x)来表征。

11、其中A(x)在实轴的闭区间0，1中取值，A(x)的大小反映x对于模糊集合A的隶属程度。 A(x)的值接近1，表示x隶属于A的程度很高。 A(x)的值接近0，表示x隶属于A的程度很低。特例，当A的值域取0，1闭区间的两个端点，亦即0，1两个值时，A便退化为一个普通的逻辑子集。隶属函数也就退化为普通逻辑值。,2020/12/19,21,聚类分析聚类是对物理的或抽象的对象集合分组的过程。聚类生成的组为簇，簇是数据对象的集合。簇内部任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。相异度可以根据描述对象的属性值计算，对象间的距离是最常采用的度量指标。在实际应用中，经常将

12、一个簇中的数据对象作为一个整体看待。用聚类生成的簇来表达数据集不可避免地会损失一些信息，但却可以使问题得到必要的简化。主要的数据挖掘聚类方法有：划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法,2020/12/19,22,关联规则关联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。人们希望在海量的商业交易记录中发现感兴趣的数据关联关系，用以帮助商家作出决策。例如：面包 2% 牛奶 1.5% （占超市交易总数） 2%和1.5%表明这两种商品在超市经营中的重要程度，称为支持度

13、。商家关注高支持度的产品。面包=牛奶 60% 在购买面包的交易中，有60%的交易既买了面包又买了牛奶，成60%为规则“面包=牛奶”的信任度。信任度反映了商品间的关联程度。,2020/12/19,23,项目构成的集合称为项集。项集在事物数据库中出现的次数占总事物的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集。关联规则就是支持度和信任度分别满足用户给定阈值的规则。发现关联规则需要经历如下两个步骤：（1）找出所有的频繁项。（2）由频繁项集生成满足最小信任度阈值的规则。,2020/12/19,24,5.人工神经网络人工神经网络是指由简单计算单元组

14、成的广泛并行互联的网络，能够模拟生物神经系统的结构和功能。组成神经网络的单个神经元的结构简单，功能有限，但是，由大量神经元构成的网络系统可以实现强大的功能。由于现实世界的数据关系相当复杂，非线性问题和噪声数据普遍存在。将人工神经网络应用于数据挖掘，希望借助其非线性处理能力和容噪能力，得到较好的数据挖掘结果。将人工神经网络应用于数据挖掘的主要障碍是，通过人工神经网络学习到的知识难于理解；学习时间太长，不适于大型数据集。,2020/12/19,25,6，分类与预测分类和预测是两种重要的数据分析方法，在商业上的应用很多。分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势。分类的目的是

15、提出一个分类函数或分类模型（即分类器）通过分类器将数据对象映射到某一个给定的类别中。数据分类可以分为两步进行。第一步建立模型，用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。第二步是用模型对数据对象进行分类。预测的目的是从历史数据记录中自动推导出对给定数据的推广描述，从而能够对事先未知的数据进行预测。,2020/12/19,26,分类的方法：决策树：决策树内部节点进行属性值测试，并根据属性值判断由该节点引出的分支，在决策树的叶结点得到结论。内部节点是属性或属性的集合，叶节点代表样本所属的类或类分布。贝叶斯分类：是一种统计学分类方法，可以预测类成员关系关系

16、的可能性，如给定样本属于一个特征类的概率。贝叶斯方法已在文本分类、字母识别、经济预测等领域获得了成功的应用。基于遗传算法分类：模拟生物进化过程中的计算模型，是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。利用选择、交叉、变异等操作对子代进行操作，优点是问题求解与初始条件无关，搜索最优解的能力极强，可以对各种数据挖掘技术进行优化。,2020/12/19,27,预测预测是构造和使用模型评估无标号样本类，或评估给定样本可能具有的属性值或区间值。预测的目的是从历史数据中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。例如，金融系统可以根据顾客信誉卡消费量预测他未来的刷卡消费量或用于信誉证实。推销人员希望在开

展开阅读全文