数据仓库与数据挖掘原理与应用8数据挖掘介绍

资源描述

《数据仓库与数据挖掘原理与应用8数据挖掘介绍》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘原理与应用8数据挖掘介绍（97页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘介绍数据挖掘基本概念数据挖掘基本概念近年来数据挖掘引起了人们的极大关注，其主要原因是：存在大量的数据，可存在大量的数据，可以广泛使用，并且迫切需要将这些数据转以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理、识可以广泛用于各种应用，包括商务管理、生产控制、市场分析、工程设计和科学探生产控制、市场分析、工程设计和科学探索等。索等。数据挖掘基本概念（续）数据挖掘基本概念（续）数据挖掘是信息技术自然演化的结果。数据收集和数据收集和DBDB创建创建机制的早期开发已成为稍后数据管理数据管理有效机制

2、开发的必备基础，随着提供查询和事务处理的大量DBSDBS广泛付诸实践，数据分析和理解数据分析和理解自然成为下一个目标。数据挖掘基本概念（续）数据挖掘基本概念（续）这必将带来对强有力的数据分析工具的需求。实际上，面对快速增长的海量数据，没有强有力的工具，理解它们已远远超出了人们的能力。回顾数据管理技术：nDBDB技术技术：能有效地存储数据和查询数据，但不能有效地分析数据。数据挖掘基本概念（续）数据挖掘基本概念（续）nDWDW与与OLAPOLAP技术：技术：具有汇总、合并和聚集功能，以及从不同的角度观察数据的能力。但只是客观、忠实地表现出用户想查询的众多因素分析汇总得出的报表，而报表的翻译将

3、由用户判断。即缺乏对数据的深层次分析。数据挖掘基本概念（续）数据挖掘基本概念（续）nDMDM技术：技术：特别强调挖掘隐藏在大型数据集中有趣的数据模式模式（知识、规律），用于决策过程控制、信息管理、查询处理等。不但分析数据，而且帮助用户得知原因，并预测未来。n模式：它给出了数据特性或数据之间的关模式：它给出了数据特性或数据之间的关系，是对数据所包含的信息更抽象的描述。系，是对数据所包含的信息更抽象的描述。n模式按功能可以分为预测型模式和描述型模式按功能可以分为预测型模式和描述型模式。模式。n在实际应用中，可以细分为关联模式、分在实际应用中，可以细分为关联模式、分类模式、聚类模式和序列模式等。类模

4、式、聚类模式和序列模式等。n数据库应用的规模和深度数据库应用的规模和深度点点线线面面互联网互联网在线分析处理在线分析处理(OLAP) 在线事务处理在线事务处理决策支持决策支持(DS) (OLTP) 数据挖掘数据挖掘(Data Mining)数据挖掘基本概念（续）数据挖掘基本概念（续）因此，数据挖掘被普遍认为是非常有效的数据分析工具，是信息产业最重要的前沿之一，是最有前途的交叉学科。数据挖掘基本概念（续）数据挖掘基本概念（续）数据挖掘涉及多学科技术的集成：DBDB技术，统计学，机器学习，高性能计算，模式识别，神经网络，数据可视化，信息检索，图象与信号处理和空间数据分析。数据挖掘基本

5、概念（续）数据挖掘基本概念（续）n广义观点：广义观点：数据挖掘是从存放在DBDB，DWDW或其他信息库中的大量数据中挖掘有趣知识的过程。n“从数据中发现有用模式从数据中发现有用模式”历来有很多称法，如历来有很多称法，如:数据挖掘数据挖掘（data mining）知识提取知识提取(knowledge extraction)信息发现信息发现(information discovery)信息收获信息收获(information harvesting)数据考古数据考古(data archaeology)数据模式处理数据模式处理(data pattern processing)n“数据挖掘数据挖掘”的

6、称法大部分是由统计学家，数据分的称法大部分是由统计学家，数据分析学家和析学家和MIS团体使用的，在数据库领域也得到团体使用的，在数据库领域也得到了广泛接受。了广泛接受。数据挖掘的发展数据挖掘的发展n7080年代：知识发现与数据挖掘结合年代：知识发现与数据挖掘结合n1989年年6月：在美国底特律举行了第一届月：在美国底特律举行了第一届“从数从数据库中据库中知识发现知识发现”的国际学术会议，在这次会议的国际学术会议，在这次会议中第一次使用了中第一次使用了KDD 这个词来强调这个词来强调“知识知识”是是数据驱动数据驱动(data-driven)发现的最终结果。发现的最终结果。 n1995：加拿大召开

7、第一届知识发现与数据挖掘：加拿大召开第一届知识发现与数据挖掘国际学术会议国际学术会议历届有关历届有关KDD的学术会议的学术会议时间时间会议名称会议名称会议地点会议地点接受论文数接受论文数提交提交论文数论文数Jun.1989Workshop on KDDDetroit,Michigan,USA29296969Jul.1991Workshop on KDDAnaheim,California,USA25254646Jul.1993Workshop on KDDWashington,USA2828404019951995KDD95Montreal,Canada4040135135Aug.199

8、6KDD96Portland,Oregon,USA4545220220Feb.1997PAKDD97Singapore35359797Aug.1997KDD97California,USAApr.1998PAKDD98Melbourne,AustraliaAug.1998KDD98New York,USA数据挖掘的发展数据挖掘的发展n数据挖掘技术的应用开发在国外已经迅速发展，许数据挖掘技术的应用开发在国外已经迅速发展，许多大公司（如多大公司（如Informix, Oracle, IBM等）都投入了等）都投入了巨资对其进行研究，并开发出了一些产品和原型，巨资对其进行研究，并开发出了一些产品和原型

9、，如如DBMiner、Quest、EXPLORA等。等。n第一本关于数据挖掘的国际学术杂志第一本关于数据挖掘的国际学术杂志Data Mining and Knowledge Discovery于于1997年年3月创刊。月创刊。n国内在这方面的研究起步比较晚，早期研究的方向国内在这方面的研究起步比较晚，早期研究的方向多集中于关联规则的挖掘，近来关于时序模式、分多集中于关联规则的挖掘，近来关于时序模式、分类、聚类、类、聚类、WEB数据挖掘等的研究也日益受到重视，数据挖掘等的研究也日益受到重视，并取得了不少可喜的成果，一些原型系统或数据挖并取得了不少可喜的成果，一些原型系统或数据挖掘工具已经研制成功

10、并在不断完善中。掘工具已经研制成功并在不断完善中。DM系统的体系结构系统的体系结构（1）DW 的步骤：的步骤：l数据准备：数据准备：n数据集成数据集成n数据选择数据选择n预分析预分析l挖掘挖掘l表述表述l评价评价（2）DW 系统的结构：系统的结构：用户界面用户界面结果输出结果输出数据挖掘核心数据挖掘核心知识库知识库数据仓库数据仓库数据库数据库文件系统文件系统其他其他数据源数据源ODBC或其他专用数据库接口或其他专用数据库接口数据挖掘系统的结构数据挖掘系统的结构n数据挖掘系统可以采用三层的数据挖掘系统可以采用三层的C/S结构：结构：第一层：为图形用户界面，位于系统的客户端；第一层：为图形用户界

11、面，位于系统的客户端；第二层：为数据挖掘引擎，它是数据挖掘系统的核第二层：为数据挖掘引擎，它是数据挖掘系统的核心，位于系统的应用服务器端；心，位于系统的应用服务器端；第三层：为数据库与数据仓库，位于数据服务器端。第三层：为数据库与数据仓库，位于数据服务器端。数据挖掘系统的结构数据挖掘系统的结构图形用户界面图形用户界面n该模块实现用户与数据挖掘系统之间的该模块实现用户与数据挖掘系统之间的通信，允许用户与系统交互。用户可以通信，允许用户与系统交互。用户可以通过图形化界面指定数据挖掘任务、输通过图形化界面指定数据挖掘任务、输入有关信息，根据系统以可视化形式输入有关信息，根据系统以可视化形式输出的数据

12、挖掘的中间结果进行探索式的出的数据挖掘的中间结果进行探索式的数据挖掘。此外，该模块还提供用户浏数据挖掘。此外，该模块还提供用户浏览数据库和数据仓库模式或数据结构、览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。评价数据挖掘的模式等功能。数据挖掘系统的结构数据挖掘系统的结构数据挖掘引擎数据挖掘引擎n数据挖掘引擎是数据挖掘系统最基本、数据挖掘引擎是数据挖掘系统最基本、最重要的部分，是数据挖掘系统的核心。最重要的部分，是数据挖掘系统的核心。该部分由一系列功能模块组成，分别用该部分由一系列功能模块组成，分别用于关联规则挖掘、分类规则挖掘、聚类于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时

13、序与序列数据挖掘和规则挖掘、时序与序列数据挖掘和WEB数据挖掘等。数据挖掘等。数据挖掘系统的结构数据挖掘系统的结构数据库与数据仓库数据库与数据仓库n该部分位于数据服务器端，包括数据库、该部分位于数据服务器端，包括数据库、知识库、文件系统、其他数据源以及存放知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识，用于搜索库。在知识库中存放领域知识，用于搜索和对模式进行评价。和对模式进行评价。n数据库与数据仓库服务器的功能是根据用数据库与数据仓库服务器的功能是根据用户的数据挖掘请求，提取相应的数据供数户的数据挖掘请求，

14、提取相应的数据供数据挖掘引擎使用。据挖掘引擎使用。数据挖掘概述nKDD定义研究选择目标数据数据模式应用问题域数据集预处理挖掘解释与评价KDD步骤l数据准备阶段：经过处理过的数据一般存储数据准备阶段：经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式响到数据挖掘的效率和准确度以及最终模式的有效性。包括：的有效性。包括：n数据的选择：选择相关的数据数据的选择：选择相关的数据n数据的净化：消除噪音、冗余数据数据的净化：消除噪音、冗余数据n数据的推测：推算缺失数据数据的推测：推算缺失数据n数据的转

15、化：离散值数据与连续值数据之间的相数据的转化：离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算互转换、数据值的分组分类、数据项之间的计算组合等组合等n数据的缩减：减少数据量数据的缩减：减少数据量数据挖掘的过程数据挖掘的过程数据挖掘的过程数据挖掘的过程n挖掘阶段：该阶段是数据挖掘的核心步挖掘阶段：该阶段是数据挖掘的核心步骤，也是技术难点所在。根据数据挖掘骤，也是技术难点所在。根据数据挖掘的目标，采用人工智能、集合论、统计的目标，采用人工智能、集合论、统计学等方法，应用相应的数据挖掘算法，学等方法，应用相应的数据挖掘算法，分析数据并通过可视化工具表述所获得分析数据并通过可视

16、化工具表述所获得的模式或规则。的模式或规则。数据挖掘的过程数据挖掘的过程n评价阶段：在数据挖掘中得到的模式可能是评价阶段：在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的，也有可能没有实际意义或没有使用价值的，也有可能不能准确反映数据的真实意义，甚至在某些不能准确反映数据的真实意义，甚至在某些情况下是与事实相反的，因此需要评估，确情况下是与事实相反的，因此需要评估，确定哪些是有效的、有用的模式。评估可以根定哪些是有效的、有用的模式。评估可以根据用户多年的经验，有些模式也可以直接用据用户多年的经验，有些模式也可以直接用数据来检验其准确性。数据来检验其准确性。数据挖掘的过程数据挖掘的过程n

17、巩固和运用阶段：用户理解的、并被认为是符巩固和运用阶段：用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查，解决与以前得到的知对知识进行一致性检查，解决与以前得到的知识互相冲突、矛盾的地方，使知识得到巩固。识互相冲突、矛盾的地方，使知识得到巩固。运用知识有两种方法：一种是只需看知识本身运用知识有两种方法：一种是只需看知识本身所描述的关系或结果，就可以对决策提供支持；所描述的关系或结果，就可以对决策提供支持；另一种是要求运用知识对新的数据进行分析，另一种是要求运用知识对新的数据进行分析，由此可能产生新的问题，而需要对知识作

18、进一由此可能产生新的问题，而需要对知识作进一步的优化。步的优化。数据挖掘的数据源数据挖掘的数据源1.1.关系数据库关系数据库2.2.数据仓库数据仓库3.3.事务数据库事务数据库数据挖掘的数据源（续）数据挖掘的数据源（续）n 空间数据库n 时间数据库和时间序列数据库n 文本数据库和多媒体数据库n 异种数据库和遗产数据库n WWWWWW数据挖掘的功能数据挖掘的功能数据挖掘任务分两类：n描述式数据挖掘：描述式数据挖掘：刻划DBDB中数据的一般特性。n预测式数据挖掘：预测式数据挖掘：在当前数据上进行推断，以进行预测。数据挖掘的功能（续）数据挖掘的功能（续）数据挖掘系统应具备：n能够挖掘多种类型的模式能

19、够挖掘多种类型的模式n能够发现各种粒度的模式能够发现各种粒度的模式n允许用户给出指示，指导或聚焦有趣模式允许用户给出指示，指导或聚焦有趣模式的搜索。的搜索。1. 总结规则挖掘它所要做的是从指定的大量数据中挖掘出（从不同的角度或在不同的层次上）平均值/ /极小值/ /极大值、总和、百分比等。挖掘结果运用交叉表、特征规则和统计的曲线图表等表示。2. 关联规则挖掘通过关联分析发现关联规则。即给定一组项和一个记录集合，通过分析记录集合，推导出项之间的相关性。2. 关联规则挖掘（续）典型的例子：购物篮分析，该过程通过发现顾客放入其购物篮中不同商品之间的联系，分析顾客的购买习惯，通过了解哪些商品频繁

20、地被顾客同时购买，用于制定营销政策。3. 分类规则挖掘在已知训练数据的特征和分类结果的基础上，为每一种类别找到一个合理的描述或模型，然后再用这些分类的描述或模型来对未知的新数据进行分类。4. 群集规则挖掘又称为无监督式的分类，其目的在于实事求是地、即客观地按被处理对象的特征分类，有相同特征的对象被归为一类。它与分类规则挖掘的区别在于：分类面向训练数据，而群集则直接对数据进行处理。4. 群集规则挖掘（续）在群集化作业中，我们并不需要事先定义好该如何分类，同时也不需要训练组的数据，数据是依靠本身的相似性而群集在一起，而群集的意义也是要靠事后的解释才能得知。5. 预测分析当分类工作偏向于插入

21、漏掉的数据、预测数据分类或发展的趋势时，就是预测分析。所有用来进行分类及估计的技术都可以经修正之后，通过已知变量数值的训练组数据来得到。5. 预测分析（续）其中历史数据就是很好的数据来源。历史数据可以用来建立模型，以检查近年来观察值的变化。若运用最新数据作为输入值，可以获得未来变化的预测值。5. 预测分析（续）像“购物篮”分析，就可以预测在超市中哪些商品总是会被同时购买。而经过修正后，也可以通过最新的更新数据来预测未来的购买行为。6. 趋势分析又称时间序列分析。描述行为随时间变化的对象的规律或趋势，并对其建模。7. 偏差分析又称比较分析，它找出一系列判别式的规则，以区别客户设置的两个

22、不同类别。8. 孤立点分析 DBDB中有些数据，它们与大多数数据的一般行为或模型不一致，称其为孤立点，大部分挖掘方法将孤立点视为噪声或异常而丢弃。而在一些应用中，罕见事件可能比正常出现的更有意义。数据挖掘分类n数据挖掘有几种分类方法n1、根据挖掘的数据源类型分类n2、根据采用的挖掘技术分类n3、根据发现的知识类型分类描述性挖掘n1、特征与比较描述n2、关联规则挖掘n3、聚类分析预测性挖掘n1、数据分类n2、数值预测数据挖掘方法数据挖掘方法数据挖掘的主要方法及其重点如下：1.1.统计分析方法统计分析方法统计分析方法主要用于完成知识总结和关系型知识挖掘。对关系表中各属性进行统计分析，找到它们之间存

23、在的关系。1. 统计分析方法（续）在关系表的属性间一般存在两种关系：n 函数关系函数关系n 相关关系相关关系但确定性关系和相关关系之间并没有一道不可逾越的鸿沟。1. 统计分析方法（续）由于有测量误差等原因，确定性关系实际上往往通过相关关系呈现出来；当事物内部规律被得到了解时，相关关系又可能转化为确定性关系。对它们可采用回归分析，相关分析，主成分分析等方法。2. 决策树决策树可用于分类，利用信息论中的信息增益寻找DBDB中具有最大信息量的字节，建立决策树的一个结点，再根据字段的不同取值建立树的分支。在每个分支子集中重复建立下层结点和分支，便生成一棵决策树。2. 决策树（续）然后还要对决

24、策树进行剪枝处理，最后将决策树转化为规则。运用这些规则，可以对新事例进行分类。典型的决策树方法有：分类回归树，ID3ID3、C4.5C4.5、卡方自动归纳法、卡方自动互动侦测器等。2. 决策树（续）决策树可应用在监督式数据挖掘上，尤其是数据分类。它们能够将训练模块的记录区分为独立的子群，而其中子群都有自己的规律。3. 人工神经网络人工神经网络用于分类、群集、特征挖掘、预测和模式识别。人工神经网络仿真生物神经网络，本质上是一个分散型或矩阵结构，它通过对训练数据的挖掘，逐步计算网络连接的加权值。人工神经网络可分为下列三种：3. 人工神经网络（续）n前馈式前馈式网络网络它以感应机、逆向传播模

25、型、函数型网络为代表，可用于预测及模式识别等方面。3. 人工神经网络（续）n反馈式网络反馈式网络它以Hopfield的离散模型和连续模型为代表，分别用于联想记忆和最优化计算。n自组织型网络自组织型网络它以ART模型、Koholon模型为代表，用于群集。 3. 人工神经网络（续）人工神经网络具有分散型或储存信息、平行处理信息和进行推理、自我组织和自我学习等特点，解决了众多以往方法很难解决的问题。3. 人工神经网络（续）它在多数应用中可以从训练数据组中学习，并产生归类和预测的模型。它也可以通过自我组织图和相关结构，应用于非监督或数据挖掘和时间原则分析，其新的应用及结构正在快速增加中。4. 基因

26、算法基因算法用于分类、关系型规则挖掘等。基因算法模仿人工选择培育良种的思路，从一个初始规则集合开始，逐代地通过交换对象成员产生群体，评估并择优复制，优胜劣败，逐代积累计算，最终得到最优化的知识集。5. 粗糙集粗糙集用于数据简化、数据意义评估、对象相似性或共性分析、因果关系及范式挖掘等。粗糙集理论由Z. Pawlak在20世纪80年代提出，用于处理不确定性。其主要思路如下：5. 粗糙集（续）把对象的属性分为条件属性和决策属性，按各个属性值相同划分成等价类。条件属性上的等价类E E与决策属性上的等价类Y Y之间有三种情况:(1)下近似Y Y包含E E；5. 粗糙集（续）(2)上近似Y和E的交

27、集并非空集合；(3)无关Y和E的交集为空集合。对下近似建立确定性规则，对上近似建立不确定性规则（含可信度），而无关情况下不存在规则。6. 联机分析处理技术用具体图形将信息模式、数据的关联或趋势呈现给决策者，使客户能交互式地分析数据的关系，而OLAP技术将人的观察力和智力融入挖掘系统中，极大地改善了系统挖掘的速度和深度。6. 联机分析处理技术（续） “联机分析处理系统”是以多维数据库为基础。多维数据库是数据的典型代表，使得用户能深入数据内涵，了解重要的结论，它对数据转化成信息或知识非常有帮助。数据挖掘系统n数据挖掘系统的结构图形用户界面模式解释与评价数据挖掘引擎数据源服务器数据源知识库数据挖

28、掘系统的设计n1、数据挖掘系统怎样与数据源集成n2、数据挖掘系统怎样指定目标数据集n3、数据挖掘系统怎样指定数据挖掘任务n4、数据挖掘系统怎样解释与评价模式n5、数据挖掘系统怎样利用领域知识n6、数据挖掘系统怎样提交知识数据挖掘系统的发展代代集成集成算法算法数据模型数据模型数据处理数据处理计算模型计算模型代表代表第一代独立系统支持一个或几个算法支持向量数据支持能够一次调入内存的数据单机CART第二代集成数据管理系统，包括数据库与数据仓库支持多个算法支持文本、媒体、对象数据支持不能一次调入内存的大量、复杂数据同质、局部计算机群DBMiner第三代集成语言模型系统支持多个算法支持半结构化、Web数

29、据支持分布、异质的数据Intranet/ExtranetClementine第四代集成移动等各种信息系统支持多个算法支持普遍存在的数据模型支持移动等各种类型数据移动等各种计算设备数据挖掘的应用数据挖掘的应用1.1.企业界的数据挖掘企业界的数据挖掘n 直效行销n 顾客关系管理n 交叉销售n 信用评估n 财务预测2. 针对金融数据分析的数据挖掘n 为多维数据分析和数据挖掘设计和构造DWn 贷款偿还预测和客户信用政策分析（特征选择和属性相关性计算） 2. 针对金融数据分析的数据挖掘(续)n对目标市场客户的分类与聚类n 洗黑钱和其他金融犯罪的侦破（可视化工具,链接分析工具,分类工具,聚类分析,孤立点分

30、析,序列模式分析）3. 零售业中的数据挖掘n基于数据挖掘的DWDW的设计与构造n销售、顾客、产品、时间和地区的多维分析n促销活动的有效性分析（多维分析，关联分析）3. 零售业中的数据挖掘(续)n顾客保持力顾客忠诚分析（序列模式分析）n购买推荐和商品参照（关联分析）4. 电信业中的数据挖掘n电信数据的多维分析n盗用模式分析和异常模式识别(多维分析，聚类分析，孤立点分析）n多维关联和序列模式分析n电信数据分析中可视化工具的使用数据预处理n数据清理消除不完整n使用全局常量填充n使用属性平均值填充n使用相同类的属性平均值填充n使用最可能的值填充消除噪声n通过平滑数据消除噪声n通过识别孤立点消除噪声消除

31、不一致n通过元数据消除不一致n数据集成在数据集成时，有许多问题需要考虑冗余：一个属性是冗余的，如果它能由另外的属性导出，如年薪。n有些冗余可以被相关分析检测到重复冲突检测和处理n数据变换最小-最大规格化零-均值规格化小数定标规格化数据规约n属性规约数据规约n记录规约给定关系表、各个属性的概念层次树及属性阈值步骤n根据属性A的概念层次树，将关系表中A的属性值转换为最底层的相应概念n统计关系表中A的不同叶概念个数，如果A的不同叶概念个数大于A的属性阈值，再根据A的概念层次树，将关系表中A的叶概念转换为上一层的相应概念n如此重复，直至关系表中A的不同概念个数小于等于A的属性阈值n最后合并相同记录，并

32、统计重复记录书目。地名气温玉溪18通海18五华17安宁16曲靖15宣威14云南省玉溪地区曲靖地区昆明市玉溪市通海县五华区安宁市宣威市曲靖市-4040-400040-40-20-2002040020地名气温count玉溪地区10-202昆明市10-202曲靖地区10-202属性概念分层的自动生成n离散属性概念分层的自动生成概念层次树中高层的概念个数一般少于低层的概念个数n统计属性不同值的个数n得到概念层次树结构，也称模式定义的概念分层n得到属性的概念层次树例如：“地址”属性n连续属性概念分层的自动生成例如：“气温”属性，取值区间是【-100，100】，在区间上的属性值及记录数，如何生成属性的概念

33、层次树基于熵的离散化技术属性值-36182226记录数69362821n信息理论（信息理论（Information Theory）和熵（）和熵（Entropy）1948年，香农（年，香农（C. E. Shannon）提出了信息论。）提出了信息论。信息论的发展是以信息可以度量为基础的，度量信息信息论的发展是以信息可以度量为基础的，度量信息的量称为信息量。的量称为信息量。给出了关于信息量（给出了关于信息量（Information）和熵（）和熵（Entropy）的定义，熵实际上是系统信息量的加权平均，也就是的定义，熵实际上是系统信息量的加权平均，也就是系统的平均信息量。系统的平均信息量。掷骰子可表示

34、为：而某一天简单的天气气象则可表示为：根据香农信息的概念，消息中所包含的不确定性的成分才是信息，不确定性的成分越大，或者说出现的概率越小，信息量就越大如果将信源输出xi 所包含的信息量用I(xi)来表示，则其必须满足的条件是： I(xi)与输出xi的概率相关； I(xi)是P(xi)的减函数，且当P(xi) =1时I(xi) =0 。 I(xi)是P(xi)的连续函数；因此，xi 的信息量的定义为：当对数底为2时，自信息量的单位为比特(bit,binary unit)；对数底为e时，其单位为奈特(nat,nature unit)；对数底为10时，其单位为哈特(Hart, Hartley)。目前

35、的通信系统或其他信息传输系统大多以二进制为基础，因此信息量的单位以bit最为常用。以bit为单位的信息量可记为：信息量的性质I(xi)是非负值；I(xi)是随机量；I(xi)是P(xi)的单调递减函数。例1，求掷骰子这一信源发出各种消息所包含的信息量。解：该信源的数学模型为解：该信源的数学模型为：例2，求某一天简单的天气气象这一信源发出各种消息所包含的信息量。在布袋中放入81枚硬币,它们外形完全相同.已知有一枚硬币的重量与其他80枚重量不同.问随意取出的一枚恰好是重量不同的一枚硬币,并进一步确定它比其他硬币重还是轻所需要的信息量是多少?n信息理论（信息理论（Information Theor

36、y）和熵（）和熵（Entropy）考虑一个任意的变量，它有两个不同的值考虑一个任意的变量，它有两个不同的值A和和B。假设。假设已知这个变量不同值的概率分配，将估测该概率分配已知这个变量不同值的概率分配，将估测该概率分配的不纯度。的不纯度。情况情况1 .如果如果P（A）= 1 和和P（B）= 0，那么知道这个，那么知道这个变量的值一定为变量的值一定为A，不存在不纯度，因此已知变量结果，不存在不纯度，因此已知变量结果值不会带来任何的信息。值不会带来任何的信息。情况情况2 .如果如果P（A）= P（B）= 0.5，那么它的不纯度，那么它的不纯度明显地高于明显地高于P（A）= 0.1和和P（B） =

37、0.9的情况。在这的情况。在这种情况下，已知变量的结果值就会携带信息。种情况下，已知变量的结果值就会携带信息。不纯度的最佳评估方法是平均信息量，也就是信不纯度的最佳评估方法是平均信息量，也就是信息熵（息熵（Entropy）：）： nS = - (pi * log(Pi)在上面的例子中，情况在上面的例子中，情况1和情况和情况2的信息熵分别是：的信息熵分别是：S1 = - ( 1 * log 1 + 0 * log 0) = 0S2 = - ( 0.5 * log 0.5 + 0.5 * log 0.5) = 0.301 n信息增益（信息增益（information gain）n信息增益是指信息熵

38、的有效减少量（通常用信息增益是指信息熵的有效减少量（通常用字节字节衡量），根据它能够确定在什么样的层次上选择什衡量），根据它能够确定在什么样的层次上选择什么样的变量来分类。么样的变量来分类。n信信息息增增益益被被定定义义为为原原始始分分割割的的熵熵与与划划分分以以后后各各分分割割的熵累加得到的总熵之间的差。的熵累加得到的总熵之间的差。n信信息息增增益益是是指指划划分分前前后后进进行行正正确确预预测测所所需需的的信信息息量量之差。之差。n选选择择具具有有最最高高信信息息增增益益的的属属性性作作为为当当前前节节点点的的测测试试属性。属性。n一个给定的样本分类所需要的期望信息为一个给定的样本分类所需

39、要的期望信息为n由由A划分成子集后的熵或期望信息是划分成子集后的熵或期望信息是为为第第j个个子子集集的的权权，等等于于子子集集（A值值为为aj）中中的的样样本本数数除除以以S中中的的样样本本数数。对对于于给给定定的的子子集集Sj， I(s1j,s2j,smj)可用下式计算是Sj中的样本属于类Ci的概率由A划分的信息增益是Gain(A)=I(s1,s2,sm)-E(A) n实例首先，划分区间-100,100E(-100,100)=- (6/100* log6/100 + +21/100 * log21/100) =2.0378E(-100,100,-3)=0/100*E(-100,-3)+

40、100/100*E(-3,100) =2.0378E(-100,100,6)=6/100*E(-100,6)+94/100*E(6,100) =1.7465E(-100,100,18)=15/100*E(-100,18)+85/100*E(18,100) =1.464E(-100,100,22)=51/100*E(-100,22)+49/100*E(22,100) =1.0741E(-100,100,26)=79/100*E(-100,26)+21/100*E(26,100) =1.3323G-100,100,-3)=2.0378-2.0378=0G-100,100,6)=2.0378- 1.7465 =0.2913G-100,100,18)=2.0378- 1.464 =0.5738G-100,100,22)=2.0378- 1.0741 =0.9637G-100,100,26)=2.0378- 1.3323 8=0.7055数据挖掘与数据仓库数据挖掘的应用和发展n数据挖掘的应用n数据挖掘的未来研究方向

展开阅读全文

数据仓库与数据挖掘原理与应用8数据挖掘介绍

最新文档