数据仓库与数据挖掘课件1(8)

上传人:今*** 文档编号:107049954 上传时间:2019-10-17 格式:PPT 页数:45 大小:324.50KB
返回 下载 相关 举报
数据仓库与数据挖掘课件1(8)_第1页
第1页 / 共45页
数据仓库与数据挖掘课件1(8)_第2页
第2页 / 共45页
数据仓库与数据挖掘课件1(8)_第3页
第3页 / 共45页
数据仓库与数据挖掘课件1(8)_第4页
第4页 / 共45页
数据仓库与数据挖掘课件1(8)_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《数据仓库与数据挖掘课件1(8)》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘课件1(8)(45页珍藏版)》请在金锄头文库上搜索。

1、第6章 数据挖掘原理,6.1 数据挖掘综述 6.2 数据挖掘方法和技术 6.3 数据挖掘的知识表示,6.1 数据挖掘综述,6.1.1 数据挖掘与知识发现 6.1.2 数据挖掘对象 6.1.3 数据挖掘任务 6.1.4 数据挖掘分类 6.1.5 不完全数据处理 6.1.6 数据库的数据浓缩,6.1.1 数据挖掘与知识发现,知识发现(KDD):从数据中发现有用知识的整个过程。 数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算 法从数据中抽取模式(patterns)。 KDD过程定义: 从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。 “模式”可以看成是“知识”的

2、雏形,经过验证、完善后形成知识。,KDD过程,1数据准备,目标数据(Target Data),是根据用户的需要从原始数据库中选取的一组数据. 数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录等。 数据转换的主要目的是完成数据类型转换。 尽量消减数据维数或降维,以减少数据挖掘时要考虑的属性个数。,2数据挖掘,首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则发现或序列模式发现等。 确定了挖掘任务后,就要决定使用什么样的挖掘算法。 实施数据挖掘算法,获取有用的模式。,3结果的评估,获取的模式经过评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求。 把结果转换

3、为用户易懂的另一种表示,如把分类决策树转换为“if .then”规则。,6.1.2 数据挖掘对象,1关系数据库 2文本 3图象与视频数据 4Web数据,1关系数据库,数据库的特点有: (1)数据动态性 (2)数据不完全性 (3)数据噪声 (4)数据冗余性 (5)数据稀疏性 (6)海量数据,2文本,(1)关键词或特征提取 (2)相似检索 (3)文本聚类 (4)文本分类,3图象与视频数据,(1)图像与视频特征提取 (2)基于内容的相似检索 (3)视频镜头的编辑与组织,4Web数据,(1)异构数据集成和挖掘 (2)半结构化数据模型抽取,6.1.3 数据挖掘任务,1关联分析 2时序模式 3聚类 4分类

4、 5偏差检测 6预测,1关联分析,若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。 例如,买面包的顾客有90%的人还买牛奶,这是一条关联规则。 一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。,2时序模式,通过时间序列搜索出重复发生概率较高的模式。 例如,在所有购买了激光打印机的人中,半年后80%的人再购买新硒鼓,20%的人用旧硒鼓装碳粉。 时序模式中,一个有重要影响的方法是“相似时序”。要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。,3聚类,聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成

5、不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。 好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。数据库中的数据可以划分为一系列有意义的子集,即类。 在没有类的数据中,按“距离”概念聚集成若干类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。 聚类方法包括统计分析方法,机器学习方法,神经网络方法等。,4分类,分类是数据挖掘中的一个重要课题。 分类的目的是获得一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到某一个给定类别。 分类是在聚类的基础上,对已确定的类

6、找出该类别的概念描述,它代表了这类数据的整体信息。 一个类的内涵描述分为:特征描述和辨别性描述。 特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间的区别的描述。,5偏差检测,从数据分析中发现这些异常情况。 偏差检测的基本方法是寻找观察结果与参照之间的差别。,6预测,预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征等。 典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的预测值。,6.1.4 数据挖掘分类,1按数据库类型分类 2按数据挖掘对象分类 3按数据挖掘

7、任务分类 4按数据挖掘方法和技术分类,6.1.5 不完全数据处理,现实世界的数据库中的数据很少是完全的:丢失的数据、观察不到的数据,隐藏的数据、录入过程中发生错误的数据等在现实中是经常发生的。 在知识发现领域中对不完全数据的研究比较多的在于丢失的数据。 例如,在对个人调查时,被调查的对象可能会拒绝提供他的收入情况,在一项实验过程中,某些结果可能会因为某些故障而丢失,这些情况都会产生数据丢失。,6.1.6 数据库的数据浓缩,1、属性约简 2、元组(记录)压缩,1、属性约简,属性约简一般用于分类问题。属性约简的原则是保持数据库中分类关系不变。目前,属性约简一般采用粗糙集(Rough Set)方法.

8、 例如,有如下汽车数据库(CTR),有9个条件属性,1个决策属性(里程) ,见表6.1 如示。,经过分析,可以得到: 核心属性=燃料,重量, 可省属性=类型、涡轮式、汽缸、排气量、压缩率、功率、换档 保持数据库(S)分类关系不变的7个属性约简: (1)类型,燃料,排气量,重量 4个属性 (2)燃料,排气量,压缩率,重量4个属性 (3)类型,汽缸,燃料,压缩率,重量5个属性 (4)类型,燃料,压缩率,功率,重量5个属性 ,表6.2 约简后的数据库,利用最小属性约简(2),经过进一步处理, 可以得到原数据库的等价数据库 。,2、元组(记录)压缩,元组(记录)压缩实质上是对数据库的元组(记录)进行合

9、并、归并和聚类等。 (1)相同元组(记录)的合并 (2)利用概念树进行归并 (3)对元组的聚类,62 数据挖掘方法和技术,621 归纳学习的信息论方法 622 归纳学习的集合论方法 623 仿生物技术的神经网络方法 624 仿生物技术的遗传算法 625 数值数据的公式发现 626 可视化技术,6.2.1归纳学习的信息论方法,利用信息论的原理建立决策树或者是决策规则树。 (1)ID3方法(决策树方法) Quiulan研制的ID3方法是利用信息论中互信息建立决策树。 (2)IBLE方法(决策规则树方法) 我们研制的IBLE方法,是利用信息论中信道容量,寻找数据 库中信息量大的多个字段的取值建立决策

10、规则树。,6.2.2 归纳学习的集合论方法,(1)粗糙集(Rough Set)方法 对数据库中的条件属性集与决策属性集建立上下近似关系, 对下近似集合建立确定性规则,对上近似集合建立不确定性 规则(含可信度) 。 (2) 关联规则挖掘 关联规则挖掘是在交易事务数据库中,挖掘出不同项(商 品)集的关联关系,即发现哪些商品频繁地被顾客同时购买。 (3)覆盖正例排斥反例方法 它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。 比较典型的有AQ11方法,AQ15方法以及AE5方法。 (4)概念树方法 对数据库中属性字段建立具有层次结构的概念树, 利用概念树提升的方法可以大大浓缩数据库中的记录。,6.

11、2.3 仿生物技术的神经网络方法,1. 前馈式网络 它以感知机、BP反向传播模型、函数型网络为代表。此类网络可用于预测、模式识别等方面。 2. 反馈式网络 它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。 3. 自组织网络 它以ART模型、Kohonen模型为代表。它们用于聚类。,6.2.4 仿生物技术的遗传算法,(1)繁殖(选择) 从一个旧种群(父代)选择出生命力强的个体产生新种群(后代)的过程。 (2)交叉(重组) 选择两个不同个体(染色体)的部分(基因)进行交换,形成两个新个体。 (3)变异(突变) 对某些个体的某些基因进行变异(1变0,0变1),形成新个体。

12、,在工程和科学数据库中对若干数据项(变量) 进行一定的数 学运算,求得相应的数学公式。 1物理定律发现系统BACON BACON发现系统完成了物理学中大量定律的重新发现。 2经验公式发现系统FDD 我们研制了FDD发现系统,寻找由数据项的初等函数或复合 函数组合成的经验公式。,6.2.5 数值数据的公式发现,6.2.6 可视化技术,可视化技术是一种图形显示技术。例如,把数据库中多维数据变成多种图形,这对于揭示数据中内在本质以及分布规律起到很强的作用。对数据挖掘过程可视化,并进行人机交互可提高数据挖掘的效果。 可视化数据挖掘是创建可视化的数据挖掘模型,利用这些模型发现业务数据集中存在的模式,从而

13、辅助决策支持及预测新的商机。,63 数据挖掘的知识表示,631 规则知识 632 决策树知识 633 知识基(浓缩数据) 634 神经网络权值 635 公式知识 636 案例,631 规则知识,规则知识由前提条件和结论两部分组成 前提条件由字段项(属性)的取值的合取(与) 和析取(或)组合而成。 结论为决策字段项(属性)的取值或者类别组成。,例如:上例的人群数据库,按ID3方法得到的决策树如下:,632 决策树知识,例如上例的人群数据库,通过属性约简计算可以得出身高是不重要的字段,删除它后,再合并相同数据元组,得到浓缩数据如下表:,633 知识基(浓缩数据),634 神经网络权值,神经网络方法经过对训练样本的学习后,所得到的知识是网络连接权值和结点的阈值。一般表示为矩阵和向量。 例如,异或问题的网络权值和阈值分别如图6.4所示。,例如,太阳系行星运动数据中包含行星运动周期(旋转一周所需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的长半轴,百万公里),数据如下表:,发现的公式为:d3/p2=25,635 公式知识,习题,1、4、5、12、16、 18、21、23、26,结 束,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号