数据挖掘绪论

上传人:jiups****uk12 文档编号:45684537 上传时间:2018-06-18 格式:PPT 页数:34 大小:3.36MB
返回 下载 相关 举报
数据挖掘绪论_第1页
第1页 / 共34页
数据挖掘绪论_第2页
第2页 / 共34页
数据挖掘绪论_第3页
第3页 / 共34页
数据挖掘绪论_第4页
第4页 / 共34页
数据挖掘绪论_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《数据挖掘绪论》由会员分享,可在线阅读,更多相关《数据挖掘绪论(34页珍藏版)》请在金锄头文库上搜索。

1、Data Mining and KDD数据挖掘与知识发现数据挖掘与知识发现冀俊忠冀俊忠北京工业大学北京工业大学 计算机学院计算机学院Data mining and knowledge discovery in databaseData Mining and KDD数据、信息和知识的区别?数据:事实的记录,理性描述,能从数量上 反映现实.(汇总、排序、比例等处理 ) 信息:数据+意义,数据的提炼。是完成从定 量到定性的过程. (既可源于数据,也可源于 信息本身) 知识:解决问题的技能,让从定量到定性的 过程得以实现的、抽象的、逻辑的东西。( 通过信息使用归纳、演绎等方法得到) 联系:数据是信息的

2、符号(载体和表示); 信息是数据的解释(含义);知识是相关信 息关联在一起所形成的信息结构;Data Mining and KDD第一章、绪论 为什么要进行数据挖掘 数据挖掘的定义 数据挖掘的起源 数据挖掘的任务 数据挖掘的挑战 课程内容 Data Mining and KDD1.1 为什么要进行数据挖掘?- From Commercial Viewpoint 大量数据被收集和存储 电子商务 (Web数据) 超市交易数据、银行业务 物联网(传感数据) 云计算 (云存储) 计算机的廉价、强大 企业竞争压力的增大 提供更好的、个性化的定制服务Data Mining and KDDWhy Mine

3、Data? - From Scientific Viewpoint 数据的收集和存储以巨大的速 度进行(GB/小时) 人造卫星上的远程传感器 浓缩的天空扫描图像 数据表达的基因队列 科学模拟产生的TB数据 (1000GB) 传统技术无法对原始数据进行 处理 数据挖掘可以帮助人们: 分类和分段数据 以新的形式表示数据Data Mining and KDDMining Large Data Sets - Motivation 在大量数据的背后往往隐藏着一些有用的信息。 而人工分析师发现一条有用信息需要数周的时间。 因此,大量信息从来没有被分析过,出现“数据丰 富,知识匮乏”现象。Total new

4、 disk (TB) since 1995Number of analystsThe Data GapData Mining and KDD1.2 数据挖掘的定义 什么是数据挖掘? 1)数据挖掘就是从大量数据中提取或挖掘知识. 知识是有用的、隐含在原数据中未知的、用户感 兴趣的信息或模式,具有预测未来结果的能力. 不同于信息查询(DBMS)和信息检索(搜索引 擎),它们主要是依赖传统的统计和数据明显的 特征来创建索引结构. 2)从数据中析取出暗含的、先前未知的、潜在有 用的(非微不足道的)信息. 3)为了发现有意义的模式,以自动化或半自动化 的方式,在大量数据中进行探测和分析.Data Min

5、ing and KDD 4)也称为数据库中的知识发现(Knowledge Discover Database,KDD),是从大量数据中提取出可信、新颖、 有效并能被人理解的模式的高级处理过程。Data Mining and KDD 在医药书目中查所需的医学书籍. 通过Web搜索引擎查询Amazon的信息. 某些疫病在世界哪几个地区较流行. 根据内容把从搜索引擎返回的相似信息进 行归类 传统技术不适合处理:巨大数据、高维数据、异构的分布式Web 或空间数据Data Mining and KDD数据挖掘与其他典型的数据仓库应用,如结 构化查询语言(SQL)和联机分析处理工具 (OLAP),它们之间

6、有什么不同?SQL是一种在数据库上强加一些约束以便获 得答案。而数据挖掘方法用于进行另一种 查询,是一种探测性地获得隐蔽的而不明 显信息的方法。 OLAP为用户提供多个数据视图来对数据仓 库的数据进行分析,可以从任意角度观察 空间数据或对其切片和切块,但不依赖于 数据,也不创造出新的知识,仅提供导出数 据的答案。它对数据挖掘过程很有用,可 作为数据挖掘的一部分,但不能代替数据 挖掘。Data Mining and KDD 从统计学、人工智能、机器学习、模式识别、 数据库系统等学科吸取了许多营养和知识.1.3 数据挖掘的起源Machine Learning/ Pattern Recognitio

7、nStatistics/ AIData MiningDatabase systems大部分问题和相应的解决方 法都起源于传统的数据分析. 起源于多种学科,主要是统 计学和机器学习。 统计学起源于数学,它强调 数值上的精确; 机器学习主要起源于计算机 实践,它侧重于对事物的检 验,确定它表现的好坏.Data Mining and KDD1.4 数据挖掘的两类根本任务: 描述(Description Methods ): 刻画数据库中数据的一般特性。 发现能够描述数据的人们可以理解或解释的 模式。 在数据集上生成新的、非同寻常的信息。 预测( Prediction Methods ): 在当前数据

8、上进行推断,以进行预测。 用一些变量去预测其它变量的未知值或将来 值。 生成已知数据集的系统模型。Data Mining and KDD数据挖掘的基本任务:1.分类 Classification 预测: 2.聚类 Clustering 描述: 3.关联分析 Association Rule Discovery 描述 : 4.序列模式 Sequential Pattern Discovery 描述 : 5.回归 Regression 预测: 6.异常/偏差检测 Deviation Detection 预测:Data Mining and KDD1.4.1 分类: 给定一组记录(训练集合) 每一个

9、记录包含多个属性,其中一个属性为 类属性 发现一个类属性模型,它以其它属性值 为函数 目标:尽可能准确地给新来的没有类标记 的记录指派一个适当的类值 通常,给定的数据库被分为训练集和测试集 两部分,训练集用来学习模型,测试集用来 验证模型。Data Mining and KDDClassification Process (1): Model ConstructionClassification AlgorithmsIF rank = professor OR years 6 THEN tenured = yes Classifier (Model)Training DataData Mini

10、ng and KDDClassification Process (2): Use Model in PredictionClassifier (Model)Test Data(Jeff, Professor, 4)Tenured?Unseen DataIF rank = professor OR years 6 THEN tenured = yes Data Mining and KDD应用1:目标营销 目标:通过提前锁定一组很可能购买新商品的客 户群体,减少邮寄宣传品的费用。 方法: 使用以前介绍过的类似产品的数据; 我们清楚历史数据中哪些用户决定买,哪些用 户不决定买;买或不买形成类属性

11、; 收集大量消费者的各种各样的人口统计学的、 生活方式的以及与公司交互的相关信息。如就 职的企业类型、居住地、收入等。 使用这些信息作为输入来学习分类器的模型。Data Mining and KDD应用2:欺骗检测 目标:在信用卡事务处理过程中预知欺诈事件的 发生。 方法: 使用信用卡事务处理记录,并把帐号持有者的 一些信息作为属性. 把过去的事务标记为欺诈事务或正常事务,并 把其看作类属性. 从事务库中学习出分类模型. 通过留心某个用户的信用卡事务,使用该模型 探测是否存在欺诈.Data Mining and KDD应用3:客户流失 目标: 预测一个消费者是否可能会流失到 竞争者那边. 方法

12、: 使用过去和现在每一个消费者详细的 事务记录,发现属性集合. 把消费者标记为忠诚的或不忠的. 学习得到忠诚消费者的模型. 利用模型对消费者进行分类Data Mining and KDD1.4.2 聚类 给定一组数据点,每个点有一组属性,并 且在它们中存在相似性度量,发现一些簇 满足如下条件: 在一个簇中的数据点彼此相似; 在不同簇中的数据点彼此都不相似; 相似性度量: 如果属性值是连续值,采用欧几里得距离; 否则,具体问题具体分析。Data Mining and KDD示例: x在三维空间中,基于聚类的欧几里得距离.x在类内距离最短。 x在类间距离最大。Data Mining and KDD

13、应用1:市场分割 目标: 将一个市场细分为截然不同的客户群,每个客 户群中的客户可以令人信服地根据一个非常清 楚的销售目标组合,挑选出来。 方法: 基于消费者的地理、生活的相关信息,收 集他们的不同属性。 利用聚类算法发现消费者的分簇。 通过观察同簇或不同簇中消费者的购买模 式评价聚类的质量。Data Mining and KDD 目标:基于文本中出现的重要词汇,发现 一组彼此相似的文本。 方法: 首先,在每个文本中识别出频繁出现的词汇; 基于不同词汇的频繁程度形成一个相似性度量 ; 使用它进行聚类。 应用:信息检索可以利用这些聚类来归档 每一个新文本。应用2:文本聚类 Data Mining

14、 and KDD聚类点: 3204 文章 (Los Angeles Times,洛杉矶时报 ). 相似性度量: 通过 某种词的过滤方法 ,得到在这些文档 中最频繁出现一些 词。示例:Data Mining and KDD1.4.3 关联规则学习: 给定一组记录,每一个记录中包含特定集合中的 一些项。 产生互相依赖的规则,这些规则能够根据某些 项的出现预测出其它项的出现。发现的规则:Milk CokeDiaper, Milk BeerData Mining and KDD关联规则的应用1:营销的改进 假设发现的规则为:百吉饼, 马铃薯片把马铃薯片作为后件 = 能够被用来判断采取什 么行动能繁荣它

15、的销售。 把百吉饼放在前件中 =能够被用来判断当百吉 饼的储存和销售间断时,哪些产品将受到影响。 把百吉饼放在前件且把马铃薯片作为后件 =能 够被用来判断为提高马铃薯片的销售 ,哪些产品 应该与百吉饼一起销售。Data Mining and KDD关联规则的应用2:超市货架管理 目标:通过对足够多消费者的购买记录进 行挖掘,识别出能够在一起销售的商品。 方法:处理由条形码扫描器收集的各个商 品销售点的交易流数据,从中发现相互依 赖的产品项。 一个典型的规则: 如果一个客户购买了diaper (尿布)和 milk(牛奶) ,那么他很可能会购买beer(啤酒)。 因此,当你发现成捆的啤酒紧靠在尿布专柜旁 边,就不会感到吃惊了。Data Mining and KDD1.4.4 序列模式的发现: 给定一组对象,每一对象都包含着各自的与时间 相关的事件,发现一个规则集合,它能够在不同 的事件中预测强的序列依赖关系。(A B) (C) (D E) 通过首先发现的模式形成规则;在模式中事件的 出现受时间约束条件的控制。(A B) (C) (D E)ng (火灾警报) 在营销点的事务处理序列中: 计算机书店: (Visual_C入门) (C+初级读本

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号