数据挖掘绪论－金锄头文库

资源描述

《数据挖掘绪论》由会员分享，可在线阅读，更多相关《数据挖掘绪论（34页珍藏版）》请在金锄头文库上搜索。

1、Data Mining and KDD数据挖掘与知识发现数据挖掘与知识发现冀俊忠冀俊忠北京工业大学北京工业大学计算机学院计算机学院Data mining and knowledge discovery in databaseData Mining and KDD数据、信息和知识的区别？数据：事实的记录，理性描述，能从数量上反映现实.（汇总、排序、比例等处理）信息：数据+意义，数据的提炼。是完成从定量到定性的过程. （既可源于数据，也可源于信息本身）知识：解决问题的技能，让从定量到定性的过程得以实现的、抽象的、逻辑的东西。（通过信息使用归纳、演绎等方法得到）联系：数据是信息的

2、符号（载体和表示）；信息是数据的解释（含义）；知识是相关信息关联在一起所形成的信息结构；Data Mining and KDD第一章、绪论为什么要进行数据挖掘数据挖掘的定义数据挖掘的起源数据挖掘的任务数据挖掘的挑战课程内容 Data Mining and KDD1.1 为什么要进行数据挖掘?- From Commercial Viewpoint 大量数据被收集和存储电子商务 (Web数据) 超市交易数据、银行业务物联网（传感数据）云计算 (云存储) 计算机的廉价、强大企业竞争压力的增大提供更好的、个性化的定制服务Data Mining and KDDWhy Mine

3、Data? - From Scientific Viewpoint 数据的收集和存储以巨大的速度进行(GB/小时) 人造卫星上的远程传感器浓缩的天空扫描图像数据表达的基因队列科学模拟产生的TB数据 (1000GB) 传统技术无法对原始数据进行处理数据挖掘可以帮助人们: 分类和分段数据以新的形式表示数据Data Mining and KDDMining Large Data Sets - Motivation 在大量数据的背后往往隐藏着一些有用的信息。而人工分析师发现一条有用信息需要数周的时间。因此,大量信息从来没有被分析过，出现“数据丰富，知识匮乏”现象。Total new

4、 disk (TB) since 1995Number of analystsThe Data GapData Mining and KDD1.2 数据挖掘的定义什么是数据挖掘？ 1）数据挖掘就是从大量数据中提取或挖掘知识. 知识是有用的、隐含在原数据中未知的、用户感兴趣的信息或模式，具有预测未来结果的能力. 不同于信息查询（DBMS）和信息检索（搜索引擎），它们主要是依赖传统的统计和数据明显的特征来创建索引结构. 2）从数据中析取出暗含的、先前未知的、潜在有用的（非微不足道的）信息. 3）为了发现有意义的模式，以自动化或半自动化的方式，在大量数据中进行探测和分析.Data Min

5、ing and KDD 4）也称为数据库中的知识发现(Knowledge Discover Database，KDD)，是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。Data Mining and KDD 在医药书目中查所需的医学书籍. 通过Web搜索引擎查询Amazon的信息. 某些疫病在世界哪几个地区较流行. 根据内容把从搜索引擎返回的相似信息进行归类传统技术不适合处理：巨大数据、高维数据、异构的分布式Web 或空间数据Data Mining and KDD数据挖掘与其他典型的数据仓库应用，如结构化查询语言(SQL)和联机分析处理工具 (OLAP),它们之间

6、有什么不同？SQL是一种在数据库上强加一些约束以便获得答案。而数据挖掘方法用于进行另一种查询，是一种探测性地获得隐蔽的而不明显信息的方法。 OLAP为用户提供多个数据视图来对数据仓库的数据进行分析，可以从任意角度观察空间数据或对其切片和切块，但不依赖于数据，也不创造出新的知识,仅提供导出数据的答案。它对数据挖掘过程很有用，可作为数据挖掘的一部分，但不能代替数据挖掘。Data Mining and KDD 从统计学、人工智能、机器学习、模式识别、数据库系统等学科吸取了许多营养和知识.1.3 数据挖掘的起源Machine Learning/ Pattern Recognitio

7、nStatistics/ AIData MiningDatabase systems大部分问题和相应的解决方法都起源于传统的数据分析. 起源于多种学科，主要是统计学和机器学习。统计学起源于数学，它强调数值上的精确；机器学习主要起源于计算机实践，它侧重于对事物的检验，确定它表现的好坏.Data Mining and KDD1.4 数据挖掘的两类根本任务：描述（Description Methods ）: 刻画数据库中数据的一般特性。发现能够描述数据的人们可以理解或解释的模式。在数据集上生成新的、非同寻常的信息。预测（ Prediction Methods ）: 在当前数据

8、上进行推断，以进行预测。用一些变量去预测其它变量的未知值或将来值。生成已知数据集的系统模型。Data Mining and KDD数据挖掘的基本任务：1.分类 Classification 预测： 2.聚类 Clustering 描述： 3.关联分析 Association Rule Discovery 描述： 4.序列模式 Sequential Pattern Discovery 描述： 5.回归 Regression 预测： 6.异常/偏差检测 Deviation Detection 预测：Data Mining and KDD1.4.1 分类：给定一组记录（训练集合）每一个

9、记录包含多个属性，其中一个属性为类属性发现一个类属性模型，它以其它属性值为函数目标：尽可能准确地给新来的没有类标记的记录指派一个适当的类值通常，给定的数据库被分为训练集和测试集两部分，训练集用来学习模型，测试集用来验证模型。Data Mining and KDDClassification Process (1): Model ConstructionClassification AlgorithmsIF rank = professor OR years 6 THEN tenured = yes Classifier (Model)Training DataData Mini

10、ng and KDDClassification Process (2): Use Model in PredictionClassifier (Model)Test Data(Jeff, Professor, 4)Tenured?Unseen DataIF rank = professor OR years 6 THEN tenured = yes Data Mining and KDD应用1：目标营销目标：通过提前锁定一组很可能购买新商品的客户群体，减少邮寄宣传品的费用。方法：使用以前介绍过的类似产品的数据；我们清楚历史数据中哪些用户决定买，哪些用户不决定买；买或不买形成类属性

11、；收集大量消费者的各种各样的人口统计学的、生活方式的以及与公司交互的相关信息。如就职的企业类型、居住地、收入等。使用这些信息作为输入来学习分类器的模型。Data Mining and KDD应用2：欺骗检测目标：在信用卡事务处理过程中预知欺诈事件的发生。方法：使用信用卡事务处理记录,并把帐号持有者的一些信息作为属性. 把过去的事务标记为欺诈事务或正常事务,并把其看作类属性. 从事务库中学习出分类模型. 通过留心某个用户的信用卡事务,使用该模型探测是否存在欺诈.Data Mining and KDD应用3：客户流失目标: 预测一个消费者是否可能会流失到竞争者那边. 方法

12、: 使用过去和现在每一个消费者详细的事务记录,发现属性集合. 把消费者标记为忠诚的或不忠的. 学习得到忠诚消费者的模型. 利用模型对消费者进行分类Data Mining and KDD1.4.2 聚类给定一组数据点，每个点有一组属性，并且在它们中存在相似性度量，发现一些簇满足如下条件：在一个簇中的数据点彼此相似；在不同簇中的数据点彼此都不相似；相似性度量：如果属性值是连续值，采用欧几里得距离；否则，具体问题具体分析。Data Mining and KDD示例： x在三维空间中，基于聚类的欧几里得距离.x在类内距离最短。 x在类间距离最大。Data Mining and KDD

13、应用1：市场分割目标：将一个市场细分为截然不同的客户群，每个客户群中的客户可以令人信服地根据一个非常清楚的销售目标组合，挑选出来。方法：基于消费者的地理、生活的相关信息，收集他们的不同属性。利用聚类算法发现消费者的分簇。通过观察同簇或不同簇中消费者的购买模式评价聚类的质量。Data Mining and KDD 目标：基于文本中出现的重要词汇，发现一组彼此相似的文本。方法：首先，在每个文本中识别出频繁出现的词汇；基于不同词汇的频繁程度形成一个相似性度量；使用它进行聚类。应用：信息检索可以利用这些聚类来归档每一个新文本。应用2：文本聚类 Data Mining

14、 and KDD聚类点: 3204 文章（Los Angeles Times，洛杉矶时报）. 相似性度量: 通过某种词的过滤方法，得到在这些文档中最频繁出现一些词。示例：Data Mining and KDD1.4.3 关联规则学习：给定一组记录，每一个记录中包含特定集合中的一些项。产生互相依赖的规则，这些规则能够根据某些项的出现预测出其它项的出现。发现的规则:Milk CokeDiaper, Milk BeerData Mining and KDD关联规则的应用1：营销的改进假设发现的规则为：百吉饼, 马铃薯片把马铃薯片作为后件 = 能够被用来判断采取什么行动能繁荣它

15、的销售。把百吉饼放在前件中 =能够被用来判断当百吉饼的储存和销售间断时，哪些产品将受到影响。把百吉饼放在前件且把马铃薯片作为后件 =能够被用来判断为提高马铃薯片的销售，哪些产品应该与百吉饼一起销售。Data Mining and KDD关联规则的应用2：超市货架管理目标：通过对足够多消费者的购买记录进行挖掘，识别出能够在一起销售的商品。方法：处理由条形码扫描器收集的各个商品销售点的交易流数据，从中发现相互依赖的产品项。一个典型的规则：如果一个客户购买了diaper (尿布)和 milk(牛奶) ，那么他很可能会购买beer(啤酒)。因此，当你发现成捆的啤酒紧靠在尿布专柜旁边，就不会感到吃惊了。Data Mining and KDD1.4.4 序列模式的发现：给定一组对象，每一对象都包含着各自的与时间相关的事件，发现一个规则集合，它能够在不同的事件中预测强的序列依赖关系。(A B) (C) (D E) 通过首先发现的模式形成规则；在模式中事件的出现受时间约束条件的控制。(A B) (C) (D E)ng (火灾警报) 在营销点的事务处理序列中: 计算机书店: (Visual_C入门) (C+初级读本

展开阅读全文