韩家炜数据挖掘概念与技术-

上传人:宝路 文档编号:47981701 上传时间:2018-07-07 格式:PPTX 页数:64 大小:139.88KB
返回 下载 相关 举报
韩家炜数据挖掘概念与技术-_第1页
第1页 / 共64页
韩家炜数据挖掘概念与技术-_第2页
第2页 / 共64页
韩家炜数据挖掘概念与技术-_第3页
第3页 / 共64页
韩家炜数据挖掘概念与技术-_第4页
第4页 / 共64页
韩家炜数据挖掘概念与技术-_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《韩家炜数据挖掘概念与技术-》由会员分享,可在线阅读,更多相关《韩家炜数据挖掘概念与技术-(64页珍藏版)》请在金锄头文库上搜索。

1、第一章 简介2014.10目录 1.1 数据挖掘的目的 1.2 数据挖掘的概念 1.3 数据挖掘的对象 1.4 数据挖掘的挖掘模式 1.5 数据挖掘的技术 1.6 数据挖掘的应用领域 1.7 数据挖掘的主要挑战 1.8 总结 1.1 Why Data Mining? 1.1.1 Moving toward the Information Age 1.1.2 Data Mining as the Evolution of Information Technology 1.2 What is Data Mining? 1.3 What kinds of Data Can be Mined? 1.4

2、 What kinds of Patterns Can be Mined? 1.5 Which Technologies Are Used? 1.6 Which Kinds of Applications Are Target? 1.7 Major Issues in Data Mining 1.8 Summary1.1.1 人类迈入信息时代 我们已经进入大数据的时代。 每天,有大量的(TB、PB数量级)的数据 从商业、社会、科学和工程、医药以及生 活中的方方面面涌入我们的计算机网络、 万维网、以及各种不同的数据存储设备。 这些爆炸性增长的、广泛可获取的、大量 的数据使我们真正的处于数据时代。

3、 强大的、万能的能够自动从大量数据中挖 掘有价值的信息的工具被急切的需要。这 种需求催生了数据挖掘。 这个领域是年轻、动态变化并且前景乐观 的。 数据挖掘正在并且将会持续的将我们大踏 步的从数据时代跃入即将到来的信息时 代。 举例1.1 数据挖掘将一个大数据集转化成知识 搜索引擎(例如google)每天接收到数以亿计的查询请 求。每一个请求都看成是用户描述他(她)需要的信 息的一个事务。搜索引擎能从如此巨大的查询请求的 数据集中学习到什么样新的有用的知识呢? 令人感兴趣的是,我们能从这些数据中发现一些揭示 有价值信息的模式。而靠单个查看每个数据记录是无 法做到这点的。 举个例子,谷歌的Flu

4、Trends使用一些特定的词语作为 流感的指示器。它能够发现搜索流感信息的人群的数 量与真正有流感症状的人群的数量之间的紧密关系。 当所有的关于流感的信息聚集在一起时,就能呈现某种模式。使用聚集的谷歌搜索数据,Flu Trends能比传 统系统提早两周估计到流感的发生。 这个例子展示了数据挖掘怎样将大量的信息转化成知 识。1.1.2 数据挖掘是信息科技的进化数据挖掘技术可以被看做是信息技术自然 进化的产物。 数据库和数据管理技术发展的几个阶段: 数据收集和数据库创建、数据管理(数据存储, 检索和数据库事务处理)、高级数据分析(数据 仓库和数据挖掘)。 从1960年开始,数据库和信息科技开始从

5、最初的文件处理系统进化到更复杂和功能更强大 的数据库系统。 从1970年开始,对数据库系统的研究从早 期的层式结构和网状结构发展到关系数据库系 统。数据库管理系统建立之后,数据库技术 发展到高级数据库、数据仓库和数据挖掘阶 段。 丰富的数据、对多种数据分析工具的需 求,被称为是“数据丰富但是信息量少”的 环境,这种巨大的鸿沟催生了数据挖掘工具 的系统化发展,把数据坟墓转化为知识金 矿。 1.1 Why Data Mining? 1.2 What is Data Mining? 1.3 What kinds of Data Can be Mined? 1.4 What kinds of Patt

6、erns Can be Mined? 1.5 Which Technologies Are Used? 1.6 Which Kinds of Applications Are Target? 1.7 Major Issues in Data Mining 1.8 Summary1.2 什么是数据挖掘?数据挖掘是从大量数据中发掘有趣的模 式和知识的过程。 很多词语有和数据挖掘类似的含义:数 据知识挖掘、知识抽取、数据/模式分析、 data archaeology, data dredging. 很多人把数据挖掘看做和一个流行的词 汇knowledge discovery from data( K

7、DD,知识 发现)一样的含义。数据挖掘的步骤1 数据清洗(去除噪声和不一致的数据) 2 数据聚合(多种数据源的融合) 3 数据选择(和分析任务相关的数据从数据库中检索 出来) 4 数据转换(数据被使用摘要和聚合的方式转换和联 合成合适用于挖掘的形式) 5 数据挖掘(最重要的步骤,智能的抽取数据模式的 方法) 6 模式评估 7 知识表达 1.1 Why Data Mining? 1.2 What is Data Mining? 1.3 What kinds of Data Can be Mined? 1.3.1 Database Data 1.3.2 Data Warehouse 1.3.3 T

8、ransactional Data 1.3.4 Other Kinds of Data 1.4 What kinds of Patterns Can be Mined? 1.5 Which Technologies Are Used? 1.6 Which Kinds of Applications Are Target? 1.7 Major Issues in Data Mining 1.8 Summary1.3 什么样的数据能被挖掘?数据挖掘能被应用于任何对目标应用有 意义的数据类型。 最基本的形式有:数据库数据、数据仓 库数据、交易事务数据,以及一些其他的类 型,例如数据流、序列数据、图数

9、据、空间 数据、文本数据、多媒体数据、www等。1.3.1 数据库数据DBMS(数据库管理系统)包含一系列相互关联 的数据。 关系数据库是一系列的表,表都有表名,一系 列的属性,和一系列的记录。关系数据库可以通 过数据库查询语句来检索记录。 对关系数据库挖掘时,是想要发现趋势或者数 据模式。比如,分析客户数据预测新用户的信用 风险,基于他们的收入、年龄和以前的信用信 息。还可以用来发现差异,比如,发现包装商品 或者显著提升价格的变化。1.3.2 数据仓库数据仓库是多种数据来源的信息仓库,以统一 的模式存放,通常是在一个站点。数据仓库通过 一系列的数据清洗、聚合、转换、加载和周期性 的更新构建。

10、 数据仓库以重要的主题组织,从历史的视角提 供信息,常常是概要型的。数据仓库模型是高维 数据结构,每一维对应于相应的一个或者一组属 性。称为数据立方。 通过提供高维数据视角和概要数据,数据仓库 为OLAP联机处理提供支持。高维数据挖掘以 OLAP的方式在高维空间挖掘。1.3.3 事务数据事务数据库存放交易记录,例如顾客的一 次购买,机票的预订,或者用户点击了一个web 页面。交易数据被存放在表中,每条记录表示一 次交易记录。 假如我们想知道哪些商品放在一起出售更 好,如果我们知道打印机通常会和电脑一起被购 买,则可以对买电脑的顾客提供打印机购买折扣 ,或者完全免费,以期销售更多电脑。 传统的数

11、据库系统不能做这种商业分析。 但是基于交易数据的数据挖掘能够发现这种频繁 模式,即发现那些商品会被一起经常购买。1.3.4 其他类型的数据其他数据如和时间相关的数据,序列数据,流数据 ,空间数据,工程设计数据,超链接和多媒体数据,图数据和网络数据,web数据等等。如何处理各种复杂的数据 结构、特殊的语义、如何挖掘模式都是有挑战的问题。 比如我们可以通过股票交易数据挖掘未被发现的趋 势帮助你计划投资策略;通过挖掘计算机网络数据流来基 于信息流进行入侵检测;对于空间数据,我们可以基于主 要高铁线路的城市距离描述城市贫困率的变化;通过挖掘 文本数据,例如过去十年的文化,来识别该领域的热点演 化。通过

12、挖掘用户对于产品的评论,获得客户情绪和了解 产品在市场上的接受度。通过挖掘多媒体数据,来对图像进行目标识别和对其进行语义标签和分类。挖掘WWW上 的信息,可以发现网页的变化以及不同网页之间的关联关 系,或者用户,社区以及活动之间的关联关系。 需要注意的是,在许多应用领域,数据是 多种类型共存的。比如,web挖掘中,包括 文本数据和多媒体数据在网页上。对于多 种类型数据融合的应用的数据挖掘,数据 清洗、聚合是很困难的事情,因为多种数 据源的复杂交互。 1.1 Why Data Mining? 1.2 What is Data Mining? 1.3 What kinds of Data Can

13、be Mined? 1.4 What kinds of Patterns Can be Mined? 1.4.1 Characterization and Discrimination 1.4.2 Frequent Patterns, Associations and Correlations 1.4.3 Classification and Regression 1.4.4 Cluster Analysis 1.4.5 Outliner Analysis 1.4.6 Are all Patterns Interesting? 1.5 Which Technologies Are Used?

14、1.6 Which Kinds of Applications Are Target? 1.7 Major Issues in Data Mining 1.8 Summary1.4 什么样的模式能被挖掘? 数据挖掘任务可以被归类为两种类别:描 述性的和预测性的。 描述性的挖掘任务是描述目标数据集的数 据属性。 预测性的挖掘任务是归纳现有数据以用来 做预测。1.4.1 类别/概念描述:特征化和区 分 对于一个电商企业,销售商品可分为计算 机和打印机,客户可分为大客户和节约型客户。 对这些单个的类别和概念使用总结、概要或者精 确的术语进行描述非常有用。这种对类别或者概念的描述称为类别/概念描述。描

15、述可以通过: (1)通过总结目标类别的一般术语进行数据特 征化; (2)把目标类别和一个或一组对比类别做比较 的数据区分; (3)同时使用上面2种方法。数据描述数据描述是总结目标类别数据的一般特征。 数据一般通过查询来收集。例如,想研究上一 年销售额增长了10%的软件产品,可以通过SQL查询语 句来进行。 有多种数据描述的方法。可以使用基于统计测 量和散点图的简单数据总结。基于数据立方的OLAP操 作可以使用在特定维度空间的用户控制的数据摘要。 面向属性的归纳技术也可以用来描述数据。 描述的结果可以通过多种图表展现,包括饼 图、柱状图、曲线、高维数据立方体和多维表、交叉 表等。也可以使用规则形

16、式的广义关系来表示。举例如,总结每年在AllElectronics 花掉 5000美元以上的客户特征。 描述结果可能是这些客户的一般信息, 如他们是40-50岁之间的,有工作的,有很高 信用度的。数据区分数据区分是比较目标类别数据对象和一个或者 一组对象的一般特征。 举例如,用户想比较去年的销售额增长了10%的 软件产品和销售额下降了30%的产品的一般特征。 数据区分的技术和结果展示和数据描述很相 似。 举例如,客户关系经理想比较那些经常购买计 算机产品和很少购买这类产品的客户特征。描述结果 给出这些客户的一般对比信息,比如经常购买电脑产 品的80%的客户是20到40岁之间的有大学文凭的,很 少买这类产品的人中60%是老年人或者青少年,没有 大学学历。1.4.2 挖掘频繁模式、关联规则和 相关性频繁模式,含义是数据中经常发生的模 式。包括

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号