数据挖掘-序论---第一章

上传人:101****457 文档编号:93683525 上传时间:2019-07-26 格式:PPT 页数:36 大小:210KB
返回 下载 相关 举报
数据挖掘-序论---第一章_第1页
第1页 / 共36页
数据挖掘-序论---第一章_第2页
第2页 / 共36页
数据挖掘-序论---第一章_第3页
第3页 / 共36页
数据挖掘-序论---第一章_第4页
第4页 / 共36页
数据挖掘-序论---第一章_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《数据挖掘-序论---第一章》由会员分享,可在线阅读,更多相关《数据挖掘-序论---第一章(36页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘 第一章 序论 中科院微电子研究所数据服务实验室 陈曙东,数据挖掘的发展动力,“需要是发明之母”柏拉图 大数据时代: 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和联机分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束),数据库技术的演化,数据挖掘是数据库技术自然演化的结果 1960s和以前: 文件系统 1970s: 层次数据库和网状数据库 1980s早期: 关系数据模型,

2、关系数据库管理系统(RDBMS)的实现 1980s晚期: 各种高级数据库系统(扩展的关系数据库,面向对象数据库等) 面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等) 1990s: 数据挖掘,数据仓库,多媒体数据库和网络数据库 2000s: 流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统,什么是数据挖掘?,数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD) 知识提炼 数据/模式分

3、析 数据考古 数据捕捞、信息收获等等,并非所有的东西都是数据挖掘,基于数据仓库的OLAP系统 OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。 机器学习系统,数据统计分析系统 这些系统所处理的数据容量往往很有限。 信息系统 专注于数据的查询处理。 相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合,数据挖掘应用,数据分析和决策支持 市场分析和管理 目标市场,客户关系管理(CRM),市场占有量分析,交叉销售,市场分割 风险分析和管理 分析预测,客户保持,保险业改良,质量控制 欺骗检测和异常模式的监测(离群点) 其他应用 文本挖掘(新闻组,电子邮件,文档)和W

4、EB挖掘 流数据挖掘 DNA和生物数据分析,数据挖掘应用市场分析和管理(1),数据从那里来? 信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究 目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测,数据挖掘应用市场分析和管理(2),顾客分析 哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计概要信息 (数据的集中趋势和变化),数据

5、挖掘应用公司分析和风险管理,财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等) 资源计划 总结和比较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中,数据挖掘应用欺诈行为检测和异常模式的发现,方法: 对欺骗行为进行聚类和建模,并进行离群点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人, 医生以及相关数据分析 不必要的或相关的测试 电信: 电话呼叫欺骗行为 电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数.

6、 分析该模型发现与期待标准的偏差 零售产业 分析师估计有38的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义,数据挖掘应用其他应用,体育竞赛: 基于数据分析的运动员训练方式 美国NBA球队使用IBM的数据挖掘工具,通过分析每个对手的数据(盖帽、进攻、犯规等数据)来获得比赛时的对抗优势 预测奖牌榜排名 2016年里约奥运会开始前,Gracenote用数千项赛事的数据和一个囊括奥运会百年历史的庞大数据库来预测奖牌的归属情况 天文学: JPL实验室和Palomar天文台就曾经在数据挖掘工具帮助下发现了22颗新的恒星 舆情监测: 将寨卡病毒挡在里约奥运的大门之外 IBM用云计算分析有关寨卡病毒的推

7、文;分析GPS数据,找出埃及伊蚊的主要活动区域;这些数据与天气、巴西各地机场位置等数据保持同步,数据挖掘系统举例: 数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,KDD的步骤,从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 了解应用领域:了解相关的知识和应用的目标 创建目标数据集:选择数据 数据清理(消除噪声和不一致的数据,这个可能要占全过程60的工作量) 数据集成(多种数据源可以组合在一起) 数据选择(提取与分析任务相关的数据) 数据变换(通过汇总或聚集操作,把

8、数据变换成适合挖掘的形式) 数据挖掘(基本步骤,使用智能方法提取数据模式:选择适当的算法来找到感兴趣的模式,总结、分类、回归分析、关联规则挖掘等) 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 运用发现的知识,典型数据挖掘系统的体系结构,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,在何种数据上进行数据挖掘,关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库(时态数据库) 流数据 多媒体数据库 面向对象数据

9、库和对象-关系数据库 异种数据库和历史(遗产legacy)数据库 文本数据库和万维网(WWW),空间数据库,空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。 常见的空间数据库数据类型 地理信息系统(GIS) 遥感图像数据 医学图像数据 数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索。,时间数据库和时序数据库,时间数据库(temporal database)和时序数据库(time-series database)都存放与时间有关的数据。时间数据

10、库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列。 股票交易、库存控制和自然现象(气温、风力等)观测收集的数据 对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。,流数据,与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。 主要应用场合 电力供应 网络监控 网页点击流 股票交易 流媒体 与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。 一种典型查询模式是连续查询模型,多媒体数据库,多媒体数据库实现用计算机管理

11、庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。 对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。,面向对象数据库和对象-关系数据库,面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。 对象关系数据库基于对象关系模型构造,该模型通

12、过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。 面向对象数据库和对象关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。,异构数据库和历史(legacy)数据库,历史数据库是一系列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。 有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。 对于异构数据库系统,实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。 WEB SERVICE技术的出现有利于历史数据库数

13、据的重新利用。,文本数据库和万维网(WWW),文本数据库存储的是对对象的文字性描述。 文本数据库的分类 无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆数据) 万维网(WWW)可以被看成最大的文本数据库 数据挖掘内容 内容检索 WEB访问模式检索,数据挖掘的主要功能 可以挖掘哪些模式?,一般功能 描述性的数据挖掘 预测性的数据挖掘 通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括: 概念/类描述: 特性化和区分 关联分析 分类和预测 聚类分析 离群点分析 趋势和演变分析,概念/类描述: 特性

14、化和区分,概念描述:为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述) 特征化:提供给定数据集的简洁汇总。 例:对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:4050岁,有固定职业,信誉良好,等等 区分:提供两个或多个数据集的比较描述。 例:,关联分析,关联规则挖掘: 从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。 广泛的用于购物篮或事务数据分析。 例:,分类和预测,通过构造模型(或函数)来描述和区别类或概念,并用来分类新数据(分类)、用来预测类型标志未知的对象类(预测)。

15、 比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示: 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 例: IF age = “40” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “40” AND credit_rating = “fair” THEN buys_computer = “no”,聚类分析,聚类分析: 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。 最大化类内的相似性和最小化类间的相似性 (将类似的数据归类到一起,形成一个新的类别进行分析。

16、) 例:对WEB日志的数据进行聚类,以发现相同的用户访问模式,离群点分析,离群点分析 离群点:一些与数据的一般行为或模型不一致的离群数据 通常离群点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行离群点分析而得到结论。 应用 信用卡欺诈检测 移动电话欺诈检测 客户划分 医疗分析(异常),趋势和演变分析,描述行为随时间变化的对象的发展规律或趋势(时序数据库) 趋势和偏差: 回归分析 序列模式匹配:周期性分析 基于类似性的分析,所有模式都是有趣的吗?,数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。 模式兴趣度的度量 一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设 模式兴趣度的客观和主观度量 客观度量: 基于所发现模式的结构和关于它们的统计, 比如: 支持度、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号