数据挖掘入门课件讲述

上传人:最**** 文档编号:118120792 上传时间:2019-12-11 格式:PPT 页数:194 大小:5.57MB
返回 下载 相关 举报
数据挖掘入门课件讲述_第1页
第1页 / 共194页
数据挖掘入门课件讲述_第2页
第2页 / 共194页
数据挖掘入门课件讲述_第3页
第3页 / 共194页
数据挖掘入门课件讲述_第4页
第4页 / 共194页
数据挖掘入门课件讲述_第5页
第5页 / 共194页
点击查看更多>>
资源描述

《数据挖掘入门课件讲述》由会员分享,可在线阅读,更多相关《数据挖掘入门课件讲述(194页珍藏版)》请在金锄头文库上搜索。

1、 数据挖掘 物联网数据处理 主要内容主要内容 n数据挖掘概述 n数据预处理 n数据挖掘算法分类与预测 n数据挖掘算法聚类 n数据挖掘算法关联分析 n序列模式挖掘 物联网数据处理 一、数据挖掘概述一、数据挖掘概述 物联网数据处理 数据挖掘概念数据挖掘概念 n数据挖掘-从大量的数据中,提取隐含在其中的 、人们事先不知道的但又可能有用的信息和知识 的过程。 n数据挖掘的主要目的是提高决策能力,检测异常 模式,在过去的经验基础上预言未来趋势等。 n例如,通过对大量气象资料和销售资料的处理及分析,德 国的啤酒商发现,夏天气温每升高1,就会增加230万瓶 的啤酒销量;而日本人则发现,夏季30以上的天气每增

2、 加一天,空调的销量便增加4万台。 物联网数据处理 5 n 沃尔玛超市建立数据仓库,按周期统计产品的销售信息 ,经过科学建模后提炼决策层数据。 n发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒 和尿布的销售量很大,而且单张发票中同时购买尿布和 啤酒的记录非常普遍。 n分析人员认为这并非偶然,经过深入分析得知,通常周 末购买尿布的是男士,他们在完成了太太交给的任务后 ,经常会顺便买一些啤酒。 n得出这样的结果后,沃尔玛超市的工作人员尝试着将啤 酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双 双增长。 数据挖掘概念数据挖掘概念 物联网数据处理 6 n数据挖掘(Data Mining) :又称为

3、数据库中的知识发现, 是基于AI、机器学习、统计学等技术,高度自动化地分析 原有的数据,进行归纳性推理,从数据仓库或数据库中提 取可信的、新颖的、有效的、人们感兴趣的、能别人理解 的知识的高级处理过程。这些知识是隐含的、事先未知的 有用信息,提取的知识表现为概念、规则、模式、规律等 形式,以帮助管理者作出正确的决策。 n 模式:它给出了数据特性或数据之间的关系,是对数据所 包含的信息更抽象的描述。模式按功能可以分为预测型模 式和描述型模式。在实际应用中,可以细分为关联模式、 分类模式、聚类模式和序列模式等。 数据挖掘概念数据挖掘概念 物联网数据处理 数据挖掘的任务数据挖掘的任务 n分类预测(P

4、rediction) 利用一些变量来预测未知的或其他变量将来 的值.典型的方法是回归分析,即利用大量的历史 数据,以时间为变量建立线性或非线性回归方程 。预测时,只要输入任意的时间值,通过回归方 程就可求出该时间的状态。近年来,发展起来的 神经网络方法,如BP模型,它实现了非线性样本 的学习,能进行非线性函数的预测 物联网数据处理 n典型的分类型任务如下: 1、给出一个客户的购买或消费特征,判断其是否会 流失; 2、给出一个信用卡申请者的资料,判断其编造资料 骗取信用卡的可能性 3、给出一个病人的症状,判断其可能患的疾病 4、给出大额资金交易的细节,判断是否有洗钱的嫌 疑; 5、给出很多文章,

5、判断文章的类别(如科技、体育 、经济等) 数据挖掘的任务数据挖掘的任务 物联网数据处理 n 物联网数据处理 描述型任务: 找到人们可以解释的,描述数据的模式. 描述性任务 主要包括聚类、摘要、依赖分析等几种任务。聚类任务把 没有预定义类别的数据划分成几个合理的类别,摘要任务 形成数据高度浓缩的子集及描述,依赖分析任务发现数据 项之间的关系。 n典型的描述型任务如下: 1、给出一组客户的行为特征,将客户分成多个行为相似的 群体; 2、给出一组购买数据,分析购买某些物品和购买其他物品 之间的联系 3、给出一篇文档,自动形成该文档的摘要 数据挖掘的任务数据挖掘的任务 物联网数据处理 数据挖掘的任务数

6、据挖掘的任务 n分类 预测性的 n聚类 描述性的 n关联规则发现 描述性的 n序列模式发现描述性的 n预测回归 预测性的 n异常发现 预测型的 物联网数据处理 分类分类 n给定一组纪录 (训练集-training set ) 每一条记录都包含一组属性, 其中的一个属性就是类. n为类属性找到一个模型,这个模型就是其他属性 值的函数. n目的:先前未见过的纪录应该被尽可能精确的分 配一个类中. 在分类预测任务中,数据集根据其在数据挖掘过 程中扮演角色的不同,可划分为训练集、测试集 、验证集。 物联网数据处理 n训练集:是在数据挖掘过程中用来训练学习算法 ,建立模型的数据集. n测试集:就是数据挖

7、掘算法在生成模型后,用以 测试所得到的模型的有效性的数据集,常被用来 决定模型的精确性. n验证集:是在数据挖掘过程结束后,模型应用的 实际数据集,验证集用于在实践中检验模型. 分类分类 物联网数据处理 n例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人 员进行分类: n字段为(年龄(取值:40);收入(高,中,低);学生否(Y,N); 信用(一般,很好);购买计算机否(Y,N) n记录为14个,具体数据如下: nX1=(40,低, Y, 一般,Y); X6=(40, 低, Y, 很好,N); nX7=(3040,低, Y,很好,Y); X8=(30, 中,N, 一般,N); nX

8、9=(40,中, Y,一般,Y); nX11=(40,中,N,很好,N); n 利用贝叶斯法则预测,符合下列条件的人员购买计算机的可能性 X=(年龄30,收入=中,学生否=Y,信用=一般) 分类分类 物联网数据处理 聚类聚类 n聚类是按照某个特定标准(通常是某种)把一个 数据集分割成不同的类,使得类内相似性尽可能 地大,同时类间的区别性也尽可能地大。直观地 看,最终形成的每个聚类,在空间上应该是一个 相对稠密的区域。 n聚类是对记录分组,把相似的记录在一个聚类里 。聚类和分类的区别是聚类不依赖于预先定义好 的类,不需要训练集。 n例子: a. 一些特定症状的聚类可能预示了一个特定的疾病 b.

9、租VCD类型不相似的客户聚类,可能暗示成员属于不同 的亚文化群 物联网数据处理 Illustrating Clustering xEuclidean Distance Based Clustering in 3-D space. Intracluster distances are minimized Intercluster distances are maximized 物联网数据处理 n 物联网数据处理 n聚类方法主要包括划分聚类、层次聚类、基于密 度的聚类和kohonen聚类等; n进行划分聚类,一般用距离来度量对象之间的相 似性,典型的是欧氏距离;距离越大,则相似性 越小,反之亦然;

10、 n聚集通常作为数据挖掘的第一步。 n例如,“哪一种类的促销对客户响应最好?”,对 于这一类问题,首先对整个客户做聚集,将客户 分组在各自的聚集里,然后对每个不同的聚集, 回答问题,可能效果更好。 聚类聚类 物联网数据处理 预测回归预测回归 n通常,预测是通过分类或估值起作用的,也就是说 ,通过分类或估值得出模型,该模型用于对未知变 量的预言。从这种意义上说,预测其实没有必要分 为一个单独的类。 预测其目的是对未来未知变量的估计,这种预测是 需要时间来验证的,即必须经过一定时间后,才知 道预测准确性是多少。 例如(1)证券市场; (2)由顾客过去之刷卡消费量预 测其未来之刷卡消费量。使用的技巧

11、包括回归分析 、时间数列分析及类神经网络方法。 物联网数据处理 关联规则关联规则 n从所有对象决定那些相关对象应该放在一起。例 如超市中相关之盥洗用品(牙刷、牙膏、牙线), 放在同一间货架上。在客户营销系统上,此种功 能系用来确认交叉销售(cross-selling)的机会以设 计出吸引人的产品群组。 物联网数据处理 n 物联网数据处理 序列模式发现序列模式发现 n定义:给定一个项集合,每一个项都和事件的时间 有关系. n目的:找出规则来预测在不同时间点上很强的序列 依赖性. nRules are formed by first disovering patterns. Event occur

12、rences in the patterns are governed by timing constraints. (A B) (C) (D E) = ms ng= ws (A B) (C) (D E) 物联网数据处理 异常检测异常检测 n从正常的行为中检测有意义的异常 n应用: 信用卡欺诈检测 网络侵扰检测 Typical network traffic at University level may reach over 100 million connections per day 物联网数据处理 n 物联网数据处理 数据挖掘的发展数据挖掘的发展 n1989 IJCAI会议: 数据库中

13、的知识发现讨论专题 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) n1991-1994 KDD讨论专题 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) n1995-1998 KDD国际会议 (KDD95-98) Journal of Data Mining and Knowledge Discovery

14、(1997) n1998 ACM SIGKDD, SIGKDD1999-2002 会议,以及SIGKDD Explorations n数据挖掘方面更多的国际会议 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc. 物联网数据处理 进化阶段商业问题支持技术产品厂家产品特点 数据搜集 (60年代) “过去五年中我 的总收入是多少 ?” 计算机、磁带和磁 盘 IBM,CDC 提供历史性 的、静态的 数据信息 数据访问 (80年代) “在新英格兰的 分部去年三月的 销售额是多少? ” 关系数据库( RDBMS),结构化 查询

15、语言(SQL) ,ODBC Oracle、 Sybase、Informix 、IBM、Microsoft Oracle、Sybase 、Informix、 IBM、Microsoft 在记录级提 供历史性的 、动态数据 信息 数据仓库 ; 决策支持 (90年代) “在新英格兰的 分部去年三月的 销售额是多少? 波士顿据此可得 出什么结论?” 联机分析处理( OLAP)、多维数据 库、数据仓库 Pilot、 Comshare、 Arbor、Cognos 、 Microstrategy 在各种层次 上提供回溯 的、动态的 数据信息 数据挖掘 (正在流 行) “下个月波士顿 的销售会怎么样 ?为什么?” 高级算法、多处理 器计算机、海量数 据库 Pilot、 Lockheed、IBM 、SGI、其他初 创公司 提供预测性 的信息 物联网数据处理 数据挖掘系统数据挖掘系统 代特征数据挖掘算法 集成 分布计算 模型 数据模型 第一代 数据挖掘作为 一个独立的应 用 支持一个或者 多个算法 独立的系 统 单个机 器 向量数据 第二代 和数据库以及 数据仓库集成 多个算法:能够 挖掘一次不能放 进内存的数据 数据管理系 统,包括数 据库和数据 仓库 同质/局 部区域 的计算 机群集 有些系统支 持对象、文 本、和连续 的媒体数据

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号