数据挖掘chap2讲义资料

上传人:yulij****0329 文档编号:252190864 上传时间:2022-02-10 格式:PPT 页数:88 大小:3.47MB
返回 下载 相关 举报
数据挖掘chap2讲义资料_第1页
第1页 / 共88页
数据挖掘chap2讲义资料_第2页
第2页 / 共88页
数据挖掘chap2讲义资料_第3页
第3页 / 共88页
数据挖掘chap2讲义资料_第4页
第4页 / 共88页
数据挖掘chap2讲义资料_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《数据挖掘chap2讲义资料》由会员分享,可在线阅读,更多相关《数据挖掘chap2讲义资料(88页珍藏版)》请在金锄头文库上搜索。

1、第 2 章 从商务角度看数据挖掘 程春明 2010.3 数据挖掘课件内容提要2.1 引言 2.2 从数据挖掘工具到解决方案 2.3 数据挖掘系统的演变 2.4 Crisp-DM模型2.5 数据挖掘支撑技术概述2.6 数据挖掘技术 2.1 引言v 商业数据是如何进化为有用商业信息的? 信息技术发展一个新的重要趋势是识别信息系统中有意义的数据。 这种知识可能是一个商业机构获得竞争优势的关键。 DM的价值在于主动搜寻产业发展趋势,并将这种理解提供给拥有大量信息的机构。 商务机构的数据挖掘目标主要是改善组织机构与它们的顾客之间的沟通质量。 数据挖掘在人的控制下,使用算法从数据中提取模式。可以为组织机构

2、提供一种优化商务数据处理的方法 企业(组织)数据更加全面,生产、销售、质量 数据挖掘公司关注各个不同的行业 对大型、超大型、复杂的数据进行数据挖掘数据挖掘演变 进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波

3、士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息v 数据挖掘产业的一个持续趋势是企业资源计划(ERP)零售商和应用服务提供者(ASP)的出现。v 什么是ERP?2.2 数据挖掘工具及解决方案v数据挖掘可以沿三条谱线追溯 经典统计学(基础) 回归分析、正态分布、标准差、标准方差、聚类分析和置信区间等概念,主要用

4、于研究数据与数据之间的关系,这些都是最基本的构件块,可以用来构建更高级的统计分析。 人工智能(Artificial Intelligence ,AI) 机器学习(统计学与AI的结合)vDM基本上是将机器学习用于商务和科学应用,最好将DM看作统计学、AI、机器学习过去和现在发展的融合。2.3 数据挖掘系统的演变v典型数据挖掘系统的体系结构数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成数据挖掘系统的演变v 第一代:数据挖掘系统(data mining system), 20世纪80年代。 主要关注单一任务的、研究驱动的工具组成 操作复杂 结果表示和可

5、视化效果不理想v 第二代:数据挖掘系统套装(suite),1995年。 关注数据清理和预处理 集成了数据处理及可视化表示等功能 Clementine、 Mineset、 Intelligent Minerv 第三代:基于应用和解决方案的从生产到销售全过程的数据挖掘, 20世纪90年代。 解决具体的商务问题,筛选存储在大型数据库中的信息,发现隐藏的模式。通过决策支持系统集成数据挖掘系统,能对特定的问题进行决策,忽略数据挖掘工具的细节。 面向生产到销售的全过程 电子商务2.4 Crisp-DM模型v跨行业数据挖掘标准流程(Cross-Industry Standard Process for Da

6、ta Mining,Crisp-DM) 数据挖掘方法论最初由SPSS、NCR和DaimlerChrysler三个公司在1996年提出。后来得到欧共体研究基金的支助。到2000年8月,Crisp-DM 1.0版发布。Crisp-DM不是一种描述特定数据挖掘的技术,而是描述数据挖掘项目生命周期的流程。Crisp-DM参考模型的阶段v Crisp-DM数据挖掘方法论能通过分层流程模型来描述,包括一组描述4个抽象层次的任务: 阶段:流程的最顶层是阶段。例如,商业理解是数据挖掘过程的第一个阶段。 一般任务:一般任务是每个阶段下的任务的一般性描述。这一层还比较抽象,例如,数据清理是一般任务。 特殊任务:特

7、殊任务是指一般任务在某一特定情况下的描述,例如,数据清理任务有特殊任务,比如清理数值和清理分类值。 流程实例:流程实例是最低层次的任务,包括行动记录、决策和实际数据挖掘的结果。CRISP-DM参考模型的一般任务和输出2.5 数据挖掘支撑技术概述 vDM技术数据挖掘统计学机器学习高性能计算数据库及数据仓库决策支持系统可视化2.5.1 数据挖掘:验证与发现v查询提取、验证/分析工具 决策支持系统、主管信息系统、一些查询工具 访问数据库记录 获取已有模式验证方法(verification method) 过程:假设验证vDM是发现工具。 发现趋势,产生结果集 少量用户指导 大量数据集2.5.2 决策

8、支持系统v产生于20世纪80年代中期v目标:为组织机构的主管综合数据,使得他们能够基于数据分析,为决策提供支持。v逐步被联机分析处理(OLAP) 取代v主管信息服务(EIS)、地理信息服务(GIS)、OLAP、知识发现系统、专家系统2.5.3 桌面DSSvMicrosoft Excel、Lotus 1-2-3、Expert-Choice2.5.4 数据仓库与OLAPv数据仓库是什么?它与数据库系统有什么不同?v数据立方体 v数据立方体上的OLAP操作数据仓库数据挖掘的有效平台v数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤v数据仓库提供OLAP工具,可用于不同粒度的数据分析v很

9、多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现 分类 预测 关联 聚集什么是数据仓库?v数据仓库的定义很多,但却很难有一种严格的定义 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 为统一的历史数据分析提供坚实的平台,对信息处理提供支持v数据仓库区别于其他数据存储系统 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”W. H. Inmon数据仓库关键特征一面向主题v面向主题,是数据仓库显著区别于关系数据库系统的一个特征 围绕一些主题,如顾客、供应商、产品等 关注决策者的数据建模与分析,而不是集中于组织机

10、构的日常操作和事务处理。 排除对于决策无用的数据,提供特定主题的简明视图。数据仓库关键特征二数据集成v一个数据仓库是通过集成多个异种数据源来构造的。 关系数据库,一般文件,联机事务处理(OLTP)记录v使用数据清理和数据集成技术。 确保命名约定、编码结构、属性度量等的一致性。 当数据被移到数据仓库时,它们要经过转化。数据仓库关键特征三随时间而变化v数据仓库是从历史的角度提供信息 数据仓库的时间范围比操作数据库系统要长的多。 操作数据库系统: 主要保存当前数据。 数据仓库:从历史的角度提供信息(比如过去 5-10 年) 数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结

11、构可能就不包括时间元素。数据仓库关键特征四数据不易丢失v尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。 操作数据库的更新操作不会出现在数据仓库环境下。 不需要事务处理,恢复,和并发控制等机制 只需要两种数据访问: 数据的初始转载和数据访问(读操作)数据仓库的构建与使用v数据仓库的构建包括一系列的数据预处理过程 数据清理 数据集成 数据变换v数据仓库的使用热点是商业决策行为,例如: 增加客户聚焦 产品重定位 寻找获利点 客户关系管理数据仓库与异种数据库集成v异种数据库的集成方法 传统的异种数据库集成:(查询驱动) 在多个异种数据库上建立包装程序(wrappers)和中介程序

12、(mediators ) 查询驱动方法当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器 数据仓库: (更新驱动) 将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析查询驱动方法和更新驱动方法的比较v查询驱动的方法 需要负责的信息过滤和集成处理 与局部数据源上的处理竞争资源 对于频繁的查询,尤其是涉及聚集(汇总)操作的查询,开销很大(决策支持中常见的查询形式)v更新驱动的方法(带来高性能) 数据经预处理后单独存储,对聚集操作提供良好支持 不影响局部数据源上的处理 集成历史信息,支持负责的多维查询数据仓库

13、与操作数据库系统v操作数据库系统的主要任务是联机事务处理OLTP 日常操作: 购买,库存,银行,制造,工资,注册,记帐等v数据仓库的主要任务是联机分析处理OLAP 数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要OLTP VS. OLAP(1)v用户和系统的面向性 面向顾客(事务) VS. 面向市场(分析)v数据内容 当前的、详细的数据 VS. 历史的、汇总的数据v数据库设计 实体联系模型(ER)和面向应用的数据库设计 VS. 星型/雪花模型和面向主题的数据库设计OLTP VS. OLAP(2)v数据视图 当前的、企业内部的数据 VS. 经过演化的、集成的数据v访问模式 事务操

14、作 VS. 只读查询(但很多是复杂的查询)v任务单位 简短的事务 VS. 复杂的查询v访问数据量 数十个 VS. 数百万个OLAP VS. OLTP (3)v用户数 数千个 VS. 数百个v数据库规模 100M-数GB VS. 100GB-数TBv设计优先性 高性能、高可用性 VS. 高灵活性、端点用户自治v度量 事务吞吐量 VS. 查询吞吐量、响应时间为什么需要一个分离的数据仓库?v 提高两个系统的性能 DBMS是为OLTP而设计的:存储方式,索引, 并发控制, 恢复 数据仓库是为OLAP而设计:复杂的 OLAP查询, 多维视图,汇总v 不同的功能和不同的数据: 历史数据: 决策支持需要历史

15、数据,而这些数据在操作数据库中一般不会去维护 数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总) 数据质量: 不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成多维数据模型 (1)v数据仓库和OLAP工具基于多维数据模型v在多维数据模型中,数据以数据立方体(data cube)的形式存在 数据立方体允许以多维数据建模和观察。它由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。 多维数据模型围绕中心主题组织,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量多维数据模

16、型 (2) 示例 time_keydayday_of_the_weekmonthquarteryeartime 维表location_keystreetcitystate_or_provincecountrylocation 事实表Sales 事实表 time_key item_key branch_key location_key units_sold dollars_sold avg_sales度量item_keyitem_namebrandtypesupplier_typeitem 维表branch_keybranch_namebranch_typebranch 维表多维数据模型 (3)v 在数据仓库中,数据立方体是n-D的(n维) (关系表和电子表格是几维的?)v 示例 AllElectronics的销售数据按维time, item的2-D视图多维数据模型 (3) AllElectronics的销售数据按维time, item和location的3-D视图多维数据模型 (3) AllElectronics的销售数据按维time, item和location的3-D视图的3-D数

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号