数据仓库与数据挖掘概述

上传人:艾力 文档编号:49148741 上传时间:2018-07-24 格式:PPT 页数:58 大小:1.68MB
返回 下载 相关 举报
数据仓库与数据挖掘概述_第1页
第1页 / 共58页
数据仓库与数据挖掘概述_第2页
第2页 / 共58页
数据仓库与数据挖掘概述_第3页
第3页 / 共58页
数据仓库与数据挖掘概述_第4页
第4页 / 共58页
数据仓库与数据挖掘概述_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《数据仓库与数据挖掘概述》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘概述(58页珍藏版)》请在金锄头文库上搜索。

1、高性能计算其他数据库统计学人工智能可视化数据挖掘数据仓库仓库 与数据挖掘是一个多学科领领域,从多个学科汲取营营养。这这些学科包括数据库库技术术、人工智能、机器学习习、神经经网络络、统计统计 学、模式识别识别 、知识库识库 系统统、知识获识获 取、信息检检索、高信能计计算和数据可视视化。本课课程以数据仓库仓库 与数据挖掘的基本概念和基本方法为为主要内容,以方法的应应用为为主线线,系统统叙述数据仓仓库库和数据挖掘的有关概念和基础础知识识,使学生尽快掌握数据仓库仓库 和数据挖掘的基本概念,基本方法和应应用背景。课程介绍教学目的本课课程的目的主要是要求学生能对对数据仓库仓库 和数据挖掘的基本方法和基本

2、概念有整体的了解,掌握建立数据仓库仓库 的原理和方法,从理论论上掌握数据仓库仓库 、OLAP联联机分析的基本概念、原理、主要算法及应应用,对对数据挖掘的关联规则联规则 ,分类类方法,聚类类方法有深入的了解,并能够够在Clementine软软件使用过过程中熟练练掌握这这些方法。Clementine 介绍1999年SPSS公司收购了ISL公司,对Clementine产品 进行重新整合和开发,现在Clementine已经成为SPSS公 司的又一亮点。 作为一个数据挖掘平台, Clementine 结合商业技术可以快速建立预测性模型,进而应用到商业 活动中,帮助人们改进决策过程。强大的数据挖掘功能和

3、显著的投资回报率使得Clementine在业界久负盛誉。同 那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个 业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯 穿业务流程的始终,在缩短投资回报周期的同时极大提高 了投资回报率。数据挖掘工具Clementine连蝉六年桂冠CRoss Industry Standard Process - for Data Mining6个步骤业务理解 数据理解 数据准备 建模 模型评估 模型部署Ease of Use: The user interface数据抽取、转换、加载第第1 1章章数据仓库与数据挖

4、掘概述数据仓库与数据挖掘概述数据仓库(DW)是利用数据资源提供决策支持 。在数据仓库中利用多维数据分析来发现问 题,并找出产生的原因。能从大量历史数据中 预测未来。 数据挖掘(DM)是从数据中挖掘出信息和知识 。n数据仓库、数据挖掘和联机分析处理(OLAP) 结合起来,完成支持决策的系统,称为决策支 持系统(DSS)。n数据仓库、数据挖掘、联机分析处理等结合起 来的技术称为商业智能(BI)。商业智能是一 种新的智能技术。 1.1 数据仓库的兴起1.2 数据挖掘的兴起1.3 数据仓库和数据挖掘的结合1.1 数据仓库的兴起n1.1.1 从数据库到数据仓库n1.1.2 从OLTP到OLAPn1.1.

5、3 数据仓库的定义与特点1.1.1 1.1.1 从数据库到数据仓库从数据库到数据仓库(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支 持决策1.数据库用于事务处理n数据库作为数据资源用于管理业务中的事务处 理。它已经成为了成熟的信息基础设施。n数据库中存放的数据基本上是保存当前数据, 随着业务的变化随时在更新数据库中的数据。n不同的管理业务需要建立不同的数据库。例如 ,银行中储蓄业务、信用卡业务分别要建立储 蓄数据库和信用卡数据库。数据仓库(Data Warehouse,DW)n面向主题的、集成的、稳定的、随时间不断 变化的数据库系统

6、nETLn数据抽取(Extraction)n数据转换(Transformation)n数据加载(Loading)2.数据仓库用于决策分析n数据库用于事务处理,数据仓库用于决策分析n数据库保持事务处理的当前状态,数据仓库既 保存过去的数据又保存当前的数据n数据仓库的数据是大量数据库的集成n对数据库的操作比较明确,操作数据量少。对 数据仓库操作不明确,操作数据量大(1)W.H.Inmon在建立数据仓库一书中,对数据 仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同 时间的数据集合,用于支持经营管理中决策制定过程 。1.数据仓库定义(2)SAS软件研究所观点:数据仓库是一种管理技术,旨在通过

7、通畅 、合理、全面的信息管理,达到有效的决策 支持。2. 2. 数据仓库特点数据仓库特点(1 1)数据仓库是面向主题的)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一 个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽 取同一客户的数据整理而成。在DW中能全面地分析客户数据,再决定是否继续 给予贷款。(2 2)数据仓库是集成的)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成 。对不同的数据来源进行统一数据结构和编码。 统一原始数据中的所有矛盾之处,如字段的同名异 义,异名同义,单位不统一,字长不一致

8、等。将原始数据结构做一个从面向应用到面向主题 的大转变。(3 3)数据仓库是稳定的)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集 成进入数据仓库后是极少或根本不更新的。(4 4)数据仓库是随时间变化的)数据仓库是随时间变化的数据仓库内的数据时限在510年,故数据的 键码包含时间项,标明数据的历史时期,这适合 DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的 正确的有效的数据。(5)数据仓库的数据量很大大型DW的数据是一个TB(1000GB)级数据 量(一般为10GB级DW,相当于一般数据库 100MB的100倍)(6)数据仓库软、硬件要求较高需要一个巨大的硬件平台需

9、要一个并行的数据库系统3.数据库与数据仓库对比1.1.2从OLTP到OLAP1.联机事物处理(OLTP)2.联机分析处理(OLAP)3.OLTP与OLAP的对比1.联机事物处理(OLTP)n联机事物处理(On Line Transaction Processing,OLTP)是在网络环境下的事 务处理工作,以快速的响应和频繁的数据修 改为特征,使用户利用数据库能够快速地处 理具体的业务。nOLTP是用户的数据可以立即传送到计算中心 进行处理,并在很短的时间内给出处理结果 。也称为实时系统(Real time System)。nOLTP主要用于包括银行业、航空、邮购订单 、超级市场和制造业等的输

10、入数据和取回交 易数据。如银行为分布在各地的自动取款机 (ATM)完成即时取款交易;机票预定系统能 每秒处理的定票事务峰值可以达到20000个 。nOLTP是事务处理从单机到网络环境地发展新 阶段。 nOLTP的特点在于事务处理量大,应用要 求多个并行处理,事务处理内容比较简 单且重复率高。n大量的数据操作主要涉及的是一些增加 、删除、修改、查询等操作。每次操作 的数据量不大且多为当前的数据。 nOLTP处理的数据是高度结构化的,数据 访问路径是已知的,至少是固定的。nOLTP面对的是事务处理操作人员和低层 管理人员。n但是,为高层领导者提供决策分析时, OLTP则显得力不从心。2.联机分析处

11、理(OLAP)nE.F.Codd认为决策分析需要对多个关系数据库 共同进行大量的综合计算才能得到结果。nE.F.Codd在1993年提出了多维数据库和多维 分析的概念,即联机分析处理(On Line Analytical Processing,OLAP)概念。n关系数据库是二维数据(平面),多维数据库 是空间立体数据。nOLAP(On-Line Analytical Processing)n商务智能的直接数据来源?nOLTP?n数据仓库?n多维数据集?n什么是多维数据集?“多维数据集是一种结构,包含了一个或多个度量。这些度量 用于所有维度的成员的每个唯一组合。”nOLAP专门用于支持复杂的决策

12、分析操作 ,侧重对分析人员和高层管理人员的决 策支持,nOLAP可以应分析人员的要求快速、灵活 地进行大数据量的复杂处理,并且以一 种直观易懂地形式将查询结果提供给决 策制定人 nOLAP软件,以它先进地分析功能和以多维 形式提供数据的能力,正作为一种支持企业 关键商业决策的解决方案而迅速崛起。nOLAP的基本思想是决策者从多方面和多角 度以多维的形式来观察企业的状态和了解企 业的变化。3.OLTP与OLAP的对比 OLTPOLAP细节细节 性数据综综合性数据当前数据历历史数据经经常更新不更新,但周期性刷新一次性处处理的数据量小一次处处理的数据量大对对响应时间应时间 要求高响应时间应时间 合理

13、面向应应用,事务驱动务驱动面向分析,分析驱动驱动1.2数据挖掘的兴起1.2.1 从机器学习到数据挖掘1.2.2 数据挖掘含义1.2.3 数据挖掘与OLAP的比较1.2.4 数据挖掘与统计学1.2.1 从机器学习到数据挖掘n学习是人类具有的智能行为,主要在于获取知识 。n机器学习是研究使计算机模拟或实现人类的学习 行为,即让计算机通过算法自动获取知识。n机器学习是人工智能领域中的重要研究方向。n20世纪60年代开始了机器学习的研究。 (1) 1980年在美国召开了第一届国际机器学习研讨会;明确了机器学习是人工智能的重要研究方向(2) 1989年8月于美国底特律市召开的第一届知识发现( KDD)国

14、 际学术会议;首次提出知识发现概念(3) 1995年在加拿大召开了第一届知识发现和数据挖掘( DM)国际学术会议;首次提出数据挖掘概念(4) 我国于1987年召开了第一届全国机器学习研讨会。1.2.2数据挖掘含义知识发现(KDD):从数据中发现有用知识的整个过程。数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。如在人类数据库中挖掘知识为:(头发=黑色)(眼睛=黑色)亚洲人该知识覆盖了所有亚州人的记录。数据挖掘做什么?n预测未来发生的事情(分类与回归)n将人或事物按照属性聚类n关联可能一起发生的事件(购物篮)n确定事件发生的序列(股票涨落)n异常检测数据挖掘啤酒与尿

15、布的故事:在一家超市里,有一个有趣的现象:尿布和啤酒 赫然摆在一起出售,但是这个奇怪的举措却使尿布和 啤酒的销量双双增加了。原来,美国的妇女们经常会嘱咐她们的丈夫下班 以后要为孩子买尿布。而丈夫在买完尿布之后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买 的机会还是很多的。1.2.3数据挖掘与OLAP的比较1. OLAP的多维分析OLAP的典型应用,通过商业活动变化的查询 发现的问题,经过追踪查询找出问题出现的原 因,达到辅助决策的作用。2. 数据挖掘数据挖掘任务在于聚类(如神经网络聚类)、 分类(如决策树分类)、预测等。1.2.4 数据挖掘与统计学n统计学与国家政治有紧密的关系。n支

16、配着社会现象的法则和方法是概率论。n通过对全部对象(总体)进行调查,为制定 计划和决策提供依据。统计学与数据挖掘的比较 n统计学主要是对数量数据(数值)或连续值数 据(如年龄、工资等),进行数值计算(如初 等运算)的定量分析,得到数量信息。n数据挖掘主要对离散数据(如职称、病症等) 进行定性分析(覆盖、归纳等),得到规则知 识。n统计学与数据挖掘是有区别的。但是,它们之 间是相互补充的。1.3 数据仓库和数据挖掘的结合1.3.1 数据仓库和数据挖掘的区别与联系1.3.2 基于数据仓库的决策支持系统1.3.3数据仓库与商业智能1.3.1 数据仓库和数据挖掘的区别与联系1. 数据仓库与数据挖掘的区别2.数据仓库与数据挖掘的关系3.数据仓库中数据存储特点4.数据仓库中数据挖掘特点1. 数据仓库与数据挖掘的区别n数据仓库是一种存储技术,它能适应于 不同用户对不同决策需要提供所需的数 据和信息。n数据挖掘研究各种方法和技术,从大量 的数据中挖掘出有用的信息和知识。2.数据仓库与数据挖掘的关系n数据仓库与数据挖掘都是决策支持新技术。 但它们有着完全不同

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号