大学课件ch14数据仓库与数据挖掘(1)

上传人:bin****86 文档编号:55662145 上传时间:2018-10-03 格式:PPT 页数:89 大小:517.50KB
返回 下载 相关 举报
大学课件ch14数据仓库与数据挖掘(1)_第1页
第1页 / 共89页
大学课件ch14数据仓库与数据挖掘(1)_第2页
第2页 / 共89页
大学课件ch14数据仓库与数据挖掘(1)_第3页
第3页 / 共89页
大学课件ch14数据仓库与数据挖掘(1)_第4页
第4页 / 共89页
大学课件ch14数据仓库与数据挖掘(1)_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《大学课件ch14数据仓库与数据挖掘(1)》由会员分享,可在线阅读,更多相关《大学课件ch14数据仓库与数据挖掘(1)(89页珍藏版)》请在金锄头文库上搜索。

1、2018年10月3日星期三,数据库教程(沈-06.8),1,第四部分 新技术篇,ch.14数据仓库与数据挖掘1. 概述2. 数据仓库3 .数据挖掘,2018年10月3日星期三,数据库教程(沈-06.8),2,Ch14. 1.概述,(1)数据管理的层次结构(2)数据仓库的产生(3)从数据仓库到数据挖掘,2018年10月3日星期三,数据库教程(沈-06.8),3,Ch14. 1.概述,(1)数据管理的层次结构下图不同管理层次的三类信息系统:,2018年10月3日星期三,数据库教程(沈-06.8),4,Ch14. 1.概述,事务处理系统(TPS,Transaction Processing Syst

2、em)对于基层管理人员来说,所要完成的数据管理任务基本上是针对某种业务应用来做单项性管理。对这个层次的信息系统来说,一般是掌握基层业务部门的操作信息、运行状态、完成日常管理。本书介绍的关系数据库技术,建立相应的联机事务处理系统(OLTP,Online Transaction Processing),显然能很好地完成这项任务。 管理信息系统(MIS,Management Information System)对于中层管理人员来说,所要完成的数据管理任务是起承上启下的作用,一方面要综合有关基层部门的有关信息,另一方面要向高层领导提供相关决策信息,并落实高层领导提出的全局性总目标。本书介绍的关系数据

3、库技术,基于OLTP建立的信息系统,信息内容适合综合化处理,也可以较好地完成任务。 决策支持系统(DSS,Decision Support System)对于高层领导人员来说,主要的任务是制定企事业单位的总目标并提出落实总目标的方针与预算。在这一层次,数据管理的任务重要应是对数据的决策分析。目前,数据都是DBMS统一管理,企事业单位都相应建立起了操作型数据库。以下我们看到,在这种操作型数据库基础上,想要构建DSS,有很大困难,是不适合的。在这种背景下,数据仓库(Data Warehouse)技术应运而生。,2018年10月3日星期三,数据库教程(沈-06.8),5,Ch14. 1.概述,(2)

4、数据仓库的产生 数据管理对于高层管理人员,主要是进行决策分析。从决策分析的要求看,传统的操作型数据库,所建立OLTP系统是很不合适的。为什么呢?可从决策分析所需要数据有以下几个方面的特征来看: 面向主题:决策分析都是围绕一些主题而展开的,如销售企业,围绕顾客、供应商、产品、销售组织等主题,关注决策者关注的数据建模与分析,而不把注意力放在机构的日常操作和事务处理。对于决策分析的主题来说,所需的数据多为总结性数据,而不一定需要操作型数据库大量存放的细节数据。这也正解释高层管理人员对现行数据管理的一种批评“数据丰富,信息贫乏”。 集成的:决策分析所需数据将是多种异构数据源,不但需要本单位的数据,也需

5、要有关的其他单位的数据。这些数据有些来自各类数据库,有些来自文件,也有些来自Internet网获取的HTML文件。所需的数据是多种异构数据源的集成。 时变的:决策分析不但需要反映当前情况的数据(如23个月),还需要历史数据(通常是510年),以便分析变化趋势,进行决策。由于数据须在时间维上展开,数据量将是非常巨大的。 非易失的:决策分析所需的数据不一定需要及时更新,通常只需两种访问方式:数据的初始化装入和以读为主的访问。 在这样的背景下,数据仓库技术应运而生。,2018年10月3日星期三,数据库教程(沈-06.8),6,Ch14. 1.概述,20世纪80年代中期,提出了数据仓库的概念。到底什么

6、是数据仓库?可以有多种方式定义,很难提出一个严格的定义。现在通常采用被称为数据仓库之父的W.H. Inmon的说法作为定义:“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。(3)从数据仓库到数据挖掘 对于构建的数据仓库,如何使用?数据仓库系统的用户界面包括的若干决策工具和接口,其中一个重要的技术就是数据挖掘(Data Mining,简称维DM,也称为知识发现KDD,Knowledge Discovery in DB and DW)。,2018年10月3日星期三,数据库教程(沈-06.8),7,Ch14. 2. 数据仓库,(1)概述 (2)数据仓库的建立数

7、据模型、数据模式 (3)OLAP技术,2018年10月3日星期三,数据库教程(沈-06.8),8,Ch14. 2. 数据仓库,(1)概述 1)数据仓库的定义 现对数据仓库定义中的4个特性作进一步解释: 主题性:传统的操作型数据库系统都是围绕某一企事业单位的应用来组织数据的,而数据仓库系统则是用于决策分析,要面向主题来组织数据。下图表示数据组织围绕保险公司面向主题的一个例子。,2018年10月3日星期三,数据库教程(沈-06.8),9,Ch14. 2. 数据仓库,集成性:面向应用的操作型数据库系统,对不同应用有不同的表示方法,而当数据进入数据仓库时,必须消除各种应用问题的许多不一致性。如图示例说

8、明数据仓库的集成问题。,2018年10月3日星期三,数据库教程(沈-06.8),10,Ch14. 2. 数据仓库,时变性:操作型数据库一般的数据时间期限是6090天,而数据仓库通常要存放510年的数据;操作型数据库含有“当前值”的数据,其准确性在访问时是有效的,但此当前值数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照;操作型数据库的基本结构中可能包含也可能不包含时间元素,如年、月、日等。而数据仓库中的基本数据结构总是包含某种时间元素。图示例说明数据随时间变化的问题。,2018年10月3日星期三,数据库教程(沈-06.8),11,Ch14. 2. 数据仓库,非易失性:对于传

9、统的操作型数据库通常是一次访问或处理一到若干个记录,可随时对数据进行更新;但数据仓库中的数据具有非常不同的特性:其数据仓库不进行一般意义下的数据更新。图表示数据的非易失性问题。,2018年10月3日星期三,数据库教程(沈-06.8),12,Ch14. 2. 数据仓库,2)DBS与DWS DBS是我们前面详细讲过的一种数据管理系统,第一部分就概述了系统组成结构的三大部分:数据库、数据管理系统和用户界面。联机操作型数据库系统主要任务是执行联机事务和查询处理,所以,这种系统也称为联机事务处理系统(OLTP,Online Transaction Processing)。 数据仓库是在数据库基础上产生的

10、一种数据集合,用于数据管理中的决策分析。对数据仓库而言,自然也有数据库系统概念,是管理、使用数据仓库的一种数据管理系统。它的系统组成体系机构可用图表示。,2018年10月3日星期三,数据库教程(沈-06.8),13,Ch14. 2. 数据仓库,(2)数据仓库的建立数据模型、数据模式 1)数据仓库模型 正像建立数据库的重点是研究数据模型、数据模式一样,对于数据仓库来说,有必要深入理解两个概念数据模型与数据模式。 数据仓库一般来说是基于多维数据模型(Multi-Dimension Data Model)。该模型将数据看作数据立方体(Data Cube)形式。 现举例说明数据立方体的概念。下图是销售

11、数据的数据立方体示例。,2018年10月3日星期三,数据库教程(沈-06.8),14,Ch14. 2. 数据仓库,所有的销售数据组织成立方体形式,以多维形式对数据建模和观察,它由维和事实定义。维是关于一个企事业想要记录的数据方面,如示例中列出的商店时间商品就是设计的3个维,每一个维都有一个维表与之相连,进一步描述这个维。例如,商店的维表可以包含属性:商店名、地址、电话、经理等。事实多维数据模型都是围绕主题来组织的,该主题就用事实表表示。事实是用数值度量的。例如,上面例子围绕销售主题建立数据仓库的事实,事实表包括相关维表的关键字、销售量、销售金额等。立方体比较直观,便于图示。但在数据仓库中,数据

12、立方体的多维,当然不是局限于3维,可以是n维的。,2018年10月3日星期三,数据库教程(沈-06.8),15,Ch14. 2. 数据仓库,2)数据模式 采用数据模型来描述某一具体企事业单位的数据仓库数据,就引入了另一个概念数据模式。 多维数据模型,具体的维表与事实表如何组织描述,可以有多种不同形式。常见的形式有:星型、雪花型以及事实星座型。 现仍以销售数据仓库为例。图14-8,14-9,14-10分别示例说明三种数据模式。 图14-8 销售数据星型模式:,2018年10月3日星期三,数据库教程(沈-06.8),16,Ch14. 2. 数据仓库,图14-9 销售数据雪花模式:,2018年10月

13、3日星期三,数据库教程(沈-06.8),17,Ch14. 2. 数据仓库,图14-10 销售与货运事实星座模式:,2018年10月3日星期三,数据库教程(沈-06.8),18,Ch14. 2. 数据仓库,在上述数据建模中,对数据立方体再介绍以下概念。 度量(Measure)的分类与计算数据立方体的度量是一个数值函数,指的是对数据立方体的每一个点所求的值。数据立方体空间的多维点,可由维值对来定义,例如某一空间点上,时间“1季度”,商品“PC机”,商店“No.1”,通过对给定点的各维值对来聚集数据,即计算该点的度量值。度量可以根据所用的聚集函数而分成三类: 分配型:假设数据划分为n个集合,函数在每

14、一部分上计算得到一个聚集值。如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的数据一样,则该函数就是一种分配型的计算。例如:计算Count()可以这样计算,先将数据立方体分割为若干个子立方体的集合,对每个子立方体计算Count(),然后求和。这样,Count()就是分配型的聚集函数。同理,Sum(),Min(),Max()也是分配型聚集函数。 代数型:如果能够由一个具有M个参数的代数函数计算(其中M是一个有界整数),而每个参数都可由一个分配型聚集函数求得,则称这种计算是代数型的。例如,Avg()可由Sum()/Count()计算,其中Sum()与Count()都是分配型聚集函数。类

15、似地,min_N(),max_N()等也都是代数型聚集函数。 整体型:整体型聚集函数既不满足分配型,也不满足代数型,例如取中位数(一组数的位数数是指数据按大小排序后,取居中的一个数,若有偶数个数,则取居中两数的平均值)就是一个整体型聚集函数。 概念分层数据模式中有一个概念分层的问题,概念分层是一个映射序列,对于数据模式来说,隐含有概念分层的问题,例如,商品维表中的小类大类,商店维表中的市名省名,如期维表中的日月季度年。数据模式中的概念分层,为数据管理的分析综合提供了方便。,2018年10月3日星期三,数据库教程(沈-06.8),19,Ch14. 2. 数据仓库,3)构建数据仓库的步骤 与数据库

16、系统中数据库设计过程相类似,数据仓库的构建要按一定的步骤进行,构建数据仓库一般有两个主要步骤:数据准备阶段;数据仓库模式设计阶段。 数据准备阶段:主要是ETL(抽取、转换、装载),数据抽取是指从异构多数据源中围绕主题选取相关的数据,并要对这些数据进行清理,消除噪声和不一致数据,并完成集成过程中的转换,使数据具有集成性,表示方式一致,并转换为适合聚集操作的有关形式。经过数据转换阶段的工作,才能将数据源装载到数据仓库中。 数据仓库模式设计阶段:面对实际应用问题,如何面向主题进行数据仓库设计(采用多维数据模型设计星型、雪花等数据模式)是一个用户、数据仓库技术人员共同合作要完成的一个重要工作,有较大的

17、难度。,2018年10月3日星期三,数据库教程(沈-06.8),20,Ch14. 2. 数据仓库,设计方法通常有三种:自顶向下(Top-Down),自底向上(Bottom-Up),混合方法。自顶向下方法由总体规划与设计开始,当对必须解决的业务应用问题比较清楚,已掌握成熟的技术,可采用这种方法。首先,建立企业级的数据仓库:对已所要抽取的操作型数据库细工和其它数据,使用集中模式,一次数据重构,将冗余与不一致尽量减少,构建全局性的企业数据仓库;然后,围绕部门主题,建立数据集市(Data Mart)。 自底向上方法从实验与原型开始,先建部门数据集市,然后扩大到企业数据仓库。首先,局限在一定的主题范围,本部门自治设计,建立部门局部的数据集市;然后,在若干个数据集市建成后,去除冗余与不一致性,将创建企业数据仓库作为首期目标。 混合方法可以认为是上面两种方法的混合,既能利用自顶向下方法有计划的战略性特点,由能保持自底向上方法快速实现与较快应用的优点。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号