第4章数据仓库基本原理

上传人:王**** 文档编号:260545972 上传时间:2022-02-28 格式:PPTX 页数:68 大小:525KB
返回 下载 相关 举报
第4章数据仓库基本原理_第1页
第1页 / 共68页
第4章数据仓库基本原理_第2页
第2页 / 共68页
第4章数据仓库基本原理_第3页
第3页 / 共68页
第4章数据仓库基本原理_第4页
第4页 / 共68页
第4章数据仓库基本原理_第5页
第5页 / 共68页
亲,该文档总共68页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第4章数据仓库基本原理》由会员分享,可在线阅读,更多相关《第4章数据仓库基本原理(68页珍藏版)》请在金锄头文库上搜索。

1、数据仓库和决策支持系统数据仓库和决策支持系统主讲:鲁明羽大连海事大学计算机科学与技术学院研究方向:智能数据分析与数据挖掘电 话:13889576531Email:第4章 数据仓库的基本原理本章目标 随着信息技术的不断推广和应用,许多企业都已在使用MIS系统处理管理事务和日常业务,积累了大量信息 企业管理者开始考虑如何利用这些海量信息为企业管理提供决策支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海量数据中获取特殊知识的深层需求。 这种需求加上计算机软硬件能力的飞速发展,导致了数据仓库和数据挖掘技术的出现。本章目标 本章目标是:1) 了解数据仓库的定义和特点2) 了解数据仓库的数

2、据组织方式3)理解数据仓库的体系结构和参照结构4)了解数据仓库管理员的作用和常用工具集目 录1 数据仓库的起源2 数据仓库的定义和特点3 与数据仓库相关的几个概念4 数据仓库的数据组织5 数据仓库的体系结构6 数据仓库的层次结构7 数据仓库管理员8 数据仓库常用工具集 练 习1. 数据仓库的起源 1.1 数据库技术的发展 60年代早期:利用文件系统,生成各种报告 60年代中期:大量的文件使得维护和开发的复杂性提高,数据的同步亦成问题 70年代早期:E. F. Codd提出关系数据模型和E-R数据建模方法,数据库技术日趋成熟 70年代中期:高性能的OLTP应用越来越广泛1. 数据仓库的起源 1.

3、1 数据库技术的发展 80年代早期:OLTP,MIS/DSS,以IBM的“Information Warehouse”为代表,提出了数据仓库的思想 80年代中期:由于技术和实现费用的原因,数据仓库思想没有引起太多注意 90年代:以W.H.Inmon为代表,数据仓库(Data Warehouse)迅速兴起 = OLAP,DM,OLAM1. 数据仓库的起源 1.2 从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机处理每天所发生的事务数据,而是需要利用信息辅助管理决策过程。这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,而传统的数据库

4、系统无法承担这一责任,主要表现在决策处理中的系统响应问题、决策数据需求问题和决策数据操作问题,等等。 对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域、管理决策分析应用数据特性动态变 化,按字段更新静态,不能直接修改、只定时添加数据结构高度结构化,复杂,适合操作计算简单,适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计 量单位数据仓库与传统数据库的对比Prism Solutions公司创始人之一的W.H.Inmon在Building the

5、Data Warehouse一书中对“数据仓库(DW)”定义如下:数据仓库是一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用于支持管理决策过程。2. 数据仓库的定义和特点 这个定义本身就说明了数据仓库中数据的组织方式以及建立数据仓库的目的是什么。数据仓库特点: 面向主题性 数据集成性 数据的时变性 数据的非易失性 数据的集合性 支持决策作用 2. 数据仓库的定义和特点 其中前4项是其主要特点。数据仓库中的数据是面向主题的. 主题是数据归类的标准,每个主题对应一个客观分析领域,如客户和商店等,因此,数据仓库中的数据是按主题要求而组织的。 业务应用 主题领域2. 数据仓库的定义和特点

6、例如,对一个保险公司来说,它的业务应用系统可能有汽车保险、人寿保险、健康医疗保险及家庭财产保险等,而保险公司的主题领域可以是客户、保单、保费及索赔等。一个数据仓库可以包含若干个主题,而每个主题可以分解为若干个子主题,每个子主题又可进一步分解为更细的子主题,形成逐层分解的主题层次结构。2. 数据仓库的定义和特点 2. 数据仓库的定义和特点 数据仓库中的数据是集成的. 为了实现辅助决策的目标和要求,数据仓库需要集成多个部门、不同系统的大量数据。需要集成的数据源既有关系数据库,也有文本数据库、面向对象数据库以及文件系统等,而且同一种数据模型集合体中又有不同的DBMS。因此,数据集成是一个复杂问题。

7、不同数据源中的数据并不是全部转移到数据仓库中,而是运用多种转换规则,通过选择、合并、变换等方法转换为数据仓库中的集成数据 -需要ETL模块支持。 此外,数据源中可能存在数据重复、不一致和各种错误,因此,需要进行数据清洗。2. 数据仓库的定义和特点 数据仓库中的数据是集成的. 不同的应用在编码、命名、属性的度量等方面都有很大的差别,数据集成就是要解决这些问题。举例1:编码APP A:M,FM,FAPP B:1,0APP C:X,YAPP D:MALE,FEMALE2. 数据仓库的定义和特点 举例2:命名APP A:IDUser_IDAPP B:IdentityAPP C:User_IDAPP D

8、:Custom_ID 举例3:属性度量APP A:CMCMAPP B:INCHESAPP C:MAPP D:DM2. 数据仓库的定义和特点 举例4:关键字冲突APP AKEY CHAR(10)APP BKEY DEC FIXED(9,2)APP CKEY PIC 999999APP DKEY CHAR(12) KEY CHAR(12)举例5:多源APP A:DESCRIPTION1APP B:DESCRIPTION2? DESCRIPTIONAPP C:DESCRIPTION3 2. 数据仓库的定义和特点 数据仓库中的数据是稳定的. 数据仓库包含大量的历史数据,经集成进入数据仓库后主要用于决策

9、分析(查询类操作),而极少更新。可以将其理解为只读的。 业务应用 数据仓库插入更新删除插入访问查询加载 以记录为单位的数据操作大量的数据加载和数据访问2. 数据仓库的定义和特点 数据仓库中的数据是随时间变化的. 主要体现在数据的时限、数据的内容、数据的码健。 业务应用 数据仓库数据时限:1个月至1年 数据时限:5到10年数据内容:记录更新 数据内容:复杂的数据快照关键字结构:可能包含时间元素 关键字结构:包含时间标记2. 数据仓库的定义和特点 数据仓库是为管理决策提供服务的. 数据仓库主要应用在两个方面:使用浏览分析工具在数据仓库中寻找有用的信息;基于数据仓库,在数据仓库系统上建立应用,形成决

10、策支持系统。 事务处理 分析处理从数据数据从数据 信息(知识) OLTP OLAP(DM、OLAM)DBDW3. 与数据仓库相关的几个概念 OLTP:联机事务处理,完成对数据的增、删、改等操作 OLAP:联机分析处理,完成对数据的向上综合、向下细化、旋转、切片和分割(又称局部分析)等操作。OLAP以多维分析为基础,刻画了管理和决策过程中对数据进行多层面、多角度的分析处理。又分为MOLAP、ROLAP3. 与数据仓库相关的几个概念 DM:数据挖掘,从大量数据中发现数据模式, 预测趋势和行为,致力于知识的自动发现 OLAM:联机分析挖掘,将OLAP与DM技术结合起来的一种技术 DSS:决策支持系统

11、,利用OLAP、DM、OLAM等技术为企业或政府的管理决策提供服务的系统4. 数据仓库的数据组织 数据仓库中的数据依据下面4个原则进行组织:1) 面向主题2) 采用关系表结构形式的数据模式3) 在数据源和数据仓库之间建立转换规则4) 数据按粒度分为若干个层次4. 数据仓库的数据组织1)面向主题组织数据构建数据仓库的前提首先是确定数据仓库的主题,然后才能以主题为单位,组织满足主题目标与需求的数据。一个数据仓库一般有若干个主题,而每个主题又有一个数据集合体作为支撑,称为主题域(subject field),因此,一个数据仓库可以按主题划分为若干个主题域。主题域应具有:独立性:主题域有明确的边界和独

12、立内涵,可以有交叉,但不影响其独立性。完备性:每个主题的分析要求所需要的数据均能在其主题域中获得。4. 数据仓库的数据组织2)按关系模式组织主题域数据仓库中的主题域按照传统的关系表形式进行组织。一个主题域往往由若干个关系表构成,而这些关系表中的数据来自于数据源,其中的属性按统计、汇总需求,可分为三种形式:静态的(即不可统计的)、动态的(即可统计的)以及半动态的(即有时可统计的)。在同一个主题域内的各个关系表之间,一般存在一定的联系,为此,需要建议一个主题域的公共码键,称为主题码(subject key),以关联主题域内各个关系表。4. 数据仓库的数据组织3)在数据源和数据仓库之间建立转换规则由

13、于不同数据源中的数据并不是全部转移到数据仓库中,而是通过选择、合并、变换等方法,转换为数据仓库中的集成数据,因此,需要在数据源和数据仓库之间建立数据转换规则。这些数据转换规则形成了数据仓库管理系统中元数据,而ETL模块负责运用所建立的转换规则进行数据加载。4. 数据仓库的数据组织数据转换规则规定:v数据源中的哪些数据进入数据仓库哪个数据域的哪些关系表中?v在进入数据仓库之前,数据源中哪些数据需要合并为主题域中的哪项数据?v在进入数据仓库之前,数据源中哪些数据需要进行何种变换?v其它转换规定 4. 数据仓库的数据组织4)数据按粒度分为若干个层次综合与细化是数据仓库中的两种主要操作,为此,数据仓库

14、中的数据需要划分为不同层次,而每个数据层次反映了数据综合的程度(称为粒度)。一般地,数据仓库包含4个级别的数据:a) 当前数据b) 轻度综合数据c) 高度综合数据d) 历史数据 数据仓库从传统数据库或其它数据源获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又分为轻度综合层和高度综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层。高度综合 01-02年所有产 品月销售数据轻度综合 01-02年某产品 周销售数据当前数据 01-02年 销售数据历史数据 1980-2000 销售数据数据仓库的逻辑结构元数据4. 数据仓库的数据组织4)数

15、据按粒度分为若干个层次数据粒度越大,其综合度越高,细化程度越低;反之,数据粒度越小,其细节程度越大,综合度越低。上页的数据仓库数据层次划分是一种常见方式,在实际应用中,还可以进一步提升或降低。 元 数 据早期细节级销售细节1994-1997操作型转 换当前细节级销售细节1998-2003子生产线每周销售1990-2003高度综合级 轻度综合级(数据集市)生产线每月销售1994-2003数据仓库的数据组织实例1. 业务背景:某个采用会员制的连锁超市的数据仓库2. 现有系统现状:采购管理系统,销售管理系统, 库存管理系统,人事管理系统3. 现有系统的数据库结构:1) 采购管理系统 订单(订单号,供

16、应商号,日期,总金额) 订单明细(订单号,商品名,商品号,类别, 单价,数量) 供应商(供应商号,供应商名,地址,电话)数据仓库的数据组织实例2)销售管理系统 顾客(顾客号,姓名,性别,年龄, 文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,金额)3)库存管理系统 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,保管员,地点,库存商品描述)数据仓库的数据组织实例4)人事管理系统 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话)4. 主题选择:商品,供应商,顾客5. 主题域:分别对应三个主题(1)商品主题域 P 数据源:采购,销售和库存管理系统数据仓库的数据组织实例 数据关系表: P1 - 商品固有信息:商品号,商品名,类别 P2 - 商品采购信息:商品号,供应商号,供应价 供货日期,供应量 P3 - 商品销售信息:商品号,顾客号,售价 销售日期,销售量 P4 - 商品库存信息:商品号,库存号,库存量,日期 主题码:商品号 数

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号