第2次课-数据仓库new

上传人:王**** 文档编号:260546201 上传时间:2022-02-28 格式:PPTX 页数:82 大小:1.60MB
返回 下载 相关 举报
第2次课-数据仓库new_第1页
第1页 / 共82页
第2次课-数据仓库new_第2页
第2页 / 共82页
第2次课-数据仓库new_第3页
第3页 / 共82页
第2次课-数据仓库new_第4页
第4页 / 共82页
第2次课-数据仓库new_第5页
第5页 / 共82页
亲,该文档总共82页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第2次课-数据仓库new》由会员分享,可在线阅读,更多相关《第2次课-数据仓库new(82页珍藏版)》请在金锄头文库上搜索。

1、第 2 章 数据仓库第2章 数据仓库主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计第2章 数据仓库主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计第2章 数据仓库数据仓库基本概念 随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持(DSS、OLAP)应用背景及需求需求一种面向分析的环境;一种把相关的各种数据转换成有商业价值的信息的技术。第2章 数据仓库数据仓库基本概念从数据库到数据仓库 数据库系统能够很好的用于事务处理,但它对分析处

2、理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(OLTP) 应用和以分析处理为主的DSS应用共存于一个数据库系统时,就会产生许多问题。 例如,事务处理应用一般需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。 人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。 数据仓库技术正是为了构建这种新的分析处理环境

3、而出现的一种数据存储和组织技术。第2章 数据仓库数据仓库基本概念主要通过以下五点区分开来。 用户和系统的面向性OLTP是面向顾客的,用于事务和查询处理; OLAP是面向市场的,用于数据分析 数据内容 OLTP系统管理当前数据; OLAP系统管理大量历史数据,提供汇总和聚集机制. 数据库设计 OLTP采用实体-联系ER模型和面向应用的数据库设计; OLAP采用星型或雪花模型和面向主题的数据库设计. 视图 OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据; OLAP则相反. 访问模式 OLTP系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制; OLAP系统的

4、访问大部分是只读操作OLTP(on-line transaction processing)与OLAP(On-Line Analytical Processing)区别 第2章 数据仓库操作型数据分析型数据细节的综合的,或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事物驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求第2章 数据仓库数据仓库基本概念数据仓库与决策支持系统 用户在进行决策制定时需要得到企业各方面的信息

5、,因此用户一般首先根据各个业务部门数据库中的数据,创建数据仓库,存储各种历史信息和汇总信息。 对数据仓库的进一步应用由功能强大的分析工具来实现。现在主要有三类分析工具可用于决策支持。 第一类能够支持涉及分组和聚集查询,并能够对各种复杂的布尔条件、统计函数和时间序列分析提供支持的系统。主要由上述查询组成的应用称为联机分析处理,即OLAP。在支持OLAP查询的系统中,数据最好看成是一个多维数组第2章 数据仓库数据仓库基本概念数据仓库与决策支持系统 第二类系统仍为支持传统SQL查询的DBMS,但为了有效地执行OLAP查询而进行了特殊的设计。这些系统可以看作是为决策支持应用进行了优化的关系数据库系统。

6、许多关系数据库厂商对他们的产品进行了扩展,并且随着时间的推移,专门的OLAP系统和支持决策支持的关系数据库系统之间的差别将逐渐取消第2章 数据仓库数据仓库基本概念 第三类的分析工具可用于在大量的数据集合中,找到有意义的数据趋势或者模式,而不是上面提到的复杂数据查询。在数据分析过程中,尽管分析者能够判定得到的数据模式是否有意义,但是生成查询来得到有意义的模式还是很困难的。例如,分析者查看信用卡使用记录,希望从中找出不正常的信用卡使用行为,以表明是被滥用的丢失的信用卡;商人希望通过查看客户记录找出潜在的客户来提高收益。许多应用涉及的数据量很大,很难用人工分析或者传统的统计分析方法进行分析,数据挖掘

7、的目的就是对这种大量数据的分析提供支持。数据仓库与决策支持系统第2章 数据仓库数据仓库基本概念数据仓库定义及特征 数据仓库理论的创始人W.H.Inmon在其Building the Data Warehouse一书中,给出了数据仓库的四个基本特征: 面向主题, 数据是集成的, 数据是不可更新的, 数据是随时间不断变化的第2章 数据仓库数据仓库基本概念数据仓库定义及特征面向主题主题是在较高层次上对数据抽象;面向主题的数据组织分为两步骤: -抽取主题;-确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的数据仓库基本概念数据仓库定义及特征面向主题第2章 数据仓库数据库数据库面向应

8、用面向主题汽车人寿健康意外伤害主题-顾客主题-保单主题-索赔主题-保费第2章 数据仓库数据仓库基本概念数据仓库定义及特征集成的 数据仓库的数据是从原有的分散数据库数据中抽取来的 需要消除数据表述的不一致性(数据的清洗) 数据的综合第2章 数据仓库数据仓库基本概念数据仓库定义及特征集成的数据库环境数据仓库环境应用A 1, 0应用B 男,女应用C Y,N集成映射编码多维数据库 男,女应用A CM应用B Inches应用C CM映射转换多维数据库 CM第2章 数据仓库数据仓库基本概念数据仓库的主要数据操作是查询、分析;不进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完

9、整性保护等技术数据仓库定义及特征不可更新的第2章 数据仓库数据仓库基本概念数据仓库定义及特征不可更新的Insert、Update、DeleteSelect 数据库环境数据的逐个记录方式处理 数据仓库环境数据的批量载加载,存取ETL访问第2章 数据仓库数据仓库基本概念不断增加新的数据内容;不断删除旧的数据内容;定时综合;数据仓库中数据表的键码都包含时间项,以标明数据的历史时期数据仓库定义及特征随时间变化的第2章 数据仓库数据仓库基本概念数据仓库定义及特征随时间变化的 数据库环境 数据仓库环境时间期限:当前到30-60天记录更新包含或者不包含时间概念时间期限:年数据的复杂快照包含时间概念第2章 数

10、据仓库主要内容数据仓库基本概念数据仓库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计第2章 数据仓库数据仓库体系结构用户可视化工具集多维分析工具数据挖掘工具多维数据数据仓库源数据源数据 源数据 源数据源数据数据来源数据仓库层数据仓库工具层数据仓库层次结构第2章 数据仓库RDBMS数据文件其他 综合数据 当前数据 历史数据 元数据 抽取、转换、装载数据仓库OLAP工具 DM工具 查询工具分析工具数据源数据仓库体系结构第2章 数据仓库数据仓库体系结构数据仓库体系结构实例-税务数据仓库增量抽取完全抽取计 算映 射清 洗业务要求数据要求抽抽 取取转转 换换加加 载载数据仓库数据

11、加载异常情况处理及回退机制异常情况处理及回退机制 作业控制管理作业控制管理第2章 数据仓库数据仓库体系结构数据仓库体系结构实例-税务数据仓库-ETL第2章 数据仓库OLTP系统RDBMSSybaseORACLESAP/ERP5-10 年过去详细数据当前详细数据轻度汇总数据高度汇总数据数据集市分析型CRM业务指标分析数据仓库数据仓库数据仓库/决策分析系统EXCEL数据仓库数据的组织数据仓库体系结构第2章 数据仓库 数据由操作型环境(综合)导入数据仓库 数据具有不同的细节 早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级数据仓库数据的组织数据仓库体系结构第2章 数据仓

12、库数据仓库体系结构采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期, ) 供应商(供应商号,供应商名,地址,电话,)销售子系统: 客户(客户号,姓名,地址,电话, ) 销售(客户号,商品号,数量,单价,日期, )库存子系统: 进库单(编号,商品号,数量,单价,日期, ) 出库单(编号,商品号,数量,单价,日期, ) 库存(商品号, 库房号,类别,单价,库存数量,总金额,日期, )数据库系统模式(操作型数据)第2章 数据仓库数据仓库体系结构 商品固有信息:商品号,类别,单价,颜色, 商品采购信息:商品号,类别,供应商号,供应日期,单价,数量, 商品销售信息:商品号,客

13、户号,数量,单价,销售日期, 商品库存信息:商品号, 库房号,库存数量,日期, )采购子系统销售子系统库存子系统面向主题的数据仓库数据模式第2章 数据仓库数据仓库体系结构1996-2002年销售明细表20032009年销售明细表20032009年每月销售表20032009年每季度销售表数据仓库中的数据组织 数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。第2章 数据仓库数据仓库体系结构 DW中还有一类重要的数据:元数据(metedata)。 元数据是“关于数据的数据”(RDBMS中的数据字典就是一种元数据)。 数据仓库中的元数据描述了数据的结构、内容、索引、码、数

14、据转换规则、粒度定义等关于元数据 在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据。在数据仓库系统中,元数据机制主要支持以下五类系统治理功能: 1 描述哪些数据在数据仓库中; 2 定义要进入数据仓库中的数据和从数据仓库中产生的数据; 3 记录根据业务事件发生而随之进行的数据抽取工作时间安排; 4 记录并检测系统数据一致性的要求和执行情况; 5衡量数据质量。 第2章 数据仓库数据仓库体系结构元数据作用及功能第2章 数据仓库数据仓库体系结构粒度 是指数据仓库的数据单位中保存数据的细化或综合程度的级别 粒度级越小,细节程度越高,综合程度越低,回答查询的

15、种类越多 粒度影响数据仓库中数据量的大小 粒度问题是设计数据仓库的一个重要方面双重粒度 在数据仓库的细节级上创建两种粒度 短期储存的低粒度(真实档案),满足细节查询 具有综合的高粒度(轻度综合),做分析数据仓库的数据组织第2章 数据仓库数据仓库体系结构第2章 数据仓库分割 是指把数据分散到各自的物理单元中去,以便能分别独立处理,提高数据处理效率。是粒度之后的第二个主要设计问题两个层次的分割系统层:DBMS,一种定义应用层:开发者,多种定义多种分割的标准日期:最常用的地理位置组织单位.第2章 数据仓库数据仓库体系结构数据仓库的数据组织第2章 数据仓库数据仓库体系结构主要内容数据仓库基本概念数据仓

16、库体系结构数据仓库元数据数据仓库的数据模式多维分析高性能物理数据仓库设计第2章 数据仓库数据仓库元数据管理元数据对数据仓库功能的支持: 数据仓库内容的描述; 定义数据抽取和转换; 基于商业事件的抽取调度; 描述数据同步需求; 衡量数据质量指标元数据对数据仓库功能的支持: (一) 数据仓库内容的描述 描述数据仓库中的各种复杂关系;(1) I/O对象:支持数据仓库I/O操作的各种对象。例如,装入到数据仓库中的源系统文件及可被用户访问表的数据均为I/O对象。元数据要描述该I/O对象的定义、类型、状态、存档(刷新)周期以及引发初始存档的事件。(2) 关系:两个I/O对象之间的关联。这种关联分为一对一、一对多和多对多三种类型。在实际工作中,一般只考虑两种类型。即一对一和一对多的关系,多对多可以用多个一对多来表示。(3)关系成员 描述每个关系中I/O对象的具体角色(在一对多中是父亲还是儿子)、关系度(是一对一还是一对多)及约束条件(是必须满足还是可选关系)。第2章 数据仓库数据仓库元数据管理(4)关系关键字 描述两个I/O对象是如何建立关联的。每个关系都是通过I/O对象的关键字来建立的,元数据要指

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号