xxxx-第2次课-新一代数据库系统--数据仓库

上传人:千****8 文档编号:118685235 上传时间:2019-12-22 格式:PPT 页数:109 大小:3.19MB
返回 下载 相关 举报
xxxx-第2次课-新一代数据库系统--数据仓库_第1页
第1页 / 共109页
xxxx-第2次课-新一代数据库系统--数据仓库_第2页
第2页 / 共109页
xxxx-第2次课-新一代数据库系统--数据仓库_第3页
第3页 / 共109页
xxxx-第2次课-新一代数据库系统--数据仓库_第4页
第4页 / 共109页
xxxx-第2次课-新一代数据库系统--数据仓库_第5页
第5页 / 共109页
点击查看更多>>
资源描述

《xxxx-第2次课-新一代数据库系统--数据仓库》由会员分享,可在线阅读,更多相关《xxxx-第2次课-新一代数据库系统--数据仓库(109页珍藏版)》请在金锄头文库上搜索。

1、第 2 章 数据仓库 第2章 数据仓库 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 第2章 数据仓库 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 第2章 数据仓库 数据仓库基本概念 随着数据库技术的应用普及和发展,人们不再仅仅满足于 一般的业务处理,而对系统提出了更高的要求:提供决策支持 (DSS、OLAP). 应用背景及需求 需求 一种面向分析的环境; 一种把相关的各种数据转换成有商业价值的信息的技术。 第2章 数据仓库 数据仓库基本概念 从数据库到

2、数据仓库 数据库系统能够很好的用于事务处理,但它对分析处理的支 持一直不能令人满意。特别是当以业务处理为主的联机事务处理 (OLTP) 应用和以分析处理为主的DSS应用共存于一个数据库系 统时,就会产生许多问题。 例如,事务处理应用一般需要的是当前数据,主要考虑较短 的响应时间;而分析处理应用需要是历史的、综合的、集成的数 据,它的分析处理过程可能持续几个小时,从而消耗大量的系统 资源。 人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。 要提高分析和决策的有效性,分析型处理及其数据必须与操作型 处理及其数据分离。必须把分析型数据从事务处理环境中提取出 来,按照DSS处理的需要进行重新组

3、织,建立单独的分析处理环 境。 数据仓库技术正是为了构建这种新的分析处理环境而出现的 一种数据存储和组织技术。 第2章 数据仓库 数据仓库基本概念 主要通过以下五点区分开来。 用户和系统的面向性 OLTP是面向顾客的,用于事务和查询处理; OLAP是面向市场的,用于数据分析 数据内容 OLTP系统管理当前数据; OLAP系统管理大量历史数据,提供汇总和聚集机制. 数据库设计 OLTP采用实体-联系ER模型和面向应用的数据库设计; OLAP采用星型或雪花模型和面向主题的数据库设计. 视图 OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的 数据; OLAP则相反. 访问模式

4、 OLTP系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制; OLAP系统的访问大部分是只读操作 OLTP(on-line transaction processing)与OLAP(On-Line Analytical Processing)区别 第2章 数据仓库 操作型数据分析型数据 细节的综合的,或提炼的 在存取瞬间是准确的代表过去的数据 可更新不更新 操作需求事先可知道操作需求事先不知道 生命周期符合SDLC完全不同的生命周期 对性能要求高对性能要求宽松 一个时刻操作一个单元一个时刻操作一个集合 事务驱动分析驱动 面向应用面向分析 一次操作数据量小一次操作数据量大 支持日常操

5、作支持管理需求 Sdlc :Software Development Life Cycle 第2章 数据仓库 数据仓库基本概念 数据仓库与决策支持系统 用户在进行决策制定时需要得到企业各方面的信息,因此用 户一般首先根据各个业务部门数据库中的数据,创建数据仓库, 存储各种历史信息和汇总信息。 对数据仓库的进一步应用由功能强大的分析工具来实现。现 在主要有三类分析工具可用于决策支持。 第一类能够支持涉及分组和聚集查询,并能够对各种复杂的 布尔条件、统计函数和时间序列分析提供支持的系统。主要由上 述查询组成的应用称为联机分析处理,即OLAP。在支持OLAP查 询的系统中,数据最好看成是一个多维数组

6、 第2章 数据仓库 数据仓库基本概念 数据仓库与决策支持系统 第二类系统仍为支持传统SQL查询的DBMS,但为了有效地 执行OLAP查询而进行了特殊的设计。这些系统可以看作是为决 策支持应用进行了优化的关系数据库系统。许多关系数据库厂商 对他们的产品进行了扩展,并且随着时间的推移,专门的OLAP 系统和支持决策支持的关系数据库系统之间的差别将逐渐取消 第2章 数据仓库 数据仓库基本概念 第三类的分析工具可用于在大量的数据集合中,找到有意义 的数据趋势或者模式,而不是上面提到的复杂数据查询。在数据 分析过程中,尽管分析者能够判定得到的数据模式是否有意义, 但是生成查询来得到有意义的模式还是很困难

7、的。例如,分析者 查看信用卡使用记录,希望从中找出不正常的信用卡使用行为, 以表明是被滥用的丢失的信用卡;商人希望通过查看客户记录找 出潜在的客户来提高收益。许多应用涉及的数据量很大,很难用 人工分析或者传统的统计分析方法进行分析,数据挖掘的目的就 是对这种大量数据的分析提供支持。 数据仓库与决策支持系统 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 数据仓库理论的创始人W.H.Inmon在其 Building the Data Warehouse一书中,给出了数据仓库的四个 基本特征: 面向主题, 数据是集成的, 数据是不可更新的, 数据是随时间不断变化。 第2章 数据仓库 数据仓

8、库基本概念 数据仓库定义及特征 面向主题 主题是在较高层次上对数据抽象; 面向主题的数据组织分为两步骤: -抽取主题;-确定每个主题所包含的数据内容 每个主题在数据仓库中都是由一组关系表实现的 数据仓库基本概念 数据仓库定义及特征 面向主题 第2章 数据仓库 数据库数据库 面向应用 面向主题 汽车人寿 健康 意外伤害 主题-顾客 主题-保单 主题-索赔 主题-保费 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 集成的 数据仓库的数据是从原有的分散数据库数据中抽取来的 需要消除数据表述的不一致性(数据的清洗) 数据的综合 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 集成的

9、数据库环境 数据仓库环境 应用A 1, 0 应用B 男,女 应用C Y,N 集成 映射 编码 多维数据库 男,女 应用A CM 应用B Inches 应用C CM 映射 转换 多维数据库 CM 第2章 数据仓库 数据仓库基本概念 数据仓库的主要数据操作是查询、分析; 不进行一般意义上的数据更新(过期数据可能被删除 ) 数据仓库强化查询、淡化并发控制和完整性保护等技 术. 数据仓库定义及特征 不可更新的 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 不可更新的 Insert、Update、Delete Select 数据库环境 数据的逐个记录方式处理 数据仓库环境 数据的批量载加载,存

10、取 ETL 访问Select 第2章 数据仓库 数据仓库基本概念 不断增加新的数据内容; 不断删除旧的数据内容; 定时综合; 数据仓库中数据表的键码都包含时间项,以标 明数据的历史时期 数据仓库定义及特征 随时间变化的 第2章 数据仓库 数据仓库基本概念 数据仓库定义及特征 随时间变化的 数据库环境 数据仓库环境 时间期限:当前到30-60天 记录更新 包含或者不包含时间概念 时间期限:年 数据的复杂快照 包含时间概念 第2章 数据仓库 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 Inmon的企业信息化工厂 数据仓库体系结

11、构 第2章 数据仓库 数据仓库体系结构的争论 Kimball的维度数据仓库 独立型数据集市 Inmon的企业信息化工厂 数据仓库体系结构 第2章 数据仓库 数据仓库体系结构的争论 数据仓库体系结构 第2章 数据仓库 数据仓库体系结构的争论 Kimball的维度数据仓库 数据仓库体系结构 第2章 数据仓库 数据仓库体系结构的争论 独立型数据集市 企业级主题区域级 原子数据 集成仓库 格式直接访问数据集市格式直接访问 企业信息化 工厂 第3范式否物理维度*是 维度数据仓 库 维度是*逻辑*维度是 独立型数据 集市 N/AN/A物理维度*是 数据仓库体系结构 第2章 数据仓库 数据仓库体系结构的争论

12、 三种体系结构的特征比较 数据仓库体系结构 第2章 数据仓库 数据仓库体系结构的争论三种体系结构比较 体系结构提倡者其他称谓描 述维度设计的角色 企业信息化工 厂 Bill Inmon原子数据仓库 企业数据仓库 企业数据仓库是 原子数据的一种 集成仓库 不能被直接访问 数据集市为部门 使用/分析而重 新组织数据 维度设计只应用 于数据集市 维度数据仓库Ralph Kimball 企业数据仓库 总线体系结构 结构化数据集市 虚拟数据集市 维度数据仓库是 原子数据的一种 集成仓库 可以被访问 包含在维度数据 仓库的主题区域 ,有时称为数据 集市 数据集市不要求 是独立的数据库 所有数据按维度 组织

13、 独立型数据集 市 无倡导者 但很常见 数据集市 竖井式 烟筒型 孤岛型 主题区域的实现 不需要企业环境 可以使用维度设 计 Inmon的企业信息化工厂和Kimball的维度数据仓库都关注企业级应用。他们的目 的是支持跨企业或组织机构的分析型需求。这种方法允许在一个主题区域内处理需求, 就像跨主题区域处理问题一样。 关注企业级应用需要采用一种工程化的方法来处理来自不同组织的数据需求。数 据仓库不能仅凭倾听几次需求就能设计出来。设计团队必须研究、分析公共数据元素 的不同特征,这些特征由于用户不同而有所差别。比如,用户或产品可能在制造、销 售或审计中彼此关联。对于相同的数据元素,在不同的系统中会采

14、用不同的处理方法, 数据仓库设计必须以一种统一的视图来适应所有不同的观点。 相比之下,独立型数据集市在关注企业级应用方面显示出了不足。其开发只考虑了 来自一个小组或部门的需求。由于这种关注的片面性,其开发不会受制于对跨企业公共 数据元素的探讨;而仅仅关注特定主题区域的特定系统。 由于这两种企业体系结构有相同的范围,因此产生了一个相同的体系结构特点: 它们都有一个独立的原子数据的集成仓库。在企业信息化工厂中,这一仓库被称为企 业数据仓库。在维度数据仓库中,该仓库被称为维度数据仓库。这种集中存储的集成 特性与关注企业级应用是一致的。它汇集了公共实体的多种优势,比如顾客或产品。 同样,关注原子化也满

15、足了企业目标。无须按照特定分组或主题区域的需求来收集细 节数据。取而代之的是,尽可能有效地收集细节数据以满足所有的分析型需求。 数据仓库体系结构 第2章 数据仓库 数据仓库体系结构的争论三种体系结构比较 参考 Star Schema 完全参考手册数据仓库维度设计权威指南 清华大学出版社 对于Inmon体系结构来说,数据集市是为部门使用而建立的一组表格, 并且是物理分离的。可以聚集细节数据以适应部门或小组的特殊需要。在 这方面,它与独立型数据集市有一些相似之处;然而,企业信息化工厂中 的数据集市在企业仓库中获取数据,因此内容与企业信息视图保持一致。 而这是独立型数据集市无法保证的。 对于Kimball体系结构来说,不要求数据集市与物理数据分开存储。相 反,它可以是一种逻辑 构件数据仓库 表的子集。单独的数据集市报表 可以随时构建。构建完毕后即可从集成仓库 中得到报表。数据集市与企业 信息视图 保持一致,要么是由于它们将这种视图 具体化,要么是由于它们 从数据集市中获取数据。 数据仓库体系结构 第2章 数据仓库 数据仓库体系结构的争论 三种体系结构比较 第2章 数据仓库 数据仓库体系结构 用户 可视化工具集 多维分析工具数据挖掘工具

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业信息化/信息管理

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号