数据仓库datawarehou

上传人:tia****nde 文档编号:69664462 上传时间:2019-01-14 格式:PPT 页数:63 大小:759.82KB
返回 下载 相关 举报
数据仓库datawarehou_第1页
第1页 / 共63页
数据仓库datawarehou_第2页
第2页 / 共63页
数据仓库datawarehou_第3页
第3页 / 共63页
数据仓库datawarehou_第4页
第4页 / 共63页
数据仓库datawarehou_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《数据仓库datawarehou》由会员分享,可在线阅读,更多相关《数据仓库datawarehou(63页珍藏版)》请在金锄头文库上搜索。

1、数据仓库(Data Warehouse),北京科技大学 武 森,内容安排,1 数据仓库概述 2 多维数据模型 3 数据仓库的体系结构 4 数据仓库的数据组织 5 数据仓库的数据预处理 6 数据仓库应用举例,内容安排,1 数据仓库概述 2 多维数据模型 3 数据仓库的体系结构 4 数据仓库的数据组织 5 数据仓库的数据预处理 6 数据仓库应用举例,1 数据仓库概述,1.1 数据仓库的产生与发展 1.2 数据仓库的含义与特征 1.3 操作型数据库系统与数据仓库 1.4 数据仓库的基本结构 1.5 数据仓库的相关概念,1.1 数据仓库的产生与发展,最早发轫于80年代初W.H.Inmon的研究,存在于

2、其“记录系统”、“本原数据” 、“决策支持数据库”等研究专题中1。 数据仓库的具体概念是W.H.Inmon在1992年出版的建立数据仓库一书中提出的,目前它被认为是解决信息技术在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案。,1.2 数据仓库的含义与特征,数据仓库的含义(W.H.Inmon) “数据仓库是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程(A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collec

3、tion of data in support of managements decision making process)”。,1.2 数据仓库的含义与特征,对数据仓库含义的理解 通俗地讲,数据仓库就是企业内部一种专门的数据存储,专门用于支持分析型数据查询。 (1)专门的数据存储 以多维数据模型进行存储,该模型能够反映实际的商业分析需求,并支持预先未知的具体数据查询操作。 (2)分析型数据查询工具 数据仓库是Lotus1-2-3和Microsoft Excel等工具的延伸与发展,目的在于使得分析能够更准确、更快速、更灵活、更有效,支持的数据量更大。,1.2 数据仓库的含义与特征,数据仓库的

4、特征 (1)数据仓库是面向主题的:传统数据库应用按照业务处理流程来组织数据,目的在于提高处理的速度。主题是一个在较高层次将数据进行归类的标准,满足该领域分析决策的需要。 (2)数据仓库是集成性的:数据仓库中的数据来自于多个应用系统,不仅要统一原始数据中的所有矛盾,如同名异义,异名同义等,而且要将这些数据统一到数据仓库的数据模式上来。 (3)数据仓库是随时间而变化的:数据仓库随着时间变化要不断增加新的内容。由于数据仓库常常用作趋势预测分析,所以需要保留足够长时间的历史数据,一般为510年。 (4)数据仓库是稳定的:数据仓库的这种稳定性指的是数据仓库中的数据主要供企业决策分析之用,决策人员所涉及的

5、数据操作主要是数据查询,一般情况下并不进行数据修改。,1.2 数据仓库的含义与特征,数据仓库还具有以下特点: (1)数据仓库中的数据量非常大。通常的数据仓库的数据量为10GB级,相当于一般数据库100MB的100倍,大型数据仓库的数据量可以达到一个TB(1000GB)。数据中索引和综合数据占2/3,原始数据占1/33。 (2)数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库一般还是应用数据库管理系统来管理其中的数据。 (3)数据仓库的使用人员较少。,1.3 操作型数据库系统与数据仓库,1.4 数据仓库的基本结构,可视化,应用工具,数据存储,数据源,1.5 数据仓库的相关概念,粒度

6、粒度(Granularity)是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小级别就越低;数据综合度越高,粒度越大级别就越高。 在传统的操作型数据库系统中,对数据处理和操作都是在最低级的粒度上进行的。但是在数据仓库环境中应用的主要是分析型处理,一般需要将数据划分为:详细数据,轻度总结、高度总结三级或更多级粒度。,1.5 数据仓库的相关概念,维度 维(Dimension)是指人们观察事物的特定的角度,概念上类似于关系表的属性。 例如:企业常常关心产品销售数据随着时间推移而变化的情况,这是他从时间的角度来观察产品的销售,即时间维;企业也常常关心本企业的产品在不同地区的销售分布情况,这时

7、他是从地理分布的角度来观察产品的销售,即地区维。,1.5 数据仓库的相关概念,数据立方体 数据立方体是指由两个或更多个属性、即两个或更多个维来描述或分类的数据。在三维的情况下以图形来表示,该类数据具有立方体结构,一般称为数据立方体。 虽然我们通常从几何意义的角度将立方体理解为三维的,但是在数据仓库中数据立方体是一个n-维的概念。,1.5 数据仓库的相关概念,UX-11,TR-78,EC-1,XVG,Jun.,May.,Apr.,Mar.,VCR,全部地区,南部,北部,1季度,2季度,上半年,产品,时,间,地 区,TR-75,CAMC,VIDEO,图1-2 销售数据多维数据立方体示意图,531,

8、539,652,683,867,Feb.,531,605,Jan.,1.5 数据仓库的相关概念,联机分析处理(OLAP) 联机分析处理(OLAPOn_Line Analytical Processing)是快速、灵活的多维数据分析工具。OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的。 OLAP的目的是支持分析决策,满足多维环境的查询和报表需求,其技术核心在于“维”的概念,OLAP是多维数据分析的工具。,1.5 数据仓库的相关概念,1.5 数据仓库的相关概念,数据集市 数据集市(Data Mart)是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而

9、成的。数据集市一般由某一个业务部门投资建设,满足其分析决策的需要,可以将其理解为“部门级数据仓库”。,内容安排,1 数据仓库概述 2 多维数据模型 3 数据仓库的体系结构 4 数据仓库的数据组织 5 数据仓库的数据预处理 6 数据仓库应用举例,2 多维数据模型,2.1 E-R模型与多维模型 2.2 星型模式 2.3 星型模式的种类 2.4 数据仓库的总线型结构,2.1 E-R模型与多维模型,实体-关系模型(Entity-Relationship Model)是操作型数据库系统普遍采用的数据建模方式,该技术的主要特点是可以减少数据的冗余,而且可以保证数据的唯一性。,2.1 E-R模型与多维模型,

10、虽然实体-关系模型能成功地应用于操作型数据库系统,但是分析人员、决策人员不可能理解、更不可能记住这些实体-关系,因此让他们在实体-关系模型中进行主动的数据检索是不可能的。 支持分析型应用的解决方案是多维数据模型。,2.1 E-R模型与多维模型,多维数据模型很难说是由哪一个人创建的,它是在人们追求可理解和高性能的数据库设计过程中自然形成的。 多维数据模型普遍采用的一种非常重要的模式是星形模式(Star Schema)。,2.2 星型模式,2.2 星型模式,事实表(Fact Table,也称主表)包含的是业务数据信息,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录

11、。 维表( Dimension Table,也称辅表)包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。,2.2 星型模式,主码与外码,2.2 星型模式,代理码,地区维表,销售事实表,2.3 星型模式的种类,简单星型模式(Simple Star Schema) 星系模式(Star Galaxy Schema) 星座模式(Star Constellation Schema) 雪花模式(Snowflake Schema),2.3 星型模式的种类,简单星型模式(Simple Star Schema),2.3 星型模式的种类,星系模式(Star Galax

12、y Schema),2.3 星型模式的种类,星座模式(Star Constellation Schema),2.3 星型模式的种类,雪花模式(Snowflake Schema),2.4 数据仓库的总线型结构,数据仓库的总线型结构(Data Warehouse Bus Architecture) 一个数据仓库内所有的数据集市必须具有统一一致的维定义和统一一致的业务事实。统一的维和统一的事实就是数据仓库的“总线”,2.4 数据仓库的总线型结构,销售量事实,销售额事实,应收帐款事实,分销渠道维,时间维,客户维,产品维,统一的事实,统一的维,财务数据集市,销售数据集市,内容安排,1 数据仓库概述 2

13、多维数据模型 3 数据仓库的体系结构 4 数据仓库的数据组织 5 数据仓库的数据预处理 6 数据仓库应用举例,3 数据仓库的体系结构,3.1 体系结构的内容 3.2 相关的数据存储 3.3 相关的数据服务 3.4 相关的数据管理元数据,3.1 体系结构的内容,从总体上讲,数据仓库的技术体系结构包括前台和后台两大部分内容: 后台负责分析型应用的数据准备工作,完成从数据源向数据仓库主题数据的数据变换,一般称为数据的预处理。 前台是面向数据仓库的最终用户的。对于最终用户而言,主题数据是直接的数据来源。前台需要安装一些分析型应用工具,提供分析报告、报表、图形等可视化的分析结果。,3.1 体系结构,3.

14、2 相关的数据存储,数据源:数据仓库数据的原始来源 主题数据:存储在数据仓库中的核心数据 预处理数据:数据源和主题数据之间的中间结果 查询服务数据:主题数据和用户最终查询结果之间的中间结果,3.3 相关的数据服务,在数据仓库的技术体系结构中,主要涉及两种数据服务: 后台数据预处理 前台数据查询,3.3 相关的数据服务,后台数据预处理包括三种重要的数据操作: 抽取(Extraction):从数据源抽取所需的数据。 转换(Transformation):对抽取出的数据进行一系列的转换,以满足数据仓库主题数据内容与质量上的要求。 装载(Loading):将转换后的数据装载入数据仓库。,3.3 相关的

15、数据服务,前台数据查询服务的主要工作是提供各种分析应用工具,形成可视化分析结果展现给最终用户。 数据查询 各种报表的生成 访问安全保障 其它服务,如:同数据挖掘的结合应用,3.4 相关的数据管理元数据,“元数据是数据仓库世界中令人惊异的一个话题。想一想,我们不知道它确切地是什么,确切地放在哪里。但是,与其它话题相比,我们谈论它的时间更多,因为它而烦恼的时间更多,因为对它无所为而感觉愧疚的时间也更多。几年以前,我们认为元数据是任何关于数据的数据。这并没有多大的帮助,因为我们还是不清楚这个起到穿针引线作用的东西是什么。这个模糊的概念已逐渐清晰起来,我们已经更自信地谈论后台元数据和前台元数据。”,3

16、.4 相关的数据管理元数据,“后台元数据能够帮助数据库管理员将数据放入数据仓库,而且,在商务用户询问数据来自哪里时,也可能是他们所关心的。 前台元数据主要出于对终端用户的考虑,其定义已经扩展,不仅仅是使我们的工具运转灵活的机油,而且是以所有的数据元素表述的一种业务内容字典。”,3.4 相关的数据管理元数据,数据源元数据 预处理数据元数据 数据仓库主题数据元数据 前台查询服务元数据,3.4 相关的数据管理元数据,(1)数据源元数据 数据源存储平台 数据源的数据格式 数据源的业务内容说明 数据源的更新频率 数据源的所有者 数据源的访问方法及使用限制 实施数据抽取的工具或其它方法,及相应的参数设置 数据抽取的进度安排 实际数据抽取的时间、内容及完成情况记录,3.4 相关的数据管理元数据,(2)预处理数据元数据 数据抽取

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号