数据仓库中的数据及组织课件

上传人:M****1 文档编号:568804821 上传时间:2024-07-26 格式:PPT 页数:28 大小:236.50KB
返回 下载 相关 举报
数据仓库中的数据及组织课件_第1页
第1页 / 共28页
数据仓库中的数据及组织课件_第2页
第2页 / 共28页
数据仓库中的数据及组织课件_第3页
第3页 / 共28页
数据仓库中的数据及组织课件_第4页
第4页 / 共28页
数据仓库中的数据及组织课件_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《数据仓库中的数据及组织课件》由会员分享,可在线阅读,更多相关《数据仓库中的数据及组织课件(28页珍藏版)》请在金锄头文库上搜索。

1、第三章第三章 数据仓库中的数据及组织数据仓库中的数据及组织 3.1数据仓库中的数据组织数据仓库中的数据组织n数数据据仓仓库库中中存存储储着着两两类类数数据据:业业务务数数据据和和元元数数据据。其其中中业业务务数数据据又又分分为为细细节节数数据据和和综综合合数据。数据。 3.1数据仓库中的数据组织数据仓库中的数据组织 图3-1 数据仓库中存储的数据元数据高度综合级轻度综合级当前细节级早期细节级 粒度粒度数据仓库数据的综合级别数据仓库数据的综合级别粒度越大、表示细节程度越低、综合程度越高粒度越大、表示细节程度越低、综合程度越高 图3-2 数据仓库的数据组织结构的一个例子 高度综合级轻度综合级当前细

2、节级早期细节级1985-1996年 每月销售表1990-1996年每周销售表1990-1996年销售情况表1985-1990年销售明细表 3.1数据仓库中的数据组织数据仓库中的数据组织 粒度分为两种形式:粒度分为两种形式:1对对数数据据仓仓库库中中的的数数据据的的综综合合程程度度高高低低的的一一个个度度量量,粒粒度越小,细节程度越高,综合程度越低度越小,细节程度越高,综合程度越低影响数据仓库效率、能回答询问的种类影响数据仓库效率、能回答询问的种类“张三在某时某地是否给李四打过电话?张三在某时某地是否给李四打过电话?”“张三去年共打了几次长途电话张三去年共打了几次长途电话” “某地区今年长途与普

3、通电话费用之比某地区今年长途与普通电话费用之比” “今年长途普通电话费用增长率今年长途普通电话费用增长率” “预测未来长途普通电话费用变化趋势预测未来长途普通电话费用变化趋势”数据仓库是多粒度的,不同的粒度回答不同的查询数据仓库是多粒度的,不同的粒度回答不同的查询 3.1.1 数据粒度数据粒度 2 样本数据库样本数据库 根根据据采采样样率率的的高高低低来来划划分分粒粒度度:以以一一定定的的采采样样率率从从细细节节数数据或轻度综合数据中抽取的一个子集据或轻度综合数据中抽取的一个子集 用处:代替源数据进行模拟分析用处:代替源数据进行模拟分析 抽样的方法:随机抽取抽样的方法:随机抽取 优点:高效率优

4、点:高效率 源数据量很大的情况下,抽样数据可以大大下降,源数据量很大的情况下,抽样数据可以大大下降, 分析结果误差极小分析结果误差极小 有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾 实际:两种形式的粒度都存在实际:两种形式的粒度都存在 3.1.1 数据粒度数据粒度 分割:数据仓库中的另一个重要概念分割:数据仓库中的另一个重要概念分片:数据分割后的数据单元分片:数据分割后的数据单元目的:将数据分散到各自的物理单元中,以便目的:将数据分散到各自的物理单元中,以便 分别独立处理分别独立处理,提高效率提高效率例如:例如:对于某种相关性的数据集合的分析是最常见的对于某种相关性的数据集合的分析

5、是最常见的 将具有相关性的数据组织在一起将具有相关性的数据组织在一起,会提高效率会提高效率 3.1.2 数据分割数据分割 标准:根据实际情况确定标准:根据实际情况确定1易于重构、索引、重组、恢复、监控和顺序扫描易于重构、索引、重组、恢复、监控和顺序扫描2按日期、地域或业务领域按日期、地域或业务领域3按多个分割标准的组合按多个分割标准的组合例子:例子:健康保险健康保险生命保险生命保险事故保险事故保险1988分片分片1分片分片2分片分片31989分片分片4分片分片5分片分片61990分片分片7分片分片8分片分片9 3.1.2 数据分割数据分割 数据追加:数据仓库的数据初装完成后数据追加:数据仓库的

6、数据初装完成后, 再向数据仓再向数据仓 库输入数据的过程库输入数据的过程追加内容:上次数据追加后在追加内容:上次数据追加后在OLTP数据库中变化了数据库中变化了 的数据的数据变化数据的捕捉途径变化数据的捕捉途径: 时标方法时标方法 数据含有时标,对新插入或更新的数据记录数据含有时标,对新插入或更新的数据记录,加更新时的时标加更新时的时标许多数据库中的数据并不含有时标许多数据库中的数据并不含有时标 DELTA文件文件由应用生成,记录了应用所改变的所有内容由应用生成,记录了应用所改变的所有内容优点:避免了扫描整个数据库,效率比较高优点:避免了扫描整个数据库,效率比较高3.2 数据仓库的数据追加数据

7、仓库的数据追加 问题:生成问题:生成DELTA文件的应用不普遍文件的应用不普遍更更改改应应用用代代码码,应应用用在在生生成成新新数数据据时时可可以以自自动动将将其其记记录下来录下来.应用成千上万,且修改代码十分繁琐,很难实现应用成千上万,且修改代码十分繁琐,很难实现 前后映象文件的方法前后映象文件的方法抽取数据到数据仓库之后抽取数据到数据仓库之后,本次将抽取数据之前,本次将抽取数据之前,对数据库分别作一次快照,比较两幅快照的不同,对数据库分别作一次快照,比较两幅快照的不同,确定追加的数据确定追加的数据问题:占用大量资源,影响系统性能问题:占用大量资源,影响系统性能3.2 数据仓库的数据追加数据

8、仓库的数据追加 日志文件日志文件优点:优点:利用利用DB的固有机制,数据只限于日志文件,不用的固有机制,数据只限于日志文件,不用扫描整个数据库扫描整个数据库缺点:缺点:原来日志文件的格式是依据原来日志文件的格式是依据DB系统的要求设计的。系统的要求设计的。要进行改进要进行改进如:对一个记录的多次更新,日志文件将全部变化如:对一个记录的多次更新,日志文件将全部变化过程都记录下来,而数据仓库,只要最终结果过程都记录下来,而数据仓库,只要最终结果3.2 数据仓库的数据追加数据仓库的数据追加 元数据元数据(metadata):关于数据的数据关于数据的数据第第一一种种:从从操操作作型型环环境境向向数数据

9、据仓仓库库环环境境转转换换而而建建立立的的元元数数据据包包含含:所所有有源源数数据据项项名名、属属性性及其在数据仓库中的转换及其在数据仓库中的转换第第二二种种:与与终终端端用用户户的的多多维维商商业业模模型型前前端端工工具之间建立映射的具之间建立映射的DSS元数据元数据3.3 数据仓库中的元数据数据仓库中的元数据 元元数数据据是是描描述述数数据据的的数数据据。其其主主要要目目标标是是提提供供数数据据资资源源的的全全面面指指南南,使使得得数数据据仓仓库库管管理理员员和和数数据据仓仓库库的的开开发发人人员员可可以以方方便便地地了了解解数数据据仓仓库库中中有有什什么么数数据据,数数据据在在什什么么地

10、地方方,它它们们来来源源于于哪哪里里,以以及及数数据据仓仓库库系系统统中中是是如如何何利利用这些数据,如何管理这些数据的。用这些数据,如何管理这些数据的。 元元数数据据把把数数据据仓仓库库系系统统中中的的各各个个松松散散的的组组件件联联系起来,组成了一个有机的整体。系起来,组成了一个有机的整体。3.3.1 元数据的定义元数据的定义 以下这些工具都与元数据的产生或者存储有关:以下这些工具都与元数据的产生或者存储有关: (1)数据抽取工具:把数据抽取工具:把OLTP业务系统中的数据抽取、转业务系统中的数据抽取、转换、装载到数据仓库中。换、装载到数据仓库中。(2)前端展现工具:包括前端展现工具:包括

11、OLAP在线分析、报表和商务智在线分析、报表和商务智能工具等。能工具等。 (3)建模工具:为非技术人员准备的业务建模工具,这建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高层次的、与特定业务相关的语义。些工具可以提供更高层次的、与特定业务相关的语义。(4)元数据存储工具:以上三种工具所用到的元数据通元数据存储工具:以上三种工具所用到的元数据通常存储在专门的数据库中,该数据库就如同一个常存储在专门的数据库中,该数据库就如同一个“黑盒黑盒子子”,外部工具不知道元数据是如何存储的。,外部工具不知道元数据是如何存储的。3.3.1 元数据的定义元数据的定义 元数据可以按多种方式进行分类元数

12、据可以按多种方式进行分类:1. 按使用元数据的用户分类按使用元数据的用户分类2. 按来源的正式程度分类按来源的正式程度分类3. 按功能分类按功能分类3.3.2 元数据的分类元数据的分类 按按照照使使用用元元数数据据的的用用户户分分类类,元元数数据据可可以以分分为为技技术术元元数数据据(Technical Metadata)和和业业务务元数据(元数据(Business Metadata)两类)两类: 技技术术元元数数据据:关关于于数数据据仓仓库库系系统统技技术术细细节节的的描描述述数数据据,是是数数据据仓仓库库开开发发人人员员和和数数据据仓仓库库管管理人员需要使用的重要信息。理人员需要使用的重要

13、信息。包包括括:数数据据仓仓库库结结构构的的描描述述、ODS层层的的企企业业数数据据模模型型描描述述、数数据据仓仓库库和和数数据据集集市市定定义义描描述述与装载描述。与装载描述。1.按使用元数据的用户分类按使用元数据的用户分类 业业务务元元数数据据:从从业业务务角角度度描描述述数数据据仓仓库库中中的的数数据据,它它提提供供了了介介于于使使用用者者和和实实际际系系统统之之间间的的语语义义层层定定义义,使使得得不不懂懂计计算算机机技技术术的的业业务务人人员也能够理解数据仓库中的数据。员也能够理解数据仓库中的数据。包包括括:使使用用者者的的业业务务术术语语所所表表达达的的数数据据模模型型、对对象象名

14、名和和属属性性名名;访访问问数数据据的的原原则则和和数数据据来来源源;系系统统所所提提供供的的分分析析方方法法及及公公式式、报报表表信信息等。息等。1.按使用元数据的用户分类按使用元数据的用户分类 正正式式元元数数据据:经经过过认认真真讨讨论论并并由由企企业业决决策策者者同同意了的元数据。意了的元数据。 非非正正式式元元数数据据:非非正正式式元元数数据据由由公公司司的的政政策策、指指导导方方针针和和常常识识组组成成,一一般般没没有有标标准准的的形形式式,是是人人所所皆皆知知的的信信息息。这这类类信信息息没没有有进进行行正正式式归档。归档。2. 按来源的正式程度分类按来源的正式程度分类 按按照照

15、元元数数据据的的作作用用,或或者者说说按按照照数数据据仓仓库库系系统统组组成成的各个功能模块所涉及的元数据的各个功能模块所涉及的元数据进行分类。进行分类。 数数据据源源元元数数据据:为数据仓库提供数据的各种业务系统的数据字典。 ETL规规则则元元数数据据:数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息。 ODS元元数数据据和和DW元元数数据据:数据仓库系统的核心元数据,数据仓库系统的核心元数据。 3. 按功能分类按功能分类 报报表表元元数数据据:对报表和报表中的具体指标的描述信息。对报表和报表中的具体指标的描述信息。 接接口口数数据据文文件件格格式式元元数数据据:包括

16、接口数据文件的命名、传输周期、格式等说明信息,这些元数据已经在ETL工具中进行管理。 商商业业元元数数据据:在系统中对各项指标的业务含义的描述性信息。3. 按功能分类按功能分类 元数据管理主要有两种方法:元数据管理主要有两种方法: 对于相对简单的环境,按照通用的元数据管理标准建对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。立一个集中式的元数据知识库。 对于比较复杂的环境,分别建立各部分的元数据管理对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的

17、集成管理。的元数据交换格式,实现元数据的集成管理。两个最主要的元数据标准:两个最主要的元数据标准:MDC的的OIM标准标准 、OMG的的CWM标准。标准。3.3.3 元数据管理的标准化元数据管理的标准化 OIM的目的是通过公共的元数据信息来支持不同工具和系的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用统之间数据的共享和重用,通过对元数据类型的标准描述通过对元数据类型的标准描述来达到工具和知识库之间的数据共享。来达到工具和知识库之间的数据共享。OIM所声明的元数据类型都采用统一建模语言UML(Universal Modeling Language)进行描述,并被组织成易于使

18、用、易于扩展的多个工具集,这些工具集包括: 分析与设计:主要用于软件分析、设计和建模 对象与组件:涉及面向对象开发技术的各个方面MDC的的OIM存储模型存储模型 数据库与数据仓库:为数据库模式管理、复用和建立数据仓库提供元数据概念支持。 业务工程:为企业运作提供一个蓝图。 知识管理:涉及企业的信息结构。MDC的的OIM存储模型存储模型 CWM模型既包括元数据存储,也包括元数据交换,它是模型既包括元数据存储,也包括元数据交换,它是基于以下三个工业标准制定的:基于以下三个工业标准制定的: UML:OMG建模标准,使用建模标准,使用UML对对CWM模型进行建模。模型进行建模。 MOF:元对象设施,它

19、是:元对象设施,它是OMG元模型和元数据的存储标元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口。准,提供在异构环境下对元数据知识库的访问接口。 XMI:XML元数据交换,元数据交换,OMG元数据交换标准,它可以元数据交换标准,它可以使元数据以使元数据以XML文件流的方式进行交换。文件流的方式进行交换。OMG组织的组织的CWM模型模型 CWM四个方面的规范:四个方面的规范: CWM元模型:描述数据仓库系统的模型; CWM XML:CWM元模型的XML表示; CWM DTD:DW/BI共享元数据的交换格式 CWM IDL:DW/BI共享元数据的应用程序访问接口(API)OMG组

20、织的组织的CWM模型模型 CWM元模型的组成:元模型的组成: 元模型包:构造和描述其它元模型包:构造和描述其它CWM包中的元模型类的基础。包中的元模型类的基础。 基础包:表示基础包:表示CWM概念和结构的模型元素,这些模型元素概念和结构的模型元素,这些模型元素又可被其他又可被其他CWM包所共享。包所共享。 资源包:用于描述数据资源资源包:用于描述数据资源 分析(分析(Analysis)包:定义如何对信息进行加工和处理,)包:定义如何对信息进行加工和处理, 管理(管理(Management)包:用于描述数据仓库管理和维护)包:用于描述数据仓库管理和维护OMG组织的组织的CWM模型模型 1. CW

21、M是专门为数据仓库元数据制定的一套标准,而OIM不仅是针对数据仓库元数据的。2. OIM所关注的元数据的范围比CWM要广。3. OIM与CWM在建模语言的选择、数据库模型的支持、OLAP分析模型的支持、数据转换模型的支持方面都比较一致。但是用OIM描述的元数据需要通过其它的接口才能访问,而CWM描述的元数据可以通过CORBA IDL来访问。4. OIM必须通过特定的转换形成XML文件来交换元数据,而CWM可以用XMI来进行交换。5. 需要说明的是,MDC与OMG组织已经合并,今后所有的工具都将遵循统一的CWM标准。CWM与与OIM之间的关系之间的关系 主要介绍数据仓库中的数据组织和元数据主要介绍数据仓库中的数据组织和元数据把握以下几点把握以下几点:1.对数据仓库中的数据组织有一定的认识对数据仓库中的数据组织有一定的认识2.数据仓库数据中数据粒度、数据分割的概念数据仓库数据中数据粒度、数据分割的概念3. 元数据的基本概念元数据的基本概念小小 结结

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号