数据仓库与数据挖掘

上传人:汽*** 文档编号:567482303 上传时间:2024-07-20 格式:PPT 页数:68 大小:438KB
返回 下载 相关 举报
数据仓库与数据挖掘_第1页
第1页 / 共68页
数据仓库与数据挖掘_第2页
第2页 / 共68页
数据仓库与数据挖掘_第3页
第3页 / 共68页
数据仓库与数据挖掘_第4页
第4页 / 共68页
数据仓库与数据挖掘_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《数据仓库与数据挖掘》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘(68页珍藏版)》请在金锄头文库上搜索。

1、第二章第二章 数据仓库原理数据仓库原理0第二章第二章 数据仓库原理数据仓库原理n2.1数据仓库定义数据仓库定义n2.2数据仓库特征数据仓库特征n2.3数据库体系化环境数据库体系化环境n2.4数据仓构造模式数据仓构造模式n2.5数据仓库概念结构数据仓库概念结构n2.6数据仓库中的数据组织数据仓库中的数据组织n小节小节1n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织2n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分割分割n

2、维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织32.6数据仓库中的数据组织数据仓库中的数据组织n为了提高分析和决策的效率和有效性,分析型处理为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分析及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数据从事务型处理环境中提取出来,型处理所需要的数据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分按照分析型处理的要求进行重新组织,建立单独的分析处理环境。析处理环境。n数据仓库

3、正是构建这种新的分析处理环境而出现的数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。一种数据存储和组织技术。42.6数据仓库中的数据组织数据仓库中的数据组织n数据仓库的数据组织结构不同于一般的数据库系统,数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。数据分成一些不同的级别。n在数据仓库中,数据按照粒度从小到大可分为四个在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度级别:早期细节级、当前细节级、轻度细节级和高度细节级。

4、细节级。n从事务型处理环境中提取的源数据经过综合后,首从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度入轻度综合级或高度5数据仓库的数据组织结构数据仓库的数据组织结构元元数数据据高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级2.6数据仓库中的数据组织数据仓库中的数据组织6n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别早期细节级早期细节级一般而言,当前细节级的数据对于决策的支持程度随数据一般而言,当前细节级的数据对于决策的支持程度

5、随数据发生时间的久远而降低。发生时间的久远而降低。为了有效控制数据仓库中当前细节级数据的规模,保证系为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,并以合适的方式进行存储。的数据转为早期细节级的数据,并以合适的方式进行存储。2.6数据仓库中的数据组织数据仓库中的数据组织7n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别当前细节级当前细节级来自

6、数据源的数据,所反映的都是当前的业务情况,来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进因此在导入数据仓库之后,首先做为当前细节级数据进行存储。行存储。这些数据规模较大,实时性强,是数据仓库用户感兴这些数据规模较大,实时性强,是数据仓库用户感兴趣的部分。趣的部分。当前细节级的数据一方面依据数据仓库的既定规则,当前细节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数一方面,随时间的推移,逐渐老化,成为历史细节级数据。

7、据。2.6数据仓库中的数据组织数据仓库中的数据组织8n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别轻度综合级轻度综合级为了有效控制数据仓库进行决策支持时的系统开销,对为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的当前细节级的数据,通常以一定的时间段为单位时间段为单位进行综进行综合。合。这一设定的时间段参数又称为这一设定的时间段参数又称为“粒度粒度”。以较小的粒度生成的综合数据,称为以较小的粒度生成的综合数据,称为“轻度综合级数据轻度综合级数据”,其规模要远远小于当前细节级数据,因此,可以明,其规模要远远小于当前细节级数据,因此,可以明

8、显提高决策运算的效率。显提高决策运算的效率。2.6数据仓库中的数据组织数据仓库中的数据组织9n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别高度综合级高度综合级以较长的时间段,即较大的粒度,对当前细节级的数据以较长的时间段,即较大的粒度,对当前细节级的数据进行综合而形成的结果,称为进行综合而形成的结果,称为“高度综合级数据高度综合级数据”。高度综合级的数据内容十分精练,可以认为是一种高度综合级的数据内容十分精练,可以认为是一种“准准决策数据决策数据”。这里,这里,“高度高度”和和“轻度轻度”只是一种相对的概念没有绝只是一种相对的概念没有绝对的界限。对的界限。2.6数据

9、仓库中的数据组织数据仓库中的数据组织10 数据仓库的数据组织结构的一个例子数据仓库的数据组织结构的一个例子 高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级1990-2004年年 每月销售表每月销售表1996-2004年年每周销售表每周销售表1996-2004年年销售情况表销售情况表1990-1995年年销售明细表销售明细表 数据仓库中的数据组织数据仓库中的数据组织2.6数据仓库中的数据组织数据仓库中的数据组织11n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分割分割n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追

10、加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织12n粒度粒度对数据仓库中的对数据仓库中的数据综合程度高低的一个度量数据综合程度高低的一个度量。例如:一个简单的交易处于低粒度级,而每月所有交易的例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。汇总和处于一个高粒度级。粒度会深刻地影响存放在数据仓库中的粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据量的大小以及数据仓库所能够回答的查询类型数据仓库所能够回答的查询类型。在数据仓库中的数据量。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。大小与所能回答查询的细节级别之间要做出权衡。2

11、.6数据仓库中的数据组织数据仓库中的数据组织13n粒度粒度一个顾客一个月中每次通话的一个顾客一个月中每次通话的细节细节一个顾客一个月中通话的综合一个顾客一个月中通话的综合CassSquire上星期给他在波士顿的女友上星期给他在波士顿的女友打过电话没有?打过电话没有?能回答,尽管需要一定数量的能回答,尽管需要一定数量的检索检索根本不能回答,细节已经丢失根本不能回答,细节已经丢失“上个月,华盛顿人平均打出多少个电话?上个月,华盛顿人平均打出多少个电话?”由此可见,粒度级别对于能回答什么问题和问答问题所需资源多由此可见,粒度级别对于能回答什么问题和问答问题所需资源多由此可见,粒度级别对于能回答什么问

12、题和问答问题所需资源多由此可见,粒度级别对于能回答什么问题和问答问题所需资源多少有深刻的影响。少有深刻的影响。少有深刻的影响。少有深刻的影响。2.6数据仓库中的数据组织数据仓库中的数据组织14n粒度粒度粒度的权衡是固有的,所以大多数企业的最佳解决方法是采粒度的权衡是固有的,所以大多数企业的最佳解决方法是采粒度的权衡是固有的,所以大多数企业的最佳解决方法是采粒度的权衡是固有的,所以大多数企业的最佳解决方法是采用多重粒度的形式用多重粒度的形式用多重粒度的形式用多重粒度的形式低粒度低粒度高粒度高粒度能回答任何问题能回答任何问题效率低效率低数据量大数据量大能回答所有问题能回答所有问题效率高效率高数据量

13、小数据量小2.6数据仓库中的数据组织数据仓库中的数据组织15n粒度分为两种形式:粒度分为两种形式:对数据仓库中的数据的综合程度高低的一个度量对数据仓库中的数据的综合程度高低的一个度量粒度越小,细节程度越高,综合程度越低粒度越小,细节程度越高,综合程度越低粒度大小影响数据仓库效率、能回答询问的种类粒度大小影响数据仓库效率、能回答询问的种类“张三在某时某地是否给李四打过电话?张三在某时某地是否给李四打过电话?”“张三去年共打了几次长途电话张三去年共打了几次长途电话”“某地区今年长途与普通电话费用之比某地区今年长途与普通电话费用之比”“今年长途普通电话费用增长率今年长途普通电话费用增长率”“预测未来

14、长途普通电话费用变化趋势预测未来长途普通电话费用变化趋势”数据仓库是多粒度的,不同的粒度回答不同的查询数据仓库是多粒度的,不同的粒度回答不同的查询2.6数据仓库中的数据组织数据仓库中的数据组织16n粒度分为两种形式:粒度分为两种形式:样本数据库样本数据库在分析过程中,有许多探索的过程有时分析的目的并不要在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。所以可以提取出样本数据库。样本数据库的粒度:是根据样本数据库的粒度:是根据采样率的高低采样率的高低来划分的,采样来划

15、分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是粒度不同的样本数据库可以具有相同的综合级别,它是按按一定的采样率从细节数据库或轻度综合数据库中提取的一一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。个子集。样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可样本数据库采集重要数据进行分析既可提高分析效率提高分析效率,又又有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾。2.6数据仓库中的数据组织数据仓库中的数据组织17样本数据库样本数据库用处:代替源数据进行模拟分析,适用于趋势分析和预测分

16、析用处:代替源数据进行模拟分析,适用于趋势分析和预测分析抽样的方法:随机抽取,必要时可采用抽样的方法:随机抽取,必要时可采用“判断样本判断样本”优点:优点:高效率,在启发式分析中,高效率,在启发式分析中,源数据量很大的情况下,抽样数据可以大大下降,源数据量很大的情况下,抽样数据可以大大下降,分析结果误差极小分析结果误差极小有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾2.6数据仓库中的数据组织数据仓库中的数据组织18n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库

17、中的数据组织数据仓库中的数据组织19n分区分区数据分区是指把数据分散到可独立处理的分离物理单元中数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。去。数据分割后的数据单元称为分片。在数据仓库中围绕分区的问题的焦点不是该不该分区而是在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管理小如何去分区的问题。因为运行维护人员和设计者在管理小的物理单元时比管理大的享有更大的灵活性。的物理单元时比管理大的享有更大的灵活性。恰当进行分区的好处:恰当进行分区的好处:数据装载、数据访问、数据存档、数据装载、数据访问、数据存档、数据删

18、除、数据监控、数据存储、数据删除、数据监控、数据存储、当结构相似的数据被分到多个数据的物理单元时,数据便当结构相似的数据被分到多个数据的物理单元时,数据便被分区了。任何给定的数据单元属于且仅属于一个分区。被分区了。任何给定的数据单元属于且仅属于一个分区。2.6数据仓库中的数据组织数据仓库中的数据组织20n分区分区数据分区数据分区小的数据单元易于:小的数据单元易于:重构重构索引索引顺序扫描顺序扫描重组重组恢复恢复监控监控19891990198719911988独立管理的数据单元可以有不同的定义独立管理的数据单元可以有不同的定义处理设备处理设备A处理设处理设备备B2.6数据仓库中的数据组织数据仓库

19、中的数据组织21n分区分区有多种数据分区的标准:有多种数据分区的标准:时间时间业务范围业务范围地理位置地理位置组织单位组织单位所有上述标准所有上述标准数据分区的标准是完全由开发人员来决定的。然而,在数数据分区的标准是完全由开发人员来决定的。然而,在数据仓库环境中,日期几乎总是分区标准中的一个必然组成据仓库环境中,日期几乎总是分区标准中的一个必然组成部分。部分。2.6数据仓库中的数据组织数据仓库中的数据组织22n分区分区人寿保险公司选择时间和保险种类,将数据分区为以下物人寿保险公司选择时间和保险种类,将数据分区为以下物理单元:理单元:2000年健康索赔年健康索赔2001年健康索赔年健康索赔200

20、2年健康索赔年健康索赔1999年人寿保险索赔年人寿保险索赔2000年人寿保险索赔年人寿保险索赔2001年人寿保险索赔年人寿保险索赔2002年人寿保险索赔年人寿保险索赔2000年意外伤亡索赔年意外伤亡索赔2001年意外伤亡索赔年意外伤亡索赔2002年意外伤亡索赔年意外伤亡索赔2.6数据仓库中的数据组织数据仓库中的数据组织23n分区分区n数据分区优点:数据分区优点:提高系统性能提高系统性能“1996年家电类商品销售的季节分布如何?”“每年的第一季度商品销售在各类商品上的分布情况是怎样的?”提高灵活性提高灵活性修改数据定义容易修改数据定义容易不同年份的险种的定义描述是相互独立2.6数据仓库中的数据组

21、织数据仓库中的数据组织24n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n分割分割n维度维度n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织25n维度维度管理人员可以从客户的角度、产品的角度或者从供应商、地管理人员可以从客户的角度、产品的角度或者从供应商、地点、渠道、时间发生的时间等角度来分析决策问题。点、渠道、时间发生的时间等角度来分析决策问题。用户的这些决策分析角度或决策分析出发点就是数据仓库中用户的这些决策分析角度或决策分析出发点就是数据仓库中的维。的维。数据仓库中的数据就按照这些维来组织,

22、维也就成了数据仓数据仓库中的数据就按照这些维来组织,维也就成了数据仓库中识别数据的索引。库中识别数据的索引。同时,数据仓库中的维还可以作为数据仓库操作过程的路经,同时,数据仓库中的维还可以作为数据仓库操作过程的路经,这些路径通常位于维的不同层次结构中。这些路径通常位于维的不同层次结构中。2.6数据仓库中的数据组织数据仓库中的数据组织26n维度维度是一个物理特性(如时间、地点、产品等),它是表达数据仓是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中

23、所存储的数据大多是表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。用多维(三维或三维以上)视图表示的。例如:例如:一个销售系统中的数据可分为时间维、产品维和地理位置一个销售系统中的数据可分为时间维、产品维和地理位置维等;维等;2.6数据仓库中的数据组织数据仓库中的数据组织27n一个数据立方体,比如数据仓库一个数据立方体,比如数据仓库sales,sales,允许以多维对允许以多维对数据进行建模和观察。数据进行建模和观察。n例例销售分析:销售分析:数据仓库数据仓库salessales围绕商品销售量这个主题。同时,销售围绕商品销售量这个主题。同时,销售量涉及

24、以下几个方面:量涉及以下几个方面:time,item,locationtime,item,location,branchbranch。有。有了这些方面的信息,能够记录商品的月销售,销售商品的了这些方面的信息,能够记录商品的月销售,销售商品的地点。地点。2.6数据仓库中的数据组织数据仓库中的数据组织28LocationVancouverChicagoTorontoNew YorkTime(季季度度)ItemQ1Q2Q3Q46056808129278259521023103814313038400512501580854108781888296874689384362387259168292569

25、87281002789784984870家庭家庭娱乐娱乐计算计算机机电话电话安全安全2.6数据仓库中的数据组织数据仓库中的数据组织29维:人们观察数据的特定角度。维:人们观察数据的特定角度。本例中涉及本例中涉及time,item,location。每一个维都有一个表每一个维都有一个表与之相关联,称为与之相关联,称为维表维表维表维表。事实:数据仓库的主题,数值事实:数据仓库的主题,数值度量的。本例中指销售度量的。本例中指销售量。事实对应量。事实对应事实表事实表事实表事实表。2.6数据仓库中的数据组织数据仓库中的数据组织30ASampleDataCubeTotalannualsalesofTVin

26、U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrCanadaMexicosum31n基于维的常见操作基于维的常见操作 上卷:上卷:上卷:上卷:用户在数据仓库的应用中,从较低层次的数用户在数据仓库的应用中,从较低层次的数据开始逐步将数据按照不同的层次进行概括处理据开始逐步将数据按照不同的层次进行概括处理 下钻:下钻:下钻:下钻:从数据仓库中的高层数据开始逐步向低层数从数据仓库中的高层数据开始逐步向低层数据探索,了解组成概括数据的具体细节据探索,了解组成概括数据的具体细节2.6数据仓库中的数据组织数据仓库中的数据组织32n数据仓库中的数据

27、组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织33n数据仓库的元数据与数据库管理系统中的数据字典或数数据仓库的元数据与数据库管理系统中的数据字典或数据目录相似。据目录相似。n数据字典中保存了逻辑数据结构,文件和地址、索引等数据字典中保存了逻辑数据结构,文件和地址、索引等信息。信息。n数据字典包含的是关于数据库中数据本身信息的数据。数据字典包含的是关于数据库中数据本身信息的数据。2.6数据仓库中的数据组织数据仓库中的数据组织342.6数据仓库中的

28、数据组织数据仓库中的数据组织352.6数据仓库中的数据组织数据仓库中的数据组织362.6数据仓库中的数据组织数据仓库中的数据组织n将元数据看作是电话黄页。将元数据看作是电话黄页。n你需要当地商店的信息吗?他们在哪里,他们的名字是你需要当地商店的信息吗?他们在哪里,他们的名字是什么,他们的专营是什么?去查电话黄页吧。什么,他们的专营是什么?去查电话黄页吧。n电话黄页是当地部门信息的一本字典。电话黄页是当地部门信息的一本字典。n元数据部分与电话黄页的作用类似,它是数据仓库内容元数据部分与电话黄页的作用类似,它是数据仓库内容的一本字典。的一本字典。37n什么是元数据?什么是元数据?n假设,用户希望在

29、运行查询之前,了解数据仓库中名叫假设,用户希望在运行查询之前,了解数据仓库中名叫CUSTOMERCUSTOMER的表或实体。的表或实体。n在元素据存储库中与在元素据存储库中与CUSTOMERCUSTOMER相关的信息内容是什么?相关的信息内容是什么?2.6数据仓库中的数据组织数据仓库中的数据组织38定义定义:从公司购买产品或服务的一个人或者一个机构。:从公司购买产品或服务的一个人或者一个机构。备注备注:客户实体包含了常规的、当前以及过去的客户;:客户实体包含了常规的、当前以及过去的客户;源系统源系统:已经完成的产品订单,维护合同,在线销售:已经完成的产品订单,维护合同,在线销售建立日期建立日期

30、:1999年年1月月15日日最后更新日期最后更新日期:2001年年1月月21日日更新周期更新周期:每周每周最后的完全刷新日期最后的完全刷新日期:2000年年12月月29日日完全刷新周期完全刷新周期:每每6个月个月数据质量回顾数据质量回顾:2001年年1月月25日日最后的副本最后的副本:2001年年1月月10日日计划归档计划归档:每每6个月个月负责人负责人:janebrown2.6数据仓库中的数据组织数据仓库中的数据组织实体名称:实体名称:customer别名:别名:Account,Client392.6数据仓库中的数据组织数据仓库中的数据组织数据仓库的关键需求:数据仓库的关键需求:n对数据仓库

31、使用的必要性对数据仓库使用的必要性在订单处理程序中,用户通过系统提供的图形界面及预在订单处理程序中,用户通过系统提供的图形界面及预定义的报表进行信息访问;定义的报表进行信息访问;使用数据仓库时,自己从数据仓库中获取信息。使用数据仓库时,自己从数据仓库中获取信息。需要使需要使用元数据。用元数据。402.6数据仓库中的数据组织数据仓库中的数据组织对构建数据仓库的必要性n数据抽取和数据转换源系统及其数据结构数据仓库的结构及数据内容数据映射及数据转换我们需要源系统的元数据,源系统到目标系统的映射,以及数据转换的规则。n数据仓库的数据管理员物理设计和初始装载定期的增量装载需要知道数据库逻辑结构的元数据,

32、数据刷新及装载周期元数据。412.6数据仓库中的数据组织数据仓库中的数据组织n对管理数据仓库的必要性数据抽取/转换/装载如何处理数据的变化?如何纳入新的源系统?外部系统的数据如何增加新的外部数据源?如何去掉某些外部数据源?数据仓库如何增加新的汇总表?如何控制查询?422.6数据仓库中的数据组织数据仓库中的数据组织n想象一下,一个没有标签和文件夹的文件柜。n如果没有元数据,那么数据仓库就像这个文件柜;n可能装满了很多对你的用户、开发者及管理者很有用的信息,但是,却没有任何简便的方法知道这些信息在哪里,这样一来,数据仓库的价值就很有限。432.6数据仓库中的数据组织数据仓库中的数据组织n元数据就像

33、一个神经中枢,是关于数据的数据;n在构建和管理数据仓库的过程中,不同的过程都会产生一部分元数据。n一个过程创建的元数据可以被其他过程使用。n在数据仓库中,元数据处于一个关键的位置,使不同的过程能够相互通信,是数据仓库的中枢。442.6数据仓库中的数据组织数据仓库中的数据组织数据仓库元素数据仓库元素查询工具查询工具报表工具报表工具OLAP工具工具数据挖掘数据挖掘应用程序应用程序外部数据外部数据数据装载数据装载功能功能转换工具转换工具清晰工具清晰工具抽取工具抽取工具源系统源系统452.6数据仓库中的数据组织数据仓库中的数据组织n元数据扮演了一个活跃的角色,辅助数据仓库处理过程的自动化。n以下是按顺

34、序排列的后端处理过程的列表数据源结构定义;数据抽取;初始重格式化/合并初步数据清洗数据转换/合并有效性和质量检查数据仓库结构定义创建装载映像462.6数据仓库中的数据组织数据仓库中的数据组织n按照数据仓库功能区域划分的元数据类型n数据源数据1.数据源存储平台2.数据源的数据格式3.数据源的业务内容说明;4.数据源的所有者5.数据源的访问方法及使用限制;6.实施数据抽取的工具和其他方法,及相应的参数设置;7.数据抽取的进度安排;8.实际数据抽取的时间、内容及完成情况记录;472.6数据仓库中的数据组织数据仓库中的数据组织n按照数据仓库功能区域划分的元数据类型n数据的预处理数据抽取、转换、装载过程

35、中用到的各种文件定义;从数据源到主题数据实际视图之间的数据对应关系,有关数据净化的详细规则;为了满足数据挖掘需要进行的数据处理的详细说明;维表各属性的更新策略选择;代理码的分配情况;数据聚集的定义;预处理数据的备份方法;482.6数据仓库中的数据组织数据仓库中的数据组织n按照数据仓库功能区域划分的元数据类型n数据仓库主题各种数据库表或视图的定义数据库分区的设置;索引的建立方法;数据库访问权限分配;数据库备份方案;492.6数据仓库中的数据组织数据仓库中的数据组织n按照数据仓库功能区域划分的元数据类型n查询服务数据库表及表中数据项的业务含义说明;可视化查询结果格式的定义;用户及其访问权限的定义;

36、数据仓库使用情况的监控与统计;502.6数据仓库中的数据组织数据仓库中的数据组织n也可以将原数据分为管理元数据和用户元数据;n管理元数据用于创建和维护数据仓库。它包括数据源元数据、预处理数据元数据、数据仓库主题数据源数据等;n用户元数据帮助用户进行查询、理解查询结果,了解数据仓库的数据和组织,其中主要内容是查询服务元数据;51n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织52n数据仓库的数据组织形式数据仓库的数据组织形式简单堆

37、积文件简单堆积文件它将由数据库中提取并加工的数据逐一积累存储它将由数据库中提取并加工的数据逐一积累存储轮转综合文件轮转综合文件数据存储单位被分为若干个级别数据存储单位被分为若干个级别轮转记录轮转记录-综合综合优点:结构简捷,数据量较简单堆积结构减少优点:结构简捷,数据量较简单堆积结构减少缺点:损失数据细节。越久远的数据,细节损失越多缺点:损失数据细节。越久远的数据,细节损失越多2.6数据仓库中的数据组织数据仓库中的数据组织53n简单堆积结构简单堆积结构它将每天从数据库中提取加工后的数据逐日积累的存储它将每天从数据库中提取加工后的数据逐日积累的存储起来。按这种方式存储的数据细节化程度很高,可以应

38、起来。按这种方式存储的数据细节化程度很高,可以应付多种细节查询,但分析时查询的效率较低。付多种细节查询,但分析时查询的效率较低。2.6数据仓库中的数据组织数据仓库中的数据组织面向应用数据库每天数据每天综合1月1日1月2日1月3日2月1日2月2日2月3日3月1日3月2日3月3日 需要许多存储空间需要许多存储空间无细节丢失无细节丢失许多处理与数据有关许多处理与数据有关54n轮转综合结构轮转综合结构它将数据按不同的期限轮转地存储。它将数据按不同的期限轮转地存储。2.6数据仓库中的数据组织数据仓库中的数据组织非常紧凑非常紧凑一些细节丢失一些细节丢失提取越久的数据,越不详细提取越久的数据,越不详细55n

39、简单直接简单直接数据是从操作型环境直接装入数据仓库中,并没有任何积累,只不数据是从操作型环境直接装入数据仓库中,并没有任何积累,只不过这种文件不是在每天的基础上组织的,而是以较长时间(如一个过这种文件不是在每天的基础上组织的,而是以较长时间(如一个星期、一个月)为单位的。因此,简单直接文件是按一定时间操作星期、一个月)为单位的。因此,简单直接文件是按一定时间操作型数据库的一个快照,即按一定时间间隔对数据库的采样。型数据库的一个快照,即按一定时间间隔对数据库的采样。JAdamsMain大街大街PAndersonHigh大街大街456号号KApplebyA大街大街10号号LAzimoff被被农场路

40、路64号号面向应用数据库1月份数据2.6数据仓库中的数据组织数据仓库中的数据组织56n连续结构连续结构它是通过比较两个连续的简单直接文件的不同而生成的它是通过比较两个连续的简单直接文件的不同而生成的另一种连续文件,生成的连续文件又可以和新的简单直另一种连续文件,生成的连续文件又可以和新的简单直接文件一起生成新的连续文件接文件一起生成新的连续文件。JAdamsMain大街大街PAndersonHigh大街大街456号号KApplebyA大街大街10号号LAzimoff被农场路被农场路64号号JAdamsMain大街大街WAbraham9号公路号公路12号号PAndersonTincup郡郡14号

41、号KApplebyA大街大街10号号JAdamsMain大街大街1月月今今WAbraham9号公路号公路12号号2月月今今PAndersonHigh大街大街456号号1月月1月月PAndersonTincup郡郡14号号2月月今今KApplebyA大街大街10号号1月月今今2.6数据仓库中的数据组织数据仓库中的数据组织57连续文件连续文件1)两个连续的简单直接文件两个连续的简单直接文件比较他们的不同比较他们的不同连续文件连续文件2)连续文件连续文件+新的简单文件新的简单文件新的连续文件新的连续文件n数据仓库的数据组织形式数据仓库的数据组织形式2.6数据仓库中的数据组织数据仓库中的数据组织58一

42、月份顾客表一月份顾客表数据库快照数据库快照操作型数据操作型数据图图1-5 生成简化直接文件生成简化直接文件姓名顾客号地址张平C960100北京王英C960101天津王宾C960102上海李强C960103重庆2.6数据仓库中的数据组织数据仓库中的数据组织59连续文件连续文件两个连续的简化直接文件两个连续的简化直接文件比较他们的不同比较他们的不同连续文件连续文件姓姓名名顾顾客客号号地地址址张平张平C960100北京北京王英王英C960101天津天津王宾王宾C960102上海上海刘仲刘仲C960104重庆重庆姓姓名名顾顾客客号号地地址址张平张平C960100北京北京王英王英C960101沈阳沈阳王

43、宾王宾C960102上海上海刘仲刘仲C960104大连大连姓名顾客号时间地址张平张平C9601001-2月月北京北京王英王英C9601011-1月月天津天津王英王英C9601012-2月月沈阳沈阳王宾王宾C9601021-2月月上海上海刘仲刘仲C9601041-1月月重庆重庆刘仲刘仲C9601042-2月月大连大连1-2月份顾客表月份顾客表比较不同比较不同 2月份顾客表月份顾客表1月份顾客表月份顾客表60连续文件连续文件+新的简单文件新的简单文件 新的连续文件新的连续文件姓姓名名顾顾客客号号地地址址张平C960100北京王宾C960102上海刘仲C960104大连姓名顾客号时间地址张平C960

44、1001-2月北京王英C9601011-1月天津王英C9601012-2月沈阳王宾C9601021-2月上海刘仲C9601041-1月重庆刘仲C9601042-2月大连姓名顾客号时间地址张平C9601001-3月北京王英C9601011-1月天津王英C9601012-2月沈阳王宾C9601021-3月上海刘仲C9601041-1月重庆刘仲C9601042-3月大连1-2月份顾客表3月份顾客表1-3月份顾客表比较不同比较不同 61n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追

45、加2.6数据仓库中的数据组织数据仓库中的数据组织62数数据据追追加加:数数据据仓仓库库的的数数据据初初装装完完成成后后,再再向向数数据据仓仓库库输输入数据的过程入数据的过程追加内容:上次数据追加后在追加内容:上次数据追加后在OLTP数据库中变化了的数据数据库中变化了的数据变化数据的捕捉途径变化数据的捕捉途径:时标方法时标方法DELTA文件文件前后映象文件前后映象文件日志文件日志文件n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织631.时标方法时标方法n时标方法时标方法如如果果数数据据含含有有时时标标,对对新新插插入入或或更更新新的的数数据据记记录录,加加更

46、更新新时时的的时标时标n问题问题许多数据库中的数据并不含有时标许多数据库中的数据并不含有时标1. 时标方法时标方法2.6数据仓库中的数据组织数据仓库中的数据组织642.DELTA文件方法文件方法由应用生成由应用生成DELTA文件,记录应用所改变的所有内容文件,记录应用所改变的所有内容n优点优点避免了扫描整个数据库,效率比较高避免了扫描整个数据库,效率比较高n问题问题生成生成DELTA文件的应用不普遍文件的应用不普遍更改应用代码,应用在生成新数据时可自动将其记录下来更改应用代码,应用在生成新数据时可自动将其记录下来应用成千上万,且修改代码十分繁琐,很难实现应用成千上万,且修改代码十分繁琐,很难实

47、现1. 时标方法时标方法2.6数据仓库中的数据组织数据仓库中的数据组织653.前后映象文件前后映象文件前后映象文件的方法前后映象文件的方法抽抽取取数数据据到到数数据据仓仓库库之之后后,本本次次将将抽抽取取数数据据之之前前,对对数数据据库库分分别别作一次快照,比较两幅快照的不同,确定追加的数据作一次快照,比较两幅快照的不同,确定追加的数据问题问题占用大量资源,影响系统性能占用大量资源,影响系统性能2.6数据仓库中的数据组织数据仓库中的数据组织664.日志文件日志文件优点优点利用利用DB的固有机制,数据只限于日志文件,不用扫描整个数据库的固有机制,数据只限于日志文件,不用扫描整个数据库缺点缺点原来日志文件的格式是依据原来日志文件的格式是依据DB系统的要求设计的。要进行改进系统的要求设计的。要进行改进如如:对对一一个个记记录录的的多多次次更更新新,日日志志文文件件将将全全部部变变化化过过程程都都记记录录下下来,而数据仓库,只要最终结果来,而数据仓库,只要最终结果2.6数据仓库中的数据组织数据仓库中的数据组织67

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号