数据仓库与数据挖掘第二章B

上传人:xian****812 文档编号:324059392 上传时间:2022-07-12 格式:PPT 页数:57 大小:411.50KB
返回 下载 相关 举报
数据仓库与数据挖掘第二章B_第1页
第1页 / 共57页
数据仓库与数据挖掘第二章B_第2页
第2页 / 共57页
数据仓库与数据挖掘第二章B_第3页
第3页 / 共57页
数据仓库与数据挖掘第二章B_第4页
第4页 / 共57页
数据仓库与数据挖掘第二章B_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《数据仓库与数据挖掘第二章B》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘第二章B(57页珍藏版)》请在金锄头文库上搜索。

1、第二章第二章 数据仓库原理数据仓库原理0第二章第二章 数据仓库原理数据仓库原理n2.1数据仓库定义数据仓库定义n2.2数据仓库特征数据仓库特征n2.3数据库体系化环境数据库体系化环境n2.4数据仓构造模式数据仓构造模式n2.5数据仓库概念结构数据仓库概念结构n2.6数据仓库中的数据组织数据仓库中的数据组织n小节小节1n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织2n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分割分割n

2、维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织32.6数据仓库中的数据组织数据仓库中的数据组织n为了提高分析和决策的效率和有效性,分析型处理为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分析及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数据从事务型处理环境中提取出来,型处理所需要的数据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分按照分析型处理的要求进行重新组织,建立单独的分析处理环境。析处理环境。n数据仓库

3、正是构建这种新的分析处理环境而出现的数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。一种数据存储和组织技术。42.6数据仓库中的数据组织数据仓库中的数据组织n数据仓库的数据组织结构不同于一般的数据库系统,数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。数据分成一些不同的级别。n在数据仓库中,数据按照粒度从小到大可分为四个在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度级别:早期细节级、当前细节级、轻度细节级和高度细节级。

4、细节级。n从事务型处理环境中提取的源数据经过综合后,首从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度入轻度综合级或高度5数据仓库的数据组织结构数据仓库的数据组织结构元元数数据据高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级2.6数据仓库中的数据组织数据仓库中的数据组织6n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别早期细节级早期细节级一般而言,当前细节级的数据对于决策的支持程度随数据一般而言,当前细节级的数据对于决策的支持程度

5、随数据发生时间的久远而降低。为了有效控制数据仓库中当前细发生时间的久远而降低。为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,合理的时间阀值,将老化的数据转为早期细节级的数据,并以合适的方式进行存储。并以合适的方式进行存储。2.6数据仓库中的数据组织数据仓库中的数据组织7n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别当前细节级当前细节级来自

6、数据源的数据,所反映的都是当前的业务情况,来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进因此在导入数据仓库之后,首先做为当前细节级数据进行存储。行存储。这些数据规模较大,实时性强,是数据仓库用户感兴这些数据规模较大,实时性强,是数据仓库用户感兴趣的部分。趣的部分。当前细节级的数据一方面依据数据仓库的既定规则,当前细节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数一方面,随时间的推移,逐渐老化,成为历史细节级数据。

7、据。2.6数据仓库中的数据组织数据仓库中的数据组织8n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别轻度综合级轻度综合级为了有效控制数据仓库进行决策支持时的系统开销,对为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的时间段为单位进行综当前细节级的数据,通常以一定的时间段为单位进行综合。这一设定的时间段参数又称为合。这一设定的时间段参数又称为“粒度粒度”。以较小的。以较小的粒度生成的综合数据,称为粒度生成的综合数据,称为“轻度综合级数据轻度综合级数据”,其规,其规模要远远小于当前细节级数据,因此,可以明显提高决模要远远小于当前细节级数据,因

8、此,可以明显提高决策运算的效率。策运算的效率。2.6数据仓库中的数据组织数据仓库中的数据组织9n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别高度综合级高度综合级以较长的时间段,即较大的粒度,对当前细节级的数据以较长的时间段,即较大的粒度,对当前细节级的数据进行综合而形成的结果,称为进行综合而形成的结果,称为“高度综合级数据高度综合级数据”。高度综合级的数据内容十分精练,可以认为是一种高度综合级的数据内容十分精练,可以认为是一种“准准决策数据决策数据”。这里,这里,“高度高度”和和“轻度轻度”只是一种相对的概念没有绝只是一种相对的概念没有绝对的界限。对的界限。2.6数

9、据仓库中的数据组织数据仓库中的数据组织10 数据仓库的数据组织结构的一个例子数据仓库的数据组织结构的一个例子 高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级1990-2004年年 每月销售表每月销售表1996-2004年年每周销售表每周销售表1996-2004年年销售情况表销售情况表1990-1995年年销售明细表销售明细表 数据仓库中的数据组织数据仓库中的数据组织2.6数据仓库中的数据组织数据仓库中的数据组织11n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分割分割n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据

10、追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织12n粒度粒度对数据仓库中的对数据仓库中的数据综合程度高低的一个度量数据综合程度高低的一个度量。例如:一个简单的交易处于低粒度级,而每月所有交易的例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。汇总和处于一个高粒度级。粒度会深刻地影响存放在数据仓库中的粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据量的大小以及数据仓库所能够回答的查询类型数据仓库所能够回答的查询类型。在数据仓库中的数据量。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。大小与所能回答查询的细节级别之间要做出权衡。

11、2.6数据仓库中的数据组织数据仓库中的数据组织13n粒度粒度一个顾客一个月中每次通话的一个顾客一个月中每次通话的细节细节一个顾客一个月中通话的综合一个顾客一个月中通话的综合CassSquire上星期给他在波士顿的女友上星期给他在波士顿的女友打过电话没有?打过电话没有?能回答,尽管需要一定数量的能回答,尽管需要一定数量的检索检索根本不能回答,细节已经丢失根本不能回答,细节已经丢失“上个月,华盛顿人平均打出多少个电话?上个月,华盛顿人平均打出多少个电话?”由此可见,粒度级别对于能回答什么问题和问答问题所需资源多由此可见,粒度级别对于能回答什么问题和问答问题所需资源多由此可见,粒度级别对于能回答什么

12、问题和问答问题所需资源多由此可见,粒度级别对于能回答什么问题和问答问题所需资源多少有深刻的影响。少有深刻的影响。少有深刻的影响。少有深刻的影响。2.6数据仓库中的数据组织数据仓库中的数据组织14n粒度粒度粒度的权衡是固有的,所以大多数企业的最佳解决方法是采粒度的权衡是固有的,所以大多数企业的最佳解决方法是采粒度的权衡是固有的,所以大多数企业的最佳解决方法是采粒度的权衡是固有的,所以大多数企业的最佳解决方法是采用多重粒度的形式用多重粒度的形式用多重粒度的形式用多重粒度的形式低粒度低粒度高粒度高粒度能回答任何问题能回答任何问题效率低效率低数据量大数据量大能回答所有问题能回答所有问题效率高效率高数据

13、量小数据量小2.6数据仓库中的数据组织数据仓库中的数据组织15n粒度分为两种形式:粒度分为两种形式:对数据仓库中的数据的综合程度高低的一个度量对数据仓库中的数据的综合程度高低的一个度量粒度越小,细节程度越高,综合程度越低粒度越小,细节程度越高,综合程度越低粒度大小影响数据仓库效率、能回答询问的种类粒度大小影响数据仓库效率、能回答询问的种类“张三在某时某地是否给李四打过电话?张三在某时某地是否给李四打过电话?”“张三去年共打了几次长途电话张三去年共打了几次长途电话”“某地区今年长途与普通电话费用之比某地区今年长途与普通电话费用之比”“今年长途普通电话费用增长率今年长途普通电话费用增长率”“预测未

14、来长途普通电话费用变化趋势预测未来长途普通电话费用变化趋势”数据仓库是多粒度的,不同的粒度回答不同的查询数据仓库是多粒度的,不同的粒度回答不同的查询2.6数据仓库中的数据组织数据仓库中的数据组织16n粒度分为两种形式:粒度分为两种形式:样本数据库样本数据库在分析过程中,有许多探索的过程有时分析的目的并不要在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。所以可以提取出样本数据库。样本数据库的粒度:是根据采样率的高低来划分的,采样样本数据库的粒度:是根据采样率的高低来

15、划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。个子集。样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。有助于抓住主要因素和主要矛盾。2.6数据仓库中的数据组织数据仓库中的数据组织17样本数据库样本数据库根根据据采采样样率率的的高高低低来来划划分分粒

16、粒度度:以以一一定定的的采采样样率率从从细细节节数数据据或或轻轻度度综合数据中抽取的一个子集综合数据中抽取的一个子集用处:代替源数据进行模拟分析,适用于趋势分析和预测分析用处:代替源数据进行模拟分析,适用于趋势分析和预测分析抽样的方法:随机抽取,必要时可采用抽样的方法:随机抽取,必要时可采用“判断样本判断样本”优点:优点:高效率,在启发式分析中,高效率,在启发式分析中,源数据量很大的情况下,抽样数据可以大大下降,源数据量很大的情况下,抽样数据可以大大下降,分析结果误差极小分析结果误差极小有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾2.6数据仓库中的数据组织数据仓库中的数据组织18n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织19n分区分区数据分区是指把数据分散到可独立处理的分离物理单元中数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。去。数据分割后的数据单元称为分片。在数据仓库中围绕分

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号