数据仓库的数据存储与处理

上传人:鲁** 文档编号:575505868 上传时间:2024-08-18 格式:PPT 页数:37 大小:249.75KB
返回 下载 相关 举报
数据仓库的数据存储与处理_第1页
第1页 / 共37页
数据仓库的数据存储与处理_第2页
第2页 / 共37页
数据仓库的数据存储与处理_第3页
第3页 / 共37页
数据仓库的数据存储与处理_第4页
第4页 / 共37页
数据仓库的数据存储与处理_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《数据仓库的数据存储与处理》由会员分享,可在线阅读,更多相关《数据仓库的数据存储与处理(37页珍藏版)》请在金锄头文库上搜索。

1、第第2章章 数据仓库数据仓库的数据存储与处理的数据存储与处理 8/18/20248/18/20241数据仓库与数据挖掘数据仓库与数据挖掘l数据存储与数据处理是数据仓库系统实施的数据存储与数据处理是数据仓库系统实施的三个关键环节中的中心环节。三个关键环节中的中心环节。l数据存储结构设计和数据处理技术的研究在数据存储结构设计和数据处理技术的研究在数据仓库理论中占有重要地位。数据仓库理论中占有重要地位。第第2章章 数据仓库的数据存储数据仓库的数据存储 与处理与处理 8/18/20248/18/20242数据仓库与数据挖掘数据仓库与数据挖掘2.1 数据仓库的数据结构数据仓库的数据结构 三层数据结构8/

2、18/20248/18/20243数据仓库与数据挖掘数据仓库与数据挖掘2.1 数据仓库的数据结构数据仓库的数据结构 各个组成部分的含义:各个组成部分的含义: l操作性数据操作性数据 :来源于业务系统中的数据。:来源于业务系统中的数据。l调和数据:存储在企业级数据仓库中的数据。调和数据:存储在企业级数据仓库中的数据。l导出数据:从数据仓库中导出并存储在各个数导出数据:从数据仓库中导出并存储在各个数据集市中的数据。据集市中的数据。l企业数据模型:企业组织所需数据的整体轮廓。企业数据模型:企业组织所需数据的整体轮廓。l元数据元数据 :有关数据的说明。:有关数据的说明。8/18/20248/18/20

3、244数据仓库与数据挖掘数据仓库与数据挖掘2.2 数据仓库的数据特征数据仓库的数据特征 l状态数据与事件数据状态数据与事件数据 l当前数据与周期数据当前数据与周期数据 l数据仓库中的元数据数据仓库中的元数据 8/18/20248/18/20245数据仓库与数据挖掘数据仓库与数据挖掘状态数据与事件数据:状态数据与事件数据:l状态数据:描述对象状态的数据。状态数据:描述对象状态的数据。l事件数据:描述对象发生的事件的数据。事件数据:描述对象发生的事件的数据。l数据库和数据仓库中存储的基本数据类型是数据库和数据仓库中存储的基本数据类型是状态数据。状态数据。l但是数据仓库中往往还存储事务或事件数据但是

4、数据仓库中往往还存储事务或事件数据的汇总。的汇总。 8/18/20248/18/20246数据仓库与数据挖掘数据仓库与数据挖掘当前数据与周期数据当前数据与周期数据 :l当前数据(业务系统):保留的最新数据。当前数据(业务系统):保留的最新数据。l周期数据(数据仓库):保留的历史数据。周期数据(数据仓库):保留的历史数据。8/18/20248/18/20247数据仓库与数据挖掘数据仓库与数据挖掘数据仓库中的元数据:数据仓库中的元数据: l数据仓库中的另一特征。数据仓库中的另一特征。8/18/20248/18/20248数据仓库与数据挖掘数据仓库与数据挖掘2.3 数据仓库的数据数据仓库的数据ETL

5、过程过程 lETL概念概念lETL过程前后数据的特征过程前后数据的特征 l数据的数据的ETL过程描述过程描述 l抽取(抽取(Capture/Extract) l清洗(清洗(Scrub/Cleanse) l转换(转换(Transform) l加载和索引(加载和索引(Load/Index)8/18/20248/18/20249数据仓库与数据挖掘数据仓库与数据挖掘ETL的概念:的概念:l数数据据ETL是是用用来来实实现现异异构构数数据据源源的的数数据据集集成成,即即完完成成数数据据的的抓抓取取/抽抽取取(Capture/Extract)、清清洗洗 ( Scrub or data cleansing)

6、 、 转转 换换( Transform) 、 装装 载载 与与 索索 引引 ( Load and Index)等数据调和工作。)等数据调和工作。 8/18/20248/18/202410数据仓库与数据挖掘数据仓库与数据挖掘数据的数据的ETL过程描述:过程描述: 8/18/20248/18/202411数据仓库与数据挖掘数据仓库与数据挖掘数据抽取:数据抽取:几点要求:几点要求:l数据源命名的透明度。数据源命名的透明度。l源系统实施的业务规则的完整性和准确性。源系统实施的业务规则的完整性和准确性。l数据格式的一致性。数据格式的一致性。SELECTINTO、存储过程等方法。、存储过程等方法。8/18

7、/20248/18/202412数据仓库与数据挖掘数据仓库与数据挖掘数据清洗:数据清洗:原因:操作型业务系统中的数据质量很差。原因:操作型业务系统中的数据质量很差。l 错误拼写的名字和地址。错误拼写的名字和地址。l不可能的或错误的出生日期。不可能的或错误的出生日期。l不匹配的地址和电话区号。不匹配的地址和电话区号。l缺失的数据。缺失的数据。l重复的数据。重复的数据。l8/18/20248/18/202413数据仓库与数据挖掘数据仓库与数据挖掘数据转换:数据转换:l在在ETL过程中处于中心位置,又很麻烦。过程中处于中心位置,又很麻烦。 l将将经经过过清清洗洗后后的的数数据据(源源系系统统)转转换

8、换成成装装载载对对象象(目标系统)的格式。(目标系统)的格式。8/18/20248/18/202414数据仓库与数据挖掘数据仓库与数据挖掘数据加载和索引:数据加载和索引:l将整理好的数据添加到数据仓库中。将整理好的数据添加到数据仓库中。(方法?)(方法?)l建立索引。建立索引。8/18/20248/18/202415数据仓库与数据挖掘数据仓库与数据挖掘数据数据ETL过程的实施要点:过程的实施要点: lETL过程是一个数据流动的过程,中间的过程是一个数据流动的过程,中间的“T”(转换)是关键(转换)是关键 ;lETL工具的选择非常重要,运用合适的工具工具的选择非常重要,运用合适的工具会事半功倍会

9、事半功倍 ;l如何保证数据质量?数据质量在一定程度如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值上决定了数据仓库的价值 。8/18/20248/18/202416数据仓库与数据挖掘数据仓库与数据挖掘2.4 多维数据模型和星模式多维数据模型和星模式 l多维数据模型及其相关概念多维数据模型及其相关概念 l多维数据模型的物理实现多维数据模型的物理实现 l多维建模技术简介多维建模技术简介 l一个星模式的例子一个星模式的例子 8/18/20248/18/202417数据仓库与数据挖掘数据仓库与数据挖掘多维数据模型及其相关概念多维数据模型及其相关概念 l有有关关多多维维数数据据模模型型的的几几

10、个个概概念念:维维、维维类类别别、维维属属性性、度度量量、粒粒度度及及分分割等割等 l关关于于数数据据综综合合级级别别与与粒粒度度的的确确定定:一一般般把把数数据据分分成成四四个个级级别别:早早期期细细节节级级、当当前前细细节节级级、轻轻度度综综合合级级、高度综合级高度综合级 8/18/20248/18/202418数据仓库与数据挖掘数据仓库与数据挖掘l有有关关多多维维数数据据模模型型的的几几个个概概念念:维维、维维类类别别、维维属属性性、度度量量、粒粒度度及及分分割等割等 8/18/20248/18/202419数据仓库与数据挖掘数据仓库与数据挖掘维的类别即维的分层。可分为:q简单层次q复杂

11、层次全国全国江苏江苏北京北京上海上海维类别维类别8/18/20248/18/202420数据仓库与数据挖掘数据仓库与数据挖掘全国全国江苏江苏北京北京上海上海苏州市苏州市扬州市扬州市宝应县宝应县复杂层次复杂层次8/18/20248/18/202421数据仓库与数据挖掘数据仓库与数据挖掘维属性维属性维的一个取值。8/18/20248/18/202422数据仓库与数据挖掘数据仓库与数据挖掘l度量即度度量量值值,是多维数据空间中的单元格,用以存放数据,也叫事实。度量度量8/18/20248/18/202423数据仓库与数据挖掘数据仓库与数据挖掘粒度与分割粒度与分割 数据粒度:是对数据仓库中的数据的综合

12、程度高数据粒度:是对数据仓库中的数据的综合程度高数据粒度:是对数据仓库中的数据的综合程度高数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般分为四个级别:高度综合级、低的度量。(一般分为四个级别:高度综合级、低的度量。(一般分为四个级别:高度综合级、低的度量。(一般分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节级)轻度综合级、当前细节级、早期细节级)轻度综合级、当前细节级、早期细节级)轻度综合级、当前细节级、早期细节级)分割:将数据分散到各自的物理单元中去以便能分割:将数据分散到各自的物理单元中去以便能分割:将数据分散到各自的物理单元中去以便能分割:将数据分散到各自的物理单

13、元中去以便能分别处理,提高数据处理效率,数据分割后的数分别处理,提高数据处理效率,数据分割后的数分别处理,提高数据处理效率,数据分割后的数分别处理,提高数据处理效率,数据分割后的数据单元称为分片。据单元称为分片。据单元称为分片。据单元称为分片。数据分割的标准:可按日期、地域、业务领域或数据分割的标准:可按日期、地域、业务领域或数据分割的标准:可按日期、地域、业务领域或数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。按多个分割标准的组合。按多个分割标准的组合。按多个分割标准的组合。数据分割的目的:便于进行数据的重构、索引、数据分割的目的:便于进行数据的重构、索引、数据分割的目的:

14、便于进行数据的重构、索引、数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描。重组、恢复、监控、扫描。重组、恢复、监控、扫描。重组、恢复、监控、扫描。8/18/20248/18/202424数据仓库与数据挖掘数据仓库与数据挖掘l关关于于数数据据综综合合级级别别与与粒粒度度的的确确定定:一一般般把把数数据据分分成成四四个个级级别别:早早期期细细节节级级、当当前前细细节节级级、轻轻度度综综合合级级、高度综合级高度综合级 8/18/20248/18/202425数据仓库与数据挖掘数据仓库与数据挖掘一个典型的数据仓库的数据组织结构图一个典型的数据仓库的数据组织结构图: 数数据据仓仓库库层

15、层后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级每“月”电话呼叫情况信息每“天”电话呼叫情况信息电话呼叫情况信息电话呼叫明细情况信息8/18/20248/18/202426数据仓库与数据挖掘数据仓库与数据挖掘多维数据模型的物理实现多维数据模型的物理实现 l多多维维数数据据库库(MDDB),其其数数据据是是存存储储在在大大量量的的多多维维数数组组中中,而而不不是是关关系系表表中中 ,与与之之相相对对应应的的是是多多维维联联机机分分析处理(析处理(MOLAP) l关关系系数数据据库库是是存存储储OLAP数数据据的的另另一一种种主主要要方方式式。与与之之对对应应的的是是关关系系联联

16、机分析处理(机分析处理(ROLAP) 8/18/20248/18/202427数据仓库与数据挖掘数据仓库与数据挖掘l多维数据库(多维数据库(MDDB)产品名称产品名称销售地区销售地区销售数量销售数量电器电器电器电器电器电器服装服装服装服装服装服装江苏江苏上海上海北京北京江苏江苏上海上海北京北京940450340830350270江苏江苏上海上海北京北京电器电器服装服装940830450350340270关系数据库存储方式关系数据库存储方式多维数据库存储方式多维数据库存储方式8/18/20248/18/202428数据仓库与数据挖掘数据仓库与数据挖掘产品名产品名称称销售地销售地区区销售数销售数量

17、量电器电器电器电器电器电器电器电器服装服装服装服装服装服装服装服装汇总汇总汇总汇总汇总汇总汇总汇总江苏江苏上海上海北京北京汇总汇总江苏江苏上海上海北京北京汇总汇总江苏江苏上海上海北京北京汇总汇总9404503401730830350270145017708006103180江苏江苏上海上海北京北京汇总汇总电器电器服装服装汇总汇总9408301770450350800340270610173014503180具有汇总数据项的关系数据库具有汇总数据项的关系数据库具有汇总值的多维数据库具有汇总值的多维数据库关系数据库中,将关系数据库中,将关系数据库中,将关系数据库中,将“ “多对多多对多多对多多对多

18、” ”的关系转化的关系转化的关系转化的关系转化为多个为多个为多个为多个“ “一对多一对多一对多一对多” ”的的的的关系关系关系关系不直观不直观不直观不直观直观直观直观直观8/18/20248/18/202429数据仓库与数据挖掘数据仓库与数据挖掘q二维数据容易理解,但维数扩展到三维或更高的二维数据容易理解,但维数扩展到三维或更高的维度时,多维数据库维度时,多维数据库MDDBMDDB就成了一种就成了一种“超立方超立方”体的结构体的结构 ,理解就困难多了。,理解就困难多了。q在在MDDBMDDB中,其数据的存储是由许多类似于数组的中,其数据的存储是由许多类似于数组的对象来完成,对象中包含了经过高度

19、压缩的索引对象来完成,对象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许多存储数据的和指针,利用这些索引和指针将许多存储数据的单元块联结在一起单元块联结在一起 。q实际组合中往往由于各种原因会导致某些组合没实际组合中往往由于各种原因会导致某些组合没有具体的值,或值是空的或者为零。有具体的值,或值是空的或者为零。 产生了多产生了多维数据库的稀疏矩阵问题。维数据库的稀疏矩阵问题。 q稀疏矩阵将导致存储空间的浪费,所以需要采用稀疏矩阵将导致存储空间的浪费,所以需要采用压缩技术。压缩技术。8/18/20248/18/202430数据仓库与数据挖掘数据仓库与数据挖掘将数据的多维结构划分为两类表

20、:将数据的多维结构划分为两类表:q事实表事实表q维度表维度表按照两种结构设计:按照两种结构设计:q星型模型星型模型q雪花模型雪花模型l关关系系数数据据库库是是存存储储OLAP数数据据的的另另一一种种主主要要方方式式。与与之之对对应应的的是是关关系系联联机机分分析处理(析处理(ROLAP) 8/18/20248/18/202431数据仓库与数据挖掘数据仓库与数据挖掘 产品ID 时间ID 销售商ID 地址ID产品ID销售商ID地址ID时间ID销售数量销售成本总收入销售商维度表地理位置维表时 间维表产品维表1.1.星型模式在关系数据库中的表示星型模式在关系数据库中的表示 8/18/20248/18/

21、202432数据仓库与数据挖掘数据仓库与数据挖掘2.2.雪花模式在关系数据库中的表示雪花模式在关系数据库中的表示 产品维表 产品ID 时间ID 销售商ID 地址ID图5.9雪花模式的关系数据库表示地理位置维表时间维表产品ID产品名称公司ID公司名称产品颜色ID产品颜色产品商标ID商标名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID8/18/20248/18/202433数据仓库与数据挖掘数据仓库与数据挖掘多维建模技术简介多维建模技术简介 l两两种种主主流流建建模模技技术术 :由由Inmon提提出出

22、的的企企业业级级数数据据仓仓库库模模型型和和由由Kimball提提出的多维模型出的多维模型 ;l 基基于于关关系系数数据据库库的的多多维维数数据据建建模模,如如星型星型,雪花和事实星座模式;雪花和事实星座模式;l关于事实表、维表及键的设计关于事实表、维表及键的设计 8/18/20248/18/202434数据仓库与数据挖掘数据仓库与数据挖掘星型模型星型模型 事实表维度表维度表维度表维度表维度表8/18/20248/18/202435数据仓库与数据挖掘数据仓库与数据挖掘雪花模型雪花模型 事实表维度表维度表维度表维度表维度表详细类别表详细类别表8/18/20248/18/202436数据仓库与数据挖掘数据仓库与数据挖掘一个星型模式的例子一个星型模式的例子 8/18/20248/18/202437数据仓库与数据挖掘数据仓库与数据挖掘

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号