数据仓库技术简介

上传人:hs****ma 文档编号:543007661 上传时间:2022-11-23 格式:DOCX 页数:19 大小:135.98KB
返回 下载 相关 举报
数据仓库技术简介_第1页
第1页 / 共19页
数据仓库技术简介_第2页
第2页 / 共19页
数据仓库技术简介_第3页
第3页 / 共19页
数据仓库技术简介_第4页
第4页 / 共19页
数据仓库技术简介_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《数据仓库技术简介》由会员分享,可在线阅读,更多相关《数据仓库技术简介(19页珍藏版)》请在金锄头文库上搜索。

1、数据仓库技术概述数据仓库技术随着数据库技术术的日趋成熟熟以及应用系系统逐渐完善善,无论是利利用早期的RRDB、Dbbase,还还是后来以其其领先的核心心技术日渐垄垄断关系数据据库市场的OOraclee、Sysbbase、DDB2,企业业已经积累了了大量的数据据,这些数据据信息为企业业的发展提供供了客观依据据。毫无疑问问,在竞争激激烈的商业环环境下,信息息将是取胜的的关键因素,决决策者必须能能快速可靠、随随时自主地访访问企业数据据,才能有效效地做出计划划和决策。在在这种需求牵牵引下,形成成了数据仓库库(Dataa Wareehousee)的新概念念、新技术。1数据仓库的概概念数据仓库的提出出是以

2、关系数数据库、并行行处理和分布布式技术的飞飞速发展为基基础,是解决决信息技术(IIT)在发展展中存在的拥拥有大量数据据,而其中有有用信息贫乏乏的综合解决决方案。数据据仓库是一种种新的数据处处理体系结构构,是对企业业内部各部门门业务数据进进行统一和综综合的中央数数据仓库。它它为企业决策策支持系统(DDSS)和经经理信息系统统(EIS)提提供所需的信信息。它是一一种信息管理理技术,为预预测利润、风风险分析、市市场分析以及及加强客户服服务与营销活活动等管理决决策提供支持持的新技术。数据仓库技术对对大量分散、独独立的数据库库经过规划、平平衡、协调和和编辑后,向向管理决策者者提供辅助决决策信息,发发挥大

3、量数据据的作用和价价值。概括地说,数据据仓库是面向向主题的(SSubjecct-Oriientedd)、集成的的(Inteegrateed)、稳定定的(Nonnvolattile)、不不同时间的(Timerr-Variiant)数数据集合,用用于支持经营营管理中决策策制订过程。数据仓库中的数数据面向主题题,与传统数数据库面向应应用相对应。主主题是一个在在较高层次上上将数据归类类的标准,每每一个主题对对应一个宏观观的分析领域域:数据仓库库的集成特性性是指在数据据进入数据仓仓库之前,必必须经过数据据加工和集成成,这是建立立数据仓库的的关键步骤,首首先要统一原原始数据中的的矛盾之处,还还要将原始数数

4、据结构做一一个从面向应应用向面向主主题的转变;数据仓库的的稳定性是指指数据仓库反反映的是历史史数据的内容容,而不是日日常事务处理理产生的数据据,数据经加加工和集成进进入数据仓库库后是极少或或根本不修改改的;数据仓仓库是不同时时间的数据集集合,它要求求数据仓库中中的数据保存存时限能满足足进行决策分分析的需要,而而且数据仓库库中的数据都都要标明该数数据的历史时时期。 数据仓库最最根本的特点点是物理地存存放数据,而而且这些数据据并不是最新新的、专有的的,而是来源源于其它数据据库的。数据据仓库的建立立并不是要取取代数据库,它它要建立在一一个较全面和和完善的信息息应用的基础础上,用于支支持高层决策策分析

5、,而事事务处理数据据库在企业的的信息环境中中承担的是日日常操作性的的任务。数据据仓库是数据据库技术的一一种新的应用用,而且到目目前为止,数数据仓库还是是用关系数据据库管理系统统来管理其中中的数据。传统数据库用于于事务处理,也也称为操作型型处理,是指指对数据库联联机进行日常常操作,即对对一个或一组组记录的查询询和修改,主主要面向企业业特定的应用用服务。用户户关心的是响响应时间、数数据的安全性性和完整性。数数据仓库用于于决策支持,也也称分析型处处理,它是解解决决策支持持系统的基础础。 数据仓库的数数据概念模型型是数据的多多维视图,它它直接影响到到前端工具、数数据库的设计计和联机分析析处理(Onn

6、Linee Anallyticaal Proocessiing, OOLAP)的的查询引擎。在在多维数据模模型中,一部部分数据是数数字测量值,而而这些数字测测量值是依赖赖于一组维的的,这些维提提供了测量值值的上下文关关系。因此,多多维数据视图图就是这样一一些由层次的的维构成的多多维空间中,存存放着数字测测量值。多维维概念模型的的另一个特点点是对一个或或多个维所做做的集合运算算。这些运算算可以包括对对于同样维所所限定的测量量值的比较。一一般来说,时时间维是一个个有特殊意义义的维,对决决策中的趋势势分析很重要要。 针对多维模型型产生了OLLAP分析方方法,包括以以下三种:(1) 旋转:即将表格格的

7、横、纵坐坐标交换(xx、y)(y、x).(2) 上钻和下钻:对对所关心的数数据根据维的的层次提升或或降低观察的的层次。(3) 切片和切块:主主要根据维的的限定做投影影、选择等数数据库操作获获得数据。2数据仓库的数数据组织一个典型的数据据仓库的数据据组织结构如如图2.100所示:数据仓库中的数数据分为四个个级别:早期期细节级、当当前细节级、轻轻度综合级、高高度综合级。源源数据经过综综合后,首先先进入当前细细节级,并根根据具体需要要进行进一步步的综合,从从而进入轻度度综合级乃至至高度综合级级,老化的数数据将进入早早期细节级由由此可见,数数据仓库中存存在着不同的的综合级别,一一般称之为粒度。粒粒度越

8、大,表表示细节程度度越低,综合合程度越高。 图1 DW数据据组织结构数据仓库中还有有一种重要的的数据-元元数据(meetadatta)。元数数据是关于于数据的数据据,在数据据库中,元数数据是对数据据库中各个对对象的描述;在关系数据据库中,这种种描述就是对对表、列、数数据库、视图图和其他对象象的定义。从广义上讲讲,数据仓库库元数据代表表定义数据仓仓库对象的任任何东西,无无论是一个表表、一个列、一一个查询、一一个商业规则则,还是数据据仓库内部的的数据转移。元数据是数据仓仓库中所有管管理、操作数数据的数据,是是数据仓库的的核心。数据据仓库反映的的是企业数据据库的业务模模型,其核心心是管理元数数据。数

9、据仓仓库元数据被被分成三类:(1) 管理元数据。它它包括所有建建立和使用数数据仓库的信信息,源数据据库的描述,后后端和前端工工具选择,定定义数据仓库库的模式,综综合数据、维维和层次信息息,预定义的的查询和报表表,数据集市市的位置和内内容,数据存存储的物理组组织、分段,数数据抽取、清清洗、转换的的规则,数据据刷新的策略略,数据存取取的权限、用用户等限定。(2) 业务元数据。这这一部分有业业务流程和定定义,数据所所有关系和存存取控制策略略。(3) 操作元数据。它它是数据仓库库在运行时的的管理信息,记记录数据在进进行层次分析析时的层次位位置、现在数数据仓库中的的数据信息、监监测信息(包包括使用统计计

10、、错误报告告等)。 数据仓库的数据据组织方式共共有三种:虚虚拟存储方式式、基于关系系表的存储和和多维数据库库存储方式。虚拟存储方式是是虚拟数据仓仓库的数据组组织形式。没没有专门的数数据仓库来存存储数据,数数据仓库中的的数据仍然在在源数据库中中,只是通过过语义层工具具根据用户的的多维需求,完完成多维分析析的功能。这这种方式组织织比较简单,花花费少,用户户使用灵活。但但同时这种方方式也存在一一个致命的缺缺点:当源数数据库的数据据组织比较规规范,没有数数据不完备、冗冗余,又比较较接近于多维维数据模型时时,虚拟数据据仓库的多维维语义层就容容易定义。而而一般数据库库的组织关系系都比较复杂杂,数据库中中的

11、数据又有有许多冗余和和冲突的地方方。在实际组组织中,这种种方式很难建建立起为决策策服务的有效效数据支持。关系型数据仓库库的组织是将将数据仓库的的数据存储在在关系型数据据库的表结构构中,在元数数据的管理下下,完成数据据仓库的功能能。这种组织织方式在建库库时,有两个个主要过程完完成数据的抽抽取。首先要要提供一种图图形化的点击击操作界面,让让分析员对源源数据库的内内容进行选择择,定义多维维数据模型。然然后再编制程程序把数据库库中的数据抽抽取数据仓库库的数据库中中。多维数据库的组组织是直接面面向OLAPP分析操作的的数据组织形形式。这种数数据库产品也也比较多,实实现方法不尽尽相同。其数数据组织采用用多

12、维数据结结构文件存储储数据,相应应有维索引及及相应的元数数据管理文件件与数据相对对应。1)、维表多维概念模型可可以被多维数数据库直接实实现,然而,对对于采用关系系型OLAPP方式,则只只能将多维概概念模型和多多维操作映射射到关系和SSQL查询上上。大多数数据仓库库都采用星型型模型来表示示多维概念模模型。数据库库中包括一张张事实表(FFact TTable),另外对于每每一维都有一一张维表(DDimenssionall Tablle)。事实实表中的每条条元组都包括括保证多维关关系的指向各各个维表的外外键和一些相相应的测量数数据。维表中中记录的是有有关这一维的的属性。星型模型使OLLAP的复杂杂查

13、询可以直直接通过各维维的层次,执执行比较、上上钻、下钻等等操作。在数数据仓库中除除了维表和事事实表的数据据之外,数据据仓库中应当当包含一些预预处理过的综综合数据。预预综合数据的的组织可以有有两种形式:增加概括表表方式和使用用多重编码的的方式。这种数据组织方方式 存在数数据冗余、多多维操作速度度慢的缺点。但但这种数据组组织方式是主主流方案,大大多数现存数数据仓库集成成方案都采用用这种形式。2)、多维数据据库数据组织织各公司多维数据据库产品的数数据组织不完完全相同,AArob公司司的EESbbase多维维数据库是一一种具有代表表性的产品。例例如下面的这这种组织方式式,可以说明明多维数据库库的数据组

14、织织:用于分析析的数据从关关系数据库或或关系数据仓仓库中抽取出出来,被存放放到多维数据据库的超立方方结构中多维体。这这各种多维体体是以多维数数组方式记录录各数值测量量值的具体值值。相应各维维有一定的记记录维及维内内层次的元数数据结构。这种数据组织方方式消除了大大量数据库表表中的空穴造造成的空间浪浪费,又没有有了在每个元元组中在存储储的外键信息息,而由统一一的维与数组组的对应系数数来限定数据据,大大减少少了存储空间间。当使用多维数据据库作为数据据仓库的基本本数据存储形形式时,最主主要的缺点是是使以维为基基本框架的存存储空间大大大减少,针对对多维数据组组织的操作算算法,大大提提高了多维分分析操作的

15、效效率。但多维维数据库产品品还没有统一一的标准,应应用还较少。3)、两种数据据组织的等价价性关系数据库和多多维数据库两两种数据组织织方法可以构构成等价的多多维数据模型型。多种数据据组织方法的的等价性的数数学依据是:多维空间中中各点在离散散坐标中一一一对应于多维维数组。数据的存储同样样是有层次性性的。对一个个系统的多维维视图定义是是存储方式的的概念形式,是是最高层次的的模型。采用用什么样的存存储方式(即即前面提到了了关系数据库库、多维数据据库两种形式式)是物理数数据组织的最最高层,它们们都能实现对对多维数据模模型的存储。关关系型数据库库的组织形式式和方式不尽尽相同。数据据的具体物理理存储(如数数

16、据文件的结结构、索引、编编码等技术的的采用)是物物理存储的最最底层技术和和方法。对于于数据文件的的不同组织方方法形成关系系型数据库或或多维数据库库,这两种数数据库又都能能完成数据仓仓库的数据组组织,即实现现多维数据的的存储。4)、虚拟数据据仓库虚拟数据仓库(VVirtuaal Datta Warrehousse),即构构造一个透明明的访问机制制(Demaand Drriven),使用户以习习惯的方式及及时、直接地地访问大型企企业数据库。虚拟数据仓库策策略允许用户户使用一些工工具通过网络络获取数据。因因此这种方法法最终会使提提取和维护大大量数据的开开销最小。这这种方法为用用户提供了最最多的非预先先准备好的查查询可能。虚拟数据仓库是是在应用层上上进行研究的的,其组织形形式是用原有有的关系表模模拟多维数据据。用户通过过可视化的维维定义工具,定定义数据仓库

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 市场营销

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号