数据仓库的数据建模技术

上传人:工**** 文档编号:562242146 上传时间:2023-12-20 格式:DOCX 页数:7 大小:164.81KB
返回 下载 相关 举报
数据仓库的数据建模技术_第1页
第1页 / 共7页
数据仓库的数据建模技术_第2页
第2页 / 共7页
数据仓库的数据建模技术_第3页
第3页 / 共7页
数据仓库的数据建模技术_第4页
第4页 / 共7页
数据仓库的数据建模技术_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《数据仓库的数据建模技术》由会员分享,可在线阅读,更多相关《数据仓库的数据建模技术(7页珍藏版)》请在金锄头文库上搜索。

1、数据仓库的数据建模技术摘 要:本文分析了数据库设计和数据仓库设计区别,总结了数据仓库两类主流的数据 模型:企业级数据模型和多维数据模型,系统分析了两类数据模型的层次,探讨了多维数据 模型的分类以及用多维数据模型设计数据仓库的方法和步骤。关键字:数据仓库;企业级数据模型;多维数据模型;星型模型;多维数据库;OLAP1数据库设计和数据仓库设计的区别与数据库系统类似,在数据仓库系统中,构建数据模型是建立数据仓库的关键步骤。在数据库系统的设计过程中,数据模型的建立分为概念模型设计,逻辑模型设计和物 理模型设计。概念模型设计或描述可以用E-R图(或扩展Bachman图)来完成。在逻辑模型 设计阶段,将概

2、念模型转换为关系数据模型,最后得到关系模式并对其进行规范化处理。物 理模型设计给出数据存储结构和物理实现方法。与上述数据库模型的建立过程对应,数据仓库的设计也包括:概念模型设计、逻辑模 型设计和物理模型设计。虽然目前数据仓库还没有一个广为接受的形式化的设计方法,但对于数据仓库设计,以 下两点还是基本上得到了认可,( 1)真正实现数据仓库之前至少要有一些关于概念或逻辑建 模的活动。(2)数据仓库依赖于一个多维模型。因此,一般情况下,数据仓库的建模活动基 于多维模型来进行,而数据仓库的实现则通过关系型或多维数据库进行。数据仓库中的数据具有四个基本特征:面向主题的、集成的、相对稳定的、随时间不断 变

3、化的。这些特征说明了数据仓库从数据组织到数据建模、数据处理都跟数据库的建立有很 大区别,表1 给出了数据库设计与数据仓库设计的区别。表 1 数据库设计与数据仓库设计的区别数据库数据仓库系统设计的目标不冋 面向应用,事务处理性能,面向分析,保证数据的四个基本特征, 主要关注响应时间支持OLAP。面向的需求不同需求明确;称为“需求驱动需求不明确,需要逐步确定;称为“数的设计方法”据驱动”设计方法。面向的操作类型不同增、删、改,动态变动从原数据库系统中批量导入,定期更新。系统的建设方法和步系统开发生命周期法由数据开始,“螺旋式开发”骤不同CLDS法(螺旋式;数据驱动)SDLC法(瀑布式;需求驱动)图

4、 1 SDLC 与 CLDS 方法比较3数据仓库的数据模型目前两类主流的数据仓库模型分别是由Inmon提出的企业级数据仓库模型和由Kimball 提出的多维模型,表2 列出了两者的主要区别。Inmon提出的企业级数据仓库模型采用三范式(3NF)。若从企业级数据仓库模型着手, 走的就是一条自顶向下的建设途径:先建企业级数据仓库,再在其上开发具体的应用。企业 级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况 下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。这种模型 的优点是信息全面、系统灵活、数据冗余少。而Kimball提出的维模型降低了范式

5、化,以分 析主题为基本框架来组织数据。以维模型开发分析主题,这样能够快速实施,迅速获得投资 回报,在取得实际效果的基础上,再逐渐增加应用主题,循序渐进,积累经验,逐步建成企 业级数据仓库。这也可以说是采用总线型结构先建立数据集市,使所有的数据集市具有统一 一致的维定义和统一一致的业务事实,这种方法融合了自下而上和自上而下两种设计方法的 思想。这种模型的优点是查询速度快,做报表也快;缺点是由于存在大量的预处理,其建模 过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。 由于事实表的主键由所有维表的主键组成,所以这种维的变动将是非常复杂、非常耗时的。 而且信息不够全

6、面、系统欠灵活、数据冗余多。表2 两类主流数据仓库模型比较企业级3NF模型多维模型建模步骤从全局数据仓库一数据集市, 采用自上而下设计方法数据集市(统一不独立)一数据 仓库,结合自上而下和自下而上, 即总线型方法数据模型规范化(3NF) /关系模型(通常所 说的E-R模型)多维数据模型规范化程度高,数据冗余低低,数据冗余大优点从企业整体的角度来看待数据,信 息全面,数据统一,便于集中管理 数据综合了自上而下和自下而上的优 点:数据一致,实施快速方便, 风险小,良好的投资回报缺点建设时间长,费用高,风险咼,咼 水平的综合技能需要增加新的维时,维的变动会 非常复杂、非常耗时(事实表的 主键由所有维

7、表的主键组成)4企业级数据仓库数据模型企业级数据模型比较典型有以下两种:(1)W.H.Inmon 提出的三个层次的数据模型:高级模型、中级模型、低级模型。高级模型,用E-R图表示;低级模型,即物理数据模型 ;中级模型,称为数据项(Data Item Set,DIS)。DIS是E-R图的细分,高层模型的每个 实体都与一个DIS相对应。每个DIS中的数据项分四个组别:基本数据组、二级数据组、联 接数据组及类型数据组。其中联接数据组相当于E-R图的联系。其余三种数据组按稳定性顺 序是基本数据组 二级数据组 类型数据组。基本数据组包括主题的主码,如顾客号,是 唯一的;二级数据组包括的数据项如住址,电话

8、等虽基本稳定,但仍存在变动的可能;类型 数据组包括频繁变动的数据项,如顾客的购物记录。图 2 DIS 的基本结构(2)文献中提出的三个层次的数据模型,整体上的划分同传统的数据库一样,但每级 模型所做的具体工作又不同。概念模型,用E-R图表示。主要要完成的工作:1)界定系统的边界;2)确定主要的主题 域及其内容。逻辑模型,关系模式。逻辑模型设计进行的工作主要有:分析主题域,确定当前要装载 的主题; 2)确定粒度层次划分; 3)确定粒度分割策略; 4)关系模式定义; 5)记录系统定义。物理模型,在关系数据库中实现。物理模型设计所做的工作是: 1)确定数据的存储结构; 2)确定索引技术; 3)确定数

9、据存放位置; 4)确定存储分配。5多维数据模型多维数据模型常见的有立方体数据模型和星型模型两种(图3所示)。数据立方是多维 数据库的逻辑底层构件,如同关系对应关系数据库一样。立方体数据模型(Cube)就是由一 个或多个这样的数据立方组成的。星型模型是以一种简单的结构方式来展示复杂的多维结构, 其结构看起来象星星,其他表即维(DIMENSION)度表都围绕中间表,也就是事实(FACT) 表。所以星形模型是在关系数据库的基础上,通过维表和事实表之间的链接模拟多维模型。立方体模型有两种结构:超立方结构(Hypercube)和多立方结构(Multicube)。超立 方体结构指用三维或更多的维来描述一个

10、对象,每个维彼此垂直。数据的测量值发生在维的 交叉点上,数据空间的各个部分都有相同的维属性。在多立方体中,将大的数据结构分成多 个多维结构。这些多维结构是大数据集的子集,面向某一特定应用对维进行分割,即将超立 方结构变为子立方结构。星形模型又可以分为 5 种形式:简单星形模式 (Simple Star Schema)、星系模式(Galaxy Schema)、星座模式(Cons tella ti on Schema)、二级维表和雪花 模式(Snowflake Schema)。星系模式又叫事实星座(Fact Constellation),在其他文献中, 将星形模型简单划分为星形模式和雪花模式。多维

11、数据库(Multi-Dimensional Database, MDD)可以简单理解为:将数据存放在一个 n维数组中,而不像关系数据库那样以记录形式存放。与关系数据库相比,它的优势在于可 以提高数据处理速度,加快反应时间,提高查询效率。多维数据库最大的缺陷就是大小方面 的要求。向分析空间增加维数及向现存的维增加数据,将会显著增加多维数据库的大小,这 比向关系表中增加属性增加的大小要大很多;另外,与关系数据库记录不同,无论是否含有 数据,都会形成单元。结果,多维数据库中很多单元都是空的。而关系理论和关系数据库都 以发展的相当成熟,所以目前广泛使用的商业数据库也都是关系型数据库。OLAP 是基于数

12、据仓库的,为用户向数据仓库中的数据提出复杂查询、提供快速和稳定 的响应。其特点在于从多个角度观察数据仓库中的数据,再现数据的多维本质,便于进行分 析和决策。其中多维OLAP (MOLAP, Multi-dimension OLAP)是基于多维数据库存储方式建 立的OLAP,使用多维数据库管理系统来管理所需的多维数据;关系OLAP(ROLAP,Relation OLAP)是基于关系数据库存储方式建立的OLAP,以关系型结构进行多维数据的表示和存储。数据模型:物理存储OLAPII图 3 多维数据模型6 利用多维数据模型设计数据仓库利用多维数据模型设计数据仓库主要分为以下几步(图4 所示):(1)需

13、求收集;(2)概念模型设计,设计结果可以用信息包图表示;(3)总体逻辑模型 设计;即设计数据仓库的总线结构统一的事实和统一的维,设计结果可以用总线矩阵表 示。(4)某个主题的逻辑模型设计,设计结果可以用星型图表示;(5)物理模型设计,设计 结果是数据仓库的物理存储,即关系数据库中的事实维度链表 。图 4 多维数据模型设计数据仓库7 结论 本文在比较数据库设计和数据仓库设计基础上,讨论了目前两类主流的数据模型,企业 级数据模型和多维数据模型,并对两种数据模型层次和建模方法分别加以介绍,着重介绍了 多维数据模型和 OLAP 的分类。通过分析可见,企业级数据模型和多维数据模型这两种模 型的优缺点正好

14、互补。基于这种情况,我们在实际开发数据仓库时,采用折衷的策略,扬长 避短,有机地结合地使用这两种模型,即在构建数据仓库时,采用企业级数据模型对企业全 局数据仓库进行总体设计,然后利用多维数据模型针对部门级数据集市进行详细设计。另外,值得一提的是目前多维数据库相对不成熟,没有得到广泛应用,而关系理论和关 系数据库的成熟,且目前广泛使用的商业数据库也都是关系型数据库,星型模型就是在关系 数据库的基础上,通过维表和事实表之间的链接模拟多维模型,所以目前所采用的多维数据 模型大多是星型模型。参考文献1 王珊等. 数据仓库技术与联机分析处理 . 北京:科学出版社,19982 W.H.Inmon . Bu

15、ilding the DataWarehou,se 2ed . John Wiley & Sons, Inc., 19963 Ralph Kimball, Margy Ross . The Data Warehouse Toolkit: the Complete Guide to DimensionalModeling, 2ed . John Wiley & Sons, Inc., 20024袁虹,何厚存联机分析及数据仓库的建模技术计算机应用研究,1999(12)61635 William A.Giovinazzo 著,潇湘工作室译 . 面向对象的数据仓库 . 北京:人们邮电出 版社, 20006 张维明等 . 数据仓库原理与应用 . 北京:电子工业出版社, 2002

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号