数据仓库体系结构设计

上传人:我*** 文档编号:136166413 上传时间:2020-06-25 格式:DOC 页数:58 大小:698.50KB
返回 下载 相关 举报
数据仓库体系结构设计_第1页
第1页 / 共58页
数据仓库体系结构设计_第2页
第2页 / 共58页
数据仓库体系结构设计_第3页
第3页 / 共58页
数据仓库体系结构设计_第4页
第4页 / 共58页
数据仓库体系结构设计_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《数据仓库体系结构设计》由会员分享,可在线阅读,更多相关《数据仓库体系结构设计(58页珍藏版)》请在金锄头文库上搜索。

1、基于CWM的数据仓库体系结构设计目 录第一章:绪论111 课题背景112 工作内容及研究成果113 论文结构2第二章:数据仓库、元数据、体系结构理论概述321 数据仓库理论概述3211 引言3212 数据仓库的定义及特点3213 数据仓库的数据模型4214 数据仓库的建设5215 数据仓库的应用OLAP5216 国内数据仓库建设过程中的若干问题622 元数据概述6221 引言6222 元数据的定义和分类7223 元数据的建模8224 元数据的标准化923 体系结构概述9231 引言9232 软件体系结构的概念10233 几种主要的软件体系结构风格10第三章:CWM及相关理论概述1231 引言1

2、232 相关理论概述12321 引言12322 UML及其和CWM的关系14323 MOF及其和CWM的关系15324 XMI及其和CWM的关系1633 CWM的组成结构1734 CWM的特点1935 CWM的设计目标2036 CWM的应用20第四章:基于CWM的企业数据仓库体系结构设计2241 引言2242 数据仓库体系结构的作用2243 体系结构设计原则2444 基于CWM的体系结构设计25441 企业数据仓库体系结构25442 体系结构组件及其接口描述26443 基于CWM的数据仓库体系结构的特点及优点44444 小结45第五章 电信领域数据仓库系统设计4651 系统简介46511 项目

3、背景46512 系统任务概述47513 开发运行环境4852系统设计49521体系结构设计49522 系统部署50523 数据模型设计5153系统特点分析5154 系统结果展示53第一章:绪论11 课题背景90年代末以来,国内外掀起了一股数据仓库的热潮,数据仓库技术作为一种决策支持的手段为越来越多的企业接受。各大数据库公司纷纷开发自己的数据仓库产品,还有很多公司开发了相关的分析工具。这些工具给用户带来了很大的方便,但同时,由于它们都采用自己的数据格式和元数据表示方法,互相之间不能兼容,企业的很多应用就要依赖于特定厂商的产品,数据仓库的设计和实现受到很大的限制。所以,搭建一个统一且易于扩展的数据

4、仓库平台,并能实现其中不同工具之间的数据交换,就成为亟需解决的问题。电信行业是我国引入竞争相对较晚的一个行业,但竞争的激烈程度丝毫不亚于其他行业。各电信企业都积累了庞大的客户和业务资料库,并纷纷开始搭建数据仓库以增加竞争优势。但由于电信行业数据庞杂、需求广泛且多变,单一厂家的数据仓库工具很难满足要求。若采用多种工具,系统的体系结构设计以及不同工具之间的数据交换就成为必须解决的关键问题。一种解决方案是利用元数据。元数据是描述数据的数据,是数据仓库系统不可或缺的重要部分。一般来说,数据仓库中的元数据有两个用途,首先,它能提供基于用户的信息,比如记录数据项的业务描述元数据能帮助用户去使用信息;其次,

5、元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。如果异质平台上不同的数据仓库工具之间能够实现所有这些元数据的交换,实际上也就是实现了它们所描述数据的交换,从而解决异质工具之间的互通问题。但元数据的交换涉及到很多问题,比如元数据的表示形式以及交换机制等。为了解决这方面的问题,OMG在2000年提出了一套关于数据仓库元数据的CWM(通用仓库元模型)规范,其主要目的就是为了方便异质分布式系统中的数据仓库工具、数据仓库平台以及元数据库之间的元数据交换。而研究如何搭建电信领域基于CWM的数据仓库系统并实现不同工具之间的数据交换正是本论文展开研究的背景。1

6、2 工作内容及研究成果为了使构筑于数据仓库基础上的企业应用不再和具体的工具绑定,本文试图提出一种可行的基于CWM的数据仓库体系结构设计方案。结合这个目标,本论文主要做了以下几方面的工作:调研:包括目前一些企业已经实施的数据仓库的体系结构、现有工具产品、电信企业需求、电信企业业务数据结构等。理论研究:主要是对CWM、UML、MOF、XMI等规范以及体系结构理论的研究并提出基于CWM的数据仓库体系结构。部分实现体系结构:由于目前尚无工具支持CWM,所以只能部分实现本论文提出的体系结构,搭建一个实用的数据仓库系统,其中的接口部分作为下一步的工作。在基本完成上述工作内容的情况下,获得的主要成果是提出一

7、种基于CWM的数据仓库体系结构并在电信领域得到初步应用。13 论文结构本论文的内容基本按照工作内容进行组织:第二、三章作为核心内容的铺垫,主要介绍了论文的理论基础。其中第二章首先介绍了数据仓库的相关理论(包括数据仓库的定义、特点、数据模型、建设和应用等)。随后介绍元数据的定义、分类、建模和标准化。最后是体系结构的概念以及几种主要的风格。第三章介绍了CWM相关理论。此章首先简单描述了CWM和UML、MOF、XMI等规范之间的关系,然后介绍了CWM的组成结构、特点、设计目标及其适用范围。第四章是本论文的核心部分,提出一种基于CWM的企业数据仓库系统体系结构,并详细介绍组件的功能、地位和接口,这些组

8、件包括数据源、ETL、数据建模、中央元数据库、本地元数据库、ODS、中央数据仓库、数据集市、数据仓库管理以及一些前端分析应用等。第五章介绍了在电信领域基于上述体系结构设计的一个数据仓库系统,具体内容包括该系统的任务概述、开发运行环境、体系结构设计、系统部署、数据建模以及系统优缺点分析。第六章对本文作了简单总结,并对进一步的研究工作提出了几个建议。论文最后是致谢及参考文献列表。第二章:数据仓库、体系结构、元数据理论概述21 引言笔者系统地学习了数据仓库的基本理论、研究了目前的数据仓库元数据的内容、特点和交换机制,最后参考目前几种典型的体系结构风格,并结合企业应用数据仓库的成功案例,提出一种基于C

9、WM的数据仓库体系结构。下面,本章将简单介绍数据仓库、元数据和体系结构方面的理论知识,至于CWM规范,由于内容比较多,所以单独作为一章介绍。22 数据仓库理论概述221 引言随着市场竞争的日趋激烈,人们越来越深刻地认识到信息对于企业的生存和发展所起的重要作用,可以说,谁先掌握了广泛而可靠的信息,谁就把握了企业发展的先机,但信息来自何方?近年来,很多企业都建立了较为完善的数据库系统,用于存储信息的数据也不断膨胀,但由于企业管理技术的落后,对这些积累起来的海量数据远没有充分利用,在这种背景下,数据仓库技术应运而生。数据仓库建立在传统事务型数据库的基础之上,为企业DSS(决策支持系统)提供数据源。2

10、22 数据仓库的定义及特点目前,大家公认的数据仓库创始人William HInmon 在他所著的建立数据仓库一书中对数据仓库所下的定义是:数据仓库是在企业管理和决策中面向主题的、集成的、不可更新的、随时间不断变化的数据集合。由这个定义可以看出数据仓库主要有以下四个特点: 面向主题:主题是在一个较高层次上将数据进行综合、归类并进行分析利用的抽象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的完整、一致的描述,能统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的关系; 集成的:由于各种原因,数据仓库的每个主题所对应的的数据源在原有的分散数据库中通常会有许多重复和不一致的地方,

11、而且不同联机系统的数据都和不同的应用逻辑绑定,所以数据在进入数据仓库之前必须统一和综合,这一步是数据仓库建设中最关键、最复杂的一步; 不可更新的:数据仓库的数据反映的是一段相当长的时间内历史数据的内容,主要供企业决策分析之用。与面向应用的事务数据库需要对数据作频繁的插入、更新操作不同,数据仓库中的数据所涉及的操作主要是查询和新数据的导入,一般不进行修改操作; 随时间不断变化的:数据仓库系统必须不断捕捉OLTP数据库中变化的数据,并在经过统一集成后装载到数据仓库中。同时,数据仓库中的数据也有存储期限,会随时间变化不断删去旧的数据,只是其数据时限远比操作型环境的要长,比如根据需要可保存10年内的历

12、史数据;223 数据仓库的数据模型数据模型是对现实世界的一种抽象,根据抽象程度的不同,也就形成了不同抽象层次上的数据模型。类似于操作数据库的数据模型,数据仓库的数据模型也可分为三个层次:概念模型,逻辑模型和物理模型。概念模型是客观世界到计算机系统的一个中间层次,它最常用的表示方法是ER法(实体关系)。目前数据仓库一般是建立在关系型数据库的基础之上,所以其概念模型与一般关系型数据库采用的概念模型相一致。逻辑模型指数据的逻辑结构,如多维模型、关系模型、层次模型等。数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现,即每个主题对应的模式定义。物理模型则是逻辑模型的具体实现,如物理存取方式、数据存储结构

13、数据存放位置以及存储分配等。在设计数据仓库的物理模型时,需要考虑一些提高性能的技术,如表分区,建立索引等。目前对数据仓库模型的讨论大多集中在逻辑模型,其中最常用的是多维模型。数据仓库的多维模型主要有如下几个概念: 维:维是人们观察数据的特定角度。比如,企业常常关心不同销售数据随时间的变化情况,所以时间就是一个维; 维的层次:人们观察数据的某个特定角度还可以存在细节程度不同的多个描述方面,这就是维的层次。一个维往往有多个层次,比如描述时间维时,可以从年份、季度、月份、天等不同层次来描述,那么年份、季度、月份和天就是时间维的层次; 维成员:维的一个取值称为该维的一个成员。如果一个维是多层次的,那么

14、该维的成员就是在不同层次取值的组合。比如时间维有年份、月份和天这三个层次,那么分别在它们之上各取一个值组合起来就得到日期维的一个成员,即“某年某月某日”; 度量:度量描述了要分析的数值,比如销售额等;224 数据仓库的建设企业级数据仓库的建设通常有两种途径:一种是从建造某个部门特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反映企业全貌的企业级数据仓库;另外一种则是从一开始就从企业的整体来考虑数据仓库的主题和实施。前一种方法类似于软件工程中的“自底向上”的思想,投资少、周期短且易于见到成果,但由于该设计开始时是以特定的部门级主题为框架的,向其它的部门和主题扩充往往比

15、较困难。而最后一种方法恰恰相反,“自顶向下”,投资大、周期长。在企业的实际应用中往往采用前一种方法。“自底向上”地建设数据仓库,并不意味着不需要在设计阶段的长远规划。采用逐步积累的方式建立数据仓库,最大的问题就是已有的框架无法把新的业务集成进来。因此在设计阶段就必须充分考虑这一点。例如,部门级的主题是否有助于形成企业级的主题,数据抽取模块是否能重用等。数据仓库的长远规划,并不仅仅是技术部门的事情,应当把数据仓库的构建作为企业发展战略的一个组成部分。在设计阶段需要不同部门的沟通和协调,技术框架和系统设计必须从整个企业的角度来考虑,即使刚开始实施的时候是面向某个部门的。从这一点来看,建立一个企业级的数据仓库,主要的障碍不在于技术,而是不同部门之间的组织、协调问题。225 数据仓库的应用OLAP数据仓库作为决策支持系统的数据源,其构建工作只是基础,要想得到对决策有用的信息或

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号