数据仓库系统的体系结构

上传人:ni****g 文档编号:474226607 上传时间:2023-02-20 格式:DOCX 页数:6 大小:18.05KB
返回 下载 相关 举报
数据仓库系统的体系结构_第1页
第1页 / 共6页
数据仓库系统的体系结构_第2页
第2页 / 共6页
数据仓库系统的体系结构_第3页
第3页 / 共6页
数据仓库系统的体系结构_第4页
第4页 / 共6页
数据仓库系统的体系结构_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《数据仓库系统的体系结构》由会员分享,可在线阅读,更多相关《数据仓库系统的体系结构(6页珍藏版)》请在金锄头文库上搜索。

1、体系结构数据源是数据仓库系统的基础,是整个系统的数据源泉;通常包括企业内部信息和外部信 息;内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据;外部信息包 括各类法律法规、市场信息和竞争对手的信息等等;数据的存储与管理是整个数据仓库系统的核心;数据仓库的真正关键是数据的存储和管理;数据仓库 的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式; 要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着 手分析;针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织; 数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据

2、仓库通常称为 数据集市;OLAP联机分析处理服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次 的分析,并发现趋势;其具体实现可以分为:ROLAP关系型在线分析处理、MOLAP多 维在线分析处理和 HOLAP混合型线上分析处理;ROLAP基本数据和聚合数据均存放 在RDBMS之中;MOLAP基本数据和聚合数据均存放于 多维数据库中;HOLAP基本 数据存放于RDBMS之中,聚合数据存放于多维数据库中;数据仓库系统的体系结构数据仓库系统通常是对多个异构数据源的有效集成,集成后按照主题进行重组, 包含历史数据;存放在数据仓库中的数据通常不再修改,用于做进一步的分析型 数

3、据处理;数据仓库系统的建立和开发是以企事业单位的现有业务系统和大量业务数据的 积累为基础的;数据仓库不是一个静态的概念,只有把信息适时的交给需要这些 信息的使用者,供他们做出改善业务经营的决策,信息才能发挥作用,信息才有意义;因此,把信息加以整理和重组,并及时提供给相应的管理决策人员是数据仓库 的根本任务;数据仓库的开发是全生命周期的,通常是一个循环迭代的开发过程; 一个典型的数据仓库系统通常包含数据源、数据存储和管理、OLAP服务器以及 前端工具与应用四个部分;1、数据源数据源是数据仓库系统的基础,即系统的数据来源,通常包含企业或事业单位的 各种内部信息和外部信息;内部信息,例如存于操作型数

4、据库中的各种业务数据 和办公自动化系统中包含的各类文档数据;外部数据,例如各类法律法规、市场 信息、竞争对手的信息以及各类外部统计数据及其它有关文档等;2、数据的存储与管理数据的存储与管理是整个数据仓库系统的核心;在现有各业务系统的基础上,对 数据进行抽取、清理、并有效集成,按照主题进行重新组织,最终确定数据仓库的 物理存储结构,同时组织存储数据仓库的元数据包括数据仓库的数据字典、记录 系统定义、数据转换规则、数据加载频率以及业务规则等信息;按照数据的覆盖范围和存储规模,数据仓库可以分为企业级数据仓库和部门级数 据仓库;对数据仓库系统的管理也就是对其相应数据库系统的管理,通常包括数 据的安全、

5、归档、备份、维护和恢复等工作;3、OLAP服务器OLAP服务器对需要分析的数据按照多维数据模型进行重组,以支持用户随时从 多角度、多层次来分析数据,发现数据规律与趋势;如前所述,OLAP服务器通常有如下3种实现方式:1 ROLAP基本数据和聚合数据均存放在RDBMS之中2 MOLAP基本数据和聚合数据存放于多维数据集中3 HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于 多维数据集中;4、前端工具与应用前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及 各种基于数据仓库或数据集市开发的应用;其中,数据分析工具主要针对OLAP服务器;报表

6、工具、数据挖掘工具既可以用于 数据仓库,也可针对OLAP服务器;数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:1、两层架构 generic two-level architecture2、独立型数据集市independent data mart3、依赖型数据集市和操作型数据存储dependent data mart and operational data store4、逻辑型数据集市和实时数据仓库logical data mart and real-time data warehouse独立的数据仓库体系结构通常的数据仓库是两层体系结构,如图所示,构造这种体系结构需要以下4

7、个基 本步骤:1、数据是从各种内外部的源系统文件或数据库中抽取得到;在一个大的组织中,可能有几十个甚至几百个这样的文件和数据库系统2、不同源系统中的数据在加载到数据仓库之前需要被转换和集成;甚至可能需要发送一些事务信息到源系统中,以纠正在数据分段传输中发现的错误;3、建立为决策支持服务的数据库,即数据仓库,它通常会同时包括详细的和概括 的数据4、用户通常SQL查询语言谨分析工具访问数据仓库,其结果又会反馈到数据仓 库和操作型数据库中;数据仓库环境最重要的三个环节包括:抽取extract、转换transform、加载load, 把数据从源数据库系统加载到数据仓库,即ETL过程;抽取和加载通常是定

8、期的,即每天、每星期或每个月;因此,数据仓库常常没有或 者说不需要当前的数据;数据仓库不支持操作型事务处理,虽然它含有事务型数 据但更多的是事务的概括和变量状态的快照,如帐户余额和库存级别;对大多数 数据仓库应用来说,用户寻找的不是对个别事务的反应,而是寻求包括在整个数 据仓库中的一个特定的子集上的企业或其它组织状态的趋势和模式;例如,通常 会有5个季度以上的财务数据保存在数据仓库中,以便识别趋势和模式;太陈旧 的数据,如果确定对决策分析已没有意义,也可被清除或者存档;基于独立的数据集市的数据仓库的体系结构一些企业或事业组织由于其特殊的业务需求或历史原因,刚开始时并没有建立数 据仓库,而是创建

9、了许多分离的数据集市;其实,每一个数据集市都是基于数据仓 库技术的,而不是基于事务处理的数据库技术;数据集市是范围受限的小型数据 仓库,常适用于特定终端用户群决策应用;在这种情况下,每个独立数据集市的内容都来自于独立的ETL处理过程;数据集 市被设计用来优化定义明确的和可预测的使用性能,通常包括单个或一组针对某 特殊应用的查询功能,如市场数据集市、财务数据集市、供应链数据集市等; 相对于其它数据仓库体系结构,独立型数据集市策略的一个明显的特征是:当需 要访问分离的数据集市的中的数据时,对终端用户来说具有相对的复杂性;这个 复杂性不仅来自于从分离的数据集市数据库访问数据,而且可能来自于不一致的

10、数据系统产生的数据集市;如果有一个元数据集合跨越所有的数据集市,且数据集市上的数据通过数据分段 传输时保存一致即数据分段传输中拥有“一致维”,那么,对用户来说复杂性就 减小了;另一方面是其ETL处理的复杂性,因为需要为每一个独立的数据集市创 建一个抽取、转换、加载过程;因为一个企业或事业组织集中于一系列的短期的业务目的,独立的数据集市经常 被建立;有限的短期目标同需要相对较低成本来实现更加独立的数据集市相兼 容;然而,从数据仓库体系结构的角度来说,围绕一些不同的短期目标来设计整个 数据仓库环境,意味着失去了应用长期目标及业务环境变化的能力和灵活性;而 这种应对能力对决策支持来说是至关重要的;采

11、用这种体系结构的优点是其方便性,可快速启动,这种数据仓库架构可通过一 系列的小项目来实现;在一个大的企业或事业单位中,相对于使所有的下属组织 在一个中心数据仓库中形成一致视图来说,在组织上,政策上更容易拥有独立的, 小型数据仓库;另外,一些数据仓库技术在它们支持的数据仓库大小上有一定的 局限性或称为可扩展性,但是,如果在理解数据仓库业务需求之前就把自己局限 在特定的数据仓库技术上,则是由技术决定的数据仓库体系结构,而通常的情况 是业务需求才是最关键的技术架构决定因素;独立型数据集市架构的局限性包括如下方面:1为每一个数据集市开发一个独立的ETL过程,它可能产生高代价的冗余数据和重处理工作2数据

12、集市可能是不一致的,因为它们常常是用不同的技术来开发的;因此,不能 提供一个清晰的企业数据视图,而这样的数据视图可能涉及到重要的主题,如客 户、供应冏和产品等;3没有能力下钻到更小的细节或其它数据集市有关的事实或共享的数据信息库, 因此分析是有局限性的;要想获得全面数据,则需要在不同数据集市的分离平台 上做连接,但跨数据集市的数据关联任务要由数据集市的外部系统来执行; 4规模扩大的成本高,因为每一个新的应用创建了一个分离的数据集市,都要重 复所有的抽取和加载步骤;通常情况下,对批数据抽取来说,操作型系统有有限的 时间窗口如每天的05点;如果想让分离的数据集市一致,成本将会更高; 基于依赖型数据

13、集市和操作型数据存储的数据仓库体系结构解决独立数据集市架构局限性的方法之是是使用基于依赖型数据集市dependent data mart 和操作型数据存储 operational data store,ODS 的数据 仓库的的体系结构;通过企业级数据仓库Enterprise data warehouse,EWD中加 载依赖型数据集市,在整个体系架构中只使用单一的ETL过程,确保了 ETL的效率 和数据集市数据的一致性;企业级数据仓库是一个集中的、集成的数据仓库,它拥有一致的数据版本,并可以 对数据作统一控制,对终端用户的决策支持也是可用的;依赖型数据集市的主要 目标就是提供一个简单、高性能的数

14、据环境,用户群可以访问数据集市、当需要 访问其它数据时,也可以访问企业数据仓库;另外,跨依赖型数据集市的冗余在控 制之内,且冗余的数据是一致的;因为每一个数据集市都是从一个共同的源数据 以一种同步的方式加载而来的;基于依赖型数据集市和操作型数据存储的数据仓库体系架构常常被称为“中心 和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输 出的两端;这种体系结构也被称为合作信息工厂corporate information factory,CIF;在支持所有用户的数据需求中,它被认为是一个全面的企业级的数 据视图;相对于一般的两层体系结构而言,依赖型数据集市的的优势是它们可以处理

15、各个 用户群的需求,甚至是探索性数据仓库的需求;探索性数据仓库是一种专门的数 据仓库版本,它使用先进的统计学、数学模型和可视化工具来优化,通常用于数据 挖掘和商业智能等业务模型应用的探索;独立型数据集市的主要优点是可以采用分段方法业开发数据仓库;事实上,分段 方法也可以在基于依赖型数据集市和操作型数据存储的体系结构中实现; ODS为所有的业务数据提供了一个集成的数据源,同时也解决了独立数据集市架 构不能下钻到更小细节的问题;ODS实际上是一个集成的、面向主题的、可更新 的、当前值的但是可“挥发”的企业级的、详细的数据库,也叫运营数据存储; 一个ODS是一个典型的关系数据库,像在务系统中的数据库

16、一样被规范化,但它 是面向决策支持应用系统的,因此,如索引等其它关系数据库设计理念都是面向 检索大量数据的,而不是面向事务处理或者查询个别记录的情况;因为ODS有易 变的、当前的数据,在ODS下的相同查询在不同的时间很有可能会产生不同的结 果,这也称为ODS可“挥发性”;一个ODS 一般不包括历史数据,而EWD而保存了 企业或事业组织状态的历史快照;一个ODS可能来自于一个ERP应用数据库,也可 能来自其它业务数据库,因此,ODS通常是区别于ERP数据库的;ODS同样作为分段 传输区域,为将数据加载到EWD提供服务;ODS可能立即接收数据或者有一定的延 迟,无论哪一种情况它的决策支持需求都是可行的和可接受的;ODS存储的逻辑结构是企事业组织范围内所有相关业务系统的数据以全面、统一 的关系型实体来体现的;ODS中的数据是基于分析主题进

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号