管理信息化数据仓基于数据仓库技术的决策支持系统的设计与实现

上传人:蜀歌 文档编号:145946649 上传时间:2020-09-24 格式:PDF 页数:71 大小:623.10KB
返回 下载 相关 举报
管理信息化数据仓基于数据仓库技术的决策支持系统的设计与实现_第1页
第1页 / 共71页
管理信息化数据仓基于数据仓库技术的决策支持系统的设计与实现_第2页
第2页 / 共71页
管理信息化数据仓基于数据仓库技术的决策支持系统的设计与实现_第3页
第3页 / 共71页
管理信息化数据仓基于数据仓库技术的决策支持系统的设计与实现_第4页
第4页 / 共71页
管理信息化数据仓基于数据仓库技术的决策支持系统的设计与实现_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《管理信息化数据仓基于数据仓库技术的决策支持系统的设计与实现》由会员分享,可在线阅读,更多相关《管理信息化数据仓基于数据仓库技术的决策支持系统的设计与实现(71页珍藏版)》请在金锄头文库上搜索。

1、管理信息化数据仓基于数据仓库 技术的决策支持系统的设计与实 现 管理信息化数据仓基于数据仓库 技术的决策支持系统的设计与实 现 Sybase 的解决方案及其组成具有以下特点:快速实现、数据集市与中心仓库的 无缝集成、极高的查询速度、高效的数据压缩。 Oracle 提出一个面向决策支持应用的数据仓库解决方案,开发出了 Oracle WarehouseBuilder、 Oracle8i 数据库、 OracleExpress 等系列工具, 其中 Oracle8i 直接对分区键值作更新,有利于大量重复操作;还在 SQL 引擎内建立强大的指 令集,如扩展了 CUBE 和 ROLLUPSQL 操作,支持对

2、表进行抽样查询。 Informix 为促使 IT 专业人员迅速建立和运用数据仓库和数据集市,提供了 尖端决策方案套装,这一合成的产品和服务是专为概括高级关键商务分析的决 策支持环境设计的。为关键商务数据仓库提供世界一流的数据仓库产品和服务, 及工业领先的工具,包括:Informix 的专家级数据库设计,具有超级的可操作 性,伸缩性和广泛性。为建立和展开分析应用的合成工具,包括数据抽取,转 换,清理和装载。提供了基于 ROLAP 的多维数据分析、导向、汇报以及一整 套编程工具和 APIs。值得一提的是,Informix 的 OLAP 工具 METACUBE 在汉 化方面做了大量的工作,基本能够满

3、足国内用户的需求。 其他公司的解决方案大体类似,只是具体开发工具在功能上有所不同。这 些国外公司的最大特点是各种开发工具齐全,从数据仓库模型设计、数据抽取 工具、数据库管理系统到 OLAP 分析工具。用户只需要面对一个厂商就可以获 得全部的支持和服务。而国内公司则没有这样的技术优势。 在国内,数据仓库刚刚起步,从事这方面研究的学校和公司不多,主要是 知识发现(数据挖掘)领域的研究,并且是利用第三方开发工具系统集成,比较 知名的有:中青旅尚洋电子技术有限公司、亚信德康通信技术有限公司、亿阳 信通有限公司、巨阳科技开发有限公司等。 根据数据仓库技术国际著名刊物 DMReview 的评论,有国外一些

4、电信公司 采用决策支持通用平台,如新加坡电信,英国电信等。目前已经在我国设立办 事处或代理机构的厂商的产品有:Brio,SAS,Clementine,BusinessObject, 5 SPSS,Oracle,Informix,Sybase,Pilot 等,其优点是平台系统而完整,不足 之 处在于存在本地化问题等,往往需要二次开发,无法直接适应中国电信市场的 需要。 13 主要工作及成果13 主要工作及成果 本文在深入研究数据仓库、数据挖掘技术的基础上,设计并实现了一个 DSS 系统。主要完成了以下几个方面的工作: 建造了一个数据仓库管理系统,并运用聚类、分类算法和 C5 算法进行用 户信用度

5、分析和客户行为特征分析。 提出并实现了一个改进的聚类算法。传统系统聚类算法仅限于样本聚类, 在聚类指标过多并且指标之间存在依赖关系的情况下正确度不高。本文提出并 实现的多重系统聚类算法,将样本聚类与变量聚类结合起来,在不同的指标组 上分别聚类,然后进行二次(或多次)聚类,在很大程度上提高了算法的正确 度。 6 第二章数据仓库技术第二章数据仓库技术 21 基本概念21 基本概念 随着 IT 业的发展,业界数据规模的不断扩大。为了以合理的费用,向任 何地点需要数据的人提供高质量的数据,1992 年 WilliamH.Inmon 提出了取 得广泛认可的数据仓库概念:集成的、面向主题的、随时间变化的不

6、可修改的 数据集合。 从上面的定义,我们可以知道,数据仓库首先是一个数据的集合,在这一 点上,它与传统意义上的数据库是一致的。实际在物理上,数据仓库也主要是 以关系表的形式实现的。 数据仓库有四大主要特点: 面向主题的。是相对于传统数据库的面向应用而言的。所谓面向应用,指 的是系统实现过程中主要围绕着一些应用或功能。而面向主题则考虑一个个的 问题域,对问题域涉及到的数据和分析数据所采用的功能给予同样的重视。 集成的。数据仓库中的数据来自各个不同的数据源(操作数据库),由于历 史的原因,各操作数据库的组织结构往往是不同的,在这些异构数据载入到数 据仓库之前,必须经历一个集成过程,或称为抽取过程。

7、 随时间变化的。数据仓库以维的形式对数据进行组织,维是数据仓库技术 中很重要的一个概念。通常可以这样理解一个维:维是人们看待事物的一种角 度。维具有层次性。 不可修改的。与面向应用的事务数据库对数据作频繁的插入、更新操作不 同的是,对于数据仓库中数据的操作仅限于数据的初始导入和记录查询。在数 据载入数据仓库之后,一般不允许随意修改。 22 数据仓库简介22 数据仓库简介 数据仓库是一种结构化的数据环境,为决策支持系统提供数据源。它可以 帮助企业管理者准确了解企业的状况,从而进行预测,制定计划并作出明智的 决策。 数据仓库作为整个企业的业务数据集成库,从众多数据源中集成数据,它 包含庞大的企业级

8、数据,其实质是由多种技术和服务组成的完整的解决方案。 数据仓库处理的数据与一般的信息系统的数据不同,它来自不同的分散数据源, 包括操作数据、历史数据、外部数据等,对这些数据进行提炼和综合,集成到 一个单一的关系数据仓库中;对这个集成的数据仓库进行管理,将其规范为面 7 向主题的格式,以便于最终用户进行数据访问和分析。 数据仓库由可操作的外部数据源、一个/多个数据仓库和一个/多个数据分 析工具组成。构造数据仓库,首先要从数据源(如联机信息系统、电子邮件消 息等)中抽取、集成、转换、聚合和复制数据,并存储到数据仓库中;然后, 这其中的一部分数据再被聚合、复制到数据集市;最后,用户用分析工具创建 电

9、子报表,进行查询操作,从而实现决策分析。 23 数据仓库的关键技术23 数据仓库的关键技术 在技术上可以根据数据的工作过程分为:数据的抽取、存储和管理以及数 据的表现三个方面。在此,我们将分别讨论每一个环节。 231.数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环 境,它需要通过抽取程序将数据从联机事务处理系统、外部数据源、脱机的数 据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、 转换、调度和监控等几个方面。数据仓库的数据不要求实时响应,因此数据抽 取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库 中信息的有效性则至关重要。

10、 目前市场上提供很多数据抽取工具(例如 Informix 的 ETL-Extract TransformLoader 和 Sybase 的 PowerStage)。这些工具通过用户选定源数据 和目标数据的对应关系,会自动生成数据抽取的代码。数据抽取过程涉及数据 的转换,但抽取工具支持的数据种类有限;这种情况使得抽取工具往往不能满 足要求。因此,实际的数据仓库实施过程中往往不一定使用抽取工具。整个抽 取过程能否因工具的使用而纳入有效的管理、调度和维护则更为重要。 经过抽取后的数据记录应为格式统一、业务信息完整的数据记录。 232.存储和管理 数据仓库的关键是数据的存储和管理。数据仓库的组织管理方

11、式决定了它 有别于传统数据库的特性,同时也决定了它对外部数据的表现形式。要决定采 用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分 析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数 据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看, 只有关系数据仓库系统能够担当此任。关系数据仓库经过近 30 年的发展,在数 8 据存储和管理方面已经非常成熟。目前不少关系数据仓库系统已支持数据分割 技术,能够将一个大的数据仓库表分散在多个物理存储设备中,进一步增强了 系统管理大数据量的扩展能力。采用关系数据仓库管理数百个 GB 甚至到 TB 的 数据

12、已是一件平常的事情。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中, 用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户 的请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访 问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不 是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请 求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重 要。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关 系数据仓库而言。在技术上,针对决策支持的优化涉及数据仓库系统的索引机 制、查询优化器、连接

13、策略、数据排序和采样等诸多部分。普通关系数据仓库 采用 B 树类的索引,对于性别、年龄、地区等具有大量重复值的字段几乎没有 效果。而扩充的关系数据仓库则引入了位图索引的机制,以二进制位表示字段 的状态,将查询过程变为筛选过程,单个计算机的基本操作便可筛选多条记录。 由于数据仓库中各数据表的数据量往往极不均匀,普通查询优化器所得出的最 佳查询路径可能不是最优的。因此,面向决策支持的关系数据仓库在查询优化 器上也做了改进,同时根据索引的使用特性增加了多重索引扫描的能力。以关 系数据仓库建立的数据仓库在应用时会遇到大量的表间连接操作,而连接操作 对于关系数据仓库来说是一件耗时的事儿。扩充的关系库中对

14、连接操作可以做 预先的定义,我们称之为连接索引,使得数据仓库在执行查询时可直接获取数 据而不必实施具体的连接操作。数据仓库的查询常常只需要数据仓库中的部分 记录,决策支持的关系数据仓库在此做了改进,提供了这一功能。此外,在大 容量数据环境中需要有足够短的系统相应时间。因此,一些数据仓库系统增加 了采样数据的查询能力,在精确度允许的范围内,大幅度提高系统查询效率。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据仓库 在数据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方式 与传统关系数据仓库有很大的不同。对于数据仓库的访问往往不是简单的表和 记录的查询,而是基于用户业务

15、的分析模式,即联机分析。它的特点是将数据 想像成多维的立方体,用户的查询便相当于在其中的部分维(棱)上施加条件, 对立方体进行切片、分割,得到的结果则是数值的矩阵或向量,并将其制成图 表或输入数理统计的算法。 9 233.数据的表现 它们主要集中在多维分析、数理统计和数据挖掘方面。 多维分析是数据仓库的重要表现形式,由于 MOLAP(多维 OLAP)系统是专 用的,因此,关于多维分析领域的工具和产品大多是 ROLAP(关系 OLAP)工具。 在实际工作中,客户需要通过对数据的统计来验证他们对某些事物的假设,以 进行决策。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要 主动地寻找并发

16、现蕴藏在数据之中的规律。因此,在当前的数据仓库应用中, 有效地利用数理统计就已经能够获得可观的效益。 24 数据仓库和数据库的区别24 数据仓库和数据库的区别 数据仓库和数据库有多方面的区别,下表从几个方面加以比较: 数据库数据仓库 联线处理方式OLTPOLAP 数据源单一数据源多数据源集成 数据属性动态除非刷新,否则为静态 数据内容当前值概要值,计算值,归档值 数据结构复杂,适于 OLTP 简单,适于 OLAP 数据存取频率高低 数据修改方式直接修改不直接修改 数据存取类型重复的读和写不重复,只读 系统响应时间秒级分级 25 数据仓库多维模型设计25 数据仓库多维模型设计 251 多维模型的设计原则: 数据仓库与传统数据库所不同的是表间较少以二维关系型方式连接,而以 多维形式关联。最为流行且被业界认可的逻辑结构有星型结构和雪花型结构, 其中以星型结构最常被人们采用。 下图是数据仓库逻辑结构的一个实例,这个例子采用的是星型结构。星型 模式中间有一个单一对象,沿半径向外连接到多个对象。它反映了最终用户对 商务查询的看法,称为“事实表”(FactTable),与之相连的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号