高级数据库技术 知识库技术04

上传人:豆浆 文档编号:47560134 上传时间:2018-07-02 格式:PPT 页数:123 大小:764KB
返回 下载 相关 举报
高级数据库技术 知识库技术04_第1页
第1页 / 共123页
高级数据库技术 知识库技术04_第2页
第2页 / 共123页
高级数据库技术 知识库技术04_第3页
第3页 / 共123页
高级数据库技术 知识库技术04_第4页
第4页 / 共123页
高级数据库技术 知识库技术04_第5页
第5页 / 共123页
点击查看更多>>
资源描述

《高级数据库技术 知识库技术04》由会员分享,可在线阅读,更多相关《高级数据库技术 知识库技术04(123页珍藏版)》请在金锄头文库上搜索。

1、高级数据库技术及应用高级数据库技术及应用 第第4 4章章 知识库技术(知识库技术(4 4)4.4 数 据 仓 库 (Data Warehouse)关于数据仓库技术数据仓库是一种数据组织技术,是为各类管理人员从企业信 息系统中获取有效的、一致的决策支持信息而进行数据再组 织的一种技术方案。数据仓库的实现需要数据库系统的支 持,它是基于大型数据库的决策支持系统环境的核心。4.4.1 从事务数据到决策知识 DBMS的发展轨迹清晰的表明,它是在服务于联 机事务处理(Online Transaction Processing, OLTP)中不断完善和丰富起来的,特别是基于 E.F.Codd提出的关系理论

2、的数据库的技术,将数 据集分成了甚少冗余的实体(Entity),并利用关 系(Relationship)将这些实体组织成一个有机的 整体,较好地满足了OLTP的应用需求。其主要目 的在于操作数据,而不在于分析数据,因此它提 供了强大的数据存取、增添、删除、修改等操作 的功能体系。企业的发展离不开决策,决策需要可靠正确的数据 一方面,企业在经营过程中,每天都发生大量的交易 数据,这些数据可能来源于内部不同部门的业务处理 系统,它们是专门为每一个部门组织服务的。有一些 数据甚至是外部的,并且可能是半结构化或非结构化 的。 另一方面,由于这些数据资料十分繁杂、零乱甚至互 相矛盾,而且缺乏集中存储管理

3、和一致的应用接口, 从而导致已有的数据其实也不能为预测和决策服务提 供多少有用的信息。这相对于数据库系统的投入而言 是一种极大的资源浪费。 1 基于事务数据库的DSS的缺陷: (1) 数据缺乏组织性。DSS需要集成的数据,全面 而正确的数据是有效的分析和决策的首要前提,相 关数据收集得越完整,得到的结果就越可靠, DSS必须依赖数据库抽取技术进行数据的重组。 抽取程序的任务是搜索整个数据库,利用某些算法 和规则选择符合要求的数据,并把数据传到其他数 据库中。但实际应用中,由于各种业务数据分散在 异构的分布式环境中,数据源中数据会随着时间的 推移而发生变化,而各个部门抽取的数据没有统一 的时间基

4、准,抽取源、抽取算法、抽取级别也各不 相同,因此数据缺乏可信性,DSS的可信度和效 果也随之大大降低。(2)业务数据本身大多以原始的形式存储,难以转 换为有用的信息。事务处理的目的在于使业务处 理自动化和简单化,因此数据的表达上尽可能简 化以利于存储,即使是描述同一属性,在不同的 库中也可能有不同的表达方式;另外,一些业务 系统为了提高局部响应速度有时允许适度的数据 冗余,这样就可能带来数据的不一致性。考虑对 某人“性别”的编码,在数据库A中编码为m,而在 数据库B编码为男,则DSS分析时该如何采信这 些数据。因此事务处理应用中数据的分散性、数 据的不一致性,增加了DSS的推理分析问题的难 度

5、、速度以及正确性。(3)服务于联机事务处理(OLTP)的关系数据库 是面向操作的而不是面向分析的,它首先要求数 据库系统具有实时响应能力,另外数据库系统也 是一个时变的系统(商业进、销、存应用中某商 品的数量一秒前是10个,一秒后变成8个是可能 的)。而一个DSS分析与推理可能需要数秒或者 数小时,甚至更长的时间,如果其基于的数据在 不停的变化,会导致决策分析的求解过程永远无 法完成。因此本质上传统数据库是很难为数据分 析提供有意义的数据的,这二者本身就是一对矛 盾体。 2 DSS所期望的理想数据源: 为了满足DSS分析,需要为它提供一个独立、数据 格式统一、集成了某一主题(subject m

6、atter )所 需的全部数据、在DSS分析期间相对稳定、但又可 与具体应用同步更新以保持“最新”数据的数据库。 独立:是指该数据库与事务数据库隔离开来,割断 这两者间的相互牵制。事务数据库必然要求能响应 且实时响应对它的读写事务操作,而DSS分析过程 是对现有数据的一个推理演算,它不需要修改数据 库中的数据,否则会影响其它DSS的分析过程,因 此它对于DSS而言是一个只读型的数据库。 数据格式统一:是指该数据库中同一问题的属性 字段都采用同一种表达方式来描述。具有一致的 命名规则,一致的变量单位,一致的编码结构和 一致的特性描述等。 集成了某一主题所需的全部数据:是指用户使用 数据库辅助决策

7、时所关心的重点问题,每一个主 题对应一个客观分析领域。 在DSS分析期间相对稳定:是指数据一旦进入数据 库,一般情况下将被长期保留,变更很少。 保持与具体应用同步的“最新”数据:是指数据库中 存储的是一个时间段的数据,而不仅仅是某一个时 点的数据。当数据源的信息变更后,DSS期望的数 据库应该也能反映这种变更,以便基于正确的数据 进行分析。OLTP dataDSS data2008.10.01 2008.10.10 销售额汇总 3 数据仓库的概念: 而DSS所期望的数据库正是数据仓库(Data Warehouse,DW)。它正是为了建立这种新的分析处 理环境而出现的一种数据存储和组织技术。这一

8、概念是 90年代初期,由Prism Solution公司副总裁W.H.Inmon 在其里程碑式的著作Building the Data Warehouse 一书中提出的概念:“数据仓库是一个面向主题的 (Subject Oriented)、集成的(Integrate)、相对稳定的 (Non-Volatile)、反映历史变化(Time Variant)的数据集 合,用于支持管理决策”。应该说这是一个在应用需求 的推动下,经过长期的孕育之后顺产出来的概念。不过 我们必须明白的是,其实早在这一概念诞生之前,人们 就已经开始尝试并构建数据仓库系统了。 4 数据仓库及其相关的定义: 数据仓库:W.H.I

9、nmon将数据仓库定义为“数据仓 库是支持管理决策过程的、面向主题的、集成的 、随时间变化的、持久的数据集合”。由于 W.HInmon在数据仓库技术方面研究的开创性贡 献人们将W.HInmon称为“数据仓库之父” 实化视图(物化视图) 通过存储数据库中视图的元组来对视图予以实化 ,可以在实化视图中建立索引结构。因此,数据 库访问实化视图比重新计算视图更快,实化视图 像一个cache可被快速访问的数据拷贝。( 让数据暂时固定下来) materialized view 数据仓库系统 一个完整的数据仓库应用或产品应 该是其专用数据仓库和数据分析技术的结合,二 者相辅相承。我们把一个具备了OLAP 的

10、查询分 析型工具、DSS 的分析预测型工具和数据挖掘的 挖掘型工具的数据仓库定义为一个数据仓库系统 (Data Warehouse System)。数据仓库+分析型工具=数据仓库系统 数据仓库系统是以数据仓库技术为基础,以联机 分析处理(OLAP)和数据挖掘(Data Mining) 等工具为手段进行数据分析处理的一整套解决方 案。或者说数据仓库系统以数据仓库为基础,通 过查询工具和分析工具,完成对信息的提取,满 足用户进行管理和决策的各种需要的系统。 数据仓库方面的两本经典著作: The Data Warehouse Toolkit by Ralph Kimball (John Wiley

11、and Sons, 1996) Building the Data Warehouse by William Inmon (John Wiley and Sons, 1996) 4.4.2 数据库与数据仓库 但从本质上而言,数据仓库与数据库有着天壤之 别。与数据库的区别不仅仅是应用目的上,同时 也涉及到方法论。 数据仓库是20世纪90年代初提出的概念。数据仓 库是市场激烈竞争的产物,其目标是为用户提供 有效的决策技术。从定义及实现技术来看,数据 仓库依然基于关系的数据库技术,但它之所以能 实现高层的数据加工处理,是因为它支持联机分 析 (Online Aralysis Processing,O

12、LAP)应用而传 统数据库支持OLTP应用,这也成为数据仓库与传 统的数据库技术的最显著区别。OLAP以支持复 杂的分类、统计查询为特征,效率的主要衡量指 标是查询吞吐量;OLTP以支持原始数据的录入与 修改和简单常规的查询为特征,效率的主要衡量 指标是事务的吞吐量。 传统的数据库技术面向以日常事务处理为主的 OLTP应用,是一种操作型处理,其特点是处理事 务量大,但事务内容比较简单且重复率高,人们 主要关心的是响应时间、数据安全性和完整性。 而数据仓库技术则是面向以决策支持DSS为目标 的OLAP应用,经常需要访问大量历史性、汇总 性和计算性数据,分析内容复杂,主要是管理人 员的决策分析。

13、OLTP和OLAP的主要区别概述如下: 用户和系统的面向性: OLTP是面向顾客的,用于办事员、客户和信息技 术专业人员的事务和查询处理(交易处理员); OLAP是面向市场的,用于帮助经理、主管和分 析人员等进行数据分析。(数据分析员)OLTPOLAP 数据内容:OLTP系统管理当前数据。这种数据一 般都太琐碎,难以用于决策。 OLAP系统管理大量历史数据,提供汇总和聚集 机制,并在不同的粒度级别存储和管理信息。 数据库设计:OLTP系统通常采用实体-联系(ER) 模型和面向应用的数据模式, 而OLAP系统通常采用星型或雪花模型和面向主 题的数据模式。 视图:OLTP系统主要关注一个企业或部门

14、内部的 当前数据,而不涉及历史数据或不同组织的数据; OLAP系统则通常跨越数据库模式的多个版本,处 理来自不同组织的信息和多个数据存储集成的信息 。此外,由于数据量巨大,OLAP数据一般存放在 多个存储介质上。 访问模式: OLTP系统的访问主要由短的原子事务组成。 OLAP系统的访问由一些只读操作组成,尽管可能 是很复杂的查询操作。 特 性OLTPOLAP特征操作处理信息处理面向事务分析用户办事员、DBA、数据库专业 人员知识工人(如经理、主管、分析员)功能日常操作长期信息需求,决策支持DB设计基于E-R、面向应用星型/雪花、面向主题数据当前的,确保最新历史的,跨时间维护汇总原始的,高度详

15、细汇总 的、统一的视图详细 ,一般关系汇总 的、多维的工作单位短的,简单 事务复杂查询存取读/写大多为读数据冗余非冗余性时常有冗余操作主关键字索引/散列大量扫描访问记录 数量数十个数百万用户数数千数百DB规模100MB到GB100GB到TB优先高性能,高可用性查询 吞吐量,响应时间度量事务吞吐量查询 吞吐量,响应时间4.4.3 数据仓库的特征 1. 面向主题的 基于传统关系数据库建立的各个应用系统,是面向应 用进行数据组织的;而数据仓库中的数据是面向主题 进行组织的。主题是指一个分析领域,是指在较高层 次上对企业信息系统中的数据综合、归类并进行抽象 。所谓较高层次是相对面向应用而言的,其含义是

16、指 按照主题进行数据组织的方式具有更高的数据抽象级 别。例如保险公司建立数据仓库,所选主题可能是顾 客、保险金和索赔等,而按照应用组织的数据库则可 能是汽车保险、生命保险和财产保险等。面向主题的 数据组织方式,就是在较高层次上对分析对象的数据 一个完整、一致的描述,能完整、统一地刻划各个分 析对象所涉及的各项数据以及数据之间的联系。(通 过一组独立于生产系统的存储结构对分析数据再组织 )一个数据仓库中有多个主题主题1主题2 2. 集成的 数据仓库不是简单地将来自外部信息源的信息原 封不动接收,而必须进行必要的变换和集成。在 创建数据仓库时,信息集成的工作包括格式转换 、根据选择逻辑消除冲突、运算、总结、综合、 统计、加时间属性和设置缺省值等工作。还要将 原始数据结构作一个从面向应用到面向主题的转 变。Extraction, Transformation, and Loading (ETL) 3. 相对稳定的 数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号