数据仓库白皮书-概念篇

上传人:飞*** 文档编号:32705015 上传时间:2018-02-12 格式:DOC 页数:16 大小:72KB
返回 下载 相关 举报
数据仓库白皮书-概念篇_第1页
第1页 / 共16页
数据仓库白皮书-概念篇_第2页
第2页 / 共16页
数据仓库白皮书-概念篇_第3页
第3页 / 共16页
数据仓库白皮书-概念篇_第4页
第4页 / 共16页
数据仓库白皮书-概念篇_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《数据仓库白皮书-概念篇》由会员分享,可在线阅读,更多相关《数据仓库白皮书-概念篇(16页珍藏版)》请在金锄头文库上搜索。

1、数据仓库白皮书-概念篇人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能。为此,数据仓库应运而生。 数据仓库的概念及特点 数据仓库概念始于本世纪 8

2、0 年代中期,首次出现是在号称“数据仓库之父”William H.Inmon 的建立数据仓库一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“ 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合” 。 数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。 数据的抽取:数据的抽取是数据进入仓库的入口。由于数据

3、仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 存储和管理:数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。 数据的表现:数据表现实际上相当于数据

4、仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于 Web 前端联机分析界面,而不仅仅是在网上发布数据。 提到数据仓库,人们难免会想到仅有一字之差的数据库,那么,数据仓库和我们经常提到的数据库有哪些区别呢?为什么要使用数据仓库呢? 从数据库到数据仓库 市场需求是技术发展的源动力。在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理系统。在当时,一个企业可以简单地通过拥有联机事务处理

5、的计算机系统而获得强大的市场竞争力。记得在 80 年代末,北京工商银行率先推出了全市个人储蓄通存通兑业务,广大市民便将先前就近存于不同银行的存款一并取出而存入了工商银行。这便是通过联机事务处理系统而获得市场优势的案例。其次,当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个 80 年代直到 90 年代初数据库应用的主流。 然而,应用在不断

6、地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。同样就拿北京各银行的储蓄业务来说,如今各家都拥有了联网的储蓄系统,再要获得市场竞争的优势,就需要在决策上下功夫,例如在业务密集地区增设自助网点、推出有针对性(如:某类职业圈、某年龄段)的储蓄服务计划。这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。如果说传统联机事务处理强调的是更新数据库向数据库中添加信息,那么联机分析处理就是要

7、从数据库中获取信息、利用信息。因此,著名的数据仓库专家 Ralph Kimball 写道:“我们花了 20 多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。 ” 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非想象的那么容易:第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第三,业务数据的模式是

8、针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。于是,有人感叹:20 年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。如果需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获

9、取信息。 那么数据仓库与数据库(主要指关系数据库)又是什么关系呢?回想当初, 人们固守封闭式系统是出于对事务处理的偏爱, 人们选择关系数据库是为了方便地获得信息。我们只要翻开 C.J. Date 博士的经典之作An Introduction to Database Systems便会发现:今天数据仓库所要提供的正是当年关系数据库要所倡导的。然而, “成也萧何,败也萧何” ,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴;过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又显得“老革命遇到新问题 ”今天的数据仓库对关系数据库的联机

10、分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改进。因此,数据仓库与数据库的区别不仅仅是应用的方法和目的上的,同时也涉及产品和配置。 以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。 从厂商的角度看,经过长期发展,联机事务处理系统的市场至 90 年代中期出现饱和迹象,其增长速度明

11、显减慢。这导致各大数据库厂商的传统业务增长面临严峻挑战,寻求新的业务增长点成为他们的当务之急。数据仓库的兴起无疑为数据库产品创造了巨大的市场,它成为 20 世纪末到 21 世纪初数据库市场的一个新的增长点。因此,数据仓库这个词儿打一开始便伴随着轰轰烈烈的市场炒作。对于广大用户来说,只有从自身应用需求出发,破除技术和概念的神秘性,奉行“ 拿来主义 ”,避虚就实,密切关注技术发展的方向,方可获得满意的产品、解决方案和经济效益。 总之,数据仓库并非是一个仅仅存储数据的简单信息库,因为这实际上与传统数据库没有两样。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了

12、从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。数据仓库白皮书-结构与应用篇数据仓库的体系结构IBM、Oracle 等厂商都提出了自己的数据仓库结构,但严格说来,任何一个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。其中斯坦福大学“WHP S”课题组提出的一个基本的数据仓库模型如图 1 所示。 为

13、了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分: 数据源 指为数据仓库提供最底层数据的运作数据库系统及外部数据。 监视器 负责感知数据源发生的变化,并按数据仓库的需求提取数据。 图 1 数据仓库基本体系结构 集成器 将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。 数据仓库 存贮已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。 客户应用 供用户对数据仓库中的

14、数据进行访问查询,并以直观的方表示分析结果的工具。 应用行业 新世纪客户关系在各种交易中所起到的作用越来越重要,在市场经济这个天平上的法码也是越来越沉重了。从而使得在目前竞争激烈的知识经济环境和电子商务经济模式下,重要的信息往往可以决定企业的成败,甚至决定企业的生死存亡。因此,很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。如我们平时所说的民航订票系统、银行ATM 系统、证券交易系统、期货交易系统、铁路售票系统、移动通信用户信息管理与服务系统等就是建立在大型数据库基础之上的数据仓库。由于篇幅有限,下面仅就以下行业来加以简单说明。 证券 证券公司利用客户行为分析系统将所有客户的操作

15、记录进行归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,从而获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。证券商在获得这些信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。 银行 随着社会主义市场经济改革的深化,传统的计划金融模式逐渐瓦解,市场金融模式逐渐形成。在这个变革过程中,由于体制、市场、企业、个体等经济要素变化、发展的不平衡性,带来了银行对各种金融变量控制的随机性和模糊性。如何防范银行的

16、经营风险、实现科学管理以及进行决策,成为当今金融研究的一个重要课题。利用数据仓库的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以有效控制投资、信贷风险。 税务 增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。数据仓库技术之所以能够查出漏税者,其基本思想是

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号