BI技术白皮书

上传人:m**** 文档编号:387834379 上传时间:2022-10-23 格式:DOC 页数:20 大小:206.50KB
返回 下载 相关 举报
BI技术白皮书_第1页
第1页 / 共20页
BI技术白皮书_第2页
第2页 / 共20页
BI技术白皮书_第3页
第3页 / 共20页
BI技术白皮书_第4页
第4页 / 共20页
BI技术白皮书_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《BI技术白皮书》由会员分享,可在线阅读,更多相关《BI技术白皮书(20页珍藏版)》请在金锄头文库上搜索。

1、商业智能技术白皮书第一章、数据仓库技术1一、数据仓库的背景和历史1二、什么是数据仓库1三、数据仓库的组织结构23.1、数据仓库的逻辑及物理结构23.2、数据仓库系统2四、数据仓库的物理存储形式34.1、基于关系数据库的存储形式34.2、多维数据库存储形式44.3、虚拟存储方式54.4、几种存储形式的比较5五、数据集市55.1、 数据集市的产生55.2、 数据集市的概念55.3、 数据集市的特征5六、数据抽取、转换、清洗(ETL)66.1、ETL的重要性及概念66.2 ETL阶段的问题6第二章、联机分析技术(OLAP)8一、什么是OLAP81.1 、OLAP的起源81.2 、OLAP的概念81.

2、3、OLAP的分类8二、OLAP的多维数据结构92.1、OLAP的多维数据数据概念92.2、OLAP的多维数据结构9三、OLAP的特点11四、OLAP的功能11第三章、数据挖掘技术12一、什么是数据挖掘12二、数据挖掘的步骤13三、数据挖掘的模式13四、数据挖掘的方法14第四章、各种技术的结合16第一章、 数据仓库技术一、 数据仓库的背景和历史随着计算机技术的迅速发展,信息处理技术也得到了长足的发展。计算机系统的功能从数值计算扩展到信息管理距今已有三十多年了,从70年代中期的MIS系统发展到现代的数据仓库(Data Warehouse)技术,用辩证的眼光来看,实际上是信息管理的一种回归,是螺旋

3、式的上升。二十多年来,大量新技术、新思路涌现出来并被用于关系数据库系统的开发和实现,使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统, SQL的使用更使这一切成为不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。整个80年代直到90年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进

4、行分析才能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析我们把它称之为联机分析处理比以往任何时候都显得更为重要。其实,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非如想像的那么容易:第一,所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第 三,业务数据的模式针对事务处理系统而设计,数据的格式和

5、描述方式并不适合非计算机专业人员进行业务上的分析和统计。因此有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来。这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。二、什么是数据仓库数据仓库的概念在90年代初被提出来,以Prism Solutions公司副总裁W.H.Inmon在1990年出版的建立数据仓库(Building th

6、e Data Warehouse)一书为标志。W. H. Inmon对数据仓库的定义为:数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。这也就是说:数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。主题是数据仓库中数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,首先要统一原始数据中的矛盾之处

7、,还要将原始数据结构做一个从面向应用向面向主题的转变。数据仓库的稳定性是指数据经加工和集成进入数据仓库后是极少或根本不修改的。数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要。从数据组织的角度来说,数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又可分为轻度综合层和高度综合层)。其最根本的特点是物理地存放数据,但这些数据并不是最新的、专有的,而是来源于其它数据库。数据仓库内的数据时限为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大,一般为10GB左右。它

8、是一般数据库(100MB)数据量的100倍,大型数据仓库达到TB级。三、 数据仓库的组织结构3.1、数据仓库的逻辑及物理结构数据仓库作为存储数据的一种组织形式,随着时间的推移,数据仓库的时间控制机制将当前基本数据层转为历史数据层。可见数据仓库中逻辑结构数据由3层到4层数据组成,它们均由元数据(Meta Data)组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和基于关系数据库组织形式(由关系型事实表和维表组成)。以下是数据仓库的技术体系结构图源数据外部数据外部元数据管理模块设计模块数据访问模块中间件模块数据传递模块数据获取模块数据管理员模块数据仓库之数据信息目录模

9、块数据仓库之元数据3.2、数据仓库系统数据仓库系统(DWS)由源数据、仓库管理和分析工具三部分组成。如下图:源数据仓库管理 分析工具源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类的外部数据。 仓库管理:在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息等。仓库管理包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统(DBMS)的功能。 分析工具:用于完成实际

10、决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据开采DM工具等,以实现决策支持系统的各种要求。四、 数据仓库的物理存储形式数据仓库中数据的物理存储形式分为:基于关系数据库存储形式(由关系型事实表和维表组成)、多维数据库存储形式(空间超立方体形式)和虚拟存储形式。4.1、基于关系数据库的存储形式基于关系数据库的存储形式就是将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储

11、空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。星型模式(StarSchema)存在数据冗余、多维操作速度慢的缺点。但这种方式是主流方案,大多数数据仓库集成方案都采用这种形式。如下图:星型模式雪花模式(Snowflake Schema)的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性。如下图: 雪花模型4.2、多维数据库存储形式多维数据库(MultiDimesional Database,MDDB)存储形式就是以多维的方式存储数据,以多维的方式来显示数据,即将数据存放在一个n维数组中,而不是像关系

12、数据库那样以记录的形式存放。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系。多维数据在存储中将形成“超立方块(Hypercube)”的结构。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。当使用多维数据库作为数据仓库的基本数据存储形式时,其最主要的特点是:大大减少了以维为基本框架的存储空间,针对多维数据组织的操作算法,极大地提高了多维分析操作的效率。 4.3、虚拟存储方式虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库来存储数据,只是把指针存储于中心位置,而数据仍然在源数据库中,只是根据用户的

13、多维需求及形成的多维视图,临时在源数据库中找出所需要的数据,完成多维分析,数据源可以被实时地组合、传输和显示,而不必进行数据移动和复制,对于数据源也无须做任何改变。它让用户既能实时地看到历史数据,同时也能实时地看到当前数据,而不是像过去那样只看到历史数据。4.4、几种存储形式的比较多维数据库对多维概念表达清楚,占用的存储空间较小,而且数据的综合速度高,这些方面具有关系数据库无法比拟的优势,它也存在一些缺点:一是多维数据库管理系统缺乏标准;另一个问题是多维数据库管理大规模数据库的能力不够强大。基于关系数据库的存储形式,在灵活性和处理大规模数据的能力上完全可以满足数据仓库的需要。其不足在于数据库中

14、存放了大量的细节数据和相对较少的综合数据,需要以牺牲效率为代价动态地综合数据。虚拟存储形式虽然较简单、花费少、使用灵活,但同时它也存在一个致命的缺点,即只有当源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义层才容易定义,在实际中这种方式很难建立起有效的决策服务数据支持。由于多维数据库管理系统及虚拟数据仓库技术的相对不成熟,关系数据库系统的广泛应用 ,目前在数据仓库市场上基于关系数据库的存储形式占据着主流地位。五、数据集市5.1、 数据集市的产生 数据仓库的工作范围和成本常常是巨大的。信息技术部门必须针对所有的用户并以整个企业的眼光对待任何一

15、次决策分析。这样就形成了代价很高、时间较长的大项目。因此更紧凑集成的、拥有完整图形接口且价格更具吸引力的工具即数据集市(Data Marts)应运而生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 5.2、 数据集市的概念 数据集市是一种更小、更集中的数据仓库,是为企业提供分析商业数据的一条廉价途径。它是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,它支持客户利用已有的数据获得重要的竞争优势或找到进入新市场的解决方案。 5.3、 数据集市的特征 数据集市的特征包括:规模小;有特定的应用;面向部门;由业务部门定义、设计和开发;业务部门管理和维护;能快速实现;购买较便宜;投资快速回收;工具集的紧密集成;提供更详细的、预先存在的、数据仓库的摘要子集;可升级到完整的数据仓库。六、数据抽取、转换、清洗(ETL)6.1、ETL的重要性及概念我们可以这样给ETL下个定义,即ETL是数据抽取(Extract

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号