A数据仓库概述课件

上传人:夏** 文档编号:591551020 上传时间:2024-09-18 格式:PPT 页数:65 大小:363.50KB
返回 下载 相关 举报
A数据仓库概述课件_第1页
第1页 / 共65页
A数据仓库概述课件_第2页
第2页 / 共65页
A数据仓库概述课件_第3页
第3页 / 共65页
A数据仓库概述课件_第4页
第4页 / 共65页
A数据仓库概述课件_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《A数据仓库概述课件》由会员分享,可在线阅读,更多相关《A数据仓库概述课件(65页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与数据挖掘南京理工大学经管院南京理工大学经管院 颜端武颜端武1A数据仓库概述教材:教材:1 夏火松数据仓库与数据挖掘技术(第二版)北京:科夏火松数据仓库与数据挖掘技术(第二版)北京:科学出版社,学出版社,2011 2 李雄飞等数据仓库与数据挖掘北京:机械工业出版社,李雄飞等数据仓库与数据挖掘北京:机械工业出版社,2013 3 (美)(美)Jiawei Han,(加),(加)Micheline Kamber等数据等数据挖掘概念与技术(原书第挖掘概念与技术(原书第3版)范明,孟小峰等译北京:版)范明,孟小峰等译北京:机械工业出版社,机械工业出版社,2012 4 (美)(美)W.H.Inmo

2、n数据仓库(原书第数据仓库(原书第4版)王志海,版)王志海,林友芳等译北京:机械工业出版社,林友芳等译北京:机械工业出版社,2006 2A数据仓库概述第一章第一章 引引 言言一、从数据库到数据仓库一、从数据库到数据仓库 在市场经济激烈竞争中,企业必须把业务经营同市场联在市场经济激烈竞争中,企业必须把业务经营同市场联系,在此基础上作出科学、正确的决策以求生存。为此,企系,在此基础上作出科学、正确的决策以求生存。为此,企业纷纷建立了自己的数据库系统,由计算机管理代替手工操业纷纷建立了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存储、管理业务数据,改善办公环境,提作,以此来收集、存储、管

3、理业务数据,改善办公环境,提高操作人员的工作效率。高操作人员的工作效率。问题:问题:面向业务操作设计,无论是查询、统计,还是生成报面向业务操作设计,无论是查询、统计,还是生成报表,其处理方式都是对指定的数据进行简单的数字处理。表,其处理方式都是对指定的数据进行简单的数字处理。保险公司:保险公司:购买人寿保险的客户一般有哪些特征?购买人寿保险的客户一般有哪些特征?市场部经理:市场部经理:在过去的一个季度里,咨询哪三样产品的热线在过去的一个季度里,咨询哪三样产品的热线电话最多?电话最多?3A数据仓库概述 传统的关系数据库可以传统的关系数据库可以回答这种类似问题吗?回答这种类似问题吗?可以,但是很成

4、问题可以,但是很成问题决策者(比如总经理)希望得到一项分析数据决策者(比如总经理)希望得到一项分析数据需求提交给公司的信息部门,信息部门指派人员编制程序需求提交给公司的信息部门,信息部门指派人员编制程序几天后信息部门的报表送到决策者手中几天后信息部门的报表送到决策者手中决策者发觉报表不符合要求,提出修改意见交还给信息部门决策者发觉报表不符合要求,提出修改意见交还给信息部门信息部门修改程序,几天后新的报表送给总经理信息部门修改程序,几天后新的报表送给总经理 数据来的太慢了,我已数据来的太慢了,我已经对它不感兴趣了!经对它不感兴趣了!4A数据仓库概述 传统的关系数据库可以传统的关系数据库可以回答这

5、种类似问题吗?回答这种类似问题吗?可以,但是很成问题可以,但是很成问题决策者(比如总经理)希望得到一项分析数据决策者(比如总经理)希望得到一项分析数据需求提交给公司的信息部门,信息部门指派人员编制程序需求提交给公司的信息部门,信息部门指派人员编制程序几天后信息部门的报表送到决策者手中几天后信息部门的报表送到决策者手中决策者发觉报表不符合要求,提出修改意见交还给信息部门决策者发觉报表不符合要求,提出修改意见交还给信息部门信息部门修改程序,几天后新的报表送给总经理信息部门修改程序,几天后新的报表送给总经理 我辛辛辛苦苦为一个特定问题加班加我辛辛辛苦苦为一个特定问题加班加点干了十天最后被否定了,这已

6、经是第点干了十天最后被否定了,这已经是第n n次了,次了,我辞职不干了!我辞职不干了!5A数据仓库概述原因:数据原因:数据库是是针对操作型操作型处理理设计的的也叫事务处理,是指对数据库的日常联机访问操作,所以也叫事务处理,是指对数据库的日常联机访问操作,所以也叫也叫联机事务处理联机事务处理(OLTP)(OLTP)。 其访问特点是:其访问特点是: 通常仅仅是对一个或一组记录的查询或修改通常仅仅是对一个或一组记录的查询或修改 执行频率高执行频率高 人们关心的是处理的响应时间、数据的安全性和完整人们关心的是处理的响应时间、数据的安全性和完整性等指标。性等指标。 6A数据仓库概述为完成决策者的询问,信

7、息部门必须:为完成决策者的询问,信息部门必须:抽取数据抽取数据 抽取程序搜索整个文件或数据库,使用某种标准选择符抽取程序搜索整个文件或数据库,使用某种标准选择符合限制的数据,并把数据传到其它文件或数据库中。合限制的数据,并把数据传到其它文件或数据库中。 抽取程序很快流行起来并渗透到信息处理环境中,其原抽取程序很快流行起来并渗透到信息处理环境中,其原因是:因是:1)抽取程序将数据从高性能联机事物处理方式中转移出来,)抽取程序将数据从高性能联机事物处理方式中转移出来,所以在需要总体分析数据时就与联机处理事物能不冲突所以在需要总体分析数据时就与联机处理事物能不冲突2)当抽取程序将数据从操作型事物处理

8、范围内移出时,数据)当抽取程序将数据从操作型事物处理范围内移出时,数据的控制方式就发生了转变。最终用户一旦开始控制数据,他的控制方式就发生了转变。最终用户一旦开始控制数据,他最终就拥有了这些数据。最终就拥有了这些数据。DB抽取抽取DBDB.7A数据仓库概述问题问题1: 蜘蛛网式的拓展蜘蛛网式的拓展8A数据仓库概述问题问题2: 自然演化体系结构的问题自然演化体系结构的问题1)数据缺乏可信性)数据缺乏可信性 数据无时基数据无时基 数据算法上的差异数据算法上的差异 抽取的多层次抽取的多层次 外部数据问题外部数据问题 无起始公共数据源无起始公共数据源2)生产率问题)生产率问题为回答一个决策查询,需要:

9、为回答一个决策查询,需要: 定位报表所需要的数据并分析数据定位报表所需要的数据并分析数据 为报表编辑数据为报表编辑数据为完成以上工作,召集程序员为完成以上工作,召集程序员/分析员,对他们而言:分析员,对他们而言: 要写的程序很多要写的程序很多 每个程序必须是定制的每个程序必须是定制的 程序涵盖了公司拥有的所有技术程序涵盖了公司拥有的所有技术9A数据仓库概述3)从数据到信息的不可行性)从数据到信息的不可行性 在自然演化体系结构中建立起来的系统对信息需求的支在自然演化体系结构中建立起来的系统对信息需求的支持是不充分的,原因是它们缺乏集成性、以及在分析性处持是不充分的,原因是它们缺乏集成性、以及在分

10、析性处理需要的时间上和在蜘蛛网环境中应用程序的可用时间期理需要的时间上和在蜘蛛网环境中应用程序的可用时间期限上存在差异。限上存在差异。10A数据仓库概述数据库方式数据库方式数据仓库方式数据仓库方式8080年代以后年代以后9090年代以后年代以后以支持日常业以支持日常业务处理过程为务处理过程为目的(目的(OLTPOLTP)以支持经营管以支持经营管理过程中的决理过程中的决策制定为目的策制定为目的(DSSDSS) 自进入自进入9090年代以后,数据库系统的应用从传统的事年代以后,数据库系统的应用从传统的事务处理应用扩展到辅助决策等新的集成应用领域。务处理应用扩展到辅助决策等新的集成应用领域。11A数

11、据仓库概述数据数据仓库的出的出现是是为分析型处理分析型处理用于企业管理人员的决策分析,为制订企业的未来经营管用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息,如理计划提供辅助决策信息,如决策支持系统决策支持系统(DSS-(DSS-Decision Support System )Decision Support System )。 其访问特点是:其访问特点是: 需要执行大量的统计操作需要执行大量的统计操作 需要访问大量的历史数据需要访问大量的历史数据 执行频率和对响应时间的要求都不高等。执行频率和对响应时间的要求都不高等。12A数据仓库概述针对工商企业目前业务自动化设计

12、针对工商企业目前业务自动化设计针对工商企业数据分析而设计针对工商企业数据分析而设计是在协助工作人员执行既有的活动是在协助工作人员执行既有的活动是在协助工作人员执行管理决策是在协助工作人员执行管理决策可以让多个用户同时使用信息系统可以让多个用户同时使用信息系统一般而言,同时间不会有太多用户同时使一般而言,同时间不会有太多用户同时使用系统用系统存储的数据比较偏重细节存储的数据比较偏重细节存储的数据偏重较高级别的集合信息存储的数据偏重较高级别的集合信息数据的来源是用户日常工作的输入数据的来源是用户日常工作的输入数据的来源是数据的来源是OLTP系统系统数据库的内容会随时被添加、删除,时数据库的内容会随

13、时被添加、删除,时间短而且占用系统的资源少间短而且占用系统的资源少数据内容是历史数据,不会随时加以更新数据内容是历史数据,不会随时加以更新数据的处理以交易为单位,交易时间短数据的处理以交易为单位,交易时间短而且占用的资源少而且占用的资源少数据的处理不是以交易为单位,一个用户数据的处理不是以交易为单位,一个用户的需求会占用大量的系统资源的需求会占用大量的系统资源设计数据库是采用正规化的设计方法设计数据库是采用正规化的设计方法设计数据仓库采用非正规化的设计方式设计数据仓库采用非正规化的设计方式数据库数据数据库数据数据仓库数据数据仓库数据13A数据仓库概述数据仓库还具有的特点:数据仓库还具有的特点:

14、1)将分散在各处不同性质的数据整合到单数据集合中)将分散在各处不同性质的数据整合到单数据集合中2)使用适合数据分析的结构来存储数据)使用适合数据分析的结构来存储数据3)包含由日常交易数据转换而来的数据,以供管理员决策分析)包含由日常交易数据转换而来的数据,以供管理员决策分析4)要能够及时从数据仓库中取得信息)要能够及时从数据仓库中取得信息5)数据仓库的数据在内部必须有一致性)数据仓库的数据在内部必须有一致性6)用户可以对取得的分析数据做细分与比较)用户可以对取得的分析数据做细分与比较7)数据仓库系统必须包含易于使用的浏览工具)数据仓库系统必须包含易于使用的浏览工具8)在数据仓库中的数据必须完整

15、而且正确。)在数据仓库中的数据必须完整而且正确。14A数据仓库概述 6060年代,关系数据库之父年代,关系数据库之父E.F.CoddE.F.Codd提出了关系模型,促进了联提出了关系模型,促进了联机事务处理机事务处理(OLTP)(OLTP)的发展的发展( (数据以表格的形式而非文件方式存储数据以表格的形式而非文件方式存储) )。19931993年,年,E.F.CoddE.F.Codd提出了提出了OLAPOLAP概念,认为概念,认为OLTPOLTP已不能满足终端用已不能满足终端用户对数据库查询分析的需要,户对数据库查询分析的需要,SQLSQL对大型数据库进行的简单查询也对大型数据库进行的简单查询

16、也不能满足终端用户分析的要求。用户的决策分析需要对关系数据不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,提出的需求。因此,E.F.CoddE.F.Codd提出了多维数据库和多维分析的概提出了多维数据库和多维分析的概念,即念,即OLAPOLAP。二、联机事务处理(二、联机事务处理(OLAPOLAP)面向操作人员,支持日常操作面向操作人员,支持日常操作面向决策人员,支持管理需要面向决策人员,支持管理需要面向应用,事务驱动面向应用,事务驱动面向分析,分析驱动面向

17、分析,分析驱动一次处理的数据量小一次处理的数据量小一次处理的数据量大一次处理的数据量大可更新可更新不可更新,但周期性刷新不可更新,但周期性刷新当前值数据当前值数据历史数据历史数据细节性数据细节性数据综合性和提炼性数据综合性和提炼性数据原始数据原始数据导出数据导出数据OLTP数据数据OLAP数据数据15A数据仓库概述OLAPOLAP是独立于数据仓库的一种技术概念,基本思想是:是独立于数据仓库的一种技术概念,基本思想是: 企业决策者应能灵活地操作企业的数据,以多维的形企业决策者应能灵活地操作企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。式从多方面和多角度来观察企业的状态

18、并了解企业的变化。OLAPOLAP系统与数据源的数据存储相分离,只要提供足够的数据系统与数据源的数据存储相分离,只要提供足够的数据即可完成即可完成OLAPOLAP分析。分析。 当当OLAPOLAP与数据仓库结合时,与数据仓库结合时,OLAPOLAP的数据源为数据仓库,数的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织的。据仓库的大量数据是根据多维方式组织的。16A数据仓库概述1 1、OLAPOLAP定义定义定义定义1 1 :OLAP(OLAP(联机分析处理联机分析处理) )是针对特定问题的联机数据是针对特定问题的联机数据访问和分析。通过对信息访问和分析。通过对信息( (维数据维数据)

19、)的多种可能的观察形式的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。对数据进行深入观察。定义定义2 2 :OLAP(OLAP(联机分析处理联机分析处理) ) 是使分析人员、管理人员是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入进行快速、一致、交互地存取,从而获得对数据的更深入了解

20、的一类软件技术。了解的一类软件技术。(OLAP(OLAP委员会的定义委员会的定义) )OLAPOLAP的目标:的目标:是满足决策支持或多维环境特定的查询和报是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是表需求,它的技术核心是“维维”这个概念,因此这个概念,因此OLAPOLAP也可也可以说是多维数据分析工具的集合。以说是多维数据分析工具的集合。17A数据仓库概述2、为什么需要分离的、为什么需要分离的OLAP或数据仓库或数据仓库 分离操作数据库系统和分离操作数据库系统和OLAPOLAP数据仓库的主要原因是提高数据仓库的主要原因是提高两个系统的性能两个系统的性能. .操作数据库系统是为

21、已知的任务和负载设操作数据库系统是为已知的任务和负载设计的计的, ,而数据仓库的查询通常是复杂的而数据仓库的查询通常是复杂的, ,涉及大量数据在汇总涉及大量数据在汇总级的计算级的计算, ,在操作数据库系统上处理在操作数据库系统上处理OLAPOLAP查询查询, ,可能会大大降可能会大大降低操作任务的性能。低操作任务的性能。18A数据仓库概述3 3、OLAPOLAP服务器类型服务器类型1 1)关系)关系OLAP(ROLAP)OLAP(ROLAP)模型模型, ,使用关系或扩充关系使用关系或扩充关系DBMSDBMS存放存放并管理数据仓库并管理数据仓库2 2)多维)多维OLAP(MOLAP)OLAP(M

22、OLAP)服务器服务器, ,这些服务器通过基于数组的这些服务器通过基于数组的多维存储多维存储, ,支持数组的多维视图支持数组的多维视图3 3)混合)混合OLAP(HOLAP)OLAP(HOLAP)服务器服务器, ,结合结合ROLAPROLAP和和MOLAPMOLAP技术技术, ,得得宜于宜于ROLAPROLAP的可伸缩性的可伸缩性, ,和和MOLAPMOLAP的快速计算。(如的快速计算。(如MS)MS)4 4)特殊的)特殊的SQLSQL服务器服务器, ,为了满足在关系数据库中日益增长为了满足在关系数据库中日益增长的的OLAPOLAP需要需要, ,实现了特殊的实现了特殊的SQLSQL服务器服务器

23、, ,提供高级查询语言提供高级查询语言和查询处理和查询处理, ,在星型和雪花模式上支持在星型和雪花模式上支持SQLSQL查询查询19A数据仓库概述ROLAPROLAP优势优势没有大小限制没有大小限制现有的关系数据库的技术现有的关系数据库的技术可以沿用可以沿用. .可以通过可以通过SQLSQL实现详细数据实现详细数据与概要数据的存储与概要数据的存储现有关系型数据库已经对现有关系型数据库已经对OLAPOLAP做了很多优化,包括做了很多优化,包括并行存储、并行查询、并并行存储、并行查询、并行数据管理、基于成本的行数据管理、基于成本的查询优化、位图索引、查询优化、位图索引、SQL SQL 的的OLAP

24、OLAP扩展扩展(cube,rollup)(cube,rollup)等大大提高等大大提高ROALPROALP的速度的速度MOLAPMOLAP优势优势性能好、响应速度快性能好、响应速度快专为专为OLAPOLAP所设计所设计支持高性能的决策支支持高性能的决策支持计算持计算复杂的跨维计算复杂的跨维计算多用户的读写操作多用户的读写操作行级的计算行级的计算4、ROLAP与与MOLAP比较比较20A数据仓库概述ROLAPROLAP缺点缺点一般比一般比MOLAPMOLAP响应速度慢响应速度慢不支持有关预计算的读不支持有关预计算的读写操作写操作SQLSQL无法完成部分计算无法完成部分计算无法完成多行的计算无法

25、完成多行的计算无法完成维之间的计无法完成维之间的计算算MOLAPMOLAP缺点缺点增加系统复杂度,增加增加系统复杂度,增加系统培训与维护费用系统培训与维护费用受操作系统平台中文件受操作系统平台中文件大小的限制,难以达到大小的限制,难以达到TB TB 级级( (只能只能1020G)1020G)需要进行预计算,可能需要进行预计算,可能导致数据爆炸导致数据爆炸无法支持维的动态变化无法支持维的动态变化缺乏数据模型和数据访缺乏数据模型和数据访问的标准问的标准21A数据仓库概述5、维的概念:、维的概念:一个电子公司的销售一般从三个方面分析销售额:一个电子公司的销售一般从三个方面分析销售额:时间:时间:在某

26、一段时间内的销售情况,其度量为(年、季度、在某一段时间内的销售情况,其度量为(年、季度、月、旬、天)月、旬、天)地区:地区:在某个地区的销售情况,度量可分为(地区、国家、在某个地区的销售情况,度量可分为(地区、国家、省、市)省、市)产品:产品:某类或某型号产品的销售情况,度量可分为(类别、某类或某型号产品的销售情况,度量可分为(类别、型号等)型号等) 此处,(时间,地区,产品)就构成了三个维。此处,(时间,地区,产品)就构成了三个维。维有层次结构,可以在某个层上察看数据。维有层次结构,可以在某个层上察看数据。22A数据仓库概述时间时间地区地区产品产品原点原点 此处正好构成一个数据立方体,可以有

27、更高阶的维,此处正好构成一个数据立方体,可以有更高阶的维,但仍然称为但仍然称为数据立方体。数据立方体。23A数据仓库概述20294035504138372321393426273632时间时间产品产品地区地区一一季季度度二二季季度度三三季季度度四四季季度度北京北京上海上海南京南京广州广州VCD手机手机电脑电脑空调空调69(北京,二季度,电脑的销售额)(北京,二季度,电脑的销售额)24A数据仓库概述20294035504138372321393426273632时间时间产品产品地区地区一一季季度度二二季季度度三三季季度度四四季季度度北京北京上海上海南京南京广州广州VCD手机手机电脑电脑空调空调切

28、片切片(slice): 地区地区=“北北京京”意义:北京地区四个季度意义:北京地区四个季度空调、电脑、手机、空调、电脑、手机、VCD的销售金额的销售金额25A数据仓库概述20294035504138372321393426273632时间时间产品产品地区地区一一季季度度二二季季度度三三季季度度四四季季度度北京北京上海上海南京南京广州广州VCD手机手机电脑电脑空调空调切片:切片: 产品产品=“空调空调”意义:空调产品在四个季意义:空调产品在四个季度中各地区的销售金额度中各地区的销售金额26A数据仓库概述分块分块(dice):地区地区=“南京南京” AND “广州广州”产品产品“空调空调”AND

29、“手机手机”2029403550413837时间时间产品产品地区地区一一季季度度二二季季度度三三季季度度四四季季度度南京南京广州广州手机手机空调空调27A数据仓库概述上卷(上卷(roll_up):按时间上卷到半年为单位按时间上卷到半年为单位2029403550413837时间时间产品产品地区地区一一季季度度二二季季度度三三季季度度四四季季度度南京南京广州广州手机手机空调空调时间时间产品产品南京南京广州广州手机手机空调空调49759175上半年上半年 下半年下半年上卷上卷28A数据仓库概述2029403550413837时间时间产品产品地区地区一一季季度度二二季季度度三三季季度度四四季季度度南京

30、南京广州广州手机手机空调空调下钻(下钻(drill_down): 按时间分到月、甚至按时间分到月、甚至天为单位天为单位668817161413时间时间南京南京广州广州手机手机8131113141413121610101513111016空调空调1 2 3 4 5 6 7 8 9 10 11 12下下钻钻29A数据仓库概述6、数据仓库的、数据仓库的粒度:粒度:反映数据的粗细程度反映数据的粗细程度 若要分析去年春节手机打折销售后的销售情况,此时若要分析去年春节手机打折销售后的销售情况,此时在数据仓库中已经无法进行了。只有将粒度确定为在数据仓库中已经无法进行了。只有将粒度确定为“天天”才有可能。才有

31、可能。 销售数据库存储了每一笔业务的细节,在分析时对每销售数据库存储了每一笔业务的细节,在分析时对每一笔分析是无意义的。因此可以考虑数据仓库的粒度级别一笔分析是无意义的。因此可以考虑数据仓库的粒度级别以星期为单位,即在数据从数据库装入数据仓库时,按星以星期为单位,即在数据从数据库装入数据仓库时,按星期汇总。由星期通过计算能得到月、季度、年的汇总。可期汇总。由星期通过计算能得到月、季度、年的汇总。可以认为该数据仓库在时间上有以认为该数据仓库在时间上有多重粒度。多重粒度。粒度细:数据分析灵活,但存储空间大,计算量大粒度细:数据分析灵活,但存储空间大,计算量大粒度粗:存储空间小,但有时无法回答一些比

32、较细节的问题粒度粗:存储空间小,但有时无法回答一些比较细节的问题30A数据仓库概述7、分割、分割 目的:提高效率目的:提高效率 含义:将数据分散到各自的物理单元中,以便能分别独含义:将数据分散到各自的物理单元中,以便能分别独立处理。立处理。 分割标准:日期、地域、业务领域等。分割标准:日期、地域、业务领域等。 在数据仓库中,围绕分割问题的关键不是对数据该不在数据仓库中,围绕分割问题的关键不是对数据该不该分割,而是如何分割。该分割,而是如何分割。 对数据仓库中,如果粒度和分割做得很好的话,则数对数据仓库中,如果粒度和分割做得很好的话,则数据仓库设计和实现的几乎所有其它问题都解决了。据仓库设计和实

33、现的几乎所有其它问题都解决了。31A数据仓库概述数据仓库的结构数据仓库的结构早期细节级早期细节级早期细节级早期细节级当前细节级当前细节级当前细节级当前细节级轻度综合级轻度综合级轻度综合级轻度综合级数据集市数据集市数据集市数据集市高度综合级高度综合级高度综合级高度综合级元元元元数数数数据据据据操作型转换操作型转换操作型转换操作型转换32A数据仓库概述7、OLAP数据立方体的计算(物化)数据立方体的计算(物化)1、数据立方体的个数、数据立方体的个数 有产品有产品(type)、城市、城市(city)、日期、日期(date)三个维,则:三个维,则:allyeartypecitytype yearcit

34、y datecity type city type date一般,若有一般,若有n个维,则不同立方体的个数是:个维,则不同立方体的个数是:33A数据仓库概述 实际维上有分层,如(年、季度、月、星期、日),所以实际维上有分层,如(年、季度、月、星期、日),所以实际的立方体个数是极大的。所以,实时计算的工作量极大,实际的立方体个数是极大的。所以,实时计算的工作量极大,但全部事先计算,则存储量又极大。但全部事先计算,则存储量又极大。 所以,在所以,在OLAP中一般采用部分物化,即有选择的事先计中一般采用部分物化,即有选择的事先计算。算。34A数据仓库概述三、数据挖掘三、数据挖掘 OLAPOLAP使用

35、户能利用工具快速的查询数据。但不能解决哪些使用户能利用工具快速的查询数据。但不能解决哪些信息是有意义的,哪些是无意义的。信息是有意义的,哪些是无意义的。 在在OLAPOLAP使用中,一般是用户提出一个假设(模式),通过使用中,一般是用户提出一个假设(模式),通过OLAPOLAP去验证假定或从返回的数据信息中总结出某种规律去验证假定或从返回的数据信息中总结出某种规律。有。有时返回的信息太多而无法处理。(比如在搜索引擎查时返回的信息太多而无法处理。(比如在搜索引擎查“数据数据挖掘挖掘”返回许多页面,而有关的返回许多页面,而有关的“数据开采数据开采”, “知识发现知识发现”又没有返回)。又没有返回)

36、。 二十年前查不到数据是因为数据太少,而今天数据二十年前查不到数据是因为数据太少,而今天数据查不到是因为数据太多。查不到是因为数据太多。35A数据仓库概述 若把大量的数据比做藏有金子的山,若把大量的数据比做藏有金子的山,OLAP提供了在提供了在山中各处迅速地观察工具,它能让你迅速的到达你想到的山中各处迅速地观察工具,它能让你迅速的到达你想到的地方。但不能告诉你是否此处有价值。如果山是巨大的,地方。但不能告诉你是否此处有价值。如果山是巨大的,发现其中重要的有价值的位置本身是非常耗时的。发现其中重要的有价值的位置本身是非常耗时的。36A数据仓库概述数据挖掘(数据挖掘(Data mining ) 从

37、大量的数据集合中的数据中提取有用的信息从大量的数据集合中的数据中提取有用的信息 ( 不平常的不平常的 , 暗藏的暗藏的, 先前未知的和很可能有用的先前未知的和很可能有用的 )。 数据挖掘数据挖掘就是对观测到的数据集(经常是很庞大的)就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。理解并对其有价值的新颖方式来总结数据。37A数据仓库概述数据挖掘与数据仓库关系数据挖掘与数据仓库关系 数据仓库的目标是提供数据仓库的目标是提供OLAP及数据挖掘功能。及数据挖掘功能。 数据挖掘的数

38、据源不一定是数据仓库数据挖掘的数据源不一定是数据仓库 数据仓库允许你建立数据仓库允许你建立“数据山数据山”,而数据挖掘允许你在,而数据挖掘允许你在山山 中筛选数据,得到对你有用的信息中筛选数据,得到对你有用的信息38A数据仓库概述数据挖掘的过程数据挖掘的过程Data Cleaning数据整理数据整理Data Integration数据集成数据集成数据库数据库相关任务数据相关任务数据挑选挑选数据挖掘数据挖掘模式评估模式评估Pattern Evaluation39A数据仓库概述数据仓库的投资回报率(数据仓库的投资回报率(ROIROI) 96年,年,IDC(Intenational Data Cor

39、poration)做了关于数据做了关于数据仓库经济价值的研究。报告指出:对仓库经济价值的研究。报告指出:对IT业的投资还未产生预期业的投资还未产生预期的利润。的利润。94年全世界投入了年全世界投入了4640亿美元用于开发新技术。企业、亿美元用于开发新技术。企业、公司的高级管理人员开始怀疑投资公司的高级管理人员开始怀疑投资IT业到底有没有利益?业到底有没有利益? ROIROI底的原因是:传统的计算技术只重视如何自动完成职员底的原因是:传统的计算技术只重视如何自动完成职员的日常工作、提高已有过程的效率和收集数据。不幸的是虽然的日常工作、提高已有过程的效率和收集数据。不幸的是虽然收集了大量数据,但直

40、到近年,这些数据的价值才被发现和利收集了大量数据,但直到近年,这些数据的价值才被发现和利用。用。 随着数据仓库的到来,公司可以把收集到的信息加以利用随着数据仓库的到来,公司可以把收集到的信息加以利用以获得较大的投资回报率。以获得较大的投资回报率。IDCIDC的报告认为实现数据仓库有较的报告认为实现数据仓库有较大经济回报大经济回报,原因是:,原因是:40A数据仓库概述 能应用到商业过程中,对商业过程做完整的经济分析。能应用到商业过程中,对商业过程做完整的经济分析。这时的机构能在了解整个系统的基础上,而不是不完整的数这时的机构能在了解整个系统的基础上,而不是不完整的数据上做估计和决策。据上做估计和

41、决策。 能自动创建一个完整的企业范围内的信息仓储,而不是能自动创建一个完整的企业范围内的信息仓储,而不是开发一些单独的决策支持系统和相应的基础设施。开发一些单独的决策支持系统和相应的基础设施。 开发、部署和维护大型信息数据存储花费的硬件、软件和开发、部署和维护大型信息数据存储花费的硬件、软件和存储代价继续下降。存储代价继续下降。 数据仓库可以轻易拓展到能产生巨大利益的战略决策过程数据仓库可以轻易拓展到能产生巨大利益的战略决策过程中。中。 能同时从宏观和微观上了解和管理企业。这可以节省无数能同时从宏观和微观上了解和管理企业。这可以节省无数的手工劳动,避免由不完全或不正确数据得出的假设导致的错的手

42、工劳动,避免由不完全或不正确数据得出的假设导致的错误误这种错误有时是致命的这种错误有时是致命的。41A数据仓库概述 IDCIDC的研究结论认为:的研究结论认为:数据挖掘平均三年的数据挖掘平均三年的ROIROI能达到能达到401%,401%,在被调查的企业中,有超过在被调查的企业中,有超过90%90%的企业的的企业的ROIROI超过了超过了40%40%,50%50%的的企业的企业的ROIROI超过了超过了160%160%,25%25%的企业的的企业的ROIROI超过了超过了600%600%42A数据仓库概述四、数据仓库和数据挖掘产品四、数据仓库和数据挖掘产品单点产品单点产品 仅局限于数据仓库方案

43、实施中的一部分或某一特定功仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。进行使用。43A数据仓库概述Business Objects Business Objects 主要工具:主要工具:BusinessObjectsBusinessObjects是集成查询,报表和分析功能的工具;是集成查询,报表和分析功能的工具;WebintelligenceWebintelligence是世界上第一个通过是世界上第一个通过WebWeb进行查询、进行查询、报表和分析的决策支持工具;报表和分析的决策

44、支持工具;BusinessqueryBusinessquery是第一个可以在是第一个可以在Microsoft ExcelMicrosoft Excel中集中集成企业公共数据源中数据的工具;成企业公共数据源中数据的工具;BusinessminerBusinessminer是面向主流商业用户的数据挖掘工具,是面向主流商业用户的数据挖掘工具,可以实现深入的分析用以发掘深层次的数据之间的关系。可以实现深入的分析用以发掘深层次的数据之间的关系。应用提示:应用提示:严格意义上说,严格意义上说,Business ObjectsBusiness Objects产品只能算是一个前产品只能算是一个前端工具。它是数

45、据仓库解决方案中最常用的数据展现工具。端工具。它是数据仓库解决方案中最常用的数据展现工具。Business ObjectsBusiness Objects通过为主流的商业用户提供访问数据库和通过为主流的商业用户提供访问数据库和数据仓库中的信息的决策支持方案而立足业界。产品已经从数据仓库中的信息的决策支持方案而立足业界。产品已经从初级的工作组晋级到企业级。初级的工作组晋级到企业级。44A数据仓库概述提供部分解决方案的产品提供部分解决方案的产品目前许多提供数据方案解决方案的供应商,并不能提目前许多提供数据方案解决方案的供应商,并不能提供构建数据仓库的全部工具,它们还要结合第三方供应商供构建数据仓库

46、的全部工具,它们还要结合第三方供应商提供的工具才能完成整个数据仓库的构建。例如:提供的工具才能完成整个数据仓库的构建。例如:IBMIBM、OracleOracle、SybaseSybase、NCRNCR、InformixInformix、MicrosoftMicrosoft等公司所提等公司所提供的数据仓库产品都属于此类范畴。供的数据仓库产品都属于此类范畴。45A数据仓库概述1 1、OracleOracle 产品特点:产品特点:OracleOracle公司的数据仓库解决方案包含了业界领先的数公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,它能够提供一系列的数据库平台、开发工

47、具和应用系统,它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓库管理能力,据仓库工具集和服务。它具有多用户数据仓库管理能力,多种分区方式,较强的与多种分区方式,较强的与OLAPOLAP工具的交互能力,及快速和工具的交互能力,及快速和便捷的数据移动机制等特性。便捷的数据移动机制等特性。46A数据仓库概述主要工具主要工具:Oracle 9iOracle 9i是数据仓库的核心。是数据仓库的核心。Oracle Warehouse BuilderOracle Warehouse Builder集成数据建模、数据抽取、集成数据建模、数据抽取、数据转移和装载、聚合、元数据的管理等功能。数据转移和装

48、载、聚合、元数据的管理等功能。Oracle Developer ServerOracle Developer Server使企业级的应用系统开发工使企业级的应用系统开发工具,支持面向对象和多媒体,可同时生成具,支持面向对象和多媒体,可同时生成Client/ServerClient/Server及及WebWeb下的应用,具有极高的开发效率及网络伸缩性。下的应用,具有极高的开发效率及网络伸缩性。Oracle DiscovererOracle Discoverer是最终用户查询、报告、深入、旋是最终用户查询、报告、深入、旋转和转和WebWeb公布工具,能够帮助用户迅速访问关系型数据仓库,公布工具,能

49、够帮助用户迅速访问关系型数据仓库,从而使他们作出基于充分信息的决策。从而使他们作出基于充分信息的决策。Oracle DarwinOracle Darwin使基于数据仓库的数据挖掘工具,简单使基于数据仓库的数据挖掘工具,简单易用的图形化界面,提供决策树、神经网络等多种数据挖掘易用的图形化界面,提供决策树、神经网络等多种数据挖掘方法,支持海量数据的并行处理,分析结果可以和现有系统方法,支持海量数据的并行处理,分析结果可以和现有系统集成。集成。47A数据仓库概述应用提示:应用提示:OracleOracle的数据转移工具需手工编写的数据转移工具需手工编写SQLSQL脚本,在处理复杂脚本,在处理复杂的数

50、据转换需求时的数据转换需求时, ,困难很多。困难很多。OracleOracle的前端工具易用性较差,的前端工具易用性较差,需较多地依赖第三方产品。需较多地依赖第三方产品。48A数据仓库概述2、IBM产品特点产品特点IBMIBM公司提供了一套基于可视数据仓库的商业智能(公司提供了一套基于可视数据仓库的商业智能(BIBI)解)解决方案,具有集成能力强,高级面向对象决方案,具有集成能力强,高级面向对象SQLSQL等特性。等特性。主要工具主要工具IBMIBM提供的提供的Visual WarehouseVisual Warehouse(VWVW)是一个功能很强的集成是一个功能很强的集成环境,既可用于数据

51、仓库建模和元数据管理,又可用于数据抽环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。取、转换、装载和调度。Essbase/DB2 OLAP ServerEssbase/DB2 OLAP Server支持多维数据库,它是一个支持多维数据库,它是一个(ROLAPROLAP和和MOLAPMOLAP)混合的)混合的HOLAPHOLAP服务器,在服务器,在EssbaseEssbase完成数据装完成数据装载后,数据存放在系统指定的载后,数据存放在系统指定的DB2 UDBDB2 UDB数据库中。数据库中。QUESTQUEST是是IBMIBM公司公司AlmadenAlmaden研究

52、中心开发的一个多任务数据研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统提供多种开采功能,开采算法可适的数据开采基本构件。系统提供多种开采功能,开采算法可适用于任意大小的数据库。用于任意大小的数据库。49A数据仓库概述应用提示应用提示IBMIBM公司自己并没有提供完整的数据仓库解决方案,但公司自己并没有提供完整的数据仓库解决方案,但是它可以使用第三方的数据仓库工具。例如,查询工具使用是它可以使用第三方的数据仓库工具。例如,查询工具使用Business ObjectsBusiness

53、Objects的的Business ObjectsBusiness Objects,统计分析工具使用,统计分析工具使用SASSAS公司的公司的SASSAS系统。系统。50A数据仓库概述3 3、SybaseSybase产品特点产品特点SybaseSybase公司提供的数据仓库解决方案以能够支持多种关公司提供的数据仓库解决方案以能够支持多种关系型数据库而受到业界推崇。它能够同时处理几十个即席查系型数据库而受到业界推崇。它能够同时处理几十个即席查询,其询,其Bit_WiscBit_Wisc技术和垂直数据存储技术使系统只访问特定技术和垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系

54、型数据库管理系统的少量数据,使得查询速度比传统的关系型数据库管理系统快快100100倍。倍。51A数据仓库概述主要工具:主要工具:Warehouse ArchitectWarehouse Architect是是PowerDesignerPowerDesigner中的一个设计模块,中的一个设计模块,利用它数据集市或数据仓库设计者可以自动地对已有的关系数据利用它数据集市或数据仓库设计者可以自动地对已有的关系数据库进行逆向工程,建立目标数据库设计、物理设计和库进行逆向工程,建立目标数据库设计、物理设计和DDLDDL。PowerStagePowerStage、Replication ServerRep

55、lication Server、Carleton PASSPORTCarleton PASSPORT是是数据抽取与转换工具。数据抽取与转换工具。Adaptive Server EnterpriseAdaptive Server Enterprise是是SybaseSybase企业级关系数据库,企业级关系数据库,它通过多线索体系、并行操作以及对系统的内存、处理器和磁盘它通过多线索体系、并行操作以及对系统的内存、处理器和磁盘资源使用进行控制等手段增强了资源利用率。资源使用进行控制等手段增强了资源利用率。Adaptive Server IQAdaptive Server IQ是是SybaseSyba

56、se公司专为数据仓库设计的关系公司专为数据仓库设计的关系数据库。数据库。 PowerDimensions PowerDimensions、EnglishWizardEnglishWizard、InfoMakerInfoMaker、PowerDynamoPowerDynamo是数据分析与展现工具。是数据分析与展现工具。Warehouse Control CenterWarehouse Control Center、Sybase CentralSybase Central、Distribution Distribution Director Director 是数据仓库的维护与管理工具是数据仓库的

57、维护与管理工具。52A数据仓库概述应用提示:应用提示:SybaseSybase的的Industry Warehouse StudioIndustry Warehouse Studio包括相应行业所需的包括相应行业所需的商业智能应用软件和数据分析模型,可以针对不同行业进行业绩商业智能应用软件和数据分析模型,可以针对不同行业进行业绩分析、促销活动分析、用户群分析、销售分析和收益分析等,具分析、促销活动分析、用户群分析、销售分析和收益分析等,具有数据仓库设计、元数据管理等功能、支持广泛的应用软件和报有数据仓库设计、元数据管理等功能、支持广泛的应用软件和报表,并提供表,并提供Warehouse Stu

58、dio Warehouse Studio 的设计工具的设计工具,Warehouse Control ,Warehouse Control CenterCenter等工具,使企业能够进一步扩展数据模型和应用系统,以等工具,使企业能够进一步扩展数据模型和应用系统,以适应各种商业活动的实际需要适应各种商业活动的实际需要。53A数据仓库概述4 4、 Informix Informix产品特点产品特点 Informix Informix公司发布了一个集成的、可伸缩的公司发布了一个集成的、可伸缩的Fast StartFast Start数据数据仓库解决方案,以使用户能快速而便捷地设计开发具有可伸缩性仓库解

59、决方案,以使用户能快速而便捷地设计开发具有可伸缩性的数据仓库或数据集市。采用的数据仓库或数据集市。采用ROLAPROLAP的星型模式与的星型模式与Informix IDS Informix IDS 、IDS/ADIDS/AD紧密集成提供预先汇总、抽样、后台查询等性能优化手紧密集成提供预先汇总、抽样、后台查询等性能优化手段。段。InformixInformix产品能够集成产品能够集成Microsoft IISMicrosoft IIS或或Netscape Netscape Enterprise/FastTrackEnterprise/FastTrack服务器,从而支持服务器,从而支持webweb

60、访问。访问。InformixInformix没有没有提供自己的报表和数据挖掘工具,它可以集成第三方产品(例如提供自己的报表和数据挖掘工具,它可以集成第三方产品(例如结合结合BrioBrio的前端数据分析和报表功能,结合的前端数据分析和报表功能,结合SASSAS的数据挖掘功能)。的数据挖掘功能)。informixinformix并且向客户提供一套完整、使用的咨询服务包。并且向客户提供一套完整、使用的咨询服务包。54A数据仓库概述主要工具主要工具MetaCube ROLAP OptionMetaCube ROLAP Option为基于为基于InformixInformix的数据仓库或数据中的数据仓

61、库或数据中心提供了全面、简便易用、可扩展和自动化的商业分析环境。心提供了全面、简便易用、可扩展和自动化的商业分析环境。Informix InfoMoverInformix InfoMover是一套集成工具,用于从多个工作资是一套集成工具,用于从多个工作资源中抽取、转换和维护数据。源中抽取、转换和维护数据。Seagate Crystal InfoSeagate Crystal Info是企业级报表、分析系统。是企业级报表、分析系统。IDSIDS以及以及AD/XPAD/XP选项选项是是InformixInformix数据仓库系统的核心,提供数据仓库系统的核心,提供数据仓库数据的存储功能。数据仓库数

62、据的存储功能。55A数据仓库概述应用提示应用提示 采用采用InformixInformix数据仓库解决方案可以使数据仓库系统具数据仓库解决方案可以使数据仓库系统具有高性能、高可扩展性,高开放性,可以自己进行定制等特有高性能、高可扩展性,高开放性,可以自己进行定制等特性,同时,利用性,同时,利用informixinformix的专业数据仓库咨询服务,将充分的专业数据仓库咨询服务,将充分保证数据仓库系统建设快速、及时,保证您的数据仓库系统保证数据仓库系统建设快速、及时,保证您的数据仓库系统真正发挥作用。真正发挥作用。56A数据仓库概述5 5、 NCR NCR产品特点产品特点在在长长期期的的实实践践

63、过过程程当当中中,NCRNCR形形成成了了一一套套独独特特的的数数据据仓仓库库方方法法论论和和实实施施框框架架,这这套套理理论论被被称称为为可可扩扩展展数数据据仓仓库库 (Scalable (Scalable Data Data WarehouseWarehouse,简简称称为为SDW)SDW)。NCRNCR可可扩扩展展数数据据仓仓库库的的基基本本框框架架主主要要分分成成三三个个部部分分:数数据据装装载载、数数据据管管理理和和信信息息访问。访问。主要工具主要工具 NCRNCR的的TeradataTeradata是是高高端端数数据据仓仓库库市市场场最最有有力力的的竞竞争争者者,主主要要运运行行在

64、在NCR NCR WorldMark WorldMark SMPSMP硬硬件件的的UnixUnix操操作作系系统统平平台台上上,提提供供交交互互分分析析、标标准准报报告告和和多多维维度度分分析析。为为了了开开拓拓数数据据集集市市(Data Data MartMart)市市场场19981998年年,该该公公司司也也提提供供了了基基于于Windows Windows NTNT的的TeradataTeradata。应用提示应用提示总总的的来来看看NCRNCR的的产产品品性性能能很很好好,但但是是,NCRNCR产产品品的的价价格格相相对对较高,中小企业用户难以接受。较高,中小企业用户难以接受。57A数

65、据仓库概述7 7、 Microsoft Microsoft主要特点主要特点MicrosoftMicrosoft公司的公司的SQL Server 2000SQL Server 2000已经在性能和可扩展性已经在性能和可扩展性方面确立了世界领先的地位,是一套完全的数据库和数据分析方面确立了世界领先的地位,是一套完全的数据库和数据分析解决方案,使用户可以快速创建下一代的可扩展电子商务和数解决方案,使用户可以快速创建下一代的可扩展电子商务和数据仓库解决方案。据仓库解决方案。MicrosoftMicrosoft将将OLAPOLAP功能集成到功能集成到Microsoft SQL Microsoft SQL

66、 ServerServer中,提供可扩充的基于中,提供可扩充的基于COMCOM的的OLAPOLAP接口。接口。Microsoft Microsoft Office 2000Office 2000套件中的套件中的AccessAccess和和ExcelExcel可以作为数据展现工具,可以作为数据展现工具,另外另外SQL ServerSQL Server还支持第三方数据展现工具。还支持第三方数据展现工具。58A数据仓库概述主要工具主要工具Sql serverSql server通过一系列服务程序支持数据仓库应用。通过一系列服务程序支持数据仓库应用。数据传输服务数据传输服务DTSDTS(Data Tr

67、ansformation ServicesData Transformation Services)提供)提供数据输入数据输入/ /输出和自动调度功能,在数据传输过程中可以完成数输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作,通过与据的验证、清洗和转换等操作,通过与Microsoft RepositoryMicrosoft Repository集成,共享有关的元数据;集成,共享有关的元数据;Microsoft RepositoryMicrosoft Repository存储包括元数据在内的所有中间存储包括元数据在内的所有中间数据;数据;SQL Server OLAP

68、ServicesSQL Server OLAP Services支持在线分析处理;支持在线分析处理;PivotTable ServicesPivotTable Services提供客户端提供客户端OLAPOLAP数据访问功能,通数据访问功能,通过这一服务,开发人员可以用过这一服务,开发人员可以用VBVB或其它语言开发用户前端数据或其它语言开发用户前端数据展现程序,展现程序,PivotTable ServicesPivotTable Services还允许在本地客户机上存储数还允许在本地客户机上存储数据;据;MMCMMC(Microsoft Management ConsoleMicrosoft

69、 Management Console)提供日程安排、存)提供日程安排、存储管理、性能监测、报警和通知的核心管理服务。储管理、性能监测、报警和通知的核心管理服务。59A数据仓库概述应用提示应用提示数据仓库是数据仓库是MicrosoftMicrosoft公司刚刚进入的一个全新领域,与公司刚刚进入的一个全新领域,与该公司的传统产品差别较大。同时,该公司的传统产品差别较大。同时,MicrosoftMicrosoft也缺少在数据也缺少在数据仓库实施方面的咨询经验。仓库实施方面的咨询经验。60A数据仓库概述8 8、 SAS SAS产品特点:产品特点:SASSAS公司在公司在2020世纪世纪7070年代以

70、年代以“统计分析统计分析”和和“线性数学模型线性数学模型”而享而享誉业界,它提供的工具以统计分析见长。誉业界,它提供的工具以统计分析见长。9090年代以后,年代以后,SASSAS公司也加入公司也加入了数据仓库市场的竞争,它提供的工具了数据仓库市场的竞争,它提供的工具( (例如:智能化的客户机例如:智能化的客户机/ /服务器,服务器,多厂商构架等多厂商构架等) )可以帮助企业实现一个灵活和低风险的处理。可以帮助企业实现一个灵活和低风险的处理。SASSAS数据仓数据仓库可以支持各种硬件平台、支持不同数据库之间数据的存取,它还可对库可以支持各种硬件平台、支持不同数据库之间数据的存取,它还可对不同格式

71、的数据进行查询、访问和分析,不同格式的数据进行查询、访问和分析,SASSAS具有与目前许多流行数据具有与目前许多流行数据库软件和老的数据文件的接口,并可在库软件和老的数据文件的接口,并可在SASSAS环境中建立对应外部异构数环境中建立对应外部异构数据的统一的公用数据界面。据的统一的公用数据界面。主要工具主要工具SASSAS提供的工具包括提供的工具包括3030多个专用模块多个专用模块, ,其中:其中:SAS/WASAS/WA(Warehouse AdministratorWarehouse Administrator)是建立数据仓库的集成管理)是建立数据仓库的集成管理工具,包括定义主题、数据转换

72、与汇总、更新汇总数据、元数据管理、工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等;数据集市的实现等;SAS/MDDBSAS/MDDB是是SASSAS用于在线分析的多维数据库服务器;用于在线分析的多维数据库服务器;SAS/AFSAS/AF提供了屏幕设计功能和用于开发的提供了屏幕设计功能和用于开发的SCLSCL(屏幕控制语言);(屏幕控制语言);SAS/ITSVSAS/ITSV(IT Service VisionIT Service Vision)是)是ITIT服务的性能评估和管理的软服务的性能评估和管理的软件,这些件,这些ITIT服务包括计算机系统、网络系统、服务

73、包括计算机系统、网络系统、WebWeb服务器和电话系统等。服务器和电话系统等。61A数据仓库概述应用提示应用提示总的来说,总的来说,SASSAS系统的优点是功能强、性能高、特长突出,系统的优点是功能强、性能高、特长突出,缺点是系统比较复杂,软件投资较高,而且每年都需交纳缺点是系统比较复杂,软件投资较高,而且每年都需交纳LicenseLicense费。费。62A数据仓库概述提供全面解决方案的产品提供全面解决方案的产品CACA CA CA于于19991999年收购年收购Platinum TechnologyPlatinum Technology公司后,得到了完整的公司后,得到了完整的数据仓库解决方

74、案,它具有丰富的行业知识和经验,能够向用户数据仓库解决方案,它具有丰富的行业知识和经验,能够向用户提供完善的数据仓库构造咨询服务、全面的数据仓库产品系列。提供完善的数据仓库构造咨询服务、全面的数据仓库产品系列。产品特点:产品特点:CACA能够提供以能够提供以“元数据元数据”为核心的,结构化的,包容构造数为核心的,结构化的,包容构造数据仓库各项技术的全面解决方案。它具有独特的据仓库各项技术的全面解决方案。它具有独特的“元数据元数据”管理管理与应用特性,具有用三维可视化技术解析处理的功能。与应用特性,具有用三维可视化技术解析处理的功能。CACA解决方解决方案提供案提供ODBCODBC接口,并将数据

75、存储在第三方关系数据库接口,并将数据存储在第三方关系数据库( (如如OracleOracle、SybaseSybase、SQL ServerSQL Server、InformixInformix和和IBM DB2IBM DB2等等) )中,其性能虽要打中,其性能虽要打一些折扣,但提高了开放性。一些折扣,但提高了开放性。63A数据仓库概述主要工具主要工具ErwinErwin是数据库是数据库/ /数据仓库模型设计工具;数据仓库模型设计工具;DecisionBaseDecisionBase是图形界面的元数据管理和数据转移工具;是图形界面的元数据管理和数据转移工具;InfoPumpInfoPump是可

76、编程控制的双向数据转移工具;是可编程控制的双向数据转移工具;InfoBeaconInfoBeacon是是OLAPOLAP服务器;服务器;Forest&TreesForest&TreesDSS/EISDSS/EIS开发工具;开发工具;RepositoryRepository是企业环境下元数据的集中管理工具;是企业环境下元数据的集中管理工具;ProVisionProVision是数据库性能和操作系统性能管理工具。是数据库性能和操作系统性能管理工具。应用提示应用提示CACA提供的数据仓库解决方案能够满足不同企业的需要,提供的数据仓库解决方案能够满足不同企业的需要,能够集成完全不同的技术解决方案。适合

77、于航空、电信、零能够集成完全不同的技术解决方案。适合于航空、电信、零售业、股票交易、证券等各行业的数据综合性分析处理,为售业、股票交易、证券等各行业的数据综合性分析处理,为其提供全面的数据仓库解决方案。其提供全面的数据仓库解决方案。64A数据仓库概述选择产品的注意点选择产品的注意点数据仓库的建设过程是复杂的,企业在制定实施数数据仓库的建设过程是复杂的,企业在制定实施数据仓库解决方案时,不能盲目的选择产品供应商。因为据仓库解决方案时,不能盲目的选择产品供应商。因为每个行业都有自己的运行特点,都有自己特定的业务范每个行业都有自己的运行特点,都有自己特定的业务范围,都有自己特定的历史数据。因此,在建立数据仓库围,都有自己特定的历史数据。因此,在建立数据仓库时,必须紧密结合本行业的特点和本企业的业务发展需时,必须紧密结合本行业的特点和本企业的业务发展需求,参考产品提供商的技术特点和他们的成功案例,认求,参考产品提供商的技术特点和他们的成功案例,认真比较后再做出恰当的选择。真比较后再做出恰当的选择。65A数据仓库概述

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号