大数据仓库教程培训课件

上传人:luobi****88888 文档编号:92925183 上传时间:2019-07-14 格式:PPT 页数:59 大小:1.88MB
返回 下载 相关 举报
大数据仓库教程培训课件_第1页
第1页 / 共59页
大数据仓库教程培训课件_第2页
第2页 / 共59页
大数据仓库教程培训课件_第3页
第3页 / 共59页
大数据仓库教程培训课件_第4页
第4页 / 共59页
大数据仓库教程培训课件_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《大数据仓库教程培训课件》由会员分享,可在线阅读,更多相关《大数据仓库教程培训课件(59页珍藏版)》请在金锄头文库上搜索。

1、1,数据仓库 Data Warehouse,赵*博士 上海交通大学软件学院 ,2,事务型处理,事务型处理:即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。 在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。,3,分析型处理,分析型处理:用于管理人员的决策分析,例如DSS、 EIS和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。 分析型处理经常要访问大量的历史数据

2、,支持复杂的查询。 分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。,4,事务型处理数据和分析型处理数据的区别,5,数据库系统的局限性,数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。 决策分析型数据是多维性,分析内容复杂。 在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。,6,数据库系统的局限性(续),当事务型处理环境和分析型处理环境在同一个数据

3、库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。 决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。,7,多库系统的限制,可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络在线联入多库系统。 响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度。 系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥;

4、系统开销:每次查询要启动多个局部系统, 通信和运行开销大。,8,实施数据仓库的条件,数据积累已达到一定规模 面临激烈的市场竞争 在IT方面的资金能得到保障,9,数据仓库的发展,自从NCR公司为Wal Mart建立了第一个数据仓库。 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。 早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。 IBM的实验室在数据仓库方面已经进行了

5、10多年的研究,并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。,10,数据仓库(Data Warehouse),数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。 以1992年W H Inmon出版Buildi

6、ng the Data Warehouse为标志,数据仓库发展速度很快。 W H Inmon被誉为数据仓库之父。 W H Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。,11,面向主题,数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。 面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据

7、以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。,12,集成性,数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。,13,稳定性,数据仓库内的数据有很长的时间跨度,通常是5-10年。 数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查

8、询,一般情况下并不进行修改操作. 数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。,14,时变性,时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。,15,支持管理决策,数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的

9、方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。,16,BI系统VS决策盲点,某大型国有企业老总当他查看近十年企业的生产和运营数据时,手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前、即ERP上线之前的,这是一些简单、杂乱而又枯燥的数字;另一种是有了ERP以后的,数据变得清楚而有条理起来,同时还有来自ERP、CRM、SCM以及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后

10、,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在ERP系统和CRM、SCM系统里面相差很大,如果引用ERP和CRM里面的数据,它就是一款很成功、销量很好的产品,但在SCM里面来看,它的采购和物流成本过高,导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。,17,BI系统VS决策盲点(续),其实从这些来自不同系统的数据基础产生不同的判断很正常,因为这些系统并不会去周密地“思考”在自己“职责”之外的事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,结果就是导致了许多市场决策上的混乱和失误。 把企业的内部数据和外部数据(企业内部数据就是指上述通

11、过业务系统SCM、ERP、CRM等收集到的数据,这些数据可能在不同的硬件、数据库、网络环境中,为不同的业务部门服务。外部数据是市场信息和外部竞争对手的信息)。进行有效的集成,形成直观的、易于理解的信息,再进行分析和思考,为企业的各层决策及分析人员使用。,18,数据仓库的技术要求,复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。 对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。 对进行高层决策的最终

12、用户的界面支持:提供各种分析应用工具。,19,数据仓库系统的结构,20,数据仓库系统的结构(2),21,数据仓库系统的结构(3),22,数据仓库流程,23,IBM 信息分析框架,24,数据仓库系统的组成(1),源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、HTML文档等。 数据仓库管理系统: 元数据库及元数据管理部件:元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。 数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并

13、装载进数据仓库。 数据集成部件:该部件根据定义部件的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。 数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。,25,数据仓库系统的组成(2),数据仓库前端工具集 查询/报表工具:以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。 OLAP工具:通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。 数据挖掘工具:从大量数据中挖掘出具有规律性的知识,以及数据之间的内在联系。 前端开发工具:提供用户编程接

14、口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。 数据仓库:在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。,26,数据转换,统一数据编码:数据仓库中的数据从各个数据源提取出来的,尽管经过转换后数据格式已经统一,但数据的编码、描述在各个源系统中都有很大的区别。为了改进数据仓库中数据质量,提高数据仓库中数据的可用性,必须统一数据编码。本系统中编码转换主要包括: 日期格式转换:大多数业务环境中有许多不同的日期和时间类型,所以,几乎每个数据仓库的实现都必须将日期和时间变换成标准的数据格式。数据仓库必须用单一的模式规定日期和时间信息。

15、测量单位的转换:数据仓库中对于数值型字段应保持一致的单位。在元数据库中创建表Units和UnitTypes来表示各种单位的换算关系。表UnitTypes记录了数据仓库系统中的单位类型,初始元数据库中共分六种单位类型:时间单位、货币单位、重量单位、长度单位、面积单位、体积单位。在表Units中记录了单位名、单位类型以及同类型单位之间的相互转换关系。,27,转换器的设计与实现,转换器的功能:数据结构转换和数据类型转换。 从数据源中提取数据并转换格式的过程:先将各类数据库系统中不同格式的数据转换成文本文件,然后再利用批拷贝命令将数据导入目标系统中。以使数据仓库获得新的数据提供决策分析使用。 数据准备

16、区的使用:首先从源数据中提取数据,转换成数据仓库所要求的格式后存储在数据仓库的一个称为数据准备区的缓冲区中。在该区域中,可以暂时存储原始数据,然后由集成器对数据进行清理、集成后再装载到数据仓库中。,28,数据净化,当数据从源数据库中提取到数据准备区后,必须先进行数据净化才可以装载到数据仓库中去。数据净化主要指对数据字段的有效值检验。有效值的检验通常包括:范围检验、枚举字段取值和相关检验。范围检验要求数据保证落在预期的范围之内,通常对数据范围和日期范围进行检验,如对任何在指定范围之外的日期的发票都应删除。枚举字段取值指对一个记录在该字段的取值,若不在指定的值中,则应该删除。相关检验要求将一个字段中的值与另外一个字段中的值进行相关检验,即在数据库中某个字段应与另一个字段形成外键约束。,29,监控器捕捉数据变化的途径,数据仓库提供的是离线数据, 与源数据存在时间差。 时标方法:指在数据库中的数据设一个时标,如果新插入或更新一个数据记录,在记录中插入新的时标或加上更新时的时标,然后根据时标判断哪些数据是变化的,并把变化的数据追加到数据仓库中去。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 数据库

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号