第一讲 数据仓库基础

上传人:n**** 文档编号:56284332 上传时间:2018-10-11 格式:PPT 页数:66 大小:2.96MB
返回 下载 相关 举报
第一讲 数据仓库基础_第1页
第1页 / 共66页
第一讲 数据仓库基础_第2页
第2页 / 共66页
第一讲 数据仓库基础_第3页
第3页 / 共66页
第一讲 数据仓库基础_第4页
第4页 / 共66页
第一讲 数据仓库基础_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《第一讲 数据仓库基础》由会员分享,可在线阅读,更多相关《第一讲 数据仓库基础(66页珍藏版)》请在金锄头文库上搜索。

1、第一讲 数据仓库基础,姓名:陈令江 QQ:453579383 电话:13570611456 Email:,内容,1、数据仓库的概念、特点与组成,2、OLAP的概念、特点与类型,3、数据仓库系统的体系结构,5、数据仓库的产生、发展与未来,6、数据仓库的数据存储与处理,4、数据仓库的实施,问题,什么是数据仓库? 为什么要建数据仓库? 建数据仓库能带来哪些好处?,1.1 什么是数据仓库,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集

2、合,用于支持管理决策和信息的全局共享。数据仓库之父William H.Inmon,1.1.1 数据仓库特点(面向主题的),生产系统,操作型数据库,数据仓库,操作型数据库是面向特殊处理任务,各个系统之间各自分离,数据仓库是按照一定的主题域进行组织。一个主题通常与多个操作型信息系统相关,销售系统,财务系统,客户,1.1.2 数据仓库特点(集成的),面向特定应用,集成的,每一个数据库面向特定的应用,各类应用(包括其相关的数据库)之间相互独立,数据仓库中的数据面向整个企业的分析处理,经营分析系统中的数据是已经集成了的,消除了数据的不一致性,操作型数据库,数据仓库,1.1.3 数据仓库特点(相对稳定的)

3、,实时更新,数据根据需要及时发生变化,定期加载,加载后的数据极少更新,在某个时间段内保持相对稳定,操作型数据库,数据仓库,modify,delete,insert,update,Load/ Update,1.1.4 数据仓库特点(反应历史变化的),主要关心当前数据,通常包含历史数据,操作型数据库,数据仓库,1.2 对数据仓库系统的理解,数据仓库系统用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面向交易的操作型数据库; 数据仓库系统是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。 与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的

4、整合、加工和分析的过程。,1.3 数据仓库的组成,数据仓库数据库;数据抽取工具;OLAP服务器;元数据(Metadata);数据展现工具;数据集市(Data Marts);数据仓库管理;信息发布系统。,1.3.1 数据仓库数据库,数据仓库数据库是整个数据仓库的核心,是数据信息存放的地方,对数据提供存取和检索支持。相对于传统数据库来说,其突出的特点是对海量数据的支持和快速的检索技术。,数据库,Oracle DB2 SQLServer Sybase MySQL ,数据库内部性能参数有一 些差异:传统数据库:注重增、删、 改、查的综合性能。数据仓库:以查询、统计性能为优先重点。,1.3.2 数据抽取

5、工具,数据抽取工具是把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据的存储方式的访问能力是数据抽取工具的关键,可以运用高级语言编写的程序、操作系统脚本、批命令脚本或SQL脚本等方式,访问不同的数据环境。 数据转换通常包括如下内容: 删除对决策分析没有意义的数据。 转换到统一的数据名称和定义。 计算统计和衍生数据。 填补缺失数据。 统一不同的数据定义方式。,1.3.3 OLAP服务器,OLAP服务器是用于存储多“维”数据的,存储结构类似与立方体的结构,提供给用户快速的数据分析支持。,1.3.4 元数据,元数据是描述数据仓库数据的结构和建立方法的数据,

6、全面描述了数据仓库中有什么数据,这些数据是怎么得到,数据的来源是哪里等。简言之:元数据就是数据的数据。 元数据分为技术元数据和业务元数据。技术元数据是面向设计和管理人员的,包括数据源信息、数据结构定义、数据转换规则等。业务元数据是面向业务使用人员的,主要是从业务的视角来描述业务主题。,1.3.5 数据展现工具,数据展现工具为用户访问数据仓库提供的手段,如:数据查询和报表工具、应用开发工具、数据分析工具、数据挖掘工具等。,数据分析工具,报表展现工具,1.3.6 数据集市,数据展现工具为用户访问数据仓库提供的手段,如:数据查询和报表工具、应用开发工具、数据分析工具、数据挖掘工具等。 数据集市的划分

7、有很多中,如 按照时间划分(07年、08年、09年等) 按照地域划分(广州、深圳、珠海等) 按照业务划分(生产、销售、财务等) ,1.3.7 数据仓库管理,数据仓库管理包括安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据的管理和更新、数据仓库使用状态的监测与审计、数据复制与删除、数据分割与分发、数据备份与恢复、数据存储管理等。,数据仓库,1.3.8 信息发布系统,信息发布系统是把数据仓库中的数据,或其他相关的数据发送给不同的地点或用户。 基于Web的信息发布系统是当前比较流行的多用户访问的最有效方法。,数据仓库,问题,什么是数据仓库? 为什么要建数据仓库? 数据集成问题 数据动态集成问

8、题 历史数据问题 数据的综合问题 建数据仓库能带来哪些好处? 公司领导层:了解公司全貌,辅助进行战略决策 中间管理层:掌控部门业务情况,协助制定管理策略 基层管理人员:掌握基层单位或个人绩效,实施有效管理,内容,1、数据仓库的概念、特点与组成,2、OLAP的概念、特点与类型,3、数据仓库系统的体系结构,5、数据仓库的产生、发展与未来,6、数据仓库的数据存储与处理,4、数据仓库的实施,2.1 什么是OLAP,OLAP(Online Analysis Process)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据

9、进行深入观察。对OLAP的理解 OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。,2.2 OLAP基础概念(一),维度(Dimension) 人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。 量度(Measure) 具体的指标值,如客户数、收入等 层次(Hierarchy) 人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:年-季度-月份-日期)。 成员(Member) 维的一个取值。是数据项在某维中位置的描述。,2.2 OLAP基础

10、概念(二),多维分析 多维分析是只对以“维”形式组织起来的数据(多维数据集)采取切片(slice)、切块(dice)、钻取(drill down和drill up)和旋转(pivot)等各种分析操作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。,2.3 OLTP与OLAP的比较,2.4 OLAP特性,快速性,用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。,可分析性,OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。,多维性,多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对

11、层次维和多重层次维的完全支持。,信息性,不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。,2.5 OLAP类型,ROLAP结构,MOLAP结构,ROLAP(Relation OLAP):关系型OLAP,数据存储在数据库中,查询方便灵活。MOLAP(Multi-dimension OLAP):多维OLAP,数据采用立方体的方式,独立存储,查询效率高。HOLAP(Hyper OLAP):混合型OLAP,也就是ROLAP和MOLAP的联合体。,分为三种类型:ROLAP、MOLAP、HOLAP,HOLAP结构,2.6 ROLTP与MOLAP的比较,内容,1、数

12、据仓库的概念、特点与组成,2、OLAP的概念、特点与类型,3、数据仓库系统的体系结构,5、数据仓库的产生、发展与未来,6、数据仓库的数据存储与处理,4、数据仓库的实施,3.1 数据仓库系统的体系结构,独立的数据仓库体系结构独立的数据集市体系结构数据仓库+数据集市体系结构实时数据仓库体系结构,3.2 独立的数据仓库体系结构,3.2独立的数据集市体系结构,3.3 数据仓库+数据集市体系结构,3.4 实时数据仓库体系结构,3.5 某实际项目的数据仓库体系结构,3.6 数据仓库与数据集市的比较,内容,1、数据仓库的概念、特点与组成,2、OLAP的概念、特点与类型,3、数据仓库系统的体系结构,5、数据仓

13、库的产生、发展与未来,6、数据仓库的数据存储与处理,4、数据仓库的实施,4.1 数据仓库系统的实施,数据仓库实施中的三个关键环节 数据抽取; 数据存储与管理 数据表现,4.2数据仓库实施方法论,数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败,4.3数据仓库实施步骤,项目启动,原型应用,需求分析,LDM设计,系统体系 结构设计,PDM设计,ETL实现,前端展 现定制,项目关闭,环境构建,系统测试,系统应用,需求变更,分析,设计,实现,4.4 数据仓库的构建方法自顶向下,建造企业数据仓库 建设

14、中心数据模型 一次性的完成数据的重构工作 最小化数据冗余度和不一致性 存储详细的历史数据 从企业数据仓库中建造数据集市 得到大部分的集成数据 直接依赖于数据仓库的可用性,问题:,建设中心数据模型的必要性和可能性? 投资效益的时间? 初始费用?,4.5 数据仓库的构建方法自底向上,建立部门数据集市 限制在一个主题区域 快速投资收益 区域自治设计的可伸缩性强 对相关部门的应用容易复制 对每个数据集市需要数据重构 存在一定的冗余及不一直性 逐步扩展到企业数据仓库(EDW) 把建造EDW作为一个长期的目标,问题:,数据集市的数据都是可用的吗?能生成数据模型吗?如何解决不一致性?,4.6 常用数据仓库产

15、品比较,能够提供完整数据仓库解决方案的厂商主要包括:IBM、Oracle、NCR、Microsoft等。另外,如果考虑到成本因素的话,也可以考虑采用开源方案,但这需要对开源产品非常的熟悉,自行完成解决方案的制定。,4.6.1 数据库产品比较,4.6.2 ETL产品比较,4.6.3 报表产品比较,4.6.4 OLAP产品比较,4.6.5 展前产品比较,4.6.6 其它,数据挖掘工具 目前市场上数据挖掘工具非常多,世界上各大BI厂商都提供了自己的数据挖掘工具,不过,从在挖掘领域的影响力和市场占有率来讲,无疑是SAS和SPSS两家独大,产品也非常丰富,各种常用的挖掘算法和挖掘手段都能提供,主要还是看

16、使用人员的熟练程度以及对业务的理解力。另外,开源领域也有一些挖掘工具,如WEKA,是新西兰大学的数据挖掘产品,具体完整和先进的算法,不足在对于大数据量的处理比较慢和对非专业人员的可用性不好2个方面。 元数据管理工具 目前市场上主流的元数据管理工具包括:DAG公司的MetaCenter、CA公司的Repository以及Ascential公司的MetaStage等,这些产品的功能都不错,对日常数据管理的绝大部分要求都可以满足。另外,开源领域有Panteho的Metadata等,功能相对简单,不过与Panteho平台结合的不错。,内容,1、数据仓库的概念、特点与组成,2、OLAP的概念、特点与类型,3、数据仓库系统的体系结构,5、数据仓库的产生、发展与未来,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号