数据仓库基础培训课件

上传人:我*** 文档编号:141795286 上传时间:2020-08-12 格式:PPT 页数:65 大小:2.51MB
返回 下载 相关 举报
数据仓库基础培训课件_第1页
第1页 / 共65页
数据仓库基础培训课件_第2页
第2页 / 共65页
数据仓库基础培训课件_第3页
第3页 / 共65页
数据仓库基础培训课件_第4页
第4页 / 共65页
数据仓库基础培训课件_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《数据仓库基础培训课件》由会员分享,可在线阅读,更多相关《数据仓库基础培训课件(65页珍藏版)》请在金锄头文库上搜索。

1、数据仓库基础培训,胡红强 神州数码思特奇信息技术股份有限公司 2009年04月15日,内容,部门产品简介,2,3,主流数据仓库厂商和产品介绍,数据仓库概述,1,数据仓库概述,数据仓库的历史 数据仓库的基本概念 数据仓库的技术要求 数据仓库体系结构与设计 数据仓库的相关概念 数据仓库的项目过程,数据仓库的历史-联机事务处理系统,联机事务处理系统(On-line Transaction Processing)OLTP系统:也称为生产系统,它是事件驱动、面向需求的,比如银行的储蓄系统就是一个典型的OLTP系统。 OLTP在使用过程中积累了大量的数据。 关系数据库概念提出之后,联机事务处理一直是数据库

2、应用的主流。,OLTP的特点:对响应时间要求非常高;用户数量非常庞大,主要是操作人员;数据库的各种操作基于索引进行。,数据仓库的历史-联机分析处理系统,联机分析处理系统(On-line Analytical Processing)OLAP系统:是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分,它是数据驱动、面向分析的。OLAP系统是跨部门、面向主题的 。,OLAP的特点:基础数据来源于生产系统的操作数据;对系统的相应时间合理;用户数量相对较小,其用户主要是业务决策人员与管理人员。,数据仓库的历史-建立数据仓库的基本条件,建立数据仓库的基本条件: 第一:该行业有较为成熟的联机事务处理系

3、统,它为数据仓库提供客观条件; 第二:该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力; 第三:该行业为数据密集型行业;,数据仓库概述,数据仓库的历史 数据仓库的基本概念 数据仓库的技术要求 数据仓库体系结构与设计 数据仓库的相关概念 数据仓库的项目过程,数据仓库的基本概念,数据仓库的概念由被誉为“数据仓库之父”的WilliamH.Inmon博士提出的:数据仓库是一个面向主题的、集成的、随时间变化的、信息相对稳定的数据集合,它用于对企业管理和决策提供支持。 所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:客户、产品、账务、事件、服务使用、资源、客户服务、地域等;所谓面向

4、主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的; 分析和明确企业所涵盖的业务范围,并且对企业业务进行高度概括性的描述,把密切相关业务对象进行归类,它没有统一的标准,主要根据设计者的经验。不同的行业会有不同的主题域划分方式。,数据仓库的基本概念-面向主题,数据仓库的基本概念-数据集成,所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,必须消除源数据中的不一致性,因此数据仓库中的信息是关于整个企业的一致的全局信息; 各个业务系统可能由不同的厂家独立承建,它们的数据模型设计、编码规则等都是不同的,这

5、些数据加载到数据仓库之后,需要进行一个加工转换的过程。BOSS系统中,那地市的编码来说,CRM系统是的编码为1、2等,而BILLING系统可能根据长途区号来编码:451、452等,那么在数据仓库中,需要将各个业务系统中相同含义的数据通过规则映射为同一个编码。,数据仓库的基本概念-数据集成,数据仓库的基本概念-随时间变化,所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的信息,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态,数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。,数据仓库的基

6、本概念-信息相对稳定,所谓信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作,通常只需要进行定期的加载和刷新。 数据仓库中几乎很少对历史数据进行修改,6月2日用户单停,那么这天的数据就是这个状态;而对于业务系统中,它总是最新的状态,所以数据库的中的数据总是不断变化的。,数据仓库的基本概念-操作型系统与数据仓库的差异,数据仓库概述,数据仓库的历史 数据仓库的基本概念 数据仓库的技术要求 数据仓库体系结构与设计 数据仓库的相关概念 数据仓库的项目过程,数据仓库的技术要求-ETL,数据仓库的技术要求包含如下几个方面: ETL(Extract/Transfor

7、mation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;ETL是数据仓库系统中最重要的概念之一,ETL在一个数据仓库系统项目中要花一半以上的时间。,数据仓库的技术要求-ETL,ETL在技术上涉及到:增量、全量、定时、调度、监控等方面技术。 增量数据:流水类数据、话单类数据的抽取方式; 全量数据:用户信息类数据,状态会更新发生变化的数据; 定时抽取:数据抽取一般在生产系统比较闲暇的时候进行,凌晨时候比较多,而且按照要分析数据的周期,还分为按日、按月数据; 作业调度:由于涉及到的业务系统的数据量庞大,需要分批进行抽取,

8、以及抽取数据后面的一系列处理过程; 作业监控:对所有作业执行的监控;,数据仓库的技术要求-ETL,数据仓库的技术要求-存储和管理,数据仓库的真正关键是数据的存储和管理。数据仓库一般遇到的几个问题: 大数据量的存储和管理; 并行处理; 针对决策支持查询的优化; 支持多维分析的查询方式;,数据仓库概述,数据仓库的历史 数据仓库的基本概念 数据仓库的技术要求 数据仓库体系结构与设计 数据仓库的相关概念 数据仓库的项目过程,构造数据仓库的方法,构造数据仓库有两种方式:一是自上而下,一是自下而上。 Bill Inmon先生推崇“自上而下”的方式,即一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据

9、是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。要建立这样的数据仓库,并不从它需要支持那些应用入手,而是要从整个企业的环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性; Ralph Kimbal先生推崇“自下而上”的方式,他认为建设数据仓库应该按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据仓库当中。这种方式建设周期较短,客户能够很快看到结果。 二者都要达到同一个目标: 企业级数据仓库 实际上在建设数据仓库的时候,一般都参照这两种方式结合使用,没有硬性规定。,数据仓库的结构,数据仓库体系结构,数据仓库层次描述,数据仓库概述,数据仓库的历史 数据仓库的

10、基本概念 数据仓库的技术要求 数据仓库体系结构与设计 数据仓库的相关概念 数据仓库的项目过程,数据仓库的相关概念,ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;ETL是数据仓库系统中最重要的概念之一,ETL在一个数据仓库系统项目中要花一半以上的时间。 数据挖掘(Data Mining):是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题

11、,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。,数据仓库的相关概念,联机分析处理(OLAP,Online Analytical Processing):是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数

12、据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 商业智能(Business Intelligence,简称BI):商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。,数据仓库的相关概念-啤酒和尿布的故事,沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃

13、尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加。,数据仓库的相关概念-知识发现过程,数据库知识发现(KDD-Knowledge Discovery Database):,数据仓库的相关概念-交叉销售,啤酒和尿布这两个不相关的物品通过我们的分析和挖掘得出了它们之间的关联性。在电信行业中也有很广泛的应用,我们称之为交叉销售。 产品一:短信套餐,产品二:彩铃,数据仓库概述,数据仓库的历史 数据仓库的基本概念 数据仓库的技术要求 数据仓库体系结构与设计 数据仓

14、库的相关概念 数据仓库的项目过程,数据仓库项目过程,ETL工具,展现分析工具,数据库,WEB服务器,数据库建模工具,COGNOS,BO,BRIO,ORACLE,DB2,Teradata,Tomcat,Weblogic,PowerDesigner,ERWin,Infomatic,DataStage,JBoss,解决方案,方法论,行业模型,典型分析,项目控制,项目建设,物理模型,数据加载,应用开发,上线加载,产品选购,方案选择,项目工作,内容,部门产品简介,2,3,主流数据仓库厂商和产品介绍,数据仓库概述,1,部门产品简介,产品内容 数据平台 技术平台 产品平台 产品分类,部门产品简介-产品内容,

15、数据仓库项目组织步骤、人员角色、建设放方案等一系列方法的集合,指导方针,数据模型的建模方法; 统一的概念模型、逻辑模型; 数据库中对应的组织(物理化),ETL功能组件; 前端门户组件、模版; 元数据管理; 用户与组织; 权限组织;,数据的加载、清洗、组织规划的过程; 用户本地的需求整理与实现; 与开发者的经验、技能相关;,面向业务的分析; 面向问题的专题; 固定报表; 即席查询分析; KPI; 分析、互动流程,部门产品简介-产品内容,数据平台,技术平台,应用平台,功能体系框架 面向业务的应用分析目录 功能面向分析目标 融合规范与个性需求 随业务发展以及个性需求不断演进与深化 避免功能开发的凌乱

16、 可以面向不同角色灵活分配,与业务无关的技术功能 数据转换与数据加载 系统监控 信息发布支撑 工作流支撑 短信、EMAIL推送接口 前端门户框架 用户与权限管理支撑,数据存放中心 统一的数据模型 明细层数据 汇总层数据 应用层数据 数据的物理优化 数据分区 物化视图,部门产品简介-产品内容,部门产品简介-用户角色,矿工,勘探员,农夫,操作员,旅行者,老总/经理 KPI,仪表盘,简单的综合信息报表,营销人员 当前周期的数据,明细数据,直接获取下载,用来做业务,分析员 有一定的分析能力,对预定义的报表、查询感兴趣,偶尔使用灵活的动态报表组合自己需要的在综合信息,熟练的分析员 精通分析技术,对数据敏感,除使用固定报表、查询外,会针对特定的业务问题、数据质量问题进行分析,常使用灵活的动态可配置的应用,必要时会进入数据仓库直接探索。,专业分析员 对业务发展的趋势的假设作出求证,或者通过挖掘等技术找出改善业务的途径 (特定用户进行细分等),一般直接使用数据仓库。,部门产品简介,产品内容 数据平台 技术平台 产品平台 产品分类,部门产品简介-数据平台-

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号