如何进行数据仓库的建设实施.ppt

上传人:F****n 文档编号:111720358 上传时间:2019-11-03 格式:PPT 页数:60 大小:2.14MB
返回 下载 相关 举报
如何进行数据仓库的建设实施.ppt_第1页
第1页 / 共60页
如何进行数据仓库的建设实施.ppt_第2页
第2页 / 共60页
如何进行数据仓库的建设实施.ppt_第3页
第3页 / 共60页
如何进行数据仓库的建设实施.ppt_第4页
第4页 / 共60页
如何进行数据仓库的建设实施.ppt_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《如何进行数据仓库的建设实施.ppt》由会员分享,可在线阅读,更多相关《如何进行数据仓库的建设实施.ppt(60页珍藏版)》请在金锄头文库上搜索。

1、数据中心(数据仓库)的 建设实施,一体化平台总体拓扑图,身份管理,认证代理,人员目录,认证目录,人力资源,安全生产,物资管理,协同办公,营销管理,财务管理,项目管理,综合管理,操作型数据存储(ODS),数据仓库,商务智能,全 局 数 据 字 典,公 共 信 息 模 型,业 务 流 程 集 成,业 务 数 据 集 成,身份认证登录,数据中心,业务系统,数 据 交 换,网省公司,网省公司,安 全 管 理,企业资源 管理平台,ETL1,运 维 管 理,企 业 门 户,单点登录,基础支撑功能,个性化定制,多渠道接入,Portlet框架,虚拟门户,门户管理与维护,基本应用,扩展应用,展现层的应用集成,W

2、eb内容管理,搜索,协同工作,待办事宜,BI展现,对8大系统中协同办公的规范要求,对应用集成项目的规范要求,对BI接入的规范要求,ETL2,基本概念,广义数据中心: 数据中心是提供所有应用系统的运营场所。 数据中心也是容纳用以支持应用系统运行的基础设施(包括服务器、网络、存储设备)的物理地点。 数据中心本身的ODS、数据仓库及建立在其上的决策分析应用。 数据中心需要有一套成熟的运行、维护体系支持其日常运行,保证应用系统高效地不间断运行,数据被正确的访问 狭义数据中心: 狭义的数据中心是指数据仓库和建立在数据仓库之上的决策分析应用,具体包括:数据源,数据的ETL,ODS数据库,数据仓库,数据集市

3、,商务智能应用和元数据管理等。 在此作业指导书中,除非特别说明数据中心都是指侠义的数据中心,即数据仓库及建立在数据仓库之上的商务智能和决策分析应用。,作业指导书概述,数据仓库概念: 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 数据仓库可以帮助用户更好地理解信息,从新的角度看待这些信息,以便获得更好的洞察力,看到模式和趋势,并更好地进行商业决策。数据仓库为整个企业的需要服务。 数据仓库需要访问不同的数据源,需要存储海量的数据,需要对企业数据进行分析,并用适当的方式展现给出来。数据仓库的建设不仅涉及到许多先进的技术,更涉及到企业所有的业务知识,所以说数

4、据仓库不是一个产品,而是一个具体的解决方案。,数据中心概念,数据仓库概念,背景与目的,建设步骤建议,迭代关系,实例说明,整体架构图,O_x:数据横向移动 V_x:数据纵向移动,数据中心建设过程,需求分析,逻辑分析,ODS建模,数据仓库建模,源数据分析,数据的获取与整合,应用设计,性能调优,数据展现,元 数 据 管 理,系统建设过程,迭代式开发,国网典设建议的甲方项目组织,海联讯的项目组织,实施过程,需求分析,调研计划,实际调研,需求规格说明书,需求分析,调研计划,实际调研,需求规格说明书,调研方式: 当面访谈; 问卷调查; 访谈及问卷提纲模板请参见附录2,需求分析,调研计划,实际调研,需求规格

5、说明书,实例,调研内容:针对不同层面的人员,调研内容不同 对企业领导层 领导层目前的工作重点有哪些和此主题相关,和哪几个指标相关? 领导层最关心哪几个指标? 针对这些指标,领导层目前采用何种获取方式? 针对这些指标,领导层目前都进行哪些分析,采用何种分析手段,采用何种分析方法? 目前状况下,针对这些指标都有哪些展现方式? 领导层对数据仓库的期望是什么? 领导层希望决策分析系统能提供哪些分析功能? 领导层希望以何种方式来看这些指标? 领导层希望对这些指标进行哪些方面的比较?,需求分析,调研计划,实际调研,需求规格说明书,调研内容:针对不同层面的人员,调研内容不同 对中间管理层 中间管理层通常需要

6、上报哪些指标?和此分析主题相关的有哪些指标? 平时领导层通常询问哪些指标?在这些指标中哪几个和此分析主题有关? 中间管理层目前的工作重点有哪些和此主题相关,和哪几个指标相关? 中间管理层本身最关心哪几个指标? 中间管理层对下属的工作人员都考核哪些指标?哪几个指标与此分析主题有关? 针对这些指标,中间管理层目前采用何种获取方式? 针对这些指标,中间管理层目前都进行哪些分析,采用何种分析手段,采用何种分析方法? 目前状况下,针对这些指标都有哪些展现方式? 中间管理层对数据仓库的期望是什么? 中间管理层希望决策分析系统能提供哪些分析功能? 中间管理层希望以何种方式来看这些指标? 中间管理层希望对这些

7、指标进行哪些方面的比较?,需求分析,调研计划,实际调研,需求规格说明书,调研内容:针对不同层面的人员,调研内容不同 对业务人员 平时工作中最关心的是哪些指标?有哪几个指标与此分析主题有关? 平时直属领导通常询问哪些指标?在这些指标中哪几个和此分析主题有关? 业务人员目前的工作重点有哪些和此主题相关,和哪几个指标相关? 业务人员对数据仓库的期望是什么? 业务人员希望系统能提供哪些分析功能? 业务人员希望以何种方式来看这些指标? 业务人员希望对这些指标进行哪些方面的比较?,需求分析,调研计划,实际调研,需求规格说明书,调研内容:针对不同层面的人员,调研内容不同 对IT人员 此主题所需要的数据源都取

8、自哪些业务系统? 与本主题有关的现有的业务系统的数据结构怎样? 与本主题有关的现有的业务系统的数据更新频率如何? IT人员对数据仓库的期望是什么? IT人员在平时的工作中最关心的哪些指标?,需求分析,调研计划,实际调研,需求规格说明书,需求规格说明书 需求规格说明书模板详见附录4,实施过程,逻辑分析,单一主题处理逻辑分析 从业务逻辑入手,分析各指标的组成关系; 多主题处理逻辑分析 综合考虑各分析主题间的逻辑关系;,处理逻辑分析,支撑数据分析,业务元数据建立,逻辑分析,单一主题支撑数据分析 单个主题分析所需要的原始支撑数据分析 多主题支撑数据分析 所有主题统一考虑做需要的支撑数据分析,处理逻辑分

9、析,支撑数据分析,业务元数据建立,逻辑分析,业务元数据包括以下信息: 使用者的业务术语所表达的数据模型、对象名和属性名; 访问数据的原则和数据来源; 系统所提供的分析方法及公式、报表信息。,处理逻辑分析,支撑数据分析,业务元数据建立,实施过程,ODS建模,ODS逻辑模型 逻辑结构:完成实体的定义,各实体间的关系等 存储周期(立即删除、过一段时间删除或者是备份到其它介质上) 存储粒度(与源系统基本保持一致) ODS物理模型 数据的存储结构 索引策略 数据存放位置(硬盘或磁带等) 存储分配 分区设计,逻辑模型,物理模型,验证实例,ODS建模,逻辑模型,物理模型,验证实例,实施过程,需求分析,逻辑分

10、析,ODS建模,数据仓库建模,源数据分析,数据的获取与整合,应用设计,性能调优,数据展现,元 数 据 管 理,系统建设过程,数据仓库建模,数据仓库逻辑模型 划分粒度层次 确定数据分割策略 确定存储周期 定义关系模式 数据仓库物理模型 数据的存储结构 索引策略 数据存放位置(硬盘或磁带等) 存储分配 分区设计,逻辑模型,物理模型,验证实例,数据仓库建模,逻辑模型,物理模型,验证实例,实施过程,数据源分析,数据源范围 包括数据源逻辑范围和物理范围 数据源格式 理解各数据源的格式,确定统一的格式,制定相应的转换规则,数据源范围,数据源格式,数据量,数据质量,数据更新频率,数据源分析,ORACLE数据

11、源,数据源范围,数据源格式,数据量,数据质量,数据更新频率,数据源分析,SYBASE数据源,数据源范围,数据源格式,数据量,数据质量,数据更新频率,数据源分析,数据源范围,数据源格式,数据量,数据质量,数据更新频率,数据源分析,数据源范围,数据源格式,数据量,数据质量,数据更新频率,数据源分析,数据源范围,数据源格式,数据量,数据质量,数据更新频率,实施过程,数据的获取与整合,直接抽取 ETL服务器直接连接到应用系统后台数据库中,直接抽取所需数据。 采用这种抽取方式时,必须注意安全控制和抽取时间窗口两个问题。 WEB服务 通过WEB服务获取系统需要的数据的抽取方式。 文件交换 文件交换是指应用

12、系统将需要抽取的业务数据保存为有格式的文本文件,然后ETL服务器通过读此文件内容来获取业务数据的数据抽取方式。,数据获取方式,数据转换方式,数据装载方式,数据的获取与整合,字段映射 代码转换 字段拆分 字段合并 字段运算 字段补充 行列转换,数据获取方式,数据转换方式,数据装载方式,数据的获取与整合,全部覆盖 记录追加 记录更新,数据获取方式,数据转换方式,数据装载方式,实施过程,应用设计,OLAP分析方法 ROLAP MOLAP HOLAP,OLAP分析,预定义报表,即席查询,数据挖掘,应用设计,OLAP分析,预定义报表,即席查询,数据挖掘,应用设计,预定义报表 对单报表可以直接从数据库中取

13、出数据进行分析展现。 同一主题的多个报表间有较强的关联,有些数据会在多个报表中以不同方式出现。因此,可以对多个报表进行整合。,OLAP分析,预定义报表,即席查询,数据挖掘,应用设计,即席查询 基于单个事实表的即席查询 基于多个事实表关联的即席查询,OLAP分析,预定义报表,即席查询,数据挖掘,应用设计,数据挖掘 定义问题:清晰地定义出业务问题,确定数据挖掘的目的。 数据准备:包括: 选择数据:在大型数据库和数据仓库目标中提取数据挖掘的目标数据集; 数据预处理:进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 数据挖掘:根据数据功能的类型和和数据的特点选

14、择相应的算法,在净化和转换过的数据集上进行数据挖掘。 结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。 知识运用:将分析所得到的知识集成到业务信息系统的组织结构中去。,OLAP分析,预定义报表,即席查询,数据挖掘,实施过程,性能调优,优化指标 对系统性能进行评估,得出相关性能指标 综合各种相关因素,得出各项指标的期望值 优化步骤 根据经验调整,无固定的步骤,汇报内容,数据展示,展现内容 展现数据以及展现格式 展现方式 报表 图形 图标 展现方法 打印报表 电子报表 WEB发布,展现界面设计,前端展现,实施过程,元数据管理流程,元数据管理,元数据模型采用公共仓库元模型

15、(Common Warehouse Metamodel,简称CWM)。CWM的主要目的是在异构环境下,帮助不同的数据中心工具、平台和元数据知识库进行元数据交换。 CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。 元数据管理涉及到数据仓库构造、运行、维护的整个生命周期,是数据仓库构建过程中十分重要的一环。元数据以数据库存储,集中管理控制。,元数据模型,元数据管理,元数据报告,元数据导入导出,元数据管理,元数据的存储:元数据应以数据库存储,便于管理,维护和扩展。 数据交换:支持以XML等标准进行数据交换。 应用编程接口(API):通过API接入为元数据管理提

16、供所需的灵活性。 元数据集中控制:元数据为整个经营分析系统的信息资源提供了记录,应对元数据集中管理控制,以确保信息的一致性和准确性。 影响分析:从元数据中发现任何变化给全局带来的影响,确定某个实体的用途和与其它实体的关联。 版本控制:指测试和生产过程中的版本控制,应按部门进行。允许多个开发人员同时开发项目,并且开发人员可以根据要求修改对象,而不影响其他开发人员。,元数据模型,元数据管理,元数据报告,元数据导入导出,元数据管理,逻辑模型报告 实体:实体属性、数据类型 关系:实体之间的关系 维度:维度定义、层次、属性、 度量:维度、计算公式 物理模型报告 表、视图 汇总表 立方体存储模式 ETL报告 数据映射关系 数据装载过程,元数据模型,元数据管理,元数据报告,元数据导入导出,元数据管理,元数据管理需要遵循OMG-CWM元数据标准,元数据库中的内容可以按CWM的标准导出,提供给其它软件,也可以从其它工具中导入元数据。,元数据模型,元数据管理,元数据报告,元数据导入导出,以数据为驱动的快速实施,我们有什么

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号