《精编》数据仓库的建设实施

上传人:tang****xu5 文档编号:133162878 上传时间:2020-05-24 格式:PPT 页数:59 大小:2.33MB
返回 下载 相关 举报
《精编》数据仓库的建设实施_第1页
第1页 / 共59页
《精编》数据仓库的建设实施_第2页
第2页 / 共59页
《精编》数据仓库的建设实施_第3页
第3页 / 共59页
《精编》数据仓库的建设实施_第4页
第4页 / 共59页
《精编》数据仓库的建设实施_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《《精编》数据仓库的建设实施》由会员分享,可在线阅读,更多相关《《精编》数据仓库的建设实施(59页珍藏版)》请在金锄头文库上搜索。

1、数据仓库的建设实施 一体化平台总体拓扑图 身份管理 认证代理 人员目录 认证目录 人力资源 安全生产 物资管理 协同办公 营销管理 财务管理 项目管理 综合管理 操作型数据存储 ODS 数据仓库 商务智能 全局数据字典 公共信息模型 业务流程集成 业务数据集成 身份认证登录 数据中心 业务系统 数据交换 网省公司 网省公司 安全管理 企业资源管理平台 ETL1 运维管理 企业门户 单点登录 基础支撑功能 个性化定制 多渠道接入 Portlet框架 虚拟门户 门户管理与维护 基本应用 扩展应用 展现层的应用集成 Web内容管理 搜索 协同工作 待办事宜 BI展现 对8大系统中协同办公的规范要求

2、对应用集成项目的规范要求 对BI接入的规范要求 ETL2 基本概念 广义数据中心 数据中心是提供所有应用系统的运营场所 数据中心也是容纳用以支持应用系统运行的基础设施 包括服务器 网络 存储设备 的物理地点 数据中心本身的ODS 数据仓库及建立在其上的决策分析应用 数据中心需要有一套成熟的运行 维护体系支持其日常运行 保证应用系统高效地不间断运行 数据被正确的访问狭义数据中心 狭义的数据中心是指数据仓库和建立在数据仓库之上的决策分析应用 具体包括 数据源 数据的ETL ODS数据库 数据仓库 数据集市 商务智能应用和元数据管理等 在此作业指导书中 除非特别说明数据中心都是指侠义的数据中心 即数

3、据仓库及建立在数据仓库之上的商务智能和决策分析应用 作业指导书概述 数据仓库概念 数据仓库是一个面向主题的 集成的 相对稳定的 反映历史变化的数据集合 用于支持管理决策 数据仓库可以帮助用户更好地理解信息 从新的角度看待这些信息 以便获得更好的洞察力 看到模式和趋势 并更好地进行商业决策 数据仓库为整个企业的需要服务 数据仓库需要访问不同的数据源 需要存储海量的数据 需要对企业数据进行分析 并用适当的方式展现给出来 数据仓库的建设不仅涉及到许多先进的技术 更涉及到企业所有的业务知识 所以说数据仓库不是一个产品 而是一个具体的解决方案 数据中心概念 数据仓库概念 背景与目的 建设步骤建议 迭代关

4、系 实例说明 整体架构图 O x 数据横向移动V x 数据纵向移动 数据中心建设过程 需求分析 逻辑分析 ODS建模 数据仓库建模 源数据分析 数据的获取与整合 应用设计 性能调优 数据展现 元数据管理 系统建设过程 迭代式开发 国网典设建议的甲方项目组织 海联讯的项目组织 实施过程 需求分析 调研计划 实际调研 需求规格说明书 需求分析 调研计划 实际调研 需求规格说明书 调研方式 当面访谈 问卷调查 访谈及问卷提纲模板请参见附录2 需求分析 调研计划 实际调研 需求规格说明书 实例 调研内容 针对不同层面的人员 调研内容不同对企业领导层领导层目前的工作重点有哪些和此主题相关 和哪几个指标相

5、关 领导层最关心哪几个指标 针对这些指标 领导层目前采用何种获取方式 针对这些指标 领导层目前都进行哪些分析 采用何种分析手段 采用何种分析方法 目前状况下 针对这些指标都有哪些展现方式 领导层对数据仓库的期望是什么 领导层希望决策分析系统能提供哪些分析功能 领导层希望以何种方式来看这些指标 领导层希望对这些指标进行哪些方面的比较 需求分析 调研计划 实际调研 需求规格说明书 调研内容 针对不同层面的人员 调研内容不同对中间管理层中间管理层通常需要上报哪些指标 和此分析主题相关的有哪些指标 平时领导层通常询问哪些指标 在这些指标中哪几个和此分析主题有关 中间管理层目前的工作重点有哪些和此主题相

6、关 和哪几个指标相关 中间管理层本身最关心哪几个指标 中间管理层对下属的工作人员都考核哪些指标 哪几个指标与此分析主题有关 针对这些指标 中间管理层目前采用何种获取方式 针对这些指标 中间管理层目前都进行哪些分析 采用何种分析手段 采用何种分析方法 目前状况下 针对这些指标都有哪些展现方式 中间管理层对数据仓库的期望是什么 中间管理层希望决策分析系统能提供哪些分析功能 中间管理层希望以何种方式来看这些指标 中间管理层希望对这些指标进行哪些方面的比较 需求分析 调研计划 实际调研 需求规格说明书 调研内容 针对不同层面的人员 调研内容不同对业务人员平时工作中最关心的是哪些指标 有哪几个指标与此分

7、析主题有关 平时直属领导通常询问哪些指标 在这些指标中哪几个和此分析主题有关 业务人员目前的工作重点有哪些和此主题相关 和哪几个指标相关 业务人员对数据仓库的期望是什么 业务人员希望系统能提供哪些分析功能 业务人员希望以何种方式来看这些指标 业务人员希望对这些指标进行哪些方面的比较 需求分析 调研计划 实际调研 需求规格说明书 调研内容 针对不同层面的人员 调研内容不同对IT人员此主题所需要的数据源都取自哪些业务系统 与本主题有关的现有的业务系统的数据结构怎样 与本主题有关的现有的业务系统的数据更新频率如何 IT人员对数据仓库的期望是什么 IT人员在平时的工作中最关心的哪些指标 需求分析 调研

8、计划 实际调研 需求规格说明书 需求规格说明书需求规格说明书模板详见附录4 实施过程 逻辑分析 单一主题处理逻辑分析从业务逻辑入手 分析各指标的组成关系 多主题处理逻辑分析综合考虑各分析主题间的逻辑关系 处理逻辑分析 支撑数据分析 业务元数据建立 逻辑分析 单一主题支撑数据分析单个主题分析所需要的原始支撑数据分析多主题支撑数据分析所有主题统一考虑做需要的支撑数据分析 处理逻辑分析 支撑数据分析 业务元数据建立 逻辑分析 业务元数据包括以下信息 使用者的业务术语所表达的数据模型 对象名和属性名 访问数据的原则和数据来源 系统所提供的分析方法及公式 报表信息 处理逻辑分析 支撑数据分析 业务元数据

9、建立 实施过程 ODS建模 ODS逻辑模型逻辑结构 完成实体的定义 各实体间的关系等存储周期 立即删除 过一段时间删除或者是备份到其它介质上 存储粒度 与源系统基本保持一致 ODS物理模型数据的存储结构索引策略数据存放位置 硬盘或磁带等 存储分配分区设计 逻辑模型 物理模型 验证实例 ODS建模 逻辑模型 物理模型 验证实例 实施过程 需求分析 逻辑分析 ODS建模 数据仓库建模 源数据分析 数据的获取与整合 应用设计 性能调优 数据展现 元数据管理 系统建设过程 数据仓库建模 数据仓库逻辑模型划分粒度层次确定数据分割策略确定存储周期定义关系模式数据仓库物理模型数据的存储结构索引策略数据存放位

10、置 硬盘或磁带等 存储分配分区设计 逻辑模型 物理模型 验证实例 数据仓库建模 逻辑模型 物理模型 验证实例 实施过程 数据源分析 数据源范围包括数据源逻辑范围和物理范围数据源格式理解各数据源的格式 确定统一的格式 制定相应的转换规则 数据源范围 数据源格式 数据量 数据质量 数据更新频率 数据源分析 ORACLE数据源 数据源范围 数据源格式 数据量 数据质量 数据更新频率 数据源分析 SYBASE数据源 数据源范围 数据源格式 数据量 数据质量 数据更新频率 数据源分析 数据源范围 数据源格式 数据量 数据质量 数据更新频率 数据源分析 数据源范围 数据源格式 数据量 数据质量 数据更新频

11、率 数据源分析 数据源范围 数据源格式 数据量 数据质量 数据更新频率 实施过程 数据的获取与整合 直接抽取ETL服务器直接连接到应用系统后台数据库中 直接抽取所需数据 采用这种抽取方式时 必须注意安全控制和抽取时间窗口两个问题 WEB服务通过WEB服务获取系统需要的数据的抽取方式 文件交换文件交换是指应用系统将需要抽取的业务数据保存为有格式的文本文件 然后ETL服务器通过读此文件内容来获取业务数据的数据抽取方式 数据获取方式 数据转换方式 数据装载方式 数据的获取与整合 字段映射代码转换字段拆分字段合并字段运算字段补充行列转换 数据获取方式 数据转换方式 数据装载方式 数据的获取与整合 全部

12、覆盖记录追加记录更新 数据获取方式 数据转换方式 数据装载方式 实施过程 应用设计 OLAP分析方法ROLAPMOLAPHOLAP OLAP分析 预定义报表 即席查询 数据挖掘 应用设计 OLAP分析 预定义报表 即席查询 数据挖掘 应用设计 预定义报表对单报表可以直接从数据库中取出数据进行分析展现 同一主题的多个报表间有较强的关联 有些数据会在多个报表中以不同方式出现 因此 可以对多个报表进行整合 OLAP分析 预定义报表 即席查询 数据挖掘 应用设计 即席查询基于单个事实表的即席查询基于多个事实表关联的即席查询 OLAP分析 预定义报表 即席查询 数据挖掘 应用设计 数据挖掘定义问题 清晰

13、地定义出业务问题 确定数据挖掘的目的 数据准备 包括 选择数据 在大型数据库和数据仓库目标中提取数据挖掘的目标数据集 数据预处理 进行数据再加工 包括检查数据的完整性及数据的一致性 去噪声 填补丢失的域 删除无效数据等 数据挖掘 根据数据功能的类型和和数据的特点选择相应的算法 在净化和转换过的数据集上进行数据挖掘 结果分析 对数据挖掘的结果进行解释和评价 转换成为能够最终被用户理解的知识 知识运用 将分析所得到的知识集成到业务信息系统的组织结构中去 OLAP分析 预定义报表 即席查询 数据挖掘 实施过程 性能调优 优化指标对系统性能进行评估 得出相关性能指标综合各种相关因素 得出各项指标的期望

14、值优化步骤根据经验调整 无固定的步骤 汇报内容 数据展示 展现内容展现数据以及展现格式展现方式报表图形图标展现方法打印报表电子报表WEB发布 展现界面设计 前端展现 实施过程 元数据管理流程 元数据管理 元数据模型采用公共仓库元模型 CommonWarehouseMetamodel 简称CWM CWM的主要目的是在异构环境下 帮助不同的数据中心工具 平台和元数据知识库进行元数据交换 CWM为数据仓库和商业智能 BI 工具之间共享元数据 制定了一整套关于语法和语义的规范 元数据管理涉及到数据仓库构造 运行 维护的整个生命周期 是数据仓库构建过程中十分重要的一环 元数据以数据库存储 集中管理控制

15、元数据模型 元数据管理 元数据报告 元数据导入导出 元数据管理 元数据的存储 元数据应以数据库存储 便于管理 维护和扩展 数据交换 支持以XML等标准进行数据交换 应用编程接口 API 通过API接入为元数据管理提供所需的灵活性 元数据集中控制 元数据为整个经营分析系统的信息资源提供了记录 应对元数据集中管理控制 以确保信息的一致性和准确性 影响分析 从元数据中发现任何变化给全局带来的影响 确定某个实体的用途和与其它实体的关联 版本控制 指测试和生产过程中的版本控制 应按部门进行 允许多个开发人员同时开发项目 并且开发人员可以根据要求修改对象 而不影响其他开发人员 元数据模型 元数据管理 元数

16、据报告 元数据导入导出 元数据管理 逻辑模型报告实体 实体属性 数据类型关系 实体之间的关系维度 维度定义 层次 属性 度量 维度 计算公式物理模型报告表 视图汇总表立方体存储模式ETL报告数据映射关系数据装载过程 元数据模型 元数据管理 元数据报告 元数据导入导出 元数据管理 元数据管理需要遵循OMG CWM元数据标准 元数据库中的内容可以按CWM的标准导出 提供给其它软件 也可以从其它工具中导入元数据 元数据模型 元数据管理 元数据报告 元数据导入导出 以数据为驱动的快速实施 我们有什么可供分析的数据 收集数据样本 快速开发界面原型并确认 对有价值的原型进行深入数据分析 确定数据提供策略和方式 模型固化 数据贯通 在省公司数据中心架构已经实现的基础上 以集中式的数据中心建设 可以采用快速实施的方法 调整与性能优化 多年数据仓库的建设体会 1 数据展现的开发和准确数据的数据 是能否做好仓库的基础 形式很重要 2 只要有好的数据就可以开展一定的工作 不一定要等应用系统建设成功才开展 3 数据模型并不是最重要的事情 分析模型的建立往往取决于分析的要求 对于大家追求的数据共享和分析的通用模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号