数据仓库建模方法论讲解

上传人:我** 文档编号:115795908 上传时间:2019-11-14 格式:PPT 页数:47 大小:8.69MB
返回 下载 相关 举报
数据仓库建模方法论讲解_第1页
第1页 / 共47页
数据仓库建模方法论讲解_第2页
第2页 / 共47页
数据仓库建模方法论讲解_第3页
第3页 / 共47页
数据仓库建模方法论讲解_第4页
第4页 / 共47页
数据仓库建模方法论讲解_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《数据仓库建模方法论讲解》由会员分享,可在线阅读,更多相关《数据仓库建模方法论讲解(47页珍藏版)》请在金锄头文库上搜索。

1、数据仓库建模方法论 n 数据仓库概念 n 数据仓库数据架构 n 逻辑数据模型 n 数据模型标准化工艺流程 主题 数据仓库领域的两位大师 Bill Inmon 数据仓库之父,数据仓库概念的创始人 理论: Corporate Information Factory(CIF) 主要著作:数据仓库、企业信息工厂 主要著作:数据仓库工具箱维度建模的完全指南、 数据仓库生命周期工具箱 设计、开发和部署数据仓库的专家方 法 Ralph Kimball 数据仓库方面的知名学者 理论:Mutildimensional Architecture(MD) 企业数据仓库EDW 企业数据仓库定义: n详细交易及相关业务

2、数据的集合 n包含必要的内部与外部信息 n来自于多个数据源/业务操作系统 n保存一定的时间周期 n按照企业内业务规则所决定的模型来存储 企业数据仓库作用: n基于数据/信息来回答相关的业务 问题和提供决策支持,并确保:一 致、集成的数据存储 n任意的数据粒度 n在整个企业的业务范围 n保持企业内一致的信息视图 n企业内一致的信息视图(Single Version of the Truth) 集成的企业信息(Integrated corporate information) 不针对特定应用(Application neutral) 无冗余(Non redundant) 用于报表和决策支持(Rep

3、orting and decision making) n最详细的数据和信息(Detailed Data) n任何时候,针对任意数据,提出任意业务问题(Ask any question, any data, any time) 数据仓库的特点 企业信息工厂 数据仓库总线 企业总线 总线架构矩阵 多维体系结构与企业信息工厂体系结构比较 方面多维体系结构企业信息工厂体系结构 范围优先考虑业务单位范围优先考虑企业总体范围 角度 关心业务部门的需求 多维建模师以企业视角,建立一致性维度。 从企业角度解决供应源数据的问题,但并不是整个企业的数据必须在项目第一个阶段都处 理。相反而是选择企业所有数据的一个

4、子集。 数据流 实施方法采用自底向上的:如何快速的获取由用 户控制的业务部门专有的数据,并最小限度的考 虑整个企业的使用 快速需求收集和实现过程使得为整个环境提供一 致而可靠数据的任务变得复杂。 实施方法是自顶向下的:企业数据利用业务需求将数据从数据源推至需要这些数据的地方 ,其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。 为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销,需要更多 的时间和代价。但后续项目则需要较少时间和代价,尤其对于使用现有的、健全的主题 域的业务单位更是如此。 实现对存储空间最小需求,非冗余方式防止了在多个位置存储数据。这种特性使更新

5、或删 除异常最小化或者消除。 易失性 聚集数据集市:当业务过程发生变化,为了消除 或减少对事实表重建,需要增加新的维或改变维 。 原子数据集市:由于事实表可能包含几亿甚至更 多的数据,重建将会带来严重后果 数据仓库模型是与过程无关的,它摒弃了由于处理过程影响而带来的变化 数据仓库模型的设计依赖于企业的业务规则,而不依赖与在其上将运行什么查询。 如果一个已经建好的数据集市需要改变或加强,可以根据存储在数据仓库中的细节数据合 理且快速地进行重建 灵活性 多维设计是很多业务过程聚集在一起的结果。当 处理请求发生变化时,多维数据库的设计未必能 够适度地变化。 数据仓库模型存放数据粒度级别为原子级别,原

6、子级别可以任意组合。故可以支持将来未 知需求。 复杂性 数据集市模型易于业务人员理解。可以很容易构 建数据集市,然而,当一个一个地建立数据集市 时,由于数据的企业视图的复杂性,对于这种结 构,完成更新时相当复杂的。 数据仓库中的细节数据是与处理过程无关的,因此数据仓库的数据模型使得数据不一致的 风险最小。 功能性 为多维处理提供了理想环境,切片和切块、上钻 和下钻等查询提供良好的性能 支持数据挖掘、统计分析和即席查询 持续维护 总体目标是防止由于环境的后续构建、调整和优化而产生的高昂的代价。一个良好的数据 仓库模型将为企业提供长久的服务,将提供如下回报: 整个环境端到端一致性和集成性 易于建立

7、新的数据集市 加强现有数据集市 数据仓库和有关数据集市的维护和可持续发展 OLTP与OLAP n 针对特定问题的联机数据访问和数据分析技术 n 满足对数据进行多角度、快速、一致、交互、深入观察 n 使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取 。 n 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要 将数据从关系数据库中转载到多维数据库中方可访问。 也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算 中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处 理输入的数据,及时地回答。也称为实时系统(Rea

8、l time System)。衡量联机事务 处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间 。 OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。 On-Line Analytical Processing On-Line Transaction Processing OLTP与OLAP OLTPOLAP 用户操作人员,低层管理人员决策人员,高级管理人员 功能日常操作处理分析决策 DB 设计面向应用面向主题 数据 当前的, 最新的细节的, 二 维的 历史的,

9、聚集的, 多维的集成的, 统一的 存取读/写数十条记录读上百万条记录 工作单位简单的事务复杂的查询 用户数上千个上百个 DB 大小100MB-GB100GB-TB ROLAP表示基于关系数据库的OLAP实现(Relational OLAP) MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP) ROLAPMOLAP 沿用现有关系数据库技术专用技术 响应速度相对molap要慢性能好,响应速度快 数据转载计算速度快数据转载速度慢 存储空间耗费小,维数没有限制 需要进行预计算,可能导致数据爆炸, 维数有限,无法支持维的动态变化 借助rdbms对数据存储,无文件大

10、小限 制 受操作系统平台文件大小限制,难以达 到tb级 可以通过sql语句实现详细数据和概要数 据的存储 缺乏数据模型和数据访问的标准 不支持预计算的读写操作 无法完成维之间的运算 无法完成多行计算 支持高性能的决策支持计算 复杂的跨维计算 多用户读写操作 行级计算 ROLAP vs MOLAP n 数据仓库概念 n 数据仓库数据架构 n 逻辑数据模型 n 数据模型标准化工艺流程 主题 数据架构形态 各数据架构比较 源系统 ODS EDW 独立数据集市 Data Mart #1 Data Mart #2 Non-conformed Dimensions and Facts 从属数据集市 Dat

11、a Mart #1 Data Mart #2 Conformed Dimensions and Conformed Facts Data Mart 数据集市类型 活期存款 定期存款 零售信贷 公司信贷 债券投资 票据信息 同业拆借 储蓄国债 衍生品 储蓄国债 参与者 交易流水 会计单元 理财产品 风险缓释 市场数据 计量结果 公共信息 数据挖掘 模型 风险引擎数据接口 星型模型 报表模型多维分析模型 风险计算引擎 信用风险 绩效衡量和资本分配 合规性与披露 市场风险 操作风险 流动性风险 防欺诈和反洗钱 Enterprise Date Warehouse ODS 风 险 计 量 结 果 返 回

12、 O D S 多维分析 汇总层 应用层 监管报表 风险数据集市数据架构 风险数据集市建设目标 n 数据仓库概念 n 数据仓库模型 n 逻辑数据模型 n 数据模型标准化工艺流程 主题 为什么需要逻辑数据模型 n为复杂的数据仓库系统实施提供了规范和 基础结构蓝图 n促进业务部门用户和IT分析人员之间的有 效沟通 明确业务需求 解决业务问题 n形成对重要业务定义和术语的统一认识 n具备跨部门,能够表达所有的业务 技术缓冲层 ETL专用的纯技术层 完全与源系统结构一致 近源模型层 基本依照源系统建模 尽量保持业务系统原貌 整合模型层 面向整合 主题设计 提供规范和共享 应用集市层 面向应用 按需定制

13、多维建模 汇总数据 核心 系统 对公 信贷 票据 系统 储蓄 国债 市场 数据 核心 系统 对公 信贷 票据 系统 储蓄 国债 市场 数据 复杂 交易 复杂 交易 数据挖掘模型 风险引擎数据接口 星型模型 报表模型多维分析模型 汇总层 当事人财务产品 资产事件内部机构 协议计量结果市场数据 LDM在数据仓库系统中的地位 ODSEDWData MartData Mining 目标 短期的,细节的,同源的 数据存储; 直接提供基于源系统结构 的简单原貌访问; 为BI环境中适合的业务需 求提供支持 长期的,细节的,整 合的数据存储; 为BI环境中适合的业 务需求提供支持 服务特定应用 长期历史分析性

14、指标汇总 为企业提供预测性、趋势 分析性需求提供支持 原则 简单处理,不考虑整合; 关注保留策略; 面向全局,数据整合 中性设计,灵活扩展 提供规范和共享 面向具体应用 按需设计 针对业务目标、挖掘算法 设计数据模型 形式 偏源系统模型; 根据支持应用情况可以保 留短期历史 面向主题设计; 偏范式化; 长期保留历史 形式各异,依 具体应用不同; 一条记录表示一个观测 多条记录表示一个观测 重点 理解源结构 主题定义 框架设计 整合策略 实施方法 整体性 一致性 业务理解 数据理解 数据准备 用途 业务原貌查询 即时报表 数据质量检查 灵活查询 整合规则检查 特定应用 特定业务专题 设计思路比较

15、 EDW逻辑数据模型设计目标 n中性的,共享的:不针对某个特别的应用而设计; n灵活的,可扩展的:存放最详尽的历史数据,业务发生变 化时易于扩展,适应复杂的实际业务情况; n稳定的,经得起考验的:能够在很长时间内保持稳定性, 回答不断产生、不断变化且无法预先定义的业务问题; n规范的,易懂的:使用业务语言进行模型设计,易于让业 务人员理解和使用,有助于IT和业务部门人员的沟通 25 逻辑视图 (第三级) 细节 (第三级) 主题区域 (第一级) 概念 (第二级) 逻辑数据模型的不同级别 逻辑数据模型的主题域 主题域模型案例-市场风险数据集市 主题域模型案例-信用卡数据集市 主题域模型优点 n 指

16、导业务数据模型开发 n 有助于数据一致性,避免冗余。当确定一个新的实体时,基于定义可以确定实体的恰当地主题域。 n 根据主题域划分工作量,可使重复工作量最小化,并有利于相互协调 n 指导数据仓库项目选择 n 为基于数据的项目分组提供了一种高层次划分方法。在确定项目开发顺序时,应该同时考虑业务优先级、技术实现难度、 人 员可用性等信息 n 指导数据仓库开发 n 有助于确定哪些相关的业务专家 主题域模型目标 n 提供广泛的理解 提供对每一个主题域的理解,包括各个主题域的名称和定义,通过业务规则将这些主题域联系起来,形象地表达这些主题之间 依赖关系和规则。因为在主题域层次,所以,主题域模型更容易覆盖广泛的领域。业务规则使主题域模型增加更多的准确性和 清晰性。 n 确定范围 通过形象地表达主题域和他们的业务规则,我们能够更容易地识别出将要分析的模型的范围。 n 指引方向 主题

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号