数据仓库及其案例介绍说课材料

上传人:youn****329 文档编号:130086280 上传时间:2020-04-25 格式:PPT 页数:68 大小:9.56MB
返回 下载 相关 举报
数据仓库及其案例介绍说课材料_第1页
第1页 / 共68页
数据仓库及其案例介绍说课材料_第2页
第2页 / 共68页
数据仓库及其案例介绍说课材料_第3页
第3页 / 共68页
数据仓库及其案例介绍说课材料_第4页
第4页 / 共68页
数据仓库及其案例介绍说课材料_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《数据仓库及其案例介绍说课材料》由会员分享,可在线阅读,更多相关《数据仓库及其案例介绍说课材料(68页珍藏版)》请在金锄头文库上搜索。

1、数据仓库及其案例 张千福zhangqianfu 目的 掌握数据仓库的基本概念和数据中心的体系架构 掌握有关商业智能和数据仓库的重要术语了解数据中心建设过程了解公司数据仓库项目重要案例 历史沿革 计算机数据管理的历史 1961年通用电气开发出网状数据库管理系统 集成数据存储 IntegratedDataStoreIDS 1968年IBM公司开发出层次数据库的IMS InformationManagementSystem 1970年关系模型建立 IBM研发全功能关系DBMS SystemR 1973年加州大学伯克利分校开发出关系数据库系统Ingres 后来由Oracle公司 Ingres公司等厂商

2、商品化 在20世纪70年代提出了决策支持系统概念 在1970年 联机分析处理工具 Express诞生了 1980年明确了其部件结构 对话部件 数据部件 模型部件 1988年 IBM公司的研究者BarryDevlin和PaulMurphy发明了一个新的术语 信息仓库 之后 IT的厂商开始构建实验性的数据仓库 1991年 W H Bill Inmon出版 如何构建数据仓库 把数据仓库 联机分析处理 数据挖掘 模型库 数据库 知识库结合起来形成综合决策支持系统 SyntheticDecisionSupportSystem SDSS 是今后的发展方向 数据仓库的概念 WilliamH Inmon 数据

3、仓库是在企业管理和决策中面向主题的 集成的 与时间相关的 不可修改的数据集合 与其他数据库应用不同的是 数据仓库更像一种过程 对分布在企业内部各处的业务数据的整合 加工和分析的过程 企业管理与决策 基层业务人员 中层管理人员 高层决策人员 操作型数据操作型应用 企业级操作型数据企业级操作型应用 分析型 战术 数据分析型 战术 应用 分析型 战略 数据分析型 战略 应用 管理信息 数据分析 决策信息 辅助决策 基础数据 统计查询 数据范围 数据汇总粒度 数据仓库的特点 1 面向主题操作型数据库的数据组织面向事务处理任务 各个业务系统之间各自分离 而数据仓库中的数据是按照一定的主题域进行组织的 2

4、 集成的数据仓库中的数据是在对原有分散的数据库数据抽取 清理的基础上经过系统加工 汇总和整理得到的 必须消除源数据中的不一致性 以保证数据仓库内的信息是关于整个企业的一致的全局信息 3 相对稳定的数据仓库的数据主要供企业决策分析之用 所涉及的数据操作主要是数据查询 一旦某个数据进入数据仓库以后 一般情况下将被长期保留 也就是数据仓库中一般有大量的查询操作 但修改和删除操作很少 通常只需要定期的加载 刷新 4 反映历史变化数据仓库中的数据通常包含历史信息 系统记录了企业从过去某一时点 如开始应用数据仓库的时点 到目前的各个阶段的信息 通过这些信息 可以对企业的发展历程和未来趋势做出定量分析和预测

5、 数据仓库 面向主题 数据仓库系统结构 数据仓库主要包括数据的提取 转换与装载 ETL 元数据 数据集市和操作数据存储等部分 常用的数据仓库结构如图所示 IBM数据仓库解决方案 Oracle解决方案 粤电数据仓库 信息展现 源数据 环保数据 人力资源 抽取转化过滤加载 直接用户 开发人员 粤电用户 粤电用户 应用服务器 关型模型 转换 立方体 挖掘 Oracle9i 数据管理 数据转换 中调实时接口 电厂KPI 电厂KPI 元数据 SAPBW解决方案 ODS InfoCube Non SAPDataSources Flatfile XMLorDBConnect BEx WebBasedBEx

6、明细数据 业务仓库 SAPR 3 SAP BW 数据源 前端展现 培训提纲 概念重要术语关键技术数据质量方法论典型案例 数据集市 人们在早期开发企业级数据仓库时 一般是先建立一个全局的数据仓库 然后在此基础上建立各种应用 即 自顶向下 的方法 但在开发的过程中会出现以下问题 1 如果按 自顶向下 的方法建立企业级数据仓库 建设规模往往较大 建设周期长 投资大 2 在数据仓库建好后 随着使用数据仓库的部门增多 对数据仓库资源的竞争将成为企业面临的 个难题 3 各个部门希望能定制数据仓库中的数据 但数据仓库是面向企业的 数据集市 外部数据 构建数据仓库 自顶向下 数据集市 建造企业数据仓库建设中心

7、数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性 操作数据 问题投资效益的时间 建设中心数据模型的必要性和可能性 初始费用 构建数据仓库 自底向上 数据集市 建立部门数据集市限制在一个主题区域快速投资收益区域自治 设计的可伸缩性强对相关部门的应用容易复制对每个数据集市需要数据重构存在一定的冗余及不一直性逐步扩展到企业数据仓库 EDW 把建造EDW作为一个长期的目标 存在的问题 数据集市的数据都是可用的吗 能生成数据模型吗 如何解决不一致性 操作数据 局部 数据集市 企业数据仓库 OLTP与O

8、LAP 数据处理系统可以分成两大类 联机事务处理OLTP on linetransactionprocessing OLTP是传统的关系型数据库的主要应用 主要是基本的 日常的事务处理 例如银行交易 电力营销系统 联机分析处理OLAP On LineAnalyticalProcessing OLAP是数据仓库系统的主要应用 支持复杂的分析操作 侧重决策支持 并且提供直观易懂的查询结果 OLAP的目标是满足决策支持或多维环境特定的查询和报表需求 它的技术核心是 维 这个概念 因此OLAP也可以说是多维数据分析工具的集合 数据仓库的核心是联机分析处理 数据仓库与OLAP 数据仓库系统的核心是联机分

9、析处理 但数据仓库包括更为广泛的内容 概括来说 数据仓库系统是指具有综合企业数据的能力 能够对大量企业数据进行快速和准确分析 辅助做出更好的商业决策的系统 它本身包括三部分内容 数据层 实现对企业操作数据的抽取 转换 清洗和汇总 形成信息数据 并存储在企业级的中心信息数据库中 应用层 通过联机分析处理 甚至是数据挖掘等应用处理 实现对信息数据的分析 表现层 通过前台分析工具 将查询报表 统计分析 多维联机分析和数据发掘的结论展现在用户面前 从应用角度来说 数据仓库系统除了联机分析处理外 还可以采用传统的报表 或者采用数理统计和人工智能等数据挖掘手段 涵盖的范围更广 就应用范围而言 联机分析处理

10、往往根据用户分析的主题进行应用分割 例如 销售分析 市场推广分析 客户利润率分析等等 每一个分析的主题形成一个OLAP应用 而所有的OLAP应用实际上只是数据仓库系统的一部分 ROLAP MOLAP HOLAP模式 ROLAP用关系数据库存储多维数据 对应用频率比较高 计算工作量比较大的查询作为实视图 并作为表存储 针对OLAP服务器的查询 优先利用已经计算好的实视图来生成查询结果以提高查询效率 同时RDBMS也针对OLAP作相应的优化 比如并行存储 并行查询 并行数据管理 基于成本的查询优化 位图索引 SQL的OLAP扩展 cube rollup 等等 MOLAP将OLAP分析所用到的多维数

11、据物理上存储为多维数组的形式 形成 立方体 的结构 维的属性值被映射成多维数组的下标值或下标的范围 而总结数据作为多维数组的值存储在数组的单元中 OLAP分类 重要术语 维 是人们观察数据的特定角度 是考虑问题时的一类属性 属性集合构成一个维 时间维 地理维等 维的层次 人们观察数据的某个特定角度 即某个维 还可以存在细节程度不同的各个描述方面 时间维 日期 月份 季度 年 维的成员 维的一个取值 是数据项在某维中位置的描述 某年某月某日 是在时间维上位置的描述 多维数组 维和变量的组合表示 一个多维数组可以表示为 维1 维2 维n 变量 时间 地区 产品 销售额 度量 数据单元 单元格 多维

12、数组的取值 2000年1月 上海 笔记本电脑 100000 星型模式 StarSchema 事实表 用来存储事实的度量值和各个维的码值 维表 用来存放维的元数据 维的层次 成员类别等描述信息 Budget 元数据 Metadata 在数据仓库领域中 元数据被定义为 描述数据及其环境的数据 作用 元数据能提供基于用户的信息 如记录数据项的业务描述信息的元数据能帮助用户使用数据 元数据能支持系统对数据的管理和维护 如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据 元数据机制主要支持以下五类系统管理功能 描述哪些数据在数据仓库中 定义要进入数据仓库中的数据和从数据仓库中产生的数据 记录根

13、据业务事件发生而随之进行的数据抽取工作时间安排 记录并检测系统数据一致性的要求和执行情况 衡量数据质量 培训提纲 概念重要术语关键技术数据质量方法论典型案例 信息展现 数据模型 数据存储 数据ETL 四种关键技术 ETL ETL是数据抽取 Extract 清洗 Cleaning 转换 Transform 装载 Load 的过程 是构建数据仓库的重要一环 ETL负责将分布的 异构数据源中的数据如关系数据 平面数据文件等抽取到临时中间层后进行清洗 转换 集成 最后加载到数据仓库或数据集市中 成为联机分析处理 数据挖掘的基础 实现ETL 首先要实现ETL转换的过程 它可以集中地体现为以下几个方面 空

14、值处理可捕获字段空值 进行加载或替换为其他含义数据 并可根据字段空值实现分流加载到不同目标库 规范化数据格式可实现字段格式约束定义 对于数据源中时间 数值 字符等数据 可自定义加载格式 拆分数据依据业务需求对字段可进行分解 例 主叫号861082585313 8148 可进行区域码和电话号码分解 验证数据正确性可利用Lookup及拆分功能进行数据验证 例如 主叫号861082585313 8148 进行区域码和电话号码分解后 可利用Lookup返回主叫网关或交换机记载的主叫地区 进行数据验证 数据替换对于因业务因素 可实现无效数据 缺失数据的替换 Lookup查获丢失数据Lookup实现子查询

15、 并返回用其他手段获取的缺失字段 保证字段完整性 建立ETL过程的主外键约束对无依赖性的非法数据 可替换或导出到错误数据文件中 保证主键唯一记录的加载 ETL工具有 OWB OracleWarehouseBuilder ODI OracleDataIntegrator InformaticPowerCenter AICloudETL DataStage RepositoryExplorer Beeload Kettle DataSpider 数据模型 数据模型 标准定义数据合理的业务模型设计对ETL至关重要 数据仓库是企业唯一 真实 可靠的综合数据平台 数据仓库的设计建模一般都依照三范式 星型

16、模型 雪花模型 无论哪种设计思想 都应该最大化地涵盖关键业务数据 把运营环境中杂乱无序的数据结构统一成为合理的 关联的 分析型的新结构 而ETL则会依照模型的定义去提取数据源 进行转换 清洗 并最终加载到目标数据仓库中 模型的重要之处在于对数据做标准化定义 实现统一的编码 统一的分类和组织 标准化定义的内容包括 标准代码统一 业务术语统一 ETL依照模型进行初始加载 增量加载 缓慢增长维 慢速变化维 事实表加载等数据集成 并根据业务需求制定相应的加载策略 刷新策略 汇总策略 维护策略 数据模型 建模方法 关于数据仓库不同类型的数据存储的数据模型的建模方法已经相对成熟 典型设计组采用了数据仓库之父Inmon在 BuildingtheDatawareHouse 阐述的方法 对于ODS数据模型和数据仓库数据模型采用关系模型建模方法 要求逻辑模型模型符合三范式保证数据的规范化 物理模型可根据需要进行反规范化设计 对于数据集市数据模型采用星型模式建模 数据模型设计内容 模型架构 IECCIM 企业公共信息模型 企业信息模型 企业数据模型 ODS模型 数据仓库模型 数据集市模型 集成交换接口模型

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号