第2-3讲 数据仓库技术

上传人:我*** 文档编号:135357236 上传时间:2020-06-15 格式:PPT 页数:53 大小:858KB
返回 下载 相关 举报
第2-3讲 数据仓库技术_第1页
第1页 / 共53页
第2-3讲 数据仓库技术_第2页
第2页 / 共53页
第2-3讲 数据仓库技术_第3页
第3页 / 共53页
第2-3讲 数据仓库技术_第4页
第4页 / 共53页
第2-3讲 数据仓库技术_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《第2-3讲 数据仓库技术》由会员分享,可在线阅读,更多相关《第2-3讲 数据仓库技术(53页珍藏版)》请在金锄头文库上搜索。

1、数据仓库技术 主要内容 数据仓库的发展数据仓库与数据库的区别数据仓库的定义数据仓库系统的结构数据仓库建模OLAP数据仓库与数据挖掘的关系 数据仓库技术的发展 信息已成为人类社会中除了物质 能量之外的第三大资源 社会的信息化 使信息量急剧增长 大量的信息来不及组织和处理 奈斯比特在 大趋势 中说 我们正在被信息所淹没 但我们却因为缺乏知识而感到饥饿 从数据库到数据仓库 由数据库 DB 发展到数据仓库 DW 主要有几点原因 数据太多 信息贫乏 datarich informationpoor 随着数据库技术的发展 企事业单位建立了大量的数据库 数据越来越多 而辅助决策信息却很贫乏 如何将大量的数据

2、转化为辅助决策信息成为了研究的热点 异构环境数据的转换与共享由于各类数据库产品的增加 异构环境的数据随之增加 如何实现这些异构环境数据的转换和共享也成了研究的热点 利用数据进行事务处理转变为利用数据支持决策数据库用于事务处理 若要达到辅助决策 则需要更多的数据 例如 如何利用历史数据的分析来进行预测 对大量数据的综合得到宏观信息等均需要大量的数据 数据仓库与数据库的区别 1 数据库用于事务处理 而数据仓库则用于决策分析 2 数据库保持事务处理的当前状态 而数据仓库既保存过去的数据也保存当前的数据 3 数据仓库的数据是大量数据库的集成 4 对数据库的操作比较明确 操作数据量少 而对数据仓库的操作

3、不明确 操作数据量大 数据库与数据仓库的详细对比 什么是数据仓库 Adatawarehouseisasubject oriented integrated nonvolatile andtime variantcollectionofdatainsupportofmanagement sdecisions 数据仓库之父 BillInmon 面向主题的 集成的 非易失的 时变的 支持管理决策 面向主题 汽车 人寿 健康 意外 顾客 保险单 保险费 索赔 操作性环境 主题 转化 围绕应用针对具体业务 固有的业务主题作为处理的主体 主题 是指用户使用数据仓库进行决策时所关心的重点方面 集成的 集成

4、是指数据仓库中的信息不是从各个业务系统中简单抽取出来的 而是经过一系列加工 整理和汇总 因此数据仓库中的信息是关于整个企业的一致的全局信息 非易失的 一旦数据载入数据仓库以后 一般很少进行修改 更多的是对信息进行访问查询操作 时变的 是指数据仓库内的信息并不只是反映企业当前的状态 而是记录了从过去某一时刻到当前各个阶段的信息 通过这些信息 可以对企业的发展历程和未来趋势做出定量分析和预测 195019511952 200020012002 2012时间轴 数据仓库的特点 数据仓库最根本的特点是物理地存放数据 这些数据不是最新的 专有的 而是来源于其他数据库 到目前为止 数据仓库主要用数据库管理

5、系统来管理其中的数据 数据仓库不是一个可以直接买来使用的现成产品 它是一种解决方案 在很多场合 也把数据仓库系统称为 决策支持系统 数据仓库的用户不是终端操作人员 而是业务部门的相关决策人员 数据集市 数据仓库在全组织范围内为各个部门提供管理 决策支持 而数据集市通常在部门级 一般只能为某个局部范围内的管理人员服务 因此也称之为部门级数据仓库 数据集市还具有以下特点 规模较小 灵活 可以按照多种方式来组织 如按特定的应用 部门 地域 主题等 开发工作一般由业务部门主持定义 设计 实施 管理和维护 能够快速实现 代价较低 投资回收期短 风险小 有利于进一步升级到完整的数据仓库或形成分布式数据仓库

6、 数据集市的类型 独立数据集市从属数据集市 为了保持数据一致性 需要设计多个数据转换程序 把各种信息系统的数据转换到每个数据集市中 系统变得非常复杂难于维护投资方面得不偿失 软硬件投资成比例增加 硬件平台或数据库在扩展方面闲置太多 并行处理能力不够 无法处理海量数据 数据集市 数据集市 数据集市 数据仓库系统的结构 数据仓库系统 DWS 由数据仓库 仓库管理和分析工具三部分组成 关系数据库 数据文件 其他 数据仓库管理工具 抽取 转换 装载 元数据库 数据建模工具 综合数据 当前数据 历史数据 用户查询工具 C S工具 OLAP工具 DM工具 源数据仓库管理数据仓库分析工具 仓库管理 包括对数

7、据的归档 备份 维护 恢复等工作 需要利用数据库管理系统的功能 在确定数据仓库信息需求后 首先进行数据建模 确定数据仓库的物理存储结构 将源数据集成 装载到数据仓库中的过程 用于存储数据模型 定义数据结构 转换规则 仓库结构 控制信息等 数据仓库的自顶向下结构 数据仓库中包含全部的元数据 当前详细数据 详尽历史数据 采取实体关系 E R EntityRelationship 数据模型 数据集市包含轻度和高度综合的数据及元数据 采用星型数据模型 只要满足数据集市是数据仓库的子集 数据仓库和数据集市之间的集成就能自动完成 不会构成 蛛网 数据 数据 数据 数据 ETL 数据仓库 元数据 数据集市

8、数据集市 数据集市 这种模式要求先建立数据仓库 但是由于数据仓库建设规模较大 实施周期长 费用高 初级效果并不明显 甚至最终失败 数据仓库的自底向上结构 多级数据仓库的思想 即建立数据集市的思想 从小做起 从部分做起 走逐步集成 逐步完善的道路 最终建立全局数据仓库 数据 数据 数据 数据 ETL 数据仓库 元数据 数据集市 数据集市 数据集市 数据集市 ETL ETL ETL 从长远来看 这种结构不能提供通用的元数据部件 没有共享的元数据 很难基于数据集市建立数据仓库 企业级数据集市结构 基于数据集市构建数据仓库的由小到大 由部分到整体的思想 提出了企业级数据集市结构 数据 数据 数据 数据

9、 ETL 数据仓库 共享元数据中心库层 数据集市 数据集市 数据集市 应用服务器 数据仓库的数据组织 早期细节数据 当前细节数据 轻度综合数据 高度综合数据 元数据 元数据 元数据 metadata 定义为 关于数据的数据 是处于操作数据后面的数据 用于描述其起源 意义和由来等 元数据实际上是一些这样的信息目录 包括黄页 导航数据仓库的路标和 兴趣点 如果没有元数据 信息就会简化成一堆没有意义的数据 7575 的人买了面包之后 有可能买牛奶 实体元数据的一个范例 实体名称 客户可选名称 顾客 账户定义 客户就是从公司中至少购买一次商品或服务的人或企业创建时间 1992年1月15日上次更新时间

10、1995年4月5日关键字 客户标识 客户定位更新周期 每月抽取归档周期 6个月后归档数据服务员 高建秋数据业主 张英雄访问模式 上次访问日期为1995年5月30日 属性元数据的一个范例 属性名称 客户名可选名称 账户名 顾客名定义 客户名是个人或企业所用的正式名称创建日期 1992年3月30日上次更新日期 1995年4月5日数据来源 汇票入口系统 客户文件属性石账户名转移 转换信息 从20字符至35字符概括 推导算法 无缺省值 无多个运作资源 无 元数据在数据仓库中的用途 起到辅助决策分析过程中定位数据仓库的目录作用 数据从业务环境向数据仓库环境传送时数据仓库的目录内容 指导从近期基本数据到轻

11、度综合数据和到高度综合数据的综合算法选择 数据仓库建模 数据仓库一般按照主题来建模 主要包括星型模型 雪花模型等 订货单销售员号客户号产品号日期标识地区名称数据量总价 产品号产品名称产品目录单价 日期标识日月年 地区名称省别 订单号订货日期 销售员号销售员姓名城市 客户号客户名称客户地址 事实表 订货单 销售员 客户表 产品表 日期表 地区表 星型模型 星型模式 雪花模型是对星型模型的扩展 是对星型的维表进一步标准化 雪花模型要对星型模型的维表作进一步层次化 原有的各维表可能被扩展为小的事实表 形成一些局部的 层次 区域 订货单销售员号客户号产品号日期标识地区名称数据量总价 产品号产品名称产品

12、目录单价 日期标识日月年 地区名称省别 订单号订货日期 销售员号销售员姓名城市 客户号客户名称客户地址 事实表 订货单 销售员 客户表 产品表 日期表 地区表 产品目录目录描述 省别省信息 省表 目录表 雪花模型 雪花模式 DateMonth Date SalesFactTable Date Product Store Customer unit sales dollar sales Yen sales Measurements MonthYear Month Year Year 商品 城市 日期维 多维数据模型 1234567 果汁 矿泉水 牛奶 香烟 啤酒 白酒 广州 深圳 北京 联机分析

13、处理 OLAP 60年代 关系数据库之父E F Codd提出了关系模型 促进了联机事务处理 OLTP 的发展 数据以表格而非文件存储 1993年 E F Codd认为OLTP已不能满足终端用户对数据库查询分析的需要 用户的决策分析需要对关系数据库进行大量计算才能得到结果 而SQL查询的结果并不能满足决策者提出的需求 因此 E F Codd提出了多维数据库和多维分析的概念 即OLAP OLAP是目前RDBMS不可缺少的功能 可以作为一个独立的OLAP服务器实现 也可以集成在RDBMS中 什么是OLAP 定义1 OLAP 联机分析处理 是针对特定问题的联机数据访问和分析 通过对信息 维数据 的多种

14、可能的观察形式进行快速 稳定一致和交互性的存取 允许管理决策人员对数据进行深入观察 定义2 OLAP 联机分析处理 是使分析人员 管理人员或执行人员能够从多种角度对从原始数据中转化出来的 能够真正为用户所理解的 并真实反映企业维特性的信息进行快速 一致 交互地存取 从而获得对数据的更深入了解的一类软件技术 OLAP委员会的定义 OLAP的目标是满足决策支持或多维环境特定的查询和报表需求 它的技术核心是 维 这个概念 因此OLAP也可以说是多维数据分析工具的集合 OLAP的数据源 OLAP基本概念 维 是人们观察数据的特定角度 是考虑问题时的一类属性 时间维 地理维等 维的层次 人们观察数据的某

15、个特定角度 即某个维 还可以存在细节程度不同的各个描述方面 时间维 日期 月份 季度 年 维的成员 维的一个取值 是数据项在某维中位置的描述 某年某月某日 是在时间维上位置的描述 多维数组 维和变量的组合表示 一个多维数组可以表示为 维1 维2 维n 变量 时间 地区 产品 销售额 OLAP特性 快速性 用户对OLAP的快速反应能力有很高的要求 系统应能在5秒内对用户的大部分分析要求做出反应 客户 服务器体系结构 两层或三层C S结构 可分析性 OLAP系统应能处理与应用有关的任何逻辑分析和统计分析 多维性 多维性是OLAP的关键属性 系统必须提供对数据的多维视图和分析 包括对层次维和多重层次

16、维的完全支持 信息性 不论数据量有多大 也不管数据存储在何处 OLAP系统应能及时获得信息 并且管理大容量信息 OLAP多维数据结构 超立方结构 Hypercube 多维数据集立方体或超立方结构指用三维或更多的维数来描述一个对象 每个维彼此垂直 数据的测量值发生在维的交叉点上 数据空间的各个部分都有相同的维属性 客户种类数量分布多维立方 OLAP操作 切片和切块 SliceandDice 在多维数据结构中 按二维进行切片 按三维进行切块 可得到所需要的数据 如在 城市 产品 时间 三维立方体中进行切块和切片 可得到各城市 各产品的销售情况 钻取 Drill 钻取包含向下钻取 Drill down 和向上钻取 Drill up 上卷 Roll up 操作 钻取的深度与维所划分的层次相对应 旋转 Rotate 旋转 Pivot 通过旋转可以得到不同视角的数据 辅之于各种图形展示分析结果 切片 切块 切片 切片 FilteringbyAUS2 切块 切块 FilteringbyAUS1 AUS2andWholesale 钻取 钻取 旋转 旋转 多种可视化方式 销售数据的4 D表示 OLAP分

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号