《精编》数据仓库的概念和体系结构综述

上传人:tang****xu5 文档编号:133260213 上传时间:2020-05-25 格式:PPT 页数:42 大小:1.16MB
返回 下载 相关 举报
《精编》数据仓库的概念和体系结构综述_第1页
第1页 / 共42页
《精编》数据仓库的概念和体系结构综述_第2页
第2页 / 共42页
《精编》数据仓库的概念和体系结构综述_第3页
第3页 / 共42页
《精编》数据仓库的概念和体系结构综述_第4页
第4页 / 共42页
《精编》数据仓库的概念和体系结构综述_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《《精编》数据仓库的概念和体系结构综述》由会员分享,可在线阅读,更多相关《《精编》数据仓库的概念和体系结构综述(42页珍藏版)》请在金锄头文库上搜索。

1、第1章数据仓库的概念与体系结构 1 1数据仓库的概念 特点与组成 数据仓库的概念数据仓库就是一个面向主题的 SubjectOriented 集成的 Integrate 相对稳定的 Non Volatile 反映历史变化 TimeVariant 的数据集合 通常用于辅助决策支持 DDS 1 1数据仓库的概念 特点与组成 数据仓库的特点 面向主题 集成的 相对稳定的 反映历史变化 数据库与数据仓库的比较 1 1数据仓库的概念 特点与组成 数据仓库的组成 数据仓库数据库 数据抽取工具 元数据 技术元数据与业务元数据 访问工具 数据集市 DataMarts 数据仓库管理 信息发布系统 1 2数据挖掘的

2、概念与方法 数据挖掘的概念数据挖掘 DataMining 就是从大量数据中获取有效的 新颖的 潜在有用的 最终可理解的模式的过程 简单的说 数据挖掘就是从大量数据中提取或 挖掘 知识 又被称为数据库中的知识发现 KnowledgeDiscoveryinDatabase KDD 1 2数据挖掘的概念与方法 数据挖掘的方法 直接数据挖掘间接数据挖掘 1 2数据挖掘的概念与方法 数据仓库与数据挖掘的关系若将数据仓库 DataWarehouse 比作矿井 那么数据挖掘 DataMining 就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术 1 3数据仓库的技术 方法与产品 联机

3、事务处理 OLTP 与联机分析处理 OLAP 的比较 OLAP技术的有关概念 多维数据集 维度 数据立方体 度量值和多维分析 1 多维数据集是数据的集合 多维数组 多维数据集是决策支持的依据 也是OLAP的核心 OLAP展现的结果是一幅幅多维视图 多维数据集可以用一个多维数组表示 例如经典的时间 地理位置和产品的多维数据集可以表示为 时间 地理位置 产品 销售数据 类似地 其它多维数据集可表示为 维1 维2 维3 维n 观察变量 形式 数据仓库是用于决策支持的 管理人员在进行决策分析时 经常需要选择一个对决策支持活动有重要影响的因素去进行决策分析 这些决策因素就构成了分析问题的角度 这些分析角

4、度就是数据仓库中的维度 从而构成了三维 多维空间 维度是数据仓库中识别数据的索引 维度具有层次性 可以根据数据的组织层次进行 上卷 或 下钻 了解具体信息 2 维度 维是人们观察数据的特定角度 3 数据立方体 从不同角度对同一数据进行观察得到的数据交点 构成了数据立方体 当观察的角度 参数 超过三个所构成的数据结果集称为超立方体 也称为超维数据集 4 度量值 是多维数据集的核心值 是最终用户在数据仓库应用中所需要查看的数据 如 销售量 成本 费用等 5 多维分析 OLAP的多维分析是指对多维数据集中的数据用切片 切块 旋转等方式分析数据 使用户能从多个角度 多个侧面去观察数据仓库中的数据 1

5、多维的切片在多维分析过程中 如果对多维数据集的某个维选定一维成员 这种选择操作 就可以称之为切片 有多维数据集 维1 维2 维i 维n 观察变量 如果确定了某个维成员维i的值 则称 在维i上的一个切片为 维1 维2 维i成员 维n 观察变量 一个多维数组的切片最终是由该数组中除切片所在平面之外的其他成员值确定的 维是观察数据的角度 切片的作用或结果是舍弃一些观察角度 以便集中观察该维的数据 2 多维的切块与切片类似 如果在一个多维数据集上对两个及其以上的维选定维成员的操作称为切块 如有多维数据集 维1 维2 维i 维k 维n 观察变量 对维i 维k 选定了维成员 那么 维1 维2 维i成员 维

6、k成员 维n 观察变量 就是多维数据集 维1 维2 维i 维k 维n 观察变量 在维i 维k上的一个切块 3 旋转改变多维数据集显示的维方向 旋转前的维方向 旋转后的维方向 不同维度间的旋转操作 旋转后的维方向 维度层次上的旋转操作 4 其它OLAP操作维度是有层次性的 如时间维可能由 年 季 月 日构成 维度的层次反映了数据的综合程度 维度层次越高 代表的数据综合度越高 数据量越少 维度层次越低 代表的数据综合度越低 细节越充分 数据量越多 有关操作 上卷 roll up 下钻 drill down 钻过 drill across 和 钻透 drill through 等 上卷 是指沿某一个

7、维的概念分层向上归约 下钻 是上卷的逆向操作 它是沿某一个维的概念分层向下或引入新的维来实现 钻过 是指对多个事实表进行查询 钻透 是指对立方体操作时 利用数据库关系 钻透立方体的底层 进入后端的关系表 OLAP的其它操作还有统计表中最高值和最低值的项数 计算平均值 增长率 利润 投资回报率等统计计算 上卷 下钻 OLAP根据其存储数据的方式可分为三类 ROLAP MOLAP HOLAP MOLAP是以多维数据库的方式组织存储数据ROLAP是利用现有的关系数据库技术来模拟多维数据 HOLAP是一混合模式 对于常用的维度和维层次 使用多维数据表来记录 对于用户不常用的维度和数据 采用类似ROLA

8、P星型结构来存储 1 ROLAP体系结构OLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择地定义一批实视图作为表也存储在关系数据库中 不必要将每一个sql查询都作为实视图保存 只定义那些应用频率比较高 计算工作量比较大的查询作为实视图 Database服务器 前端工具 ROLAP服务器MetadataRequestProcessing SQL查询 查询结果 用户请求 查询结果 2 MOLAP体系结构将OLAP分析所用到的多维数据物理上存储为多维数组的形式 形成 立方体 的结构 维的属性值被映射成多维数组的下标值或下标的范围 而总结数据作为多维数组的值存储在数组的单元中 由于MO

9、LAP采用了新的存储结构 从物理层实现起 因此又称为物理OLAP physicalolap Database服务器 前端工具 MOLAP服务器MetadataRequestProcessing SQL查询 查询结果 用户请求 查询结果 Load 3 HOLAP体系结构由于molap和rolap有着各自的优点和缺点 且它们的结构迥然不同 这给分析人员设计olap结构提出了难题 为此一个新的olap结构 混合型olap holap 被提出 它能把molap和rolap两种结构的优点结合起来 迄今为止 对holap还没有一个正式的定义 但很明显 holap结构不应该是molap与rolap结构的简单

10、组合 而是这两种结构技术优点的有机结合 能满足用户各种复杂的分析请求 Database服务器 前端工具 MOLAP服务器 SQL查询 查询结果 用户请求 查询结果 Load SQL查询 查询结果OR OLAP工具 1 3数据仓库的技术 方法与产品 数据仓库实施中的三个关键环节数据抽取 数据存储与管理数据表现 从数据仓库的概念结构看 应该包含 数据源 数据准备区 数据仓库数据库 数据集市 知识挖掘库以及各种管理工具和应用工具 数据准备区的工作 ETL extract transformation load 数据抽取数据清洗数据转换数据装载 数据抽取 转换 装载 1 3数据仓库的技术 方法与产品

11、数据仓库实施方法论数据仓库不是简单的数据或产品堆砌 它是一个综合集成解决方案和系统工程 在数据仓库的实施过程中 技术决策至关重要 技术选择或决策错误很可能导致项目实施失败 1 3数据仓库的技术 方法与产品 常用数据仓库产品比较常用OLAP工具介绍 各数据仓库厂商提供的解决方案IBM Oracle NCR Microsoft SAS等 1 4数据仓库系统的体系结构 数据仓库系统的体系结构的分类 1 两层架构 GenericTwo LevelArchitecture 2 独立型数据集市 IndependentDataMart 3 依赖型数据集市和操作型数据存储 DependentDataMarta

12、ndOperationalDataStore 4 逻辑型数据集市和实时数据仓库 LogicalDataMartandReal TimeDataWarehouse 1 4数据仓库系统的体系结构 两层数据仓库体系结构 1 4数据仓库系统的体系结构 基于独立数据集市的数据仓库体系结构 1 4数据仓库系统的体系结构 基于依赖型数据集市和操作型数据存储 ODS 的数据仓库体系结构 1 4数据仓库系统的体系结构 逻辑型数据集市和实时数据仓库的体系结构 1 5数据仓库的产生 发展与未来 数据仓库的产生联机事务处理系统 业务系统 刚上线时 查询不到数据是因为数据太少了 而几十年后查询不到有关数据是因为数据太多

13、了 针对这一问题 人们设想专门为业务数据的统计分析建立一个数据中心 它的数据从联机事务处理系统中来 从异构的外部数据源来 或从脱机的历史业务数据中来 这个数据中心也是一个联机系统 它专门为分析统计和决策支持应用服务 通过它可获取决策支持和联机分析应用所需要的一切数据 这个数据中心就叫做数据仓库 简单地说 数据仓库就是一个作为决策支持和联机分析应用系统数据源的结构化数据环境 数据仓库要研究和解决的问题就是从数据库中获取信息的问题 1 5数据仓库的产生 发展与未来 数据仓库的发展以报表为主 第一阶段 以分析为主 第二阶段 以预测模型为主 第三阶段 以营运导向为主 第四阶段 以实时数据仓库 自动决策

14、应用为主 第五阶段 1 5数据仓库的产生 发展与未来 数据仓库的未来在数据抽取方面 未来的技术发展将集中在系统集成化方面 它将互连 转换 复制 调度 监控纳入标准化的统一管理 以适应数据仓库本身或数据源可能的变化 使系统更便于管理和维护 在数据管理方面 未来的发展将使数据库厂商明确推出数据仓库引擎 作为数据仓库服务器产品与数据库服务器并驾齐驱 在这一方面 带有决策支持扩展的并行关系数据库将最具发展潜力 在数据表现方面 数理统计的算法和功能将普遍集成到联机分析产品中 并与Internet Web技术紧密结合 按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分 数据仓库实现过程的方法论将更加普及 将成为数据库设计的一个明确分支 成为管理信息系统设计的必备

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号