-第3章 OLAP技术——【数据挖掘与数据仓库】

上传人:东****0 文档编号:158058869 上传时间:2020-12-29 格式:PDF 页数:86 大小:1.05MB
返回 下载 相关 举报
-第3章 OLAP技术——【数据挖掘与数据仓库】_第1页
第1页 / 共86页
-第3章 OLAP技术——【数据挖掘与数据仓库】_第2页
第2页 / 共86页
-第3章 OLAP技术——【数据挖掘与数据仓库】_第3页
第3页 / 共86页
-第3章 OLAP技术——【数据挖掘与数据仓库】_第4页
第4页 / 共86页
-第3章 OLAP技术——【数据挖掘与数据仓库】_第5页
第5页 / 共86页
亲,该文档总共86页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《-第3章 OLAP技术——【数据挖掘与数据仓库】》由会员分享,可在线阅读,更多相关《-第3章 OLAP技术——【数据挖掘与数据仓库】(86页珍藏版)》请在金锄头文库上搜索。

1、第第3章章 OLAP技术技术 3.1 OLAP概述 3.2 OLAP的多维数据模型 3.3 OLAP实现 OLAPOLAP是针对某个特定的主题进行联机数据访问、处是针对某个特定的主题进行联机数据访问、处 理和分析,通过直观的方式从多个维度、多种数据综合理和分析,通过直观的方式从多个维度、多种数据综合 程度将系统的运营情况展现给使用者。程度将系统的运营情况展现给使用者。 3.1.1 什么是OLAP OLAPOLAP委员会给予委员会给予OLAPOLAP的定义为,的定义为,OLAPOLAP是使分析人员、是使分析人员、 管理人员或执行人员能够从管理人员或执行人员能够从多角度对信息进行快速、一致、多角度

2、对信息进行快速、一致、 交互地存取交互地存取,从而获得对数据的更深入了解的一类软件技,从而获得对数据的更深入了解的一类软件技 术。术。 3.1.2 OLAP技术的特性 CoddCodd提出提出OLAPOLAP的的1212条准则来描述条准则来描述OLAPOLAP系统:系统: 准则准则1 1:OLAPOLAP模型必须提供多维概念视图。模型必须提供多维概念视图。 准则准则2 2:透明性准则。:透明性准则。 准则准则3 3:存取能力推测。:存取能力推测。 准则准则4 4:稳定的报表能力。:稳定的报表能力。 准则准则5 5:客户:客户/ /服务器体系结构。服务器体系结构。 准则准则6 6:维的等同性准则

3、。:维的等同性准则。 准则准则7 7:动态的稀疏矩阵处理准则。:动态的稀疏矩阵处理准则。 准则准则8 8:多用户支持能力准则。:多用户支持能力准则。 准则准则9 9:非受限的跨维操作。:非受限的跨维操作。 准则准则1010:直观的数据操纵。:直观的数据操纵。 准则准则1111:灵活的报表生成。:灵活的报表生成。 准则准则1212:不受限的维与聚集层次。:不受限的维与聚集层次。 概括起来概括起来OLAPOLAP技术主要有如下几点特性:技术主要有如下几点特性: 多维性多维性 可理解性可理解性 交互性交互性 快速性快速性 3.1.3 OLAP和OLTP的区别 比较项比较项OLAPOLAPOLTPOL

4、TP 特性特性信息处理信息处理操作处理操作处理 用户用户面向决策人员面向决策人员面向操作人员面向操作人员 功能功能支持管理需要支持管理需要支持日常操作支持日常操作 面向面向面向数据分析面向数据分析面向应用面向应用 驱动驱动分析驱动分析驱动事务驱动事务驱动 数据量数据量一次处理的数据量大一次处理的数据量大一次处理的数据量小一次处理的数据量小 访问访问不可更新,但周期性刷新不可更新,但周期性刷新可更新可更新 数据数据历史数据历史数据当前值数据当前值数据 汇总汇总综合性和提炼性数据综合性和提炼性数据细节性数据细节性数据 视图视图导出数据导出数据原始数据原始数据 3.1.4 数据仓库与OLAP的关系

5、在数据仓库中,在数据仓库中,OLAPOLAP和数据仓库是密不可分的,但和数据仓库是密不可分的,但 是两者具有不同的概念。是两者具有不同的概念。 数据仓库是一个包含企业历史数据的大规模数据库,数据仓库是一个包含企业历史数据的大规模数据库, 这些历史数据主要用于对企业的经营决策提供分析和支这些历史数据主要用于对企业的经营决策提供分析和支 持。持。 OLAPOLAP技术则利用数据仓库中的数据进行联机分析,技术则利用数据仓库中的数据进行联机分析, OLAPOLAP利用多维数据集和数据聚集技术对数据仓库中的数利用多维数据集和数据聚集技术对数据仓库中的数 据进行组织和汇总,用联机分析和可视化工具对这些数据

6、进行组织和汇总,用联机分析和可视化工具对这些数 据进行评价,将复杂的分析查找结果快速地返回用户。据进行评价,将复杂的分析查找结果快速地返回用户。 3.1.5 OLAP分类 1 1. . OLAPOLAP技术中数据存储方式技术中数据存储方式 SQL 查询 查询结果 用户请求 查询结果 数据仓库服务器 前端工具 OLAP服务器 元数据 用户请求处理 OLAP 数据 2. ROLAP2. ROLAP ROLAPROLAP(Relational OLAPRelational OLAP)表示基于的数据存储在传)表示基于的数据存储在传 统的关系型数据库中。统的关系型数据库中。 每个每个ROLAPROLAP

7、分析模型基于关系型数据库中一些相关的表,分析模型基于关系型数据库中一些相关的表, 这些相关的表中有反映观察角度的维度表和含有度量的事这些相关的表中有反映观察角度的维度表和含有度量的事 实表。实表。 这些表在关系型数据库中通过外健相互关联,典型的这些表在关系型数据库中通过外健相互关联,典型的 组织模型有星形模式、雪花模式和事实星座模式。组织模型有星形模式、雪花模式和事实星座模式。 3. MOLAP3. MOLAP MOLAPMOLAP(Multidimensional OLAPMultidimensional OLAP)表示基于的数据存)表示基于的数据存 储在多维数据库中。多维数据库有时也称数据

8、立方体。储在多维数据库中。多维数据库有时也称数据立方体。 多维数据库可以用多维数组表示。例如,一个包含有多维数据库可以用多维数组表示。例如,一个包含有 时间维、地区维、品牌维和销售量的数据集通过多维数组时间维、地区维、品牌维和销售量的数据集通过多维数组 可表示成:可表示成: (时间维、地区维、品牌维、销售量)(时间维、地区维、品牌维、销售量) 通过这种方式表示数据可以极大提高查询的性能。通过这种方式表示数据可以极大提高查询的性能。 4 4. . ROLAPROLAP与与MOLAPMOLAP比较比较 比较项比较项ROLAPROLAPMOLAPMOLAP 优点优点 没有存储大小限制没有存储大小限制

9、性能好、响应速度快性能好、响应速度快 现有的关系数据库的技术可现有的关系数据库的技术可 以沿用以沿用 专为专为OLAPOLAP所设计所设计 对维度的动态变更有很好的对维度的动态变更有很好的 适应性适应性 支持高性能的决策支持计算支持高性能的决策支持计算 灵活性较好,数据变化的适灵活性较好,数据变化的适 应性高应性高 支持复杂的跨维计算支持复杂的跨维计算 对软硬件平台的适应性好对软硬件平台的适应性好支持行级的计算支持行级的计算 缺点缺点 一般比一般比MOLAPMOLAP响应速度慢响应速度慢增加系统培训与维护费用增加系统培训与维护费用 系统不提供预综合处理功能系统不提供预综合处理功能受操作系统平台

10、中文件大小的限制受操作系统平台中文件大小的限制 关系关系SQLSQL无法完成部分计算无法完成部分计算系统所进行的预计算,可能导致数系统所进行的预计算,可能导致数 据据爆炸爆炸 无法完成多行的计算无法完成多行的计算无法支持数据及维度的动态变化无法支持数据及维度的动态变化 无法完成维之间的计算无法完成维之间的计算缺乏数据模型和数据访问的标准缺乏数据模型和数据访问的标准 多维数据库在数据存储及数据聚集上都有着关系数据库多维数据库在数据存储及数据聚集上都有着关系数据库 不可比拟的一些优点,实际上,在第不可比拟的一些优点,实际上,在第2 2章介绍的星形模式就是章介绍的星形模式就是 关系数据库和数据立方体

11、的桥梁,如下图所示。关系数据库和数据立方体的桥梁,如下图所示。 从中看到,建立数据仓库的星形模式后,就可以在关系从中看到,建立数据仓库的星形模式后,就可以在关系 数据库中模拟数据的多维分析。所以本章后面主要讨论基于数据库中模拟数据的多维分析。所以本章后面主要讨论基于 多维数据库的多维数据模型及其实现。多维数据库的多维数据模型及其实现。 5. HOLAP5. HOLAP HOLAPHOLAP(Hybrid OLAPHybrid OLAP)表示基于的数据存储是混合模式)表示基于的数据存储是混合模式 的。的。ROLAPROLAP和和MOLAPMOLAP两种方式各有利弊,为了同时兼顾它们的两种方式各有

12、利弊,为了同时兼顾它们的 优点,提出一种优点,提出一种HOLAPHOLAP将数据存储混合。将数据存储混合。 通常将粒度较大的高层数据存储在多维数据库中,粒度通常将粒度较大的高层数据存储在多维数据库中,粒度 较小的细节层数据存储在关系型数据库中。较小的细节层数据存储在关系型数据库中。 这种这种HOLAPHOLAP具有更好的灵活性。具有更好的灵活性。 3.2.1 多维数据模型的定义 OLAPOLAP基于多维数据模型,对应的数据集称为多维数基于多维数据模型,对应的数据集称为多维数 据集,有时也称为据集,有时也称为数据立方体数据立方体(data cubedata cube),它由维),它由维 和事实定

13、义。和事实定义。 多维数据集可以用一个多维数组来表示,它是维和变量多维数据集可以用一个多维数组来表示,它是维和变量 的组合表示。一个多维数组可以表示为:的组合表示。一个多维数组可以表示为: (维(维1,维,维2,维,维n,变量列表),变量列表) 地区地区 20132013年年20142014年年 电视机电视机电冰箱电冰箱洗衣机洗衣机电视机电视机电冰箱电冰箱洗衣机洗衣机 北京北京121234344343232321216767 上海上海15153232323254546 67070 广州广州111143433232373716169090 三维立方体三维立方体 广州 上海 北京 6 16 70

14、90 12 34 43 23 21 5 电视机 电冰箱 洗衣机 商 品 地 区 年份 2013 2014 15 11 37 54 尽管经常将数据立方体看作三维几何结构,但在数据仓库尽管经常将数据立方体看作三维几何结构,但在数据仓库 中,数据立方体是中,数据立方体是n维的。维的。 假定在前例中再增加一个维,如顾客维,以假定在前例中再增加一个维,如顾客维,以4维形式观察维形式观察 这组销售数据。观察这组销售数据。观察4维事物变得有点麻烦,然而,维事物变得有点麻烦,然而,可以把可以把4维维 立方体看成立方体看成3维立方体的序列维立方体的序列,如下图所示。,如下图所示。 广州 上海 北京 电视机 电冰

15、箱 洗衣机 商 品 地 区 年份 2013 2014 顾客=“青年” 年份 2013 2014 顾客=“中年” 年份 2013 2014 顾客=“老年” 6 4 2 3.2.2 OLAP的基本分析操作 OLAPOLAP的基本分析操作主要包括对多维数据进行的基本分析操作主要包括对多维数据进行切片切片、 切块切块、旋转旋转、上卷上卷和和下钻下钻等,这些分析操作使得用户可以等,这些分析操作使得用户可以 从多角度、多侧面观察数据从多角度、多侧面观察数据。 下面以第下面以第2 2章的章的SDWSSDWS数据仓库系统中的样本数据为例,数据仓库系统中的样本数据为例, 详细说明详细说明OLAPOLAP的各种分

16、析操作。的各种分析操作。 1. 1. 切片切片 切片定义切片定义1 1:在多维数据集的某一维上选定一个维成员的操在多维数据集的某一维上选定一个维成员的操 作称为切片。作称为切片。 例如,在多维数组:例如,在多维数组: (维(维1,维,维2,维,维i,维,维n,度量列表),度量列表) 中选定一维,即维中选定一维,即维i,并取其一维成员(维成员,并取其一维成员(维成员vi),所得的多维),所得的多维 数组的子集数组的子集 (维(维1,维,维i-1,维成员,维成员vi,维,维i+1,维,维n,度量列表,度量列表) 称为维称为维i上的一个上的一个切片切片。 切片 SELECT Locates.地区地区,Products.分类分类,SUM(数量数量) FROM Sales,Dates,Products,Locates WHERE Dates.季度季度=2 指定切

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号