数据仓库和数据挖掘的OLAP课件

资源描述

《数据仓库和数据挖掘的OLAP课件》由会员分享，可在线阅读，更多相关《数据仓库和数据挖掘的OLAP课件（41页珍藏版）》请在金锄头文库上搜索。

1、数据仓库和数据挖掘的OLAP,报告人:李皓,什么是数据仓库,数据仓库是一个面向主题的,集成的,时变的,非易失的的数据集合.,面向主题的,数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图.,集成的,构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性,时变的,数据存储从历史的角度提供信息.数据仓库的关键结构,隐式或显式地包含时间元素.,非易失的,数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制.通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问.,操作数据库与数据仓库的区别,操作数据库系统的主要任务是联

2、机事务处理OLTP 数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP,OLTP和OLAP的区别,用户和系统的面向性: OLTP是面向顾客的,用于事务和查询处理 OLAP是面向市场的,用于数据分析数据内容: OLTP系统管理当前数据. OLAP系统管理大量历史数据,提供汇总和聚集机制.,数据库设计: OLTP采用实体-联系ER模型和面向应用的数据库设计. OLAP采用星型或雪花模型和面向主题的数据库设计. 视图: OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据 OLAP则相反.,访问模式: OLTP系统的访问主要由短的原子事务组

3、成. 这种系统需要并行和恢复机制. OLAP系统的访问大部分是只读操作.,为什么需要分离的数据仓库,分离操作数据库系统和数据仓库的主要原因是提高两个系统的性能.操作数据库系统是为已知的任务和负载设计的,而数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,在操作数据库系统上处理OLAP查询,可能会大大降低操作任务的性能.,多维数据模型,数据仓库和OLAP工具基于多维数据模型,该模型将数据看作数据立方体形式数据立方体允许以多维对数据建模和观察.具体图形详见31-33页,多维数据库模式,星型,雪花和事实星座模式是主要的存在形式星型模式包含一个大的包含大批数据的事实表和一系列维表.如33页

4、图2-4 雪花模式是星型模式的变种,不同的是将某些维表规范化.如34页图2-5 事实星座模式对应多个事实表共享维表.如35页图2-6,定义模式的例子,定义图2-4的星型模式: 定义立方体: Define cube sales_startime,item,branch,location: dollars_sold=sum(sales_in_dollars), units_old=count(*),定义维 Define dimension time as (time_key,day,day_of_week,month,quarter,year),度量的分类和计算,分布的: 设数据被划分为n个集合,

5、函数在每一部分上的计算得到一个聚集值.如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样则该度量是分布的,如count(),sum()等,代数的: 如果一个聚集函数能够由一个具有M个参数的代数函数计算,且每个参数都可以用一个分布聚集函数求得.如avg()可以由sum()/count()计算,其中sum()和count()是分布聚集函数.,整体的: 如果一个聚集函数无法用具有M个参数的代数函数进行这一计算,则这个函数称是整体的,如rand()等许多度量可以用关系的聚集操作计算对应图2-4,我们也可写出SQL语句.,计算dollars_sold和units_sold,Sel

6、ect sum(s.number_of_units_sold*s.price) Sum(s.number_of_units_sold) From time t,item i,branch b,location l,sales s, Where s.time_key=t.time_key and s.item_key=i.item_key and s.branch_key=b.branch_key and s.loation_key=l.location_key Group by s.time_key,s.item_key,s.branch_key,s.location_key,概念分层,全序相

7、关偏序相关(具体见3,4章) Country year City quarter month week Street day,多维数据模型的OLAP操作,上卷操作,通过维规约,在数据立方体上进行聚集. 下钻操作,是上卷操作的逆操作,由不太详细的数据到更详细的数据. 切片和切块,切片在给定的数据立方体的一个维上进行选择,切块则是在两个或两个以上的维进行选择. 转轴操作,转动数据的视觉,是目视操作. 如图2-10所示,数据仓库设计,自顶向下视图,使我们可以选择数据仓库所需的相关信息. 数据源视图,揭示被操作数据库系统捕获存储和管理的信息. 数据仓库视图,包括事实表和维表. 商务查询视图,从最终用

8、户的角度透视数据仓库中的数据.,数据仓库设计过程,选取待建模的商务处理选取商务处理的粒度,例如单个事务,一天的快照等选取用于每个事实表记录的维. 选取将安放在事实表中的度量如图2-4中的dollars_sold和units_sold,三层数据仓库结构,底层数据仓库服务器,使用称作网间连接程序的应用程序,由操作数据库和外部数据源提取数据. 中间层是OLAP服务器,实现方法有关系OLAP模型,在多维数据上的操作映射为标准的关系操作多维OLAP模型,直接实现多维数据的操作,顶层是客户,它包括查询和报告工具,分析工具和数据挖掘工具(例如趋势分析,预测等),数据仓库的类型,企业仓库:企业仓库收集

9、了关于主题的所有信息,跨越整个组织,它提供企业范围内的数据集成. 数据集市:包含企业范围数据的一个子集,对于特定的用户是有用的,其范围限于选定的主题. 虚拟仓库:是操作数据库上的视图集合.为了有效地处理查询,只有一些可能的汇总视图被物化,虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力.,OLAP服务器类型,关系OLAP(ROLAP)模型,使用关系或扩充关系DBMS存放并管理数据仓库多维OLAP(MOLAP)服务器,这些服务器通过基于数组的多维存储,支持数组的多维视图混合OLAP(HOLAP)服务器,结合ROLAP和MOLAP技术,得宜于ROLAP的可伸缩性,和MOLAP的快速计算.,

10、特殊的SQL服务器,为了满足在关系数据库中日益增长的OLAP需要,实现了特殊的SQL服务器,提供高级查询语言和查询处理,在星型和雪花模式上支持SQL查询.,数据立方体的有效计算,计算量:对一个n维数据立方体,第i维的层次是Li,则可能产生的立方体总数是T=(L1+1)*(Ln+1)如果10维每维4个层次产生的方体数是5的10次方=9800000. 预先计算并物化所有可能产生的方体是不现实的,较合理的是部分物化,方体的选择计算,不物化:导致运行时计算昂贵的多维聚集,速度极慢. 全物化:需要海量存储空间,存放所有预先计算的方体. 部分物化:在存储空间和响应时间二者之间提供了很好的折衷.,多路数组聚

11、集,将数组分成块,块的大小能够放入立方体计算时可用的内存. 通过访问立方体单元进行聚集,使得每个单元必须重新访问的次数最小化.,实例分析,如图2-15所示 40*400*4000立方体,分成64块策略是多利用小的立方块. 所以最佳的是AB平面40*400+AC平面的一行40*1000+BC平面的一块100*1000 总计是156000.如果次序是BC,AC,AB则所需内存是400*4000+40*1000+10*100 =1641000,是最佳策略的10倍以上.,索引OLAP数据,位图索引:如图2-17所示,与散列和树索引相比,位图索引将比较,连接和聚集都变成了位算术运算,大大减少了运行时间

12、. 连接索引:源于关系数据库的查询处理. 位图连接索引:将连接索引和位图索引集成.,OLAP查询的有效处理,确定那些操作应当在可利用的方体上执行,这涉及将查询中的选择投影上卷下钻操作转换成对应的SQL或OLAP操作. 确定相关操作应当使用哪些物化的方体,这涉及到找出可能用于查询的所有物化方体.,具体步骤,考察的方体必须与查询具有相同的维集合,或是它的超集. 选择代价最小的方体.,元数据存储,元数据是定义数据仓库对象的数据.元数据的存储包括数据仓库结构的描述对元数据的操作汇总用的算法由操作环境到数据仓库的映射关于系统性能的数据商务元数据,数据仓库后端工具,数据提取:从多个异种的外部

13、数据源收集数据. 数据清理:检测错误,可能时修改错误. 数据变换:将数据转换成数据仓库格式. 装入:排序,综合,合并,计算视图,检查整体性,并建立索引和划分. 刷新:传播由数据源到数据仓库的更新.,进一步发展和探讨,发现驱动的探查:预计算的度量指出数据异常,避免人工检查数据. 扩充SQL语句的实现(多粒度上的复杂聚集). 联机聚集,可以显示迄今为止所知道的,而不是等待查询完全处理完. 最高N查询,只查询最高的N项,而不是整个排序的表,这导致较快的响应时间并减少资源浪费.,数据仓库的应用,信息处理:支持查询和基本的统计分析,并使用表或图进行报告. 分析处理:支持基本的OLAP操作,在汇总的和细节

14、的历史数据上操作. 数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果.,联机分析挖掘(OLAM),将联机分析处理与数据挖掘集成,有以下几个原因: 数据仓库中数据的高质量:大部分数据挖掘工具需要在集成的一致的和清理过的数据上进行,经由这些预处理而构造的数据仓库不仅用作OLAP而且也用作数据挖掘的数据源.,环绕数据仓库的有价值的信息处理基础设施:谨慎的做法是尽量利用可用的基础设施,而不是一切从头做起. 基于OLAP的探测式数据分析:有效的数据挖掘需要探测式数据分析.用户常常想在不同粒度上分析它们.联机分析挖掘提供在不同的数据子集和不同的抽象层上进行数据挖掘的工具. 数据挖掘功能的联机选择:用户常常不知道想挖掘些什么.通过将OLAP与多种数据挖掘功能集成在一起,联机分析挖掘为用户选择所期望的数据挖掘功能动态修改挖掘任务提供了灵活性,

展开阅读全文