数据挖掘05数据立方体教学幻灯片

资源描述

《数据挖掘05数据立方体教学幻灯片》由会员分享，可在线阅读，更多相关《数据挖掘05数据立方体教学幻灯片（47页珍藏版）》请在金锄头文库上搜索。

1、数据立方体计算与数据泛化数据泛化n数据泛化q数据库中的数据和对象通常包含原始概念层的细节信息，数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。n主要方法：q数据立方体（OLAP使用的方法）q面向属性的归纳方法12345概念层(Month, city, customer_group)(Month, *, *)两种不同类别的数据挖掘n从数据分析的角度看，数据挖掘可以分为描述性挖掘和预测性挖掘q描述性挖掘：以简洁概要的方式描述数据，并提供数据的有趣的一般性质。nE.g. 数据泛化就是一种描述性数据挖掘q预测性数据挖掘：通过分析数据建立一个或一组模型，并试图预

2、测新数据集的行为。nE.g 分类、回归分析等数据立方体-基本概念(1)n数据立方体可以被看成是一个方体的格，每个方体用一个group-by表示n最底层的方体ABC是基本方体，包含所有3个维n最顶端的方体（顶点）只包含一个单元的值，泛化程度最高n上卷和下钻操作与数据立方体的对应BA()CABACBCABCP102 P102 图图4-14-1数据立方体-基本概念(2)n基本方体的单元是基本单元，非基本方体的单元是聚集单元q聚集单元在一个或多个维聚集，每个聚集维用*表示qE.g. (city, *, year, measure)qm维方体：(a1,a2,.,an)中有m个不是*n祖先和子孙单元qi-

3、D单元a=(a1,a2,.,an, measuresa)是j-D单元b=(b1,b2,.,bn, measureb)的祖先，当且仅当n(1)i= min_sup闭立方体 (1)n冰山方体的计算通过冰山条件（例：HAVING COUNT(*) = min_sup）来减轻计算数据立方体中不重要的聚集单元的负担，然而仍有大量不感兴趣的单元需要计算q比如：最小支持度为10，假定100维的数据立方体有两个基本方体：(a1,a2,a3,a100):10, (a1,a2,b3,b100):10，假设冰山条件为最小支持度10n则需计算和存储的单元仍是海量：2101-6个n如：(a1,a2,a3,a99,*):

4、10, (a1,*,a3,a100):10闭立方体 (2)n闭单元q一个单元c是闭单元，如果单元c不存在一个跟c有着相同度量值的后代dq例如：上述例子中，任何一个(a1,a2,a3,*,*,*):10,都和他的后代有相同度量值n闭立方体：一个仅有闭单元组成的数据立方体q例如：(a1,a2,*,*,*):20(a1,a2,a3, a100):10(a1,a2,b3, b100):10立方体外壳n部分物化的另外一种策略：仅预计算涉及少数维的方体（比如3到5维），这些立方体形成对应数据立方体的外壳q利用外壳对其他的维组合查询进行快速计算q仍将导致大量方体（n很大时），类似的我们可以利用方体的兴趣度，

5、选择只预计算立方体外壳的部分立方体计算的一般策略 (1)n一般，有两种基本结构用于存储方体q关系OLAP（ROLAP）n底层使用关系模型存储数据q多维OLAP（MOLAP）n底层使用多维数组存储数据n无论使用哪种存储方法，都可以使用以下立方体计算的一般优化技术q优化技术1：排序、散列和分组n将排序、散列(hashing)和分组操作应用于维的属性，以便对相关元组重新排序和聚类立方体计算的一般策略 (2)n优化技术2：同时聚集和缓存中间结果q由先前计算的较低层聚集来计算较高层聚集，而非从基本方体开始计算，减少I/On优化方法3：当存在多个子女时，由最小的子女聚集q例如，计算Cbranch，可以利用

6、C(branch, year)或者C(branch, item)，显然利用前者更有效n优化技术4：可以使用Apriori剪枝方法有效的计算冰山方体q如果给定的单元不能满足最小支持度，则该单元的后代也都不满足最小支持度完全立方体计算的多路数组聚集方法(1)n使用多维数组作为基本数据结构，计算完全数据立方体q一种使用数组直接寻址的典型MOLAP方法n计算步骤q（1）将数组分成块（chunk,一个可以装入内存的小子方）n块还可以进一步被压缩，以避免空数组单元导致的空间浪费（处理稀疏立方体）q（2）通过访问立方体单元，计算聚集。n可以优化访问单元组的次序，使得每个单元被访问的次数最小化，从而减少内存访

7、问和磁盘I/O的开销。完全立方体计算的多路数组聚集方法(2)n一个包含A,B,C的3-D数组，假定维A,B,C的基数分别是40、400和4000A(month) 40个值B29303132123459131415166463626148474645a1a0c3c2c1c 0b3b2b1b0a2a3C(item) 4000个值B(city) 400个值442856402452362060哪个是多路数组聚集的最佳遍历次序？将要物化的立方体：基本方体ABC，已计算，对应于给定的3-D数组2D方体AB，AC和BC1D方体A,B,C0D顶点方体，记作all完全立方体计算的多路数组聚集方法(3)A(mon

8、th)40B29303132123459131415166463626148474645a1a0c3c2c1c 0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400通过扫描ABC的14块，计算出块b0c0，然后块内存可以分配给下一刻b1c0,如此继续，可计算整个BC方体（一次只需一个BC块在内存）完全立方体计算的多路数组聚集方法(4)AB29303132123459131415166463626148474645a1a0c3c2c1c 0b3b2b1b0a2a3C442856402452362060BBC方体的计算，必须扫描64块中的每一块；

9、计算其他块亦然多路数组聚集方法避免重复扫描：当一个3D块在内存时，向每一个平面同时聚集思考：计思考：计算时需要算时需要多少内存多少内存？完全立方体计算的多路数组聚集方法(5)n方法：各平面要按他们大小的升序排列进行排序和计算q详见书P108例4-4q思想：将最小的平面放在内存中，对最大的平面每次只是取并计算一块完全立方体计算的多路数组聚集方法(6)n根据1到64的扫描次序，在块内存中保存所有相关的2-D平面所需的最小存储为：q40400（用于整个AB平面）401000（用于AC平面一行）1001000（用于BC平面一块)156，000n这种方法的限制：只有在维数比较小的情况下，效果才比较理想(

10、要计算的立方体随维数指数增长)q如果维的数目比较多，可以考虑使用“自底向上的计算”或者时“冰山方体” 计算数据立方体计算与数据泛化（2）数据泛化n数据泛化q通过将相对层次较低的值（如属性age的数值）用较高层次的概念（如青年、中年、老年）置换来汇总数据n主要方法：q数据立方体（OLAP使用的方法）q面向属性的归纳方法12345概念层(17,18,19,34,35,36,56,57,)(青年,中年,老年)什么是概念描述？n概念描述是一种数据泛化的形式。q概念通常指数据的汇集n如frequent buyers，graduate studentsn概念描述产生数据的特征化和比较描述，当所描述的概念所

11、指的是对象类时，也称为类描述q特征化：提供给定数据汇集的简洁汇总q比较：提供两个或多个数据集的比较描述概念描述 VS. OLAPn相似处：q数据泛化q对数据的汇总在不同的抽象级别上进行呈现n区别：q复杂的数据类型和聚集nOLAP中维和度量的数据类型都非常有限（非数值型的维和数值型的数据），表现为一种简单的数据分析模型n概念描述可以处理复杂数据类型的属性及其聚集q用户控制与自动处理nOLAP是一个由用户控制的过程n概念描述则表现为一个更加自动化的过程数据特征化的面向属性的归纳n一种面向关系数据查询的、基于汇总的在线数据分析技术。q受数据类型和度量类型的约束比较少n面向属性归纳的基本思想：q使用关

12、系数据库查询收集任务相关的数据q通过考察任务相关数据中每个属性的不同值的个数进行泛化，方法是属性删除或者是属性泛化q通过合并相等的，泛化的广义元组，并累计他们对应的计数值进行聚集操作q通过与用户交互，将广义关系以图表或规则等形式，提交给用户数据聚焦（1）n目的是获得跟任务相关的数据集，包括属性或维，在DMQL中他们由in relevance to子句表示。n示例：qDMQL: 描述Big-University数据库中研究生的一般特征use Big_University_DBmine characteristics as “Science_Students”in relevance to na

13、me, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “graduate”数据聚焦（2）n上述DMQL查询转换为如下SQL查询，收集任务相关数据集Select name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in Msc, M.A., MBA, PhDn初始工作关系数据泛化n数据泛化的两种常用方法：属性删除和属性泛化q属性删

14、除的适用规则：对初始工作关系中具有大量不同值的属性，符合以下情况，应使用属性删除：n在此属性上没有泛化操作符（比如该属性没有定义相关的概念分层）n该属性的较高层概念用其他属性表示q属性泛化的使用规则：如果初始工作关系中的某个属性具有大量不同值，且该属性上存在泛化操作符，则使用该泛化操作符对该属性进行数据泛化操作属性泛化控制n确定什么是“具有大量的不同值”，控制将属性泛化到多高的抽象层。n属性泛化控制的两种常用方法：q属性泛化阈值控制n对所有属性设置一个泛化阈值或者是对每个属性都设置一个阈值（一般为2到8）q泛化关系阈值控制n为泛化关系设置一个阈值，确定泛化关系中，不同元组的个数的最大值。（通常

15、为10到30，允许在实际应用中进行调整）q两种技术的顺序使用：使用属性泛化阈值控制来泛化每个属性，然后使用关系阈值控制进一步压缩泛化的关系归纳过程中的聚集值计算n在归纳过程中，需要在不同的抽象层得到数据的量化信息或统计信息n聚集值计算过程q聚集函数count与每个数据库元组相关联，n初始工作关系的每个元组的值初始化为1q通过属性删除和属性泛化，初始工作关系中的元组可能被泛化，导致相等的元组分组n新的相等的元组分组的计数值设为初始工作关系中相应元组的计数和qe.g. 52个初始工作关系中的元组泛化为一个新的元组T，则T的计数设置为52n还可以应用其他聚集函数，包括sum，avg等面向属性的归纳示

16、例n挖掘BigUniversity数据库中研究生的一般特征qname：删除属性（大量不同值，无泛化操作符）qgender：保留该属性，不泛化qmajor：根据概念分层向上攀升文，理，工qbirth_place：根据概念分层location向上攀升qbirth_date：泛化为age，再泛化为age_rangeqresidence：根据概念分层location向上攀升qphone#：删除属性qgpa：根据GPA的分级作为概念分层面向属性的归纳示例主泛化关系初始工作关系面向属性的归纳算法n输入q1. DB; 2. 数据挖掘查询DMQuery; 3. 属性列表; 4. 属性的概念分层; 5. 属性的泛化阈值；n输出q主泛化关系Pn算法描述：1.W get_task_relevant_data(DMQuery, DB)2.prepare_for_generalization(W)1.扫描W，收集每个属性a的不同值2.对每个属性a，根据阈值确定是否删除，如果不删除，则计算其最小期望层次L，并确定映射对(v,v)3.P generalization(W)q通过使用v代替W中每个v，累计计数并计算所

展开阅读全文

数据挖掘05数据立方体教学幻灯片

最新文档