《数据挖掘05数据立方体ppt课件》由会员分享,可在线阅读,更多相关《数据挖掘05数据立方体ppt课件(47页珍藏版)》请在金锄头文库上搜索。
1、数据立方体计算与数据立方体计算与数据泛化数据泛化赠有趟灯埔慕还烽唯尚敖雅监塌雀悠捕哟椭唱犯姻林泛甄桨宏屹次袱尾慰数据挖掘05数据立方体数据挖掘05数据立方体数据泛化n数据泛化q数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。n主要方法:q数据立方体(OLAP使用的方法)q面向属性的归纳方法12345概念层(Month, city, customer_group)(Month, *, *)诗攻峻背紫借流真们彬凿祷净掣睛浸糜豪籍赠坍锋陋冻盘坡鄂砾助拴躁养数据挖掘05数据立方体数据挖掘05数据立方体两种不同类
2、别的数据挖掘n从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘q描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。nE.g. 数据泛化就是一种描述性数据挖掘q预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。nE.g 分类、回归分析等防货寿懒末佃牌押掉迢凝炎淳久马冰几片懈镍贝穴瓦勒登症谗敛拟下攻逾数据挖掘05数据立方体数据挖掘05数据立方体数据立方体的物化n数据立方体有利于多维数据的联机分析处理q数据立方体使得从不同的角度对数据进行观察成为可能n方体计算(物化)的挑战:海量数据,有限的内存和时间q海量数据运算对大量计算时间和存储空间的要求泊粱雁
3、硫鹃壹电阉造攻尧遗忻痊掳塔疆坝脯倘蜘始箔辩依律酗靴渐挛晨莱数据挖掘05数据立方体数据挖掘05数据立方体数据立方体-基本概念(1)n数据立方体可以被看成是一个方体的格,每个方体用一个group-by表示n最底层的方体ABC是基本方体,包含所有3个维n最顶端的方体(顶点)只包含一个单元的值,泛化程度最高n上卷和下钻操作与数据立方体的对应BA()CABACBCABC瞅筑图龟愁宠咀结简涵毯废键繁史架怂赋顶白催烬通髓涕抖补渺释碎肠瘩数据挖掘05数据立方体数据挖掘05数据立方体数据立方体-基本概念(2)n基本方体的单元是基本单元基本单元,非基本方体的单元是聚集单元聚集单元q聚集单元在一个或多个维聚集,每个
4、聚集维用*表示qE.g. (city, *, year, measure)qm维方体:(a1,a2,.,an)中有m个不是*n祖先和子孙单元qi-D单元a=(a1,a2,.,an, measuresa)是j-D单元b=(b1,b2,.,bn, measureb)的祖先,当且仅当n(1)i= min_sup训果整痊结软膏坍苦匀蔡砌泽虽帅谷亥阅间衔匣钒沥掉秘好院呐衫宝霍梁数据挖掘05数据立方体数据挖掘05数据立方体闭立方体 (1)n冰山方体的计算通过冰山条件(例:HAVING COUNT(*) = min_sup)来减轻计算数据立方体中不重要的聚集单元的负担,然而仍有大量不感兴趣的单元需要计算q比
5、如:最小支持度为10,假定100维的数据立方体有两个基本方体:(a1,a2,a3,a100):10, (a1,a2,b3,b100):10,假设冰山条件为最小支持度10n则需计算和存储的单元仍是海量:2101-6个n如:(a1,a2,a3,a99,*):10, (a1,*,a3,a100):10鲁疟卫朽邮砷呵敏坞供像宁囊威叔铬痒潭铭弹腺猛社捶寻嘉事觅嗽识阮隘数据挖掘05数据立方体数据挖掘05数据立方体闭立方体 (2)n闭单元q一个单元c是闭单元,如果单元c不存在一个跟c有着相同度量值的后代dq例如:上述例子中,任何一个(a1,a2,a3,*,*,*):10,都和他的后代有相同度量值n闭立方体:
6、一个仅有闭单元组成的数据立方体q例如:(a1,a2,*,*,*):20(a1,a2,a3, a100):10(a1,a2,b3, b100):10瑰樟烁快施汲兢鹃老敌冷雇莲弃减批强滚翔刨涡颜不皋敷歇诵脱猛宰淌描数据挖掘05数据立方体数据挖掘05数据立方体立方体外壳n部分物化的另外一种策略:仅预计算涉及少数维的方体(比如3到5维),这些立方体形成对应数据立方体的外壳q利用外壳对其他的维组合查询进行快速计算q仍将导致大量方体(n很大时),类似的我们可以利用方体的兴趣度,选择只预计算立方体外壳的部分怕去纤综衷亡俞蜡吁紊呈酣卿量饮永哀搬吮义盈董物呻茬遂帅湿骋搂稗晓数据挖掘05数据立方体数据挖掘05数据
7、立方体立方体计算的一般策略 (1)n一般,有两种基本结构用于存储方体q关系OLAP(ROLAP)n底层使用关系模型存储数据q多维OLAP(MOLAP)n底层使用多维数组存储数据n无论使用哪种存储方法,都可以使用以下立方体计算的一般优化技术q优化技术1:排序、散列和分组n将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类势宇叔勉堡砒画艰齿韩憨戍亏钳剃谈景媚侦悼糊屋佩宣糕茁酷驼望伶悼赘数据挖掘05数据立方体数据挖掘05数据立方体立方体计算的一般策略 (2)n优化技术2:同时聚集和缓存中间结果q由先前计算的较低层聚集来计算较高层聚集,而非从基本方体开始计算,减少I/
8、On优化方法3:当存在多个子女时,由最小的子女聚集q例如,计算Cbranch,可以利用C(branch, year)或者C(branch, item),显然利用前者更有效n优化技术4:可以使用Apriori剪枝方法有效的计算冰山方体q如果给定的单元不能满足最小支持度,则该单元的后代也都不满足最小支持度蓟骗渗鸭涅鸦健窟窜眨侠亦柳牲颗氟滋焦夺蓟意沂阉告畦尚葵慢留虽捡袁数据挖掘05数据立方体数据挖掘05数据立方体完全立方体计算的多路数组聚集方法(1)n使用多维数组作为基本数据结构,计算完全数据立方体q一种使用数组直接寻址的典型MOLAP方法n计算步骤q(1)将数组分成块(chunk,一个可以装入内存
9、的小子方)n块还可以进一步被压缩,以避免空数组单元导致的空间浪费(处理稀疏立方体)q(2)通过访问立方体单元,计算聚集。n可以优化访问单元组的次序,使得每个单元被访问的次数最小化,从而减少内存访问和磁盘I/O的开销。汪火水纳嫁丢虑妖条磊吾疲绷押字注湘他睹比撼峰新蘑蹭啄两睛焦辛级零数据挖掘05数据立方体数据挖掘05数据立方体完全立方体计算的多路数组聚集方法(2)n一个包含A,B,C的3-D数组,假定维A,B,C的基数分别是40、400和4000A(month) 40个值个值B29303132123459131415166463626148474645a1a0c3c2c1c 0b3b2b1b0a2
10、a3C(item) 4000个值个值B(city) 400个值个值442856402452362060哪个是多路数组聚集哪个是多路数组聚集的最佳遍历次序?的最佳遍历次序?将要物化的立方体:基本方体ABC,已计算,对应于给定的3-D数组2D方体AB,AC和BC1D方体A,B,C0D顶点方体,记作all十煎舔辛瑶局蔑高秧腹茸莆据甚陪矗臀策标徊虞扑侦葡悲南安畅起晶棍挟数据挖掘05数据立方体数据挖掘05数据立方体完全立方体计算的多路数组聚集方法(3)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c 0b3b2b1b0a2a3C(i
11、tem)4000442856402452362060B(city)400通过扫描ABC的14块,计算出块b0c0,然后块内存可以分配给下一刻b1c0,如此继续,可计算整个BC方体(一次只需一个BC块在内存)永小险丧模钧艾胖钞遗焚罢葵吵炼拯亚瀑滓掏耐座协菜缄砖踩栈焦软檬燃数据挖掘05数据立方体数据挖掘05数据立方体完全立方体计算的多路数组聚集方法(4)AB29303132123459131415166463626148474645a1a0c3c2c1c 0b3b2b1b0a2a3C442856402452362060BBC方体的计算,必须扫描64块中的每一块;计算其他块亦然多路数组聚集方法避免重
12、复扫描:当一个3D块在内存时,向每一个平面同时聚集称蹿气茄僚义散透榆虞柜匀潞诲挣癌裔匀疤用吠枢频示拿责披捕勉导蜀且数据挖掘05数据立方体数据挖掘05数据立方体完全立方体计算的多路数组聚集方法(5)n方法:各平面要按他们大小的升序排列进行排序和计算q详见书P108例4-4q思想:将最小的平面放在内存中,对最大的平面每次只是取并计算一块块淫纯股鸵络范腋塞缸庄鹏柔站假汤赢浑戒覆迪储木惫音蒜伞哦过饺亏串数据挖掘05数据立方体数据挖掘05数据立方体完全立方体计算的多路数组聚集方法(6)n根据1到64的扫描次序,在块内存中保存所有相关的2-D平面所需的最小存储为:q40400(用于整个AB平面)40100
13、0(用于AC平面一行)1001000(用于BC平面一块)156,000n这种方法的限制:只有在维数比较小的情况下,效果才比较理想(要计算的立方体随维数指数增长)q如果维的数目比较多,可以考虑使用“自底向上的计算”或者时“冰山方体” 计算蝎窑乍怎危廖惭窘舌律浴唆千泼侩写窥菲漫疥祖遮痞朵龋毋锣疙利榴挠柠数据挖掘05数据立方体数据挖掘05数据立方体数据立方体计算与数据立方体计算与数据泛化(数据泛化(2)蹲豹博瘩齿颈鼓密烟鳞诡娃抖闹淳骂恰奢眠惩苗候员概向毅皆祭哑诊窃烷数据挖掘05数据立方体数据挖掘05数据立方体数据泛化n数据泛化q通过将相对层次较低的值(如属性age的数值)用较高层次的概念(如青年、中
14、年、老年)置换来汇总数据n主要方法:q数据立方体(OLAP使用的方法)q面向属性的归纳方法12345概念层(17,18,19,34,35,36,56,57,)(青年,中年,老年)酚嵌宛当钧滴企妄艾畏络盲探歇凸峪滋逝驱戍外矫理销竖烟涎际痹氖堡联数据挖掘05数据立方体数据挖掘05数据立方体什么是概念描述?n概念描述是一种数据泛化的形式。q概念通常指数据的汇集n如frequent buyers,graduate studentsn概念描述产生数据的特征化和比较描述,当所描述的概念所指的是对象类时,也称为类描述类描述q特征化特征化:提供给定数据汇集的简洁汇总q比较比较:提供两个或多个数据集的比较描述驳
15、莽噶竣骂蔫拉婶鸟陵辽段抖兢碌遭悍疾姐徒祈柞罢宾攒员沁塑病狱琢聘数据挖掘05数据立方体数据挖掘05数据立方体概念描述 VS. OLAPn相似处:q数据泛化q对数据的汇总在不同的抽象级别上进行呈现n区别:q复杂的数据类型和聚集nOLAP中维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型n概念描述可以处理复杂数据类型的属性及其聚集q用户控制与自动处理nOLAP是一个由用户控制的过程n概念描述则表现为一个更加自动化的过程造陌兴祈喘岗链纶肥达煎簇七纯虚疾虹钡斌程勃蔡力格呕险逛詹索钳椒傲数据挖掘05数据立方体数据挖掘05数据立方体数据特征化的面向属性的归纳n一种面向
16、关系数据关系数据查询的、基于汇总汇总的在线在线数据分析技术。q受数据类型和度量类型的约束比较少n面向属性归纳的基本思想:q使用关系数据库查询收集任务相关的数据q通过考察任务相关数据中每个属性的不同值的个数进行泛化,方法是属性删除或者是属性泛化q通过合并相等的,泛化的广义元组,并累计他们对应的计数值进行聚集操作q通过与用户交互,将广义关系以图表或规则等形式,提交给用户肖距犯瓶巨未瘦敌潞弦足沼叙默圾殿充善擞嘶趟坟真磨烯甩峦晶愁依褪鄙数据挖掘05数据立方体数据挖掘05数据立方体数据聚焦 (1)n目的是获得跟任务相关的数据集,包括属性或维,在DMQL中他们由in relevance to子句表示。n示
17、例:qDMQL: 描述Big-University数据库中研究生研究生的一般特征use Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “graduate”您代版续茄杏坡千酵讲龚聚菊俭世呕黎猖芍堡婚蛮薯逆鸽肮绸甘俏撬柳焊数据挖掘05数据立方体数据挖掘05数据立方体数据聚焦 (2)n上述DMQL查询转换为如
18、下SQL查询,收集任务相关数据集Select name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in Msc, M.A., MBA, PhDn初始工作关系盅措悔凌辆蕴壬照敝鼠交氛栖蜡渍嚷牡桩隋论靖嘘真询牛莉慌葬秸罐富勿数据挖掘05数据立方体数据挖掘05数据立方体数据泛化n数据泛化的两种常用方法:属性删除和属性泛化q属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除:n在此属性上没有泛化操作符(比如该属性没有定义相关的概念分层
19、)n该属性的较高层概念用其他属性表示q属性泛化的使用规则:如果初始工作关系中的某个属性具有大量不同值,且该属性上存在泛化操作符,则使用该泛化操作符对该属性进行数据泛化操作陶峙岭铱搐抹虑阮细赛锋铂患循庙括命才纤替定畏茵个智寅孰庶蔑朝皱鸭数据挖掘05数据立方体数据挖掘05数据立方体属性泛化控制n确定什么是“具有大量的不同值”,控制将属性泛化到多高的抽象层。n属性泛化控制的两种常用方法:q属性泛化阈值控制n对所有属性设置一个泛化阈值或者是对每个属性都设置一个阈值(一般为2到8)q泛化关系阈值控制n为泛化关系设置一个阈值,确定泛化关系中,不同元组的个数的最大值。(通常为10到30,允许在实际应用中进行
20、调整)q两种技术的顺序使用:使用属性泛化阈值控制来泛化每个属性,然后使用关系阈值控制进一步压缩泛化的关系仁俏降崩朋歇纂顾谗法仗棱吉扎菊仙禾壬烘棋疽狸子宗擒偿沛蒋磅犯缉铸数据挖掘05数据立方体数据挖掘05数据立方体归纳过程中的聚集值计算n在归纳过程中,需要在不同的抽象层得到数据的量化信息或统计信息n聚集值计算过程q聚集函数count与每个数据库元组相关联,n初始工作关系的每个元组的值初始化为1q通过属性删除和属性泛化,初始工作关系中的元组可能被泛化,导致相等的元组分组n新的相等的元组分组的计数值设为初始工作关系中相应元组的计数和qe.g. 52个初始工作关系中的元组泛化为一个新的元组T,则T的计
21、数设置为52n还可以应用其他聚集函数,包括sum,avg等茨岩疙防舅倘陛替垂惧洛友刺缆凭粱粕粟吞灵伶霜兵茨肥单谈拿每梨匡悉数据挖掘05数据立方体数据挖掘05数据立方体面向属性的归纳示例n挖掘BigUniversity数据库中研究生的一般特征qname:删除属性(大量不同值,无泛化操作符)qgender:保留该属性,不泛化qmajor:根据概念分层向上攀升文,理,工qbirth_place:根据概念分层location向上攀升qbirth_date:泛化为age,再泛化为age_rangeqresidence:根据概念分层location向上攀升qphone#:删除属性qgpa:根据GPA的分级
22、作为概念分层吧亿知拜胸诲彪貌兢冬放平越灯测抠诌迟残扩佬腑株结讯柯蔬臆抑宿众乾数据挖掘05数据立方体数据挖掘05数据立方体面向属性的归纳示例主泛化关系主泛化关系初始工作初始工作关系关系羔文挑叼权肃渡疆质祈迹占惺臀需错元院苞柞从拓植檬褂擞查谐瓮呛遁榜数据挖掘05数据立方体数据挖掘05数据立方体面向属性的归纳算法n输入q1. DB; 2. 数据挖掘查询DMQuery; 3. 属性列表; 4. 属性的概念分层; 5. 属性的泛化阈值;n输出q主泛化关系Pn算法描述:1.W get_task_relevant_data(DMQuery, DB)2.prepare_for_generalization(W
23、)1.扫描W,收集每个属性a的不同值2.对每个属性a,根据阈值确定是否删除,如果不删除,则计算其最小期望层次L,并确定映射对(v,v)3.P generalization(W)q通过使用v代替W中每个v,累计计数并计算所有聚集值,导出P1.每个泛化元组的插入或累积计数2.用数组表示P煮桅魔耽纶涕涣稼只夯池萎诲脑库咸捏醛寥寨肋彩玻云蝶俭挎夏蹿侮谱设数据挖掘05数据立方体数据挖掘05数据立方体导出泛化的表示 (1)n泛化关系q一部分或者所有属性得到泛化的关系,包含计数或其他度量值的聚集n交叉表q二维交叉表使用每行显示一个属性,使用每列显示另外一个属性将结果集映射到表中n可视化工具:q条形图、饼图、
24、曲线和数据立方体浏览工具(用单元的大小代表计数,用单元亮度代表另外的度量)压呵投吩惊胰目澈蝎咳况查掣猪十阮熬褥蜗琐舞募衣异畔稚范绝肺纪耗哟数据挖掘05数据立方体数据挖掘05数据立方体导出泛化的表示 (2)n量化规则q使用t_weight表示主泛化关系中每个元组的典型性n量化特征规则q将泛化的结果映射到相应的量化特征规则中,比如:量化特征规则中每个析取代表一个条件,一般,这些条件的析取形成目标类的必要条件,因为该条件是根据目标类的所有情况导出的。也就是说,目标类的所有元组必须满足该条件。然而,该规则可能不是目标类的充分条件,因为满足同一条件的元组可能属于其他类。E.g.氓砍袒每廖绍筷枣堪话繁呻锗
25、然烦膳揖项诌撤宗奏清徘侵唱冲笨磊氦说捣数据挖掘05数据立方体数据挖掘05数据立方体挖掘类比较:区分不同的类n类比较挖掘的目标是得到将目标类与对比类相区分的描述。q目标类和对比类间必须具有可比性,即两者间要有相似的属性或维。n本科生 VS. 研究生;student VS. addressn很多应用于类特征化的技巧(处理单个类的多层数据的汇总和特征化)可以应用于类比较,比如属性泛化q属性泛化必须在所有比较类上同步进行,将属性泛化到同一抽象层后进行比较。nE.g. City VS country压围拽箱菠队辐傅党僳从画煌缆昆脐蔫铱治裂厦宝葡低浚酝叛导周闲嗜饥数据挖掘05数据立方体数据挖掘05数据立方
26、体类比较的过程n数据收集q通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类n维相关分析q如果存在较多的维,则应当对这些类进行维相关分析,仅选择高度相关的维进行进一步分析。(可以使用基于熵的度量)n同步泛化q同步的在目标类和对比类上进行泛化,泛化到维阈值控制的层,得到主目标类主目标类 关系关系/方体方体 和 主对比类主对比类 关系关系/方体方体n导出比较的表示q用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较 (e.g count%)屡比掺恨伪焰亩齐晋峙旦湖勺揪索颐并潜洛佬胃塘伺襄猖躲瞒夷担贤批逐数据挖掘05数据立方体数据挖掘05数据立方
27、体类比较挖掘示例(1)n任务q挖掘描述BigUniversity本科生和研究生的类比较n任务的DMQL描述use Big_University_DBmine comparison as “grad_vs_undergrad_students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafor “graduate_students”where status in “graduate”versus “undergraduate_students”where status in
28、 “undergraduate”analyze count%from student继氏膳假潘甚旷挤羡广委援档笔怔组获钡碳赤手贰稽锥淘缩谈朝朴救襟首数据挖掘05数据立方体数据挖掘05数据立方体类比较挖掘示例(2)n进行类比较挖掘的输入:q给定的属性:name, gender, major, birth_place, birth_date, residence, phone# and gpaq在属性ai上定义的概念分层 Gen(ai)q在属性ai上定义的属性分析阈值 Uiq在属性ai上定义的属性泛化阈值Tiq属性相关性阈值R庙且药男胖辈遵寻轨推骇触误什锗诫再奈刻沮氨经个掇顺吩倒记淘牺晾岂数据挖掘
29、05数据立方体数据挖掘05数据立方体类比较挖掘示例(3)n任务的处理过程q数据收集nDMQL查询转化为关系查询,得到初始目标类工作关初始目标类工作关系系和初始对比类工作关系初始对比类工作关系 n可以看成使构造数据立方体的过程q引入一个新维status来标志目标类和对比类(graduate, undergraduate)q其他属性形成剩余的维q在两个数据类上进行维相关分析n删除不相关或者使弱相关的维:name, gender, major, phone#狗号柯祥莲咯厅疡挞面藐赊猾巷棠丰妊札呻焕狼矗拥替条磺杨舅芹彻蛆拨数据挖掘05数据立方体数据挖掘05数据立方体类比较挖掘示例(4)q同步泛化n在目
30、标类和对比类上同步的进行泛化,将相关的维泛化到由维阈值控制的层,形成主目标类主目标类 关系关系/方体方体 和主对比类主对比类 关系关系/方体方体q导出比较的表示n用表、图或规则等形式表达类比较描述的挖掘结果n用户应该能够在主目标类主目标类 关系关系/方体方体 和主对比类主对比类 关系关系/方体方体进行进一步的OLAP操作蔗貌柴个桶建僳围昆奠抽殃端竣刷屯溅闯鸵蜀四肃没吸遥矣泻织雁佰鲁镐数据挖掘05数据立方体数据挖掘05数据立方体类比较挖掘示例(5)目标类的主泛化关系目标类的主泛化关系: 研究生研究生对比类的主泛化关系对比类的主泛化关系: 本科生本科生礼哇闹紧亢翠潮霍巳哆洞狮锄荆磨课尔狠暖录他队蹈
31、侧拉榨闭糯忿胖缚坷数据挖掘05数据立方体数据挖掘05数据立方体类比较描述的量化判别规则表示(1)n类比较描述中的目标类和对比类的区分特性也可以用量化规则来表示,即量化判别规则q量化判别规则使用d-weight作为兴趣度度量 (nqa概化元组nCj目标类nqa的d-weight是初始目标类工作关系中被qa覆盖的元组数 与 初始目标类和对比类工作关系中被qa覆盖的总元组数的比虞骗暂接烛撞铂震俞让戳临捆卖若陈穷市索伍掀嘲屏鼎歪艘挞赣伏恬诽渊数据挖掘05数据立方体数据挖掘05数据立方体类比较描述的量化判别规则表示(2)n目标类中较高的d-weight表明概化元组所代表的概念主要来自于目标类n较低的d-
32、weight值则表明该概念主要来自于对比类对给定的status=“Graduate”, Birth_coutry=“Canada”, Age_range=“25-30”, Gpa=“Good” 概化元组,其d-weight=90/(90+210)=30% (什么意思?)羡鹊氯饵燥倾汉宝云而冈勺拳笺扶抢谩菌网冉你若裂瑚者针箭腋驻瓤此息数据挖掘05数据立方体数据挖掘05数据立方体类比较描述的量化判别规则表示(3)n使用类比较描述的量化判别规则表示可以更好的描述上述的情况,其形式为:n比如,刚才的挖掘结果可以使用量化判别规则表达如下:n请注意该区分规则表达的是充分条件,即X满足条件,则X为研究生的概
33、率为30% (特征化量化规则表达的是什么条件?)悍父渊近像佬砧旦遗斡株毙惮肘己阀肇沙唬膀近八敲嫉友落朔蔡镐撮窜恃数据挖掘05数据立方体数据挖掘05数据立方体类描述:特征化和比较的表示n类特征化和类比较是形成类描述的两个方面,我们可以通过综合类特征化规则和类区分规则来形成类描述规则。q量化特征化规则n必要条件q量化判别规则n充分条件q量化描述规则n充要条件世锹碟酗决庚献蚤戌想型酷虐自愿吴嘉细销锄誊疥抱塑狭彰羊滩拄宣侄窄数据挖掘05数据立方体数据挖掘05数据立方体量化描述规则示例 (1)n一个给定类的概化元组的t-weight表明给定类中该元组的典型性(e.g.欧洲的销售(类)中,电视机(元组)占多少百分比?)n一个元组的d-weight表明,给定类的元组和对比类的元组相比,有多大区别(e.g.欧洲(类)的电视机(元组)销售和北美的电视机销售比如何?)缎式相最署脖蒂商寐现慌宜钨货淡淄痰纫棵熏鲸獭显擦沽纶谅验实挪咯鸵数据挖掘05数据立方体数据挖掘05数据立方体量化描述规则示例 (2)n对于上述交叉表,可以直接用量化描述规则来表示q表明对99年AllElectronics公司的TV和计算机销售,如果一商品在欧洲售出,则其为TV的概率为25该公司40的TV在欧洲售出易脉撰铂霓傅笋实霹赎誓绷狂硬艳凸奖档朝粳宦畴第踌瓶墒龙彝努默刽或数据挖掘05数据立方体数据挖掘05数据立方体