第5章概念描述特征化与比较课件

上传人:des****85 文档编号:292814136 上传时间:2022-05-15 格式:PPT 页数:36 大小:369.50KB
返回 下载 相关 举报
第5章概念描述特征化与比较课件_第1页
第1页 / 共36页
第5章概念描述特征化与比较课件_第2页
第2页 / 共36页
第5章概念描述特征化与比较课件_第3页
第3页 / 共36页
第5章概念描述特征化与比较课件_第4页
第4页 / 共36页
第5章概念描述特征化与比较课件_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《第5章概念描述特征化与比较课件》由会员分享,可在线阅读,更多相关《第5章概念描述特征化与比较课件(36页珍藏版)》请在金锄头文库上搜索。

1、第五章 概念描述:特征化与比较n什么是概念描述? n数据概化和基于汇总的特征化n解析特征化:属性相关分析n挖掘类比较:区分不同的类n在大型数据库中挖掘描述统计度量n讨论n小结什么是概念描述?n概念描述 : n特征化: 提供给定数据的简洁汇总n比较: 提供两个或多个数据汇集的比较描述概念描述与OLAP的比较n概念描述: n 能处理复杂数据类型的属性和它们的聚集n 更加自动运行nOLAP: n简单的数据分析模型n用户控制运行数据概化和基于汇总的特征化n数据概化n是一个将大的任务相关的数据集从较低的概念层抽象到较高的概念层n方法:n数据立方体方法n面向属性的归纳方法12345概念上的层次面向属性归纳

2、n1989年首次提出n基本思想n使用关系数据库查询收集相关的数据n考察数据每个属性的不同值的个数,进行概化n概化可以通过属性删除,或者属性概化进行n与用户交互.例子nDMQL: 描述了大学数据库毕业学生的情况use Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “graduate”n对应 SQL 语句:

3、Select name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “Msc”, “MBA”, “PhD” 类描述:一个例子Prime Generalized RelationInitial Relation导出概化的表示n交叉表:n直接将数据立方体结构影射到交叉表n条形图,饼图,曲线n量化特征规则:n将概化结果影射成量化特征规则表达-概化关系交叉表属性相关分析n为什么?n哪些维要包含进来? n概化到哪个层次?n自动化和交互性n减少属性,提供容易理解的模式n

4、什么?n对预处理数据的统计方法n适当和维与层次关联n概化分析和比较分析 属性相关分析n如何分析?n收集数据n概化分析n相关性分析n选择最相关的维和层次n面向属性归纳的类描述n在选择的维和层次上nOLAP 操作(如上钻,下卷)熵与信息增益nS 包含 si 个 Ci 类样本 i = 1, , m n值为a1,a2,av,属性为A的熵nA上该划分的获得的信息增益定义为解析特征化:一个例子Candidate relation for Target class: Graduate students ( =120)对比类关系对比类关系:未毕业学生未毕业学生 ( =130)解析特征化:一个例子n3. 相关分

5、析n计算分类需要的相关信息n计算每个属性的熵:如 majorNumber of grad students in “Science”Number of undergrad students in “Science”解析特征化的例子n如果S根据属性划分,计算所要的信息n计算每个属性的信息增益n每个属性的信息增益挖掘类比较n比较:比较两个或者两个以上的类.n方法:n将相关的数据集划分成一个目标类和一个或多个比较类n将所有的类概化到相同的层次n比较相同层次的描述n每个类提供它的描述和两个度量n相关分析:n寻找最好区别两个类的属性例子:比较分析n任务n运用判别规则区分毕业学生和未毕业学生.nDMQL

6、查询use Big_University_DBmine comparison as “grad_vs_undergrad_students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafor “graduate_students”where status in “graduate”versus “undergraduate_students”where status in “undergraduate”analyze count%from student例子:比较分析目标

7、类目标类: Graduate students比较类比较类: Undergraduate students量化区分规则nCj = target classnqa = 覆盖目标类的某些元组nd-weightn范围: 0, 1n量化区分规则的形式:例子:量化区分规则n量化区分规则nwhere 90/(90+120) = 30%计算 graduate and undergraduate students 之间的比例类描述 n量化特征规则n必要条件n量化比较规则n充分条件n量化描述规则n充分必要条件例子:量化描述规则n目标类欧洲的量化描述规则度量数据的离散度n动机n更好的理解数据:度量中心趋势,度量离

8、散度等n数据差量特征 n中值,最大值,最小值,分位数,变异数n多粒度精度分析n有序的间隔进行分位数分析n在计算度量上进行离散度分析计算中心趋势n平均数n算术平均数n中值:n模n某个值在数据里面的频率数据离散度的计算n四分位数,盒图n四分位数: Q1 (25th 百分位数), Q3 (75th百分位数)n中间四分位数区间: IQR = Q3 Q1 n五数概括: min, Q1, M, Q3, maxn盒图:盒的端点在四分位数上,中位数用盒内的线标记,盒外的两条线延伸到最小和最大观测值n方差和标准方差n方差 s2n标准方差: Boxplot AnalysisnFive-number summary

9、 of a distribution:Minimum, Q1, M, Q3, MaximumnBoxplotnData is represented with a boxnThe ends of the box are at the first and third quartiles, i.e., the height of the box is IRQnThe median is marked by a line within the boxnWhiskers: two lines outside the box extend to Minimum and Maximum盒图A boxplo

10、t盒图分析:数据离散度的可视化在大型数据库中挖掘描述统计度量n方差n标准方差:方差的开方根柱状图分析n基本统计类描述的图形显示n频率直方图n一种单变量图形方法n直方图由一组矩形组成,这些矩形反映类在给定数据中出现的计数或频率分位数图n显示所有的数据n绘出了分位数信息n每个观测值xi与一个百分数 fi 对应,指出大约 100 fi% 的数据小于等于xi分位数-分位数图或q-q图n对着另一个分位数n允许用户可以观察从一个分布到另一个分布是否有移位散步图n确定两个量化变量之间看上去是否有联系,模式或趋势的最有效的图形方法Loess 曲线n添加一条平滑曲线到散布图,以便更好的理解以来模式概念描述的增量挖掘和并行挖掘n增量描述基于新增加的数据 DBn归纳 DB ,将属性概化到与R对应属性关系相同的的概念层 R n合并 R U Rn可以研究概念描述的选样方法,并行算法和分布式算法

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号