5、概念描述：特征化与比较.ppt

资源描述

《5、概念描述：特征化与比较.ppt》由会员分享，可在线阅读，更多相关《5、概念描述：特征化与比较.ppt（62页珍藏版）》请在金锄头文库上搜索。

1、概念描述：特征化与比较,两种不同类别的数据挖掘,从数据分析的角度看，数据挖掘可以分为描述性挖掘和预测性挖掘描述性挖掘：以简洁概要的方式描述数据，并提供数据的有趣的一般性质。预测性数据挖掘：通过分析数据建立一个或一组模型，并试图预测新数据集的行为。,什么是概念描述？,概念描述是一种最简单的描述性挖掘当所描述的概念所指的是一类对象时，也称为类描述概念指的是一类数据的集合 e.g. 研究生，大客户概念描述是指为数据的特征化和比较产生描述特征化：提供给定数据集的简洁汇总。区分：提供两个或多个数据集的比较描述。,概念描述 VS. OLAP,概念描述和数据仓库的联机分析处理（OLAP）都跟数

2、据概化密切相关，即以简洁的形式在更一般的抽象层描述数据，允许数据在抽象层概化，便于考察数据的一般行为。两者的主要区别：概念描述可以处理复杂数据类型的属性及其聚集一个更加自动化的过程 OLAP 实际使用的OLAP系统中，维和度量的数据类型都非常有限（非数值型的维和数值型的数据），表现为一种简单的数据分析模型一个由用户控制的过程,数据概化,数据概化数据库中的数据和对象通常包含原始概念层的细节信息，数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。主要方法：数据立方体（OLAP使用的方法）面向属性的归纳方法,1,2,3,4,5,概念层,数据概化：数据

3、立方体方法,执行计算并将结果存储在数据立方体中优点：数据概化的一种有效实现可以计算各种不同的度量值比如：count(), sum(), average(), max() 概化和特征分析通过一系列的数据立方体操作完成，比如上卷、下钻等缺点只能处理非数值类型的维和简单聚集数值类型的度量值（大部分现有商业系统中，只能为非数值类型的维产生概念分层）缺乏智能分析，不能自动确定分析中该使用哪些维，应该概化到哪个层次,面向属性的归纳,一种面向关系数据查询的、基于汇总的在线数据分析技术。受数据类型和度量类型的约束比较少面向属性归纳的基本思想：使用关系数据库查询收集任务相关的数据通过考察任

4、务相关数据中每个属性的不同值的个数进行概化，方法是属性删除或者是属性概化通过合并相等的，概化的广义元组，并累计他们对应的计数值进行聚集操作通过与用户交互，将广义关系以图表或规则等形式，提交给用户,面向属性的归纳的基本步骤,数据聚焦，获得初始工作关系进行面向属性的归纳基本操作是数据概化，对有大量不同值的属性，进行进一步概化属性删除属性概化属性概化控制：控制概化过程，确定有多少不同的值才算是有大量不同值的属性属性概化临界值控制概化关系临界值控制,数据聚焦（1）,目的是获得跟任务相关的数据集，包括属性或维，在DMQL中他们由in relevance to子句表示。示例： DMQ

5、L: 描述Big-University数据库中研究生的一般特征 use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate”,数据聚焦（2）,将数据挖掘查询转换为关系查询 Select name, gender, major, birth_place, birth_date, r

6、esidence, phone#, gpa from student where status in “Msc”, “MBA”, “PhD” 数据聚焦时的困难用户在指定相关的数据集方面存在困难，遗漏在描述中可能起作用的属性用户可能引进太多的属性,数据概化,数据概化的两种常用方法：属性删除和属性概化属性删除的适用规则：对初始工作关系中具有大量不同值的属性，符合以下情况，应使用属性删除：在此属性上没有概化操作符（比如该属性没有定义相关的概念分层）该属性的较高层概念用其他属性表示属性概化的使用规则：如果初始工作关系中的某个属性具有大量不同值，且该属性上存在概化操作符，则使用该概化操作符对

7、该属性进行数据概化操作,11-12,王灿,数据挖掘,0703004,属性概化控制,确定什么是“具有大量的不同值”，控制将属性概化到多高的抽象层。属性概化控制的两种常用方法：属性概化临界值控制对所有属性设置一个概化临界值或者是对每个属性都设置一个临界值（一般为2到8）概化关系临界值控制为概化关系设置一个临界值，确定概化关系中，不同元组的个数的最大值。（通常为10到30，应该允许在实际应用中进行调整）两种技术的顺序使用：使用属性概化临界值控制来概化每个属性，然后使用关系临界值控制进一步压缩概化的关系。相等元组的合并、累计计数和其他聚集值,面向属性的归纳示例,挖掘Big-Univer

8、sity数据库中研究生的一般特征 name：删除属性 gender：保留该属性，不概化 major：根据概念分层向上攀升文，理，工 birth_place：根据概念分层location向上攀升 birth_date：概化为age，再概化为age_range residence：根据概念分层location向上攀升 phone#：删除属性 gpa：根据GPA的分级作为概念分层,面向属性的归纳示例,主概化关系,初始工作关系,面向属性的归纳算法,输入 1. DB; 2. 数据挖掘查询DMQuery; 3. 属性列表; 4. 属性的概念分层; 属性的概化临界值；输出主概化关系P 算法描述： W g

9、et_task_relevant_data(DMQuery, DB) prepare_for_generalization(W) 扫描W，收集每个属性a的不同值对每个属性a，根据临界值确定是否删除，如果不删除，则计算其最小期望层次L，并确定映射对(v,v) P generalization(W) 通过使用v代替W中每个v，累计计数并计算所有聚集值，导出P 每个概化元组的插入或累积计数用数组表示P,导出概化的表示 (1),概化关系一部分或者所有属性得到概化的关系，包含计数或其他度量值的聚集交叉表二维交叉表使用每行显示一个属性，使用每列显示另外一个属性将结果集映射到表中可视化技巧：条

10、形图、饼图、曲线和数据立方体浏览工具（用单元的大小代表计数，用单元亮度代表另外的度量）,导出概化的表示 (2),量化规则使用t_weight表示主概化关系中每个元组的典型性量化特征规则将概化的结果映射到相应的量化特征规则中，比如：,量化特征规则中每个条件的析取成为目标类的一个必要条件；亦即，如果X在目标类中，则X满足conditioni的概率是wi,特征化过程中的困难,特征化过程中的两大困难复杂数据类型的处理缺乏一种自动概化的过程，用户必须告诉系统哪些属性或维应该包括在类特征化中每个维应该概化到多高的程度,为什么进行属性相关分析？,数据仓库和OLAP系统中的多维数据分析缺乏一个自

11、动概化过程，这使得这个过程中需要有很多用户干预用户必须告诉系统哪些维或属性应当包含在类分析中 (难) 属性太少，则造成挖掘的描述结果不正确属性太多，浪费计算、淹没知识告诉系统每个维应当概化到多高的层次（易）直接通过概化的临界值，说明给定维应当达到的概化程度对概化层次不满意，则可以指定需要上卷或下钻的维,解析特征化：属性相关分析,属性相关分析通过识别不相关或者是弱相关的属性，将它们排除在概念描述过程之外，从而确定哪些属性应当包含在类特征化和类比较中。解析特征化包含属性相关分析的类特征化解析比较包含属性相关分析的类比较,属性相关分析（1）,通过属性相关性分析，滤掉统计上不相关

12、或弱相关的属性，保留对手头数据挖掘任务最相关的属性。对于给定的属性，一个属性或维被认为是高度相关的，如果该属性或维的值可能用于区分该类和其他类。比如：区分昂贵汽车和便宜汽车（可选择的属性：颜色，型号，品牌.）,属性相关分析（2）,在同一个维内，对于区分一个类与其他类不同层的概念可能有很不同的能力比如：birth_date维，day, month与salary无关，而year（或将其进一步概化为birth_decade）则与salary有关类特征化中的比较类除特征化的数据集外，数据库中可比较的数据集都作为对比类比如：研究生特征化的例子，对比类为不是研究生的学生的集合（e.g.本科生）

13、（可选择的属性：性别、籍贯、专业、平均成绩、年龄段）,属性相关分析的方法,属性相关分析的基本思想是计算某种度量，用于量化属性与给定类或概念的相关性。可采用的度量包括：信息增益、Gini索引、不确定性和相关系数。（涉及机器学习、统计、模糊和粗糙集理论等方面的相关知识）比如：信息增益通过计算一个样本分类的期望信息和属性的熵来获得一个属性的信息增益，判定该属性与当前的特征化任务的相关性。,信息增益 (1),S是一个训练样本的集合，该样本中每个集合的类编号已知。每个样本为一个元组。有个属性用来判定某个训练样本的类编号（类似于学生记录中的status属性）假设S中有m个类，总共s个训练样本，每个类

14、ci有Si个样本(i1,2,3.m)，那么任意一个样本属于类Ci的概率是si / s，那么用来分类一个给定样本的期望信息是：,信息增益 (2),一个有v个值的属性Aa1,a2,.,av可以将S分成v个子集S1,S2,.,Sv，其中Sj包含S中属性A上的值为aj的样本。假设Sj包含类Ci的sij个样本。根据A的这种划分的期望信息称为A的熵 A上该划分的获得的信息增益定义为：具有高信息增益的属性，是给定集合中具有高区分度的属性。所以可以通过计算S中样本的每个属性的信息增益，来得到一个属性的相关性的排序。,概念描述的属性相关分析步骤 (1),数据收集通过查询处理，收集目标类和对比类数据使用保守

15、的AOI进行预相关分析识别属性和维的集合，它们是所选择的相关性分析度量的应用对象因为不同的概念层对某个类描述的相关性可能很不同，因此在这个过程中同时要包含概念分层对有大量不同值的属性进行删除或概化在这一级进行概化时，临界值要相应比较高，以便在后续步骤的分析中包含更多属性（保守的）产生候选关系,概念描述的属性相关分析步骤 (2),使用选定的相关分析度量删除不相关和弱相关的属性使用选定的相关分析度量（e.g.信息增益），评估候选关系中的每个属性根据所计算的相关性对属性进行排序低于临界值的不相关和弱相关的属性被删除产生初始目标类工作关系（或初始对比类工作关系）使用AOI产生概念描

16、述使用一组不太保守的属性概化临界值进行AOI,解析特征化示例 (1),任务:使用解析特征化挖掘BigUniversity的研究生的一般特征描述给定属性name, gender, major, birth_place, birth_date, phone#和gpa Ui = 属性分析阀值 Ti = 属性概化阀值 R = 属性相关阀值,解析特征化示例 (2),1. 数据收集目标类：研究生对比类：本科生 2. 使用保守的阀值Ui和Ti进行AOI 属性删除 name和phone# 属性概化概化major, birth_place, birth_date 和 gpa 进行累积计数候选关系：gender, major, birth_country, age_range 和gpa,目标类候选关系：研究生(=120),对比类候选关系：本科生 (=130) (可以在类比较时使用）,解析特征化示例 (3),3. 相关性分析计算给定的样本分类所需要的期望信息计算每个属性的熵: e.g. majo

展开阅读全文