《精编》数据仓库之概念描述

资源描述

《《精编》数据仓库之概念描述》由会员分享，可在线阅读，更多相关《《精编》数据仓库之概念描述（83页珍藏版）》请在金锄头文库上搜索。

1、第七章概念描述 7 1概念描述基本知识7 2数据概化与基于汇总的特征化7 3解析特征化属性相关分析7 4挖掘概念比较区分不同的类第七章概念描述续 DB中存放大量细节性数据而用户通常希望以简洁的描述形式观察汇总的数据集这种描述可提供某类数据的概貌以及与其他数据类的区别此外用户希望方便灵活地以不同的粒度和从不同的角度描述数据集这种描述性数据挖掘称为概念描述它是数据挖掘的一个重要部分 7 1概念描述基本知识概念通常指数据的汇集概念描述是描述式数据挖掘最基本形式它以简洁汇总的形式描述给定数据集提供数据的有趣的一般特性 7 1概念描述基本知识续概念描述的组成特征化

2、提供了一个有关数据整体的简洁清晰描述定性描述比较提供了基于多组不同类数据的对比概念描述对比定性描述 7 1概念描述基本知识续概念描述与数据概化密切相关给定存放在DB中的大量数据能够以简洁的形式在更一般的抽象层描述数据是很有用的允许数据集在多个抽象层概化便于考察数据的一般行为这种多维多层数据概化类似于DW中的多维数据分析而概念描述类似于DW的OLAP 7 1概念描述基本知识续大型数据库的概念描述和数据仓库的OLAP有何差别概念描述可处理复杂的数据类型和聚集概念描述是自动处理数据挖掘过程 7 1概念描述基本知识续概念描述的方法包括多层概化汇总特征化和比较

3、这些方法形成实现数据挖掘的两个主要功能模块的基础多层特征化和比较第七章概念描述 7 1概念描述基本知识7 2数据概化与基于汇总的特征化7 3解析特征化属性相关分析7 4挖掘概念比较区分不同的类 7 2数据概化与基于汇总的特征化数据概化是一个分析过程它将DB中与任务相关的大数据集从较低的概念层抽象到较高的概念层对大量数据进行有效灵活的概化方法主要有两种数据立方体方法基于属性的归纳方法 1 数据立方体方法利用数据立方体方法进行数据概化被分析的数据存放在一个多维数据库中通过对多维数据立方进行上卷或下钻操作可完成数据概化和数据细化工作 1 数据立方体方法续数据立方体提供了一

4、种有效的数据概化方法且构成了描述性数据挖掘中一个重要功能但由于OLAP的数据立方实现是将维的类型限制在简单非数值类型且将处理限制在简单数据汇总方面因此数据立方体并不能解决概念描述所能解决的一些重要问题如描述中应作用哪些维概化过程应进行到哪个抽象层次上这些问题均是由用户负责提供答案的 2 基于属性归纳方法基本思想首先使用RDB查询收集任务相关的数据然后通过考察任务相关数据中每个属性的不同值的个数进行概化数据概化是通过属性删除或属性概化操作来完成通过合并相同行并累计它们相应的个数这自然就减少了概化后数据集的大小所获结果以图表规则等多种不同形式提供给用户 2 基于属

5、性归纳方法续例1 从一个大学数据库的学生数据中挖掘出研究生的一般特征给定的属性有姓名性别专业出生地出生日期居住地电话和GPA 平均等级分 AOI方法的第一步利用DB查询语言从大学DB中将学生数据抽取出来然后指定一组与挖掘任务相关的属性集 2 基于属性归纳方法续由于数据挖掘查询通常只涉及DB的一部分选择相关的数据集不仅使得挖掘更有效而且与在整个DB挖掘相比能产生更有意义的规则对用户而言指定挖掘的属性可能比较困难有时用户只能选择少量他感到可能重要的属性而遗漏在描述中可能起作用的其他属性 2 基于属性归纳方法续如出生地维由属性城市省和国家定义在这

6、些属性中用户或许只考虑了城市属性为了对出生地进行概化处理就必须将出生地概化所涉及到的其它属性包含进来换句话说系统自动地包括省和国家作为相关属性使得城市可以在归纳过程中概化到较高的概念层 2 基于属性归纳方法续另一方面用户可能引进过多的属性如指定所有的属性这样大学DB的所有属性都将包含在分析中而有些属性对有趣的描述是没有用的初始工作关系任务相关数据的集合 2 基于属性归纳方法续对已经准备好的数据如何进行基于属性归纳 AOI方法的第二步进行数据概化操作可用两种方法之一进行属性删除属性概化 2 基于属性归纳方法续属性删除基于如下规则若一个属性有许多不

7、同数值且 a 该属性无法进行概化操作如没有定义相应的概念分层或 b 它的更高层次概念是用其他属性描述的则该属性应当从数据集中删除 2 基于属性归纳方法续属性概化基于如下规则若一个属性有许多不同数值且该属性存在一组概化操作则可以选择一个概化操作对该属性进行处理属性删除和属性概化两个规则都表明如果某属性有大量的不同值应当进行进一步概化这就提出一个问题多大才算属性具有大量不同值 2 基于属性归纳方法续这取决于属性或应用有的用户愿意让属性留在较低的抽象层而另一些用户愿意将它们概化到较高的抽象层控制将属性概化到多高的抽象层通常是相当主观的该过程的控制称为属性概

8、化控制 2 基于属性归纳方法续若属性概化得太高则导致过分概化产生的规则可能没有多少信息若属性概化没有达到足够高的层次则亚概化也同样可能使得到的规则变得失去意义因此在基于属性归纳时掌握概化平衡非常重要 2 基于属性归纳方法续有许多控制概化过程的方法下面是两种常用的方法 1 属性概化阈值控制该技术是对所有属性统一设置一个概化阈值取值范围一般为2到8 如果属性的不同值个数大于属性概化阈值则应当进行进一步的属性删除或属性概化 2 基于属性归纳方法续 2 概化关系阈值控制为概化关系设置一个阈值通常取值范围为10到30 如果概化关系中不同元组的个数超过该阈值则应当进

9、一步概化否则不再进一步概化 2 基于属性归纳方法续这两种技术可以顺序使用首先使用属性概化阈值控制技术概化每个属性然后使用概化关系阈值控制进一步减少概化关系的规模大小无论使用哪种概化控制技术都应当允许用户调整概化阈值以便得到有趣的规则 2 基于属性归纳方法续例1 续对前面得到的初始工作关系的每个属性概化过程如下 1 姓名由于姓名存在大量不同值并且其上没有定义概念分层该属性被删除 2 性别由于性别只有两个不同值该属性保留并不对其进行概化 2 基于属性归纳方法续 3 专业假设定义了一个概念分层从而可以对专业属性进行概化又假设属性概化阈值置为5 在初始

10、数据集合中有25个不同取值则通过对属性概化和属性概化控制专业属性被概化到指定的概念如科学工程商学 2 基于属性归纳方法续 4 出生地该属性有大量不同值因此应当概化它设出生地的概念分层为城市省国家如果初始关系中国家取值超过了属性概化阈值则出生地应当删除因为尽管可以进行概化操作概化阈值也不会满足但如果假定国家的取值个数小于概化阈值则出生地应当概化到出生国家 2 基于属性归纳方法续 5 出生日期假定存在概念分层可以将出生日期概化到年龄而年龄概化到年龄分类并且年龄分类的区间数小于对应的属性概化阈值则应当对出生日期进行概化 2 基于属性归纳方法续 6

11、居住地假定居住地被属性号码街道城市省国家定义号码和街道的不同值一般很多而且这些概念的层次相当低因此号码和街道应当删除将居住地概化到居住城市这样可包含较少的不同值 2 基于属性归纳方法续 7 电话与属性姓名一样因包含太多不同值应当在概化中删除 8 GPA 假定存在GPA的概念分层将平均成绩分成若干区间如 3 75 4 0 3 5 3 75 也可相应的描述为优秀良好因此该属性可以被概化 2 基于属性归纳方法续概化过程会产生一系列内容相同的数据行相同内容的数据行被合并成一个并累计它们的计数值最终结果如下表对初始关系的数据进行基于属性归纳得到的广义

12、关系 3 基于属性归纳算法算法基于属性的归纳输入 1 关系DB 2 数据挖掘命令DMQuery 3 属性表a list 4 属性ai上的概念分层或概化操作符的集合Gen a 5 每个属性ai概化阈值a gen thresh a 3 基于属性归纳算法续输出主概化关系P 包含基于a list属性集的一个定性概念描述方法 1 W get task relevant data DMQuery DB 工作关系W存放任务相关的数据 2 prepare for generalization W 该步实现如下 3 基于属性归纳算法续 a 扫描W 收集每个ai属性取不同值的个数 b 对每个属性ai

13、根据给定的或缺省的属性阈值确定ai是否应当删除如果不删除则计算它的最小期望层次Li 并确定映射对 v v 基中v是W中ai的不同值 v 是其在层Li对应的概化值 3 基于属性归纳算法续 3 P generalization W 通过用其在映射中对应的v 替换W中每个值v 累计计数并计算所有聚集值导出主概化关系P 这一步可用下面两种方法有效实现 a 对每个概化元组通过二分检索将它插入主关系P中如果元组已在P中则简单地增加它的计数值并相应处理其他聚集值否则将它插入P 3 基于属性归纳算法续 b 在大部分情况下由于主关系层不同值的个数很少可以将主关系编码作为m 维数组

14、其中m是P中的属性数而每个维包含对应的概化属性值数组的每个元素存放对应的计数和其他聚集值概化元组的插入通过对应的数组元素上的度量聚集进行 4 基于属性归纳结果的表示基于属性归纳方法的挖掘结果可以有多种输出表示形式表格表示描述组合表表示描述棒图表示描述第七章概念描述 7 1概念描述基本知识7 2数据概化与基于汇总的特征化7 3解析特征化属性相关分析7 4挖掘概念比较区分不同的类 7 3解析特征化属性相关分析 1 属性相关分析意义在挖掘定性概念描述知识过程中 DW和OLAP工具中的多维数据分析有两个局限一是无法处理复杂对象二是缺乏自动概化过程 1 属性相关分析意义续通

15、常用户告诉数据挖掘系统每个维应当概化到多高层次并不困难但确定数据集的定性描述应包含哪些属性是一件困难的事我们引进一些方法进行属性或维相关分析以过滤掉统计上不相关或弱相关的属性而保留与挖掘任务最相关的属性 1 属性相关分析意义续包含属性维相关分析的类特征化称为解析特征化包含属性维相关分析的类比较称为解析比较直观上若一个属性的取值可以帮助有效地区分不同类别的数据集则这个属性就被认为是与相应类别数据集密切相关的 1 属性相关分析意义续例一辆汽车的颜色不太可能用于区分贵贱汽车类别但汽车的型号品牌制造商款式和气缸数可能是更相关的属性此外即使在同一个维

16、内对于区分一个类与其他类在不同的概念层也可能有很不相同的能力 1 属性相关分析意义续例在出生日维中生日和生月都不太可能与雇员的工资相关而只有年龄区间可能与雇员的工资高度相关这意味着相关分析应当在多层次进行并且只有那些最相关的维层次应当包含在分析中 1 属性相关分析意义续属性的相关性要根据属性区分一个类与其他类的能力来评估在挖掘概念比较时目标类和对比类要明显地在挖掘查询中给出前面在挖掘概念特征时只有一个被特征化的类即没有说明对比类哪些对比类应当用于相关分析并非是明显的在这种情况下除特征化的数据集外 DB中可比较的数据集都作为对比类 2 属性相关分析方法属性相关分析的基本思想计算某种度量用于量化属性与给定类或概念的相关性这些度量包括信息增益 Gini索引不确定性和相关系数 2 属性相关分析方法续下面介绍一种方法它将信息增益分析技术和基于多维数据分析的方法集成在一起该方法删除信息量较少的属性收集信息较多的属性用于概念描述分析这里以ID3决策树归纳学习方法为例进行介绍 2 属性相关分析方法续设S是训练样本的集合其中每个样本的

展开阅读全文