面向属性归纳综述－金锄头文库

资源描述

《面向属性归纳综述》由会员分享，可在线阅读，更多相关《面向属性归纳综述（5页珍藏版）》请在金锄头文库上搜索。

1、面向属性归纳综述摘要面向属性的归纳是新近提出的一种广泛用于数据库中知识发现的方法。本文综合叙述了面向属性归纳的概念、主要思想和面向属性归纳的基本方法以及算法；对面向属性归纳的应用例子进行了简单的综合描述。1、引言在“数据爆炸但知识贫乏”的网络时代，人们希望能够对数据进行更高层次的分析，以便更好地利用这些数据或者说可以用于决策的知识，基于此，知识发现或者数据挖掘技术产生了，并显示出强大的生命力。基于数据库的知识发现（KDD）一词最早是在1989年8月于美国底特律市召开的第一届KDD国际学术会议上正式形成的；1996年，Fayyad, Piatetsky-Shapio和Smyth将KDD过程定

2、义为:从数据集中识别出有效的、新颖的、潜在有用的、以及最终可理解的模式的非平凡过程；并指出数据挖掘是知识发现的核心部分，是重要步骤，是采用机器学习、统计等方法进行知识学习的阶段，其中数据挖掘技术就包含面向归纳方法。面向属性的归纳(AOI, Attribute Oriented Induction) 是一种面向关系数据库查询的、基于概化的、联机的数据分析处理技术, 是用于数据库的知识发现方法。最早于1989年Jiawei Han等人提出, 并对此作了比较全面的介绍。这种方法在知识发现中发挥着重要的作用。2、面向属性的归纳面向属性的归纳使用概念分层，通过以高层概念替换低层数据概化训练数据，目前是

3、数据挖掘主要技术之一。面向属性归纳方法是面向查询的、基于泛化的联机数据分析处理技术。为了有效地进行知识发现，为了使用户得到高层次、适当概括的简化信息，通常采用面向属性的归纳技术，通过属性泛化和属性约简，对原始数据作必要的处理；面向属性的归纳是目前主要的数据归约方法。其主要思想是: 首先使用关系数据库查询收集任务相关的数据; 然后通过考察任务相关数据中每个属性的不同值的数量, 进行属性概化。生成的结果广义关系可以映射到不同形式, 如图表或规则, 提供给用户。AOI主要用来归纳数据，应用于大数据集，一方面能够让用户在一个更有意义的概念层来观察数据，另一方面AOI极大地缩小了数据的向量空间；减少了数

4、据的读写次数，节省了空间。这种多维多层次的数据概化分析与数据仓库中的多维数据分析，即在线分析处理(简称OLAP)功能相似，但是存在着的区别是：（1）目前许多OLAP所处理的属性只能是非数值类型的，而处理功能也仅能用于对数值数据的处理；而在概念描述形成过程中，数据库中的数据可以足各种类型，其中包括:数值型、非数值型、文本型、图像；数据库概念描述则能够处理复杂数据类型和对复杂数据进行处理；（2）数据仓库中在线分析处理过程完全是一个用户控制驱使的过程，选择所分析维(属性)和有关OLAP操作均是由用户控制的；与此相比，概念描述则是一个更加自动化的数据挖掘过程，它的目的就是帮助用户找到更有趣的数据。3、

5、面向属性归纳的方法以及基本的算法3.1 面向属性归纳的基本方法是属性聚焦，属性删除，属性概化，属性概化阈值控制，概化关系阈值控制，概化的表示。（1）属性聚焦选择和当前分析相关的数据，包括属性和维，选择相关的数据集可以提高挖掘效果，还能够产生更有意义的规则，我们可以从描述过程中删除些不相关的或弱相关的属性来提高概化的效率。执行数据挖掘查询语言后收集到的任务相关的数据集被称为初始工作关系。（2）属性删除如果某个属性包含大量的不同值，那么，在下列两种情况下，该属性就应该被删除：（1）在该属性上没有概化操作；如果保留该属性，就会产生不简洁的规则；（2）它的较高层概念己经有其他属性表示，在这种情

6、况下，删除该属性等价于使用了概化操作。（3）属性概化“属性具有大量不同的值”的度取决于属性或应用；如果属性概化得过高，会导致过分概化;如果属性不能在足够高的层次概化，会导致概化不足。过分概化和概化不足都会使产生的规则包含的信息量不够。因此需要对属性概化过程进行有效的控制。常用的控制方法有两种:属性概化阈值控制和概化关系阈值控制。（4）属性概化阈值控制属性概化阈值规定属性不同值的个数可以允许的上限。可以对每个属性设置一个阈值，也可以对所有的属性设置同一个阈值。通常情况下，数据挖掘系统都有一个缺省的属性概化阈值，取位范围为2-8.属性概化阈值也可以由用户或专家指定或调整，加大闽值可以降低概化的层

7、次，减小闽值可以提高概化的层次。（5）概化关系阈值控制概化关系阈值也可以由用户或专家指定或调整，加大阈值可以降低概化的层次，减小阈值可以提高概化的层次。在实际的操作中，可以根据用户调整这两种控制方法的顺序。（6）概化的表示方式通过概化处理可以得到原始数据集的概化关系。通常，直接向用户提供概化关系作为最终的概念描述，有时也以交叉表、饼状图、柱状图、曲线、数据立方体或量化规则等更加直观或抽象的形式描述概化果。3.2 面向属性归纳的基本算法输入: (i)关系数据库DB;(ii)数据挖掘查询DM Query;( iii)属性表t list(包含属性ti等); (iv)属性ti上的概念分层或概化操作

8、符的集合Gen(ti);(v)每个属性ti的概化阈值genthresh(ti)。输出: 主概化关系P。方法: 方法概述如下。1. W get task relevant data (DM Query,DB); 2. PREPARE FOR GENERALIZATION (W); (a) 扫描W , 收集每个属性ti的不同值。(注意: 如果W很大,可以通过考察W的样本来做。)(b) 对于每个属性ti根据给定的或缺省的属性阈值, 确定ti是否应当删除;如果不删除,则计算它的最小期望层次Li, 并确定映射对(v, v) , 其中,v是W中ti的不同值, 而v是其在层Li。对应的概化值。3. Pgen

9、eralization (W )。通过用其在映射中对应的v替换W中的每个值v,累计计数并计算所有聚集值, 导出主概化关系P。这一步可以用下面两种方法有效地实现:(1) 对于每个概化元组, 通过二分检索将它插入主关系P中。如果元组已在P 中, 则简单地增加它的计数值并相应地处理其他的聚集值; 否则, 将它插入P。(2) 在大部分情况下, 由于主关系层不同值的个数很少, 可以将主关系编码, 作为m - 维数组, 其中m 是P 中的属性数, 而每个维包含对应的概化属性值。数组的每个元素存放对应的计数和其他聚集值(如果有的话)。概化元组的插入通过对应的数组元素上的度量聚集进行。4、面向属性归纳的相关

10、应用随着数据库技术的广泛应用, 各行各业都积累了大量的数据, 这些数据的内在联系可能就是有价值的知识, 应用数据挖掘面向属性的归纳方法发现并提取这些知识, 有十分重要的现实意义，目前这种技术已经用于各行业中，比如农业、工业和服务业等行业中，为各个行业的决策提供更好的信息更有力的数据信息。由于面向属性归纳技术不是很完善的，存在着一些不足之处；例如面向属性的归纳方法用于在关系数据库中发现知识,这种方法没有分析属性数据间的依赖关系,因而产生的规则不精确,带有一定的冗余信息等，这就使得面向属性归纳方法可以和其他技术想结合，比如与K-means方法，与概念聚类方法结合形成更加有效的获取知识的方法，能更好

11、的运用到各个行业中，形成了更有效的决策途径。5、总结本文主要对面向属性归纳进行综合的讲述，面向属性归纳是数据挖掘的主要技术之一；综上所述，数据挖掘的主要对象一般是具有极其大量数据的关系数据库.由于数据量大，所以有很多噪音数据.而原有的挖掘方法大多对噪音数据处理不了.因而使很多有用的知识挖掘不出来，为了提高数据提取效率，获得更加有价值的知识，面向属性归纳技术出现了。面向属性归纳的基本方法是数据收集，属性删除，属性概化，阈值控制；由于面向属性归纳存在着一些不足，可以与其他技术相结合形成更加有效的知识获取方法；目前面向属性的归纳与各应用行业数据的结合的方式并不完善，仍然值得我们去深入的探索和研究从

12、大量的数据中提取隐含的、未知的、对决策有潜在价值的知识和规则。参考文献1、黄红艳，才秀凤面向属性的归纳方法研究J科技信息，2007（24）；2、伍小荣，谢立宏面向属性的归纳与概念聚类J计算机工程，2003，29(5)；3、孙华梅，郭茂祖，焦杰，黄梯云一种新的面向属性归纳中概念层次技术研究J.管理科学学报，2004，7(1);4、吴蓉运用SQL实现面向属性归纳的算法J电脑知识与技术，2008,4(1):4-6;5、薛军，陈英.基于AOI的客户行为分析方法J. 计算机应用与软件，2008,25 (6);6、周晓洁，白杨，孙艳华，孙恩昌，张延华.基于数据归约和面向属性归纳的网络流量分析系统J. 中国

13、电子科学研究院学报，2009(4);7、田扬戈，边馥苓.基于概念聚类和面向属性归纳的区划分析J. 武汉大学学报(信息科学报)，2005(30);8、Jiawei Han ,Micheline Kamber. Data Mining Concepts and Techniques M. China Machine Press, 2001. 89、徐如燕，李刚，张惠民，香汉榕关系数据库中面向属性的泛化和约简J.计算机工程与设计，2000,21(6);10、张文宇, 张铭华基于面向属性泛化及信息增益的数据挖掘方法研究J. 计算机应用,2006,26(4);11、孔德剑面向属性归纳的数据概化方法研究J.计算机应用技术，2006 .

展开阅读全文