数据挖掘方法综述－金锄头文库

资源描述

《数据挖掘方法综述》由会员分享，可在线阅读，更多相关《数据挖掘方法综述（4页珍藏版）》请在金锄头文库上搜索。

1、第?期年?月计算机!#%场涌)! ? ;) % ;!:1 /,) 城; 介扣 ; ) ; ? )71加% ;%) %,压%;陇 ) ?而 ?; %; !? ; 8 ?) 1 %)9) !%)! ; 习8) ! ;)眼,1?; %眼?; %; 8 _6. 0 !段礼祥男,副教授,博士,主要从事机械设备状态监测与故障诊断方面的研究闰春颖女,硕士研究生,主要从事管道泄漏诊断、控制工程等方面研究02 挖挖掘任务务, , , 匕聚聚聚聚数数数预预预关关关序序序趋趋趋异异类类类类据据据测测测联联联列列列势势势常常总总总总总总总棋棋棋规规规棋棋棋发发发发发纺纺纺纺型型型则则则式式式现现发发发发发发发发

2、发发发发发发发现现现现现现现现现图根据挖掘任务分类数据挖掘技术和算法数据挖掘技术和算法很多,且各有其适用的领域,下面就常用的数据挖掘方法进行概述,并分析各自的适用范围和优缺点。06决策树决策树是一种以树型结构表示分类或决策集合,产生规则和发现规律,寻找数据库中具有最大信息量的字段,建立决策树的一个人工智能和识别技术。由于它是以树状结构的图形来表示模型的,因此容易理解,它已成为常用的工具。算法通常有1 :5 ),匆; %) ! % )9)%)! ; ?算法优点是在寻找每个结点的最优分裂标准时变得相对简单一些?其缺点是对非分裂属性的属性列表进行分裂变得很困难。解决的办法是对分裂属性进行分裂时用哈

3、希表)记录下每个记录属于哪个孩子结点,若内存能够容纳下整个哈希表,其它属性列表的分裂只需参照该哈希表即可。遗传算法遗传算法川是一种全新的最佳化空间搜寻法,其最初概念是由8 7 86于= %年提出的,是一种基于生物进化理论的技术,其基本观点是“适者生存”,用于数据挖掘中,则常把任务表示为一种搜索间题,利用遗传算法强大的搜索能力找到最优解,是一种仿生全局优化方法。具体来讲,就是模仿生物进化的过程,反复进行选择、交叉和突变遗传操作,直至满足最优解。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。遗传算法已在优化计算和分类机器学习方面显示了明显的优势。遗传算法综合了定

4、向搜索与随机搜索的优点,避免了大多数经典优化方法基于目标函数的梯度或高阶导数而易陷人局部最优的缺陷,可以取得较好的区域搜索与空间扩展的平衡。在运算时随机的多样性群体和交叉运算利于扩展搜索空间?随着高适应值的获得,交叉运算利于在这些解周围探索。遗传算法由于通过保持一个潜在解的群体进行多方向的搜索而有能力跳出局部最优解。此外遗传算法的优点还有它容易并行化,但它也存在许多缺点遗传算法对于最终用户来说很难理解和解释?问题抽象和个体表述十分困难?最佳的适应度函数难以确定?杂交和变异过程难以确定。人工神经网络神经网络. 7 2 07 97 :4 8 ;反向传播模型、函数型网络为代表的,用于分类、预测和模

5、式识别的前馈式神经网络模型?以0 41 6的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型?以?. 67 :431? 1587 81 1 汀;模型、 8模型为代表的,用于聚类的自组织映射方法。神经网络是数据挖掘中重要方法之一,其优势为代表的这一类神经网络只适用于平稳环境,学习算法计算的费用较高,不具备自学能力,不能进行快速学习、记忆以及学习能力之间存在冲突等问题,虽有多种改进算法,但仍不能从根本上解决这些问题。另外,此类神经网络借鉴了人脑的物理结构,存储在神经网络中的知识往往以连接权值的形式表现出来,这种形式本身很难理解,因而,此类神经网络也曾被比喻为黑箱模型

6、。经典 .1 , 978 4 7:4 81 7:/2 170;神经网络可以用于聚类或者分类,但其竞争层神经元个数要求事先指定,这种限制极大地影响了其在实际中的使用。0?关联规则关联规则 . 在数据库的记录和对象间抽取关联性,是一种简单、实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。它是由掩; ; 等人首先提出的,最经典的关联规则的挖掘算法是1 )! ),该算法先挖出所有的频繁项集,然后由频繁项集产生关联规则,许多关联规则频繁项集的挖掘算法都是由它演变而来的,如1)! ) )?和1)!)8 )?。关联性是一种统计意义上的关系,并以置信度因子衡

7、量关联的程度。通常须设定最小置信度作为阂值。关联规则在数据挖掘领域应用很广泛,适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制,关联规则在数据挖掘领域最典型的应用是购物篮分析。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值。1 )! ) ) ?算法的优点即仅在第6次扫描时用事务数据库:计算候选频繁项集的支持度,其它各次扫描用其上一次扫描生成的候选事务数据库:来计算候选频繁项集的支持度。如此将减少对数据库的扫描次数,在一定情况下能迅速削减候选频

8、繁项集。即使进行了优化,但是1 )! ) )?方法一些固有的缺陷还是无法克服?可能产生大量的候选集,当长度为=的频集有= 个的时候,长度为的候选集个数将会超过= ,如果要生成一个很长的规则的时候,要产生的中间元素也是巨大量的? 可能需要重复扫描数据库,通过模式匹配检查一个很大的候选集?# 无法对稀有信息进行分析。%粗集方法粗集理论是在缺少关于数据先验知识的情况下,如统计学中的概率分布、模糊集理论中的隶属度或隶属函数等,而是直接从给定问题出发,通过不可分辨关系和不可分辨类确定问题的近似域,从而找出问题中的内在规律。粗集理论同模糊集、神经网络、证据理论等其它理论均成为不确定性计算的一个重要分支

9、。在数据挖掘领域,粗集方法广泛应于不精确、不确定、不完全的信息的分类和知识获取。目前比较有代表性的监督离散化方法有以下几种? : 1提出了一种贪婪的单规则离散器.。8 12 /1 645 2 1: 4 1 2 ;方法?统计检验方法?#信息嫡方法等。以上几种方法各有特点,但都存在一个不足每个属性的离散化过程是相互独立的,忽略了属性之间的关联,从而使得离散的结果中含有冗余或不合理的分割点。粗集的数学基础是集合论,难以直接处理连续的属性,而现实决策表中连续属性是普遍存在的,因此连续属性的离散化是制约粗集理论实用化的难点之一。模糊集方法模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策

10、、模糊模式识别和模糊聚类分析,是另一种应用较早的处理不确定性问题的有效方法。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型云模型,并形成了云理论。模糊理论具有知识表示可读性强、推理过程严谨这些优点,易于理解、引人启发性知识及追踪推理过程,能够有效处理专家的语言知识和经验形成模糊规则库。设计适当的模糊逻辑系统可在任意精度上逼近某个非线性函数,适当确定好模糊关系矩阵、模糊隶属度向量,成功地实现语言变量与隶属函数之间的转换,能够对知识进行解释利用分类。聚类分析方法聚类分析法 .: 7:45:417 2 92田刀 2乳147 4181 1 5;。 41 27 2 41 7层次方法 ) =;,; =伪%;) %)!# %)! ;% 9%) ? 幻0=, ( 卜6?,24.: : 0=,一( :一6 块); ,0=! ?;%) 讲/!064,23 3( ) ); 0% ; 州? ? ;?)!)%!?、6 ? /+ 0:, 二,233 3幻习妇一,厂0, ,00?胜 ! #匕产一%& &

展开阅读全文