模糊聚类理论发展及研究毕业论文

资源描述

《模糊聚类理论发展及研究毕业论文》由会员分享，可在线阅读，更多相关《模糊聚类理论发展及研究毕业论文（14页珍藏版）》请在金锄头文库上搜索。

1、模糊聚类理论发展及研究摘要从模糊聚类准则函数的演化、算法实现的途径、有效性度量方式以及在模式识别与图像处理中的应用等4个方面对模糊聚类理论的研究进展做了综述和评价，指出模糊聚类进一步研究的几个重要方向及其应用前景.关键词聚类分析模糊聚类聚类有效性模式识别图像处理聚类就是按照事物间的相似性进行区分和分类的过程，在这一过程中没有教师指导，因此是一种无监督的分类.聚类分析则是用数学方法研究和处理所给定对象的分类.“人以群分，物以类聚”，聚类是一个古老的问题，它伴随着人类社会的产生和发展而不断深化，人类要认识世界就必须区别不同的事物并认识事物间的相似性1.传统的聚类分析是一种硬划分，它把每个待辨识

2、的对象严格地划分到某个类中，具有非此即彼的性质，因此这种分类的类别界限是分明的.而实际上大多数对象并没有严格的属性，它们在性态和类属方面存在着中介性，适合进行软划分.Zadeh2提出的模糊集理论为这种软划分提供了有力的分析工具，人们开始用模糊的方法来处理聚类问题，并称之为模糊聚类分析.由于模糊聚类得到了样本属于各个类别的不确定性程度，表达了样本类属的中介性，即建立起了样本对于类别的不确定性的描述，能更客观地反映现实世界，从而成为聚类分析研究的主流.模糊划分的概念最早由Ruspini3提出，利用这一概念人们提出了多种聚类方法，比较典型的有：基于相似性关系和模糊关系的方法(包括聚合法和分裂法)

3、4，基于模糊等价关系的传递闭包方法5、基于模糊图论最大树方法6，以及基于数据集的凸分解、动态规划和难以辨识关系等方法.然而由于上述方法不适用于大数据量情况，难以满足实时性要求高的场合，因此其实际的应用不够广泛，故在该方面的研究也就逐步减少了.实际中受到普遍欢迎的是基于目标函数的方法，该方法设计简单、解决问题的范围广，最终还可以转化为优化问题而借助经典数学的非线性规划理论求解，并易于计算机实现.因此，随着计算机的应用和发展，该类方法成为聚类研究的热点.以下将从目标函数的演化、算法的实现途径、有效性度量方式以及在实际中的应用等4个方面综述基于目标函数的模糊聚类方法的研究进展.有关传统聚类分析

4、以及其他的模糊聚类方法的系统总结可参见文献1，710.1模糊聚类目标函数的演化模糊聚类问题可以用数学语言描述为：把一组给定的模式O=o1,o2,，on划分为c个模糊子集(聚类)S1,S2,Sc.如果用ik(1ic, 1kn)表示模式ok隶属于模糊子集Si的程度，那么就得到了这组模式的模糊c-划分U=ik|1ic, 1kn.完成这样一组无类别标记模式集模糊划分的操作就是模糊聚类分析.为了获得有意义的分类，需要定义划分的准则，如相似性或相异性准则D(.)等.假定每个模糊子集Si(1ic)都有一个典型模式pi，常被称做聚类原型，这样任一模式ok与模糊子集Si的相似性可以通过模式ok与聚类原型pi间的

5、失真度dik=D(ok,pi)来度量.基于目标函数的模糊聚类主要是利用模式集O的观测值X=x1,x2,xnRs与原型特征值B=i, 1ic之间的距离构造一个目标函数，然后通过优化这一带约束的非线性规划问题获得最佳的模糊c-划分：(1)其中，为惩罚项，f(ik)C为约束条件，m为加权指数.这样，模糊聚类的目标函数就由参量集U,D(.),B,m,X而确定.对应于这些参量，模糊聚类目标函数的发展演化可以从以下5个大的方面来概括.1.1对模糊划分矩阵U的研究传统的聚拎分析为一种硬划分，i(xk)0,1为样本xk类属的指示函数，而类别标记矢量(xk)=(1k,2k,ck)T则成为欧氏c-空间的基矢量.

6、为了表达模式间的相近信息，Ruspini3引入了模糊划分的概念，令i(xk)0,1，把标记矢量(xk)扩展为欧氏c-空间中的超平面，这样标记矢量既可称做模糊标记又可称为概率标记.由于存在概率约束，使得隶属函数只能表示模式在模糊类间的分享程度，而不能反映典型性，为此Krishnapuram等人11提出可能性c-划分的概念，放松了概率约束，从而使标记矢量(xk) 变为除去原点的单位超立方体.由此而产生的可能性聚类算法具有良好的抗噪性能，但收敛速度慢，容易陷入局部极值点而得不到最优分类.为了结合传统硬聚类的收敛速度和模糊聚类的对初始化不敏感(获得全局最优解的概率大)而且能反映样本间相近信息等优点，

7、Selim和Ismail12提出了半模糊划分的概念，只保留划分矩阵中较模糊的元素，其余的元素作去模糊处理.这样使划分矩阵U既具有一定的明晰性，又保持了样本在空间分布的模糊性，从而提高了分类识别的正确性.后来，Kamel等人13以及裴继红等人14分别从不同的角度提出了改进型的半模糊划分方法，即为阈值型软聚类算法和截集模糊软聚类算法.上述几种软划分的比较显示在表1中.表14种空间划分概念的比较项目可能性聚类模糊聚类传统聚类半模糊聚类标记矢量集Npc=0,1c-OO=(0,0,0)TNhc=iNfc:i0,1,iNsc=NfcNhc物理意义表示每个样本属于各类的典型程度表示每个样本在各类间的分享程度

8、是样本严格类属的指示函数只有部分样本类分模糊收敛速度慢较慢快较快对初始化的敏感性很敏感不很敏感敏感不很敏感抗噪性能强较强弱较强如何提高可能性划分的收敛速度并降低它对初始化的敏感程度，仍然是从模糊划分角度进一步研究模糊聚类的一个重要方向. 如果在这方面有所突破，就可以得到一种既具有良好的抗噪鲁棒性，同时又能快速收敛到满意解的空间划分方法，不仅能从理论上完善现有的模糊软聚类方法，也必将缩短它的实用化进程.1.2对相似性准则D(.)的研究单一的聚类准则不能解决所有可能的无监督分类问题，因此人们提出了多种相似性函数，比如：最大似然准则15、最大熵准则16、最小体积准则17和信息论准则18等.不过，实际

9、中最常用的还是基于最小类内加权平方误差和准则.经典的类内平方误差和(WGSS: within-group sum of squared error)准则函数最早被用来定义传统的硬c-均值聚类算法和ISODATA算法.随着模糊集理论的提出，Dunn19首先把它推广到加权的WGSS函数，后由Bezdek20扩展到加权WGSS的无限族，形成了模糊c-均值类型算法的通用聚类准则，形式如式(1)所示.对该准则函数的研究主要集中在相似性测度或者误差度量D(.)上，一般用样本与原型间的距离表示.不同距离度量用来检测不同结构的数据子集，常用的距离函数见表2. 表2常见的距离函数及特点名称距离函数特点功能Min

10、kowski对应1p为一族距离测度，可用来检测从形超立方体到形超立方体结构的数据子集Euclidean对应p=2的Minkowski距离，可用以检测特征空间中形超球体结构的数据子集Hamming对应p=1的Minkowski距离，可用以检测特征空间中形超立方体结构的数据子集Maximum对应p=的Minkowski距离，可用以检测特征空间中形超立方体结构的数据子集MahalanobisDA(a,b)=(a-b)TA(a-b),A为正定矩形可用来检测特征空间中超椭球结构的数据子集Bobrowski等人21分别讨论了L1和L范数下的模糊聚类算法(即Hamming和Maximum距离)，发现在许多情

11、况下它们比常用的欧氏范数L2能获得更好的结果，建议在聚类分析中要选择合适的距离函数.另外Mahalanobis距离的一种特例加权欧氏距离(对应A为对角阵)还被广泛地使用于模式各维特征对分类贡献不同的应用背景22.在给定数据中搜索一个结构可以看做寻找合适的距离函数.这就给我们留下了一个问题：选择合适距离的准则是什么?能否构造一种不依赖于事先定义距离测度的模糊聚类算法?现有文献很少涉及这一问题，仍属于有待解决的范畴.1.3对聚类原型B的研究基于目标函数的模糊聚类又称做基于原型的聚类，因为目标函数的构造依赖于原型的定义，因此原型的类型必须事先给定.聚类原型的研究是伴随着聚类应用的发展和需求而展开的

12、，最初的聚类分析只应用于特征空间中超球体聚类结构的检测，因此原型为特征空间中的“点”，或者叫聚类中心20；为了处理非超球体的聚类结构，Bezdek23提出了通过点vRp的r(0rp-1)维线性簇原型Br(v:si)=v+Span(si)，其特点见表3. 表3几种原型的特点比较线性簇维数聚类原型功能特点r=0B0(v;I)=v：点检测超球体和椭球体结构的子集r=1B1(v;s)=L(v;s)：线检测线性结构的模式子集r=2B2(v;s1,s2)=P(v;s1,s2):平面检测平面结构的模式子集2rp-1Bp-1(v；si)=HP(v；si)：超平面检测超平面结构的模式子集此外，为了检测呈“薄壳”

13、结构的模式子集，Dave提出球壳24和椭球壳25两种原型，并将其应用于边缘检测中获得了较好的效果.随着应用的需求壳原型被推广到矩形壳26、多面体壳27以及任意形状的壳原型28等多种类型，而对于线性原型也逐步被扩展为抛物线29、二次曲线以及任意二次多项式形式的原型30.基于目标函数的聚类对原型有较强的依赖性，因此要求一方面必须充分利用先验知识选择合适的原型，另一方面必须与距离测度相结合研究，构造合理的相似性度量.1.4对加权指数m的研究在模糊聚类目标函数Jm: 1m中，Bezdek20引入了加权指数m，使Dunn的聚类准则变成m=2时的特例.有人认为从数学上看参数m的出现不自然也没有必要16，但

14、是对于从硬聚类准则函数推广得到的目标函数(1)，如果不给隶属度乘一个权重，这种推广则是无效的.参数m又称为平滑因子，控制着模式在模糊类间的分享程度20，因此，要实现模糊聚类就必须选定一个m，然而最佳m的选取目前尚缺乏理论指导.Bezdek31给出过一个经验范围1.1m5；后又从物理解释上得出m=2最有意义；Chan等人32从汉字识别的应用背景得出m的最佳取值应在1.251.75之间；Bezdek等人33从算法收敛性角度着手，得出m的取值与样本数目n有关的结论，建议m的取值要大于n/(n-2)；Pal等人34则从聚类有效性的实验研究中得到m的最佳选取区间应为1.5，2.5，在不作特殊要求下可取区

15、间中值m=2.上述有关m取值范围，大都来自实验和经验，均为启发式的，一方面不够系统，另一方面没有给出具体的优选算法.此外，也还缺乏最优m的检验方法.这一系列的开放问题，都值得进一步的探索，以便奠定m优选的理论基础.1.5对各种数据集X聚类的研究在实际应用中会遇到不同的数据类型，因此要研究模糊聚类的目标函数就必须首先研究所要处理的数据类型.常见的数据大都为特征空间中的点集，除此以外，人们还研究了关系数据35、方向数据36、区间型数据和模糊数37等形式，并得出了一些有意义的结论.还有一种类型的数据符号数据38，也引起了广泛的关注.这种数据不仅包括一般数值型数据，还包括区间数、模糊数和语言量等形式，在模糊概念聚类方面有着较多

展开阅读全文