K均值改进聚类ppt课件

资源描述

《K均值改进聚类ppt课件》由会员分享，可在线阅读，更多相关《K均值改进聚类ppt课件（21页珍藏版）》请在金锄头文库上搜索。

1、基于取样思想的改进C均值聚类1目目录录 C-均值算法的缺陷分析均值算法的缺陷分析改进改进C均值算法的分析均值算法的分析matlab编程所用到函数介绍编程所用到函数介绍 matlab算法程序介绍算法程序介绍结果分析结果分析结论结论 2一一. C-均值算法的缺陷分析均值算法的缺陷分析1.聚类个数C需要预先给定有的算法是通过类的自动合并和分裂，得到较为合理的类型数目C，例如用ISODATA算法，得到初始的聚类数目C。然后运用C均值算法进行聚类分析。聚类数目C值的确定也可根据方差分析理论，F统计量来确定最佳分类数，并应用模糊划分嫡来验证最佳分类数的正确性。3一一. C-均值算法的缺陷分析均值算法的缺

2、陷分析2.算法对初值敏感在C-means算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为C-means算法的一个主要问题。对于该问题的解决，许多算法采用遗传算法进行初始化，以内部聚类准则作为评价指标。4一一. C-均值算法的缺陷分析均值算法的缺陷分析o3.局部极小解的问题o聚类问题本质是一个优化问题的，这就是通过一种迭代运算使得系统的目标函数达到一个极小值。但是这个目标函数在状态空间中不是一个非凸函数，它有许多极小值，其中只有一个是全局极小值，而其他的都是局部极小

3、值。求解的目标是得到全局最小值，而不是其它的局部极小值。这也是目前一些聚类算法，经常会遇到的总是,常会在求解过程中陷入局部最优，而得不到全局最优。5二二. .改进改进C C均值算法的分析均值算法的分析在K均值算法中，选择不同的初始聚类中心会产生不同的聚类结果且有不同的准确率，此方法就是如何找到与数据在空间分布上尽可能一致的初始聚类中心。对数据进行划分，最根本的目的是使一个聚类中的对象是相似的，而不同聚类中的对象是不相似的。如果用距离表示对象之间的相似性程度，相似对象之间的距离比不相似对象之间的距离要小。如果能够寻找到K个初始中心，它们分别代表了相似程度较大的数据集合，那么就找到了与数据在空间

4、分布上相一致的初始聚类中心。6二二. .改进改进C C均值算法的分析均值算法的分析 o目前，初始聚类中心选取的方法有很多种，在此仅介绍两种：o1.基于最小距离的初始聚类中心选取法o(1)计算数据对象两两之间的距离;o(2)找出距离最近的两个数据对象,形成一个数据对象集合A1,并将它们从总的数据集合U中删除;o(3)计算A1中每一个数据对象与数据对象集合U中每一个样本的距离,找出在U中与A1中最近的数据对象,将它并入集合A1并从U中删除,直到A1中的数据对象个数到达一定阈值;o(4)再从U中找到样本两两间距离最近的两个数据对象构成A2,重复上面的过程,直到形成k个对象集合;o(5)最后对k个对象

5、集合分别进行算术平均,形成k个初始聚类中心。7二二. .改进改进C C均值算法的分析均值算法的分析 o2.基于取样思想的改进C均值算法o基于以上对C均值算法的分析，我提出自己的改进算法。首先采用对所给的样本数据进行K-means算法进行聚类，产生一组聚类中心。然后将这组聚类中心作为初始聚类中心，在采用n次K-means算法进行聚类。然后判断两次聚类得到的中心是否一致，直到一致则结束聚类。在此，也可以在第一步中，对样本数据采用K-means算法进行n次聚类运算，每次产生一组聚类中心，对n组聚类中心进行算术平均，从而得到c组初始聚类中心。8三三.matlab.matlab编程所用到函数介绍编程所用

6、到函数介绍 o1.IDX,C=kmeans(data,k)lIDX：聚类结果lC：聚类中心lk：分类个数ldata：要聚类的数据集合，每一行为一个样本。9三三.matlab.matlab编程所用到函数介绍编程所用到函数介绍 2.mean函数l函数原型：mean(A，dim)l参数：lA待求解均值的矩阵ldim默认dim=1，就会求每一列的均值；当dim=2时，就会求每一行的均值。10四四.matlab.matlab算法程序介绍算法程序介绍o程序主要包括两部分，一个聚类中心的提取，另一个是重新进行聚类划分。l%计算初始聚类中心lclc;clear;l%使用c-均值得到初始分类lfunctiony

7、y=Kmeans2()；ldata=xlsread(E:模式识别数据data)%载入数据lIDX,C=kmeans(data,4);lCly=1:59;lz=data,IDX;lx=z;y;l%初始聚类中心的提取l%kmeans初始算得的聚类中心在矩阵C中lx1=;x2=;x3=;x4=;lfori=1:5911四四.matlab.matlab算法程序介绍算法程序介绍lifx(4,i)=1lx1=x1,x(:,i);lelseifx(4,i)=2lx2=x2,x(:,i);lelseifx(4,i)=3lx3=x3,x(:,i);lelsex(4,i)=4lx4=x4,x(:,i);lendl

8、endlformatshortglx1=C(1,:);lx2=C(2,:);lx3=C(3,:);lx4=C(4,:);12四四.matlab.matlab算法程序介绍算法程序介绍lx=x(1:3,:);x(5,:);lxx=mean(x1,2),mean(x2,2),mean(x3,2),mean(x4,2);lxxx=ones(3,4);lj=0;lwhilexx=xxxlxx=xxx;l%迭代求解聚类中心ld1=;d2=;d3=;d4=;lfori=1:size(z,2)d1=d1,round(1000*sum(x(1:3,i)-mean(x1,2).2)/1000;ld2=d2,rou

9、nd(1000*sum(x(1:3,i)-mean(x2,2).2)/1000;ld3=d3,round(1000*sum(x(1:3,i)-mean(x3,2).2)/1000;ld4=d4,round(1000*sum(x(1:3,i)-mean(x4,2).2)/1000;lendld1,d2,d3,d4l%d1,d2,d3,d4%这四组数据分别存储了49个点分别与四个聚类中心的距离13四四.matlab.matlab算法程序介绍算法程序介绍lww1=;ww2=;ww3=;ww4=;l%取与聚类中心最近的那个点，并将其归入相应类lfori=1:size(z,2)lifmin(d1(i),

10、d2(i),d3(i),d4(i)=d1(i)lww1=ww1,x(:,i);lelseifmin(d1(i),d2(i),d3(i),d4(i)=d2(i)lww2=ww2,x(:,i);lelseifmin(d1(i),d2(i),d3(i),d4(i)=d3(i)lww3=ww3,x(:,i);lelselww4=ww4,x(:,i);lendlendlx1=ww1(1:3,:);lx2=ww2(1:3,:);lx3=ww3(1:3,:);14四四.matlab.matlab算法程序介绍算法程序介绍lx4=ww4(1:3,:);lxxx=mean(x1,2),mean(x2,2),mea

11、n(x3,2),mean(x4,2)lyyy=xxxlendlww1lww2lww3lww4lplot3(ww1(1,:),ww1(2,:),ww1(3,:),s,ww2(1,:),ww2(2,:),ww2(3,:),*,ww3(1,:),ww3(2,:),ww3(3,:),o,ww4(1,:),ww4(2,:),ww4(3,:),*)%绘制三维图lgrid15五五. .结果分析结果分析 C=1.0e+03*1.21061.87802.95792.33273.07891.07590.30103.22282.25021.73321.73561.9762ww1=1至6列864.45877.8814

12、18.81449.6867.811494.61647.32031.71775.91641.62334.72072.62665.93071.22772.93405.12535.12550.546162532397至10列1243.11495.21125.21269.11814.11957.41594.41910.73441.134982937.727024253545616五五. .结果分析结果分析 ww2=1至6列2352.12297.32092.62205.42949.22802.925573340.13177.23243.73244.43017.11411.5535.62584.32120

13、2.7662.421985814151819227至12列2063.523752271.92336.32144.52201.93199.8334734832640.32501.63196.21257.2975.31946.71599.6591.51935.5324353643454913列2232.43077.91298.95017五五. .结果分析结果分析 ww3=1至6列373.3222.85401.3363.34104.8499.853087.13059.53259.93477.93389.83305.82429.52002.321512462.92421.82196.225910121

14、37至12列172.78341.59291.02237.63460.69198.833084.53076.63095.73077.83274.83250.42328.72438.62088.9225221732445.123272829343813至16列354426.31343.0724.223300.13105.33271.73447.32373.62057.82036.921454446485518五五. .结果分析结果分析 ww4=1至6列1739.91756.81803.61571.21845.61692.61675.216521583.117311918.81867.5239615

15、152163.11735.32226.521091371117207至12列1680.71651.51702.81877.91831.51783.61575.81713.31639.818611713.115981725.11570.42068.71975.31604.72261.321263031333713至18列15971598.91507.11580.11962.41802.11921.51921.11556.91752.115951725.82126.81623.31954.5246318361966.340414751525719至20列1817.41860.51927.41782.92328.81875.1585919五五. .结果分析结果分析 20六六. .结论结论本文鉴于初始聚类中心对C均值聚类算法的影响，以及C均值聚类算法的不足，构造了改进C均值的聚类算法。该算法通过两种方法选取初始聚类中心，然后在给定初始聚类中心的基础上再次使用K均值聚类算法，从而得出聚类结果。全部样本与已知样本完全符合。21

展开阅读全文

K均值改进聚类ppt课件

最新文档