第5章聚类分析5.45.5－金锄头文库

资源描述

《第5章聚类分析5.45.5》由会员分享，可在线阅读，更多相关《第5章聚类分析5.45.5（63页珍藏版）》请在金锄头文库上搜索。

1、第五章聚类分析第四节第四节 K均值聚类分析均值聚类分析第五节第五节有序样品的聚类分析法有序样品的聚类分析法第六节第六节实例分析与计算机实现实例分析与计算机实现第四节第四节K均值聚类分析均值聚类分析n系统聚类法系统聚类法需要计算出不同样品或变量的距离，还要在聚类需要计算出不同样品或变量的距离，还要在聚类的每一步都要计算的每一步都要计算“类间距离类间距离”，相应的相应的计算量自然比较大计算量自然比较大；特别是当样本的容量很大时，需要占据特别是当样本的容量很大时，需要占据非常大非常大的计算机内存的计算机内存空间，这给应用带来一定的困难。而空间，这给应用带来一定的困难。而K均值法均值法是一种是一

2、种快速快速聚类法聚类法，采用该方法得到的结果比较简单易懂，对计算机的，采用该方法得到的结果比较简单易懂，对计算机的性能要求不高，因此应用也比较广泛。性能要求不高，因此应用也比较广泛。nK均值法是麦奎因（均值法是麦奎因（MacQueen，1967）提出的，）提出的，这种算法这种算法的基本思想是将每一个样品分配给最近中心（均值）的类中，的基本思想是将每一个样品分配给最近中心（均值）的类中，具体的算法至少包括以下具体的算法至少包括以下三个步骤：三个步骤：1将所有的样品分成将所有的样品分成K个初始类；个初始类；2通过欧氏距离将某个样品划入离中心最近的类中，并对通过欧氏距离将某个样品划入离中心最近的类中

3、，并对获得样品与失去样品的类，重新计算中心坐标；获得样品与失去样品的类，重新计算中心坐标；3重复步骤重复步骤2，直到所有的样品都不能再分配时为止。，直到所有的样品都不能再分配时为止。nK均值法和系统聚类法一样，都是以均值法和系统聚类法一样，都是以距离的远近亲距离的远近亲疏疏为标准进行聚类的，但是两者的不同之处也是明为标准进行聚类的，但是两者的不同之处也是明显的：显的：n系统聚类对不同的类数产生系统聚类对不同的类数产生一系列一系列的聚类结果，的聚类结果，n而而K均值法均值法只能产生只能产生指定类数指定类数的聚类结果。的聚类结果。n具体具体类数的确定类数的确定，离不开实践经验的积累；，离不开实践经

4、验的积累；n有时也可以借助有时也可以借助系统聚类法系统聚类法以一部分样品为对象进以一部分样品为对象进行聚类，其结果作为行聚类，其结果作为K均值法确定类数的参考。均值法确定类数的参考。n下面通过一个具体问题说明下面通过一个具体问题说明K均值法均值法的计算过程。的计算过程。n【例例5.3】假定我们对假定我们对A、B、C、D四个样品分别测量两个变四个样品分别测量两个变量和得到结果见表量和得到结果见表5.9。试将以上的样品聚成两类。试将以上的样品聚成两类。表表5.9样品测量结果样品测量结果第一步：第一步：按要求取按要求取K=2，为了实施均值法聚类，我们将这些，为了实施均值法聚类，我们将这些样品随意分成

5、两类，比如（样品随意分成两类，比如（A、B）和（）和（C、D），然后计算），然后计算这这两个聚类的中心坐标两个聚类的中心坐标，见表，见表5.10所示。所示。表表5.10中的中的中心坐标是通过原始数据计算得来的中心坐标是通过原始数据计算得来的，比如（，比如（A、B）类的，）类的，等等。等等。表表5.10中心坐标中心坐标第二步：计算某个样品到各类中心的欧氏平方距离，然后将第二步：计算某个样品到各类中心的欧氏平方距离，然后将该样品分配给最近的一类。该样品分配给最近的一类。对于样品有变动的类，重新计算对于样品有变动的类，重新计算它们的中心坐标，为下一步聚类做准备。它们的中心坐标，为下一步聚类做准备。先

6、计算先计算A到两个类到两个类的平方距离：的平方距离：由于由于A到（到（A、B）的距离小于到（）的距离小于到（C、D）的距离，因此）的距离，因此A不不用重新分配。计算用重新分配。计算B到两类的平方距离：到两类的平方距离：n由于由于B到（到（A、B）的距离大于到（）的距离大于到（C、D）的距离，因此）的距离，因此B要要分配给（分配给（C、D）类，得到新的聚类是（）类，得到新的聚类是（A）和（）和（B、C、D）。）。更新中心坐标如表更新中心坐标如表5.11所示。所示。表表5.11更新后的中心坐标更新后的中心坐标第三步：第三步：再次检查每个样品，以决定是否需要重新分类。计再次检查每个样品，以决定是否需

7、要重新分类。计算各样品到各中心的距离平方，得结果见表算各样品到各中心的距离平方，得结果见表5.12。n到现在为止，每个样品都已经分配给距离中心最近的类，到现在为止，每个样品都已经分配给距离中心最近的类，因此聚类过程到此结束。最终得到因此聚类过程到此结束。最终得到K=2的聚类结果是的聚类结果是A独独自成一类，自成一类，B、C、D聚成一类。聚成一类。表表5.12样品聚类结果样品聚类结果9 K-均值聚类法的步均值聚类法的步骤骤选择聚点的方法：选择聚点的方法：(1)(1)经经验验选选择择：如如果果对对研研究究对对象象比比较较了了解解，根据以往的经验确定根据以往的经验确定k k个样品作为聚点；个样品作为

8、聚点；(2)(2)将将n n个个样样品品人人为为地地或或随随机机地地分分为为k k类类，以以每类地每类地均值均值( (称为重心称为重心) )作为聚点。作为聚点。1选择聚点：选择聚点：是一批有代表性的样品，它是一批有代表性的样品，它的选择决定了初始分类，对最终分类有的选择决定了初始分类，对最终分类有较大的影响；先定下分类的数目较大的影响；先定下分类的数目k k，在每一，在每一类中选择一个有代表性的样品作为聚点类中选择一个有代表性的样品作为聚点( (初始聚点初始聚点) )10(3)(3)最最大大最最小小原原则则：将将n n个个样样品品分分为为k k类类，选选择择相相距距最最远远的的两两个个样样品品

9、xi i1 1, ,xi i2 2为为初初始始的的两两个个聚点。即聚点。即再再选选择择第第3 3个个聚聚点点xi i3 3, ,使使其其与与前前两两个个聚聚点点的的距距离离最最小小者者等等于于所所有有其其余余的的与与前前两两者者的的距距离离较较小小中中的的最最大大者，即者，即按按同同一一原原则则选选取取第第4 4个个，依依此此下下去去，直至选出直至选出k k个聚点个聚点xi i1 1, ,xi i2 2, , , xi ik k. .11 最最大大最最小小原原则则的的一一般般过过程程可可以以用用递递推推公公式式表表达达。若若已已选选了了l个个聚聚点点( (l0,0, 若若则递推计算过程结束

10、则递推计算过程结束. .procfastclus过程中过程中默认默认0.020.0216procfastclus过程过程: : procfastclusmaxclusters=n|radius=t;Varvariables;Idvariable;Run;procfastclus语句必须说明语句必须说明maxclusters=或或radius=中的一个。中的一个。MAXCLUSTERS=n|MAXC=n：指定所允许的最大分类个数。如果指定所允许的最大分类个数。如果缺省，其值假定缺省，其值假定100。RADIUS=t：为选择新为选择新的的“聚点聚点”指定的最小距离准则。当观测点与指定的最小距离准则

11、。当观测点与已已有的有的“聚点聚点”的最小距离均大于由该选项规定的最小距离均大于由该选项规定的的值值t时，该观测可考虑用来作为新的时，该观测可考虑用来作为新的“聚点聚点”。的的缺省值为缺省值为0。如果使用选项。如果使用选项replacerandom，则则RADIUS不起作用。不起作用。17procfastclusmaxclusters=n|radius=t;1、规定数据集及细节的选项、规定数据集及细节的选项DATA(SAS数据集数据集)进行聚类的观测的数进行聚类的观测的数据集名字。数据必须是坐标数据，不能是距据集名字。数据必须是坐标数据，不能是距离、相似或相关值。离、相似或相关值。MEAN=(

12、SAS数据集数据集)生成一个输出数据生成一个输出数据集，其中包含每个类的均值和一些统计量。集，其中包含每个类的均值和一些统计量。OUT(SAS数据集数据集)生成一个输出数据集，生成一个输出数据集，其中包含原始数据和新变量其中包含原始数据和新变量CLUSTER和和DISTANCE。CLUSTER=NAME规定在规定在MEAN和和OUT的数据集中用以指示观测属于哪一类的数据集中用以指示观测属于哪一类的变量名字。缺省时这个指示变量的名字为的变量名字。缺省时这个指示变量的名字为CLUSTER。182、选择初始、选择初始“聚点聚点”的选项：的选项：RANDOMn规定一个正整数规定一个正整数n，用在，用在

13、REPLACERANDOM中作为伪随机数发中作为伪随机数发生的种子生的种子(初值初值)；如果缺省则使用当天的；如果缺省则使用当天的时间来初始化随机数发生器。时间来初始化随机数发生器。Least=m:表示用表示用Lm距离进行聚类距离进行聚类;3、控制打印输出选项、控制打印输出选项DISTANCE要求打印类均值之间的距离要求打印类均值之间的距离LIST要求列出所有观测的要求列出所有观测的ID变量值（如变量值（如果有），观测所归入类的类好及观测与最果有），观测所归入类的类好及观测与最终终“聚点聚点”之间的距离之间的距离procfastclusmaxclusters=n|radius=t;194、计算

14、最终类计算最终类“聚点聚点”的选项：的选项：DRIFT执行聚类的逐个修改法。在初始执行聚类的逐个修改法。在初始“聚点聚点”选好后，每当一个观测靠近的选好后，每当一个观测靠近的“聚点聚点”所在的类后，此类的所在的类后，此类的“聚点聚点”都要被该类都要被该类中现有观测的均值所代替。中现有观测的均值所代替。MAXITERn指定重新计算类的指定重新计算类的“聚点聚点”的最大迭代次数。当的最大迭代次数。当n0时，时，FASTCLUS执行聚类步骤的步骤执行聚类步骤的步骤3。在每次循环中，所有。在每次循环中，所有观测均归入最近观测均归入最近“聚点聚点”的类后，此类的的类后，此类的“聚点聚点”用该类的均值替代

15、。用该类的均值替代。n的缺省值为的缺省值为l。procfastclusmaxclusters=n|radius=t;20procfastclus过程过程: : procfastclusmaxclusters=n|radius=t;Varvariables;Idvariable;Run;Varvariables;列出参与聚类分析的指标变量名列出参与聚类分析的指标变量名称若省略，则称若省略，则未列在其它语句未列在其它语句(如其后的如其后的ID语语句句)中的数值变量均参与分析中的数值变量均参与分析。Idvariable;用以表征各样品的名称，它可以是用以表征各样品的名称，它可以是定性变量也可以是定量

16、变量。定性变量也可以是定量变量。21procfastclus过程的缺点：过程的缺点：没有将原始数据标准货摊功能；没有将原始数据标准货摊功能；不能自动确定类别数；不能自动确定类别数；需要确定初始聚点；需要确定初始聚点；不能输出树状图的聚类信息；不能输出树状图的聚类信息；因此，在使用此过程前，因此，在使用此过程前，可以用可以用standard过程步将原始数据标准化，即将数过程步将原始数据标准化，即将数据化为均值为据化为均值为0、标准差为、标准差为1的数据；的数据；要根据经验确定类别数；要根据经验确定类别数；要根据经验选取聚点，或者在确定类别数的基础要根据经验选取聚点，或者在确定类别数的基础上指令系

17、统自动选取初始聚点；上指令系统自动选取初始聚点；procfastclus过程的优点：过程的优点：能快速对大样本进行聚类分析且聚类后输出类能快速对大样本进行聚类分析且聚类后输出类内指标的均值；内指标的均值；22procstandard过程过程: : procstandarddata=out=mean=0std=1;Varvariables;Run;out=给出含有化数据的新数据集名。给出含有化数据的新数据集名。mean=0给出标准化数据的均值，给出标准化数据的均值，一般取一般取0;std=1给出标准化数据的标准差，给出标准化数据的标准差，一般取一般取1;Varvariables给出要标准化的变量

18、给出要标准化的变量;16:19:3623例例6.1对对13个国家个国家1990年，年，1995年与年与2000年的年的可持续发展综合国力做评估，其得分值如表可持续发展综合国力做评估，其得分值如表6.1,试用快速聚类法将上述试用快速聚类法将上述13个国家分为个国家分为4类类dataexamp6_1;inputcountry$x1x2x3;cards;澳大利亚澳大利亚1249.391273.611282.68巴西巴西821.60859.85919.73加拿大加拿大1641.011591.541608.32中国中国1330.451382.681462.08法国法国1546.551501.771525

19、.95德国德国1656.521630.521570.69印度印度861.30862.51945.11意大利意大利1321.771232.301243.51日本日本1873.681949.891851.20俄罗斯俄罗斯1475.161315.871297.00南非南非794.25787.48782.38英国英国1486.751441.711465.12美国美国2824.292659.642740.12;run;16:19:3624procfastclusdata=examp6_1out=aamean=bbmaxc=4cluster=clistdistance;varx1x2x3;idcountr

20、y;run;procgplotdata=aa;/*做聚类结果的散点图做聚类结果的散点图*/plotx2*x1=c;symbol1v=1;symbol2v=2;symbol3v=3;symbol4v=4;run;16:19:3625procfastclusdata=examp6_1out=aamean=bbmaxc=4cluster=clistdistance;varx1x2x3;idcountry;run;data=examp6_1/*指明以分析的数据集，数据指明以分析的数据集，数据是原始观测数据，不能是距离或相似矩阵是原始观测数据，不能是距离或相似矩阵*/out=aa/*生成一个输出数据集，

21、包括生成一个输出数据集，包括原始数据及两原始数据及两个新变量个新变量：指示样品属于哪个类的变量：指示样品属于哪个类的变量cluster和各样品到所属类的中心的距离和各样品到所属类的中心的距离distance*/maxc=4/*指出所允许的分类数，若省略则默指出所允许的分类数，若省略则默认为认为n=100.必须指定才能快速聚类必须指定才能快速聚类*/16:19:3626procfastclusdata=examp6_1out=aamean=bbmaxc=4cluster=clistdistance;varx1x2x3;idcountry;run;mean=bb/*生成一个输出数据集，包括生成一个

22、输出数据集，包括各各个类的个类的均值和其他统计量均值和其他统计量*/cluster=c/*规定在上面的两个输出数据集中用规定在上面的两个输出数据集中用以指示样品属于哪一个类的变量名称，缺省时以指示样品属于哪一个类的变量名称，缺省时系统自动命名为系统自动命名为cluster*/List/*列出所有样品的列出所有样品的ID变量值变量值(如果有如果有)，样，样品所归入类的类号及观测与最终品所归入类的类号及观测与最终“聚点聚点”之间之间的距离的距离*/16:19:3627procfastclusdata=examp6_1out=aamean=bbmaxc=4cluster=clistdistance;

23、varx1x2x3;idcountry;run;distance/*要求打印类均值之间的距离要求打印类均值之间的距离*/varx1x2x3;/*列出参与聚类分析的指标变量名列出参与聚类分析的指标变量名称若省略，则称若省略，则未列在其它语句未列在其它语句(如其后的如其后的ID语句语句)中的数值变量均参与分析中的数值变量均参与分析。*/idcountry;/*用以表征各样品的名称，它可以是用以表征各样品的名称，它可以是定性变量也可以是定量变量定性变量也可以是定量变量*/。16:19:3628InitialSeeds/*初始聚点初始聚点*/Clusterx1x2x311321.771232.3124

24、3.512794.25787.48782.3832824.292659.642740.1241873.681949.891851.2InitialMeans/*各个类中每个指标观察值的均值各个类中每个指标观察值的均值*/Clusterx1x2x311401.6783331357.9900001379.3900002825.716667836.613333882.40666732824.2900002659.6400002740.12000041723.7366671723.9833331676.73666716:19:3629ClusterListing/*快速聚类结果快速聚类结果*/Obsc

25、ountryClusterDistancefromSeed1澳大利亚澳大利亚1199.22巴西巴西244.15793加拿大加拿大4170.544中国中国1111.95法国法国1251.36德国德国4156.57印度印度276.60638意大利意大利1201.69日本日本4322.410俄罗斯俄罗斯1118.211南非南非2115.812英国英国1147.01313美国美国3016:19:3730ClusterStandardDeviations/*每个类中各个指标观察值的标准差每个类中各个指标观察值的标准差*/Clusterx1x2x31116.8546938102.9401552118.55

26、07598233.714030242.571495587.55019493.4130.0860962196.6093249152.256675516:19:3731DistanceBetweenClusterCentroids/*各重心之间的距离各重心之间的距离*/NearestClu12341.922.2572360.0218571.04092922.2567.3281.58811491.58432360.02183281.5881.1793.7264571.04091491.58491793.7266.16:19:3732第五节第五节有序样品的聚类分析法有序样品的聚类分析法一一有序样品可

27、能的分类数目有序样品可能的分类数目二二费希尔最优求解法费希尔最优求解法三三一个典型例子一个典型例子以上的系统聚类和以上的系统聚类和K均值聚类中，样品的地位是均值聚类中，样品的地位是彼此独立的，没有考虑样品的次序。但在实际应用彼此独立的，没有考虑样品的次序。但在实际应用中，有时样品的次序是不能变动的，这就产生了有中，有时样品的次序是不能变动的，这就产生了有序样品的聚类分析问题。序样品的聚类分析问题。例如对动植物按生长的年龄段进行分类，年龄的顺例如对动植物按生长的年龄段进行分类，年龄的顺序是不能改变的，否则就没有实际意义了；序是不能改变的，否则就没有实际意义了；又例如在地质勘探中，需要通过岩心

28、了解地层结构，又例如在地质勘探中，需要通过岩心了解地层结构，此时按深度顺序取样，样品的次序也不能打乱。此时按深度顺序取样，样品的次序也不能打乱。如果用如果用X（1），X（2），X（n）表示表示n个有序的样个有序的样品，则每一类必须是这样的形式，即品，则每一类必须是这样的形式，即X（i），X（i+1)，X（j），其中，其中1 r n，且，且j n，简记为，简记为Gi=i，i+1，j。在同一类中的样品是次序相邻。在同一类中的样品是次序相邻的。这类问题称为有序样品的聚类分析。的。这类问题称为有序样品的聚类分析。一、有序样品可能的分类数目一、有序样品可能的分类数目nn个有序样品分成个有序样品分成k类，

29、则一切可能的分法有类，则一切可能的分法有种。种。n实际上，实际上，n个有序样品共有（个有序样品共有（n 1）个间隔，分成个间隔，分成k类相当于类相当于在这（在这（n 1）个间隔中插入个间隔中插入k 1根根“棍子棍子”。由于不考虑棍。由于不考虑棍子的插入顺序，是一个组合问题，共有子的插入顺序，是一个组合问题，共有种插法。种插法。图图5.4有序样品的分类法有序样品的分类法n这就是这就是n个有序样品分成个有序样品分成k类的一切可能分法。因此，对于有类的一切可能分法。因此，对于有限的限的n和和k，有序样品的所有可能分类结果是有限的，可以在，有序样品的所有可能分类结果是有限的，可以在某种损失函数意义下，

30、求得最优解。所以有序样品聚类分析某种损失函数意义下，求得最优解。所以有序样品聚类分析又称为最优分割，该算法是费希尔（又称为最优分割，该算法是费希尔（Fisher）最先提出来的，）最先提出来的，故也称之为费希尔最优求解法。故也称之为费希尔最优求解法。二、费希尔最优求解法二、费希尔最优求解法nn这里需要注意，若要寻找将这里需要注意，若要寻找将n个样品分为个样品分为k类的最优分割，则类的最优分割，则对于任意的对于任意的j（k j n）,先将前面先将前面j 1个样品最优分割为个样品最优分割为k 1类，得到类，得到p（j 1，k 1），否则从），否则从j到到n这最后一类就不可这最后一类就不可能构成能构成

31、k类的最优分割，参见图类的最优分割，参见图5.6。再考虑使。再考虑使Lb（n，k）最小的最小的j，得到，得到p（n，k）。）。n因此我们得到费希尔最优求解法的递推公式为因此我们得到费希尔最优求解法的递推公式为（5.23）图图5.6最优分割最优分割nnn三、一个典型例子三、一个典型例子n【例例5.4】为了了解儿童的生长发育规律，今随机抽样统计了为了了解儿童的生长发育规律，今随机抽样统计了男孩从出生到男孩从出生到11岁每年平均增长的重量数据表岁每年平均增长的重量数据表5.13，试问男，试问男孩发育可分为几个阶段？孩发育可分为几个阶段？n在分析这是一个有序样品的聚类问题时，我们通过图形可以在分析这是

32、一个有序样品的聚类问题时，我们通过图形可以看到男孩增重随年龄顺序变化的规律，从图看到男孩增重随年龄顺序变化的规律，从图5.6中发现男孩发中发现男孩发育确实可以分为几个阶段。育确实可以分为几个阶段。表表5.13111岁儿童每年平均增长的重量岁儿童每年平均增长的重量图图5.7儿童成长阶段分析儿童成长阶段分析n下面通过有序样品的聚类分析确定男孩发育分成几个阶段较下面通过有序样品的聚类分析确定男孩发育分成几个阶段较合适。步骤如下：合适。步骤如下：表表5.14直径直径D（i，j）n（3）分类个数的确定。如果能从生理角度事先确定）分类个数的确定。如果能从生理角度事先确定k当然最当然最好；有时不能事先确定好

33、；有时不能事先确定k时，可以从时，可以从Lp（l，k）随随k的变化的变化趋势图中找到拐点处，作为确定趋势图中找到拐点处，作为确定k的根据。当曲线拐点很平的根据。当曲线拐点很平缓时，可选择的缓时，可选择的k很多，这时需要用其它的办法来确定，比很多，这时需要用其它的办法来确定，比如均方比和特征根法，限于篇幅此略，有兴趣的读者可以查如均方比和特征根法，限于篇幅此略，有兴趣的读者可以查看其它资料。看其它资料。n本例从表本例从表5.15中的最后一行可以看出中的最后一行可以看出k=3，4处有拐点，即分处有拐点，即分成成3类或类或4类都是较合适的，从图类都是较合适的，从图5.8中可以更明显看出这一点。中可以

34、更明显看出这一点。第六节第六节实例分析与计算机实现实例分析与计算机实现一一在在SPSS中利用系统聚类法进行聚类分析中利用系统聚类法进行聚类分析二二在在SPSS中利用中利用K均值法进行聚类分析均值法进行聚类分析一、在一、在SPSS中利用系统聚类法进行中利用系统聚类法进行聚类分析聚类分析n设有设有20个土壤样品分别对个土壤样品分别对5个变量的观测数据如表个变量的观测数据如表5.16所示，所示，试利用系统聚类法对其进行样品聚类分析。试利用系统聚类法对其进行样品聚类分析。表表5.16土壤样本的观测数据土壤样本的观测数据（一）操作步骤（一）操作步骤1.在在SPSS窗口中选择窗口中选择AnalyzeC

35、lassifyHierachicalCluster，调出系统聚类分析主界面，并将变量，调出系统聚类分析主界面，并将变量X1X5移入移入Variables框中。在框中。在Cluster栏中选择栏中选择Cases单选按钮，即对样单选按钮，即对样品进行聚类（若选择品进行聚类（若选择Variables，则对变量进行聚类）。在，则对变量进行聚类）。在Display栏中选择栏中选择Statistics和和Plots复选框，这样在结果输出窗复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。口中可以同时得到聚类结果统计量和统计图。图图5.15K均值聚类分析主界面均值聚类分析主界面2.点击点击It

36、erate按钮，对迭代参数进行设置。按钮，对迭代参数进行设置。MaximumIterations参数框用于设定参数框用于设定K-means算法迭代的最大次数，算法迭代的最大次数，ConvergenceCriterion参数框用于设定算法的收敛判据，其参数框用于设定算法的收敛判据，其值应该介于值应该介于0和和1之间。例如判据设置为之间。例如判据设置为0.02，则当一次完整，则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于的比小于2时，迭代停止。设置完这两个参数之后，只要在时，迭代停止。设置完这两个参数之后，只要在迭代的过

37、程中先满足了其中的参数，则迭代过程就停止。这迭代的过程中先满足了其中的参数，则迭代过程就停止。这里我们选择系统默认的标准。单击里我们选择系统默认的标准。单击Continue，返回主界面。，返回主界面。图图5.16Iterate子对话框子对话框3.点击点击Save按钮，设置保存在数据文件中的表明聚类结果的按钮，设置保存在数据文件中的表明聚类结果的新变量。其中新变量。其中Clustermembership选项用于建立一个代表聚选项用于建立一个代表聚类结果的变量，默认变量名为类结果的变量，默认变量名为qcl_1；Distancefromclustercenter选项建立一个新变量，代表各观测量与其所

38、属类中心选项建立一个新变量，代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中，单击的欧氏距离。我们将两个复选框都选中，单击Continue按钮按钮返回。返回。图图5.17Save子对话框子对话框4.点击点击Options按钮，指定要计算的统计量。选中按钮，指定要计算的统计量。选中Initialclustercenters和和Clusterinformationforeachcase复选框。复选框。这样，在输出窗口中将给出聚类的初始类中心和每个观测量这样，在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息，包括分配到哪一类和该观测量距所属类中心的的分类信息，包括分配到哪一类和该

39、观测量距所属类中心的距离。单击距离。单击Continue返回。返回。5.点击点击OK按钮，运行按钮，运行K均值聚类分析程序。均值聚类分析程序。图图5.18Options子对话框子对话框（二）主要运行结果解释（二）主要运行结果解释1.InitialClusterCenters（给出初始类中心）（给出初始类中心）2.IterationHistory（给出每次迭代结束后类中心的变动）（给出每次迭代结束后类中心的变动）从表从表5.18中可以看到本次聚类过程共经历了三次迭代。由于中可以看到本次聚类过程共经历了三次迭代。由于我们在我们在Iterate子对话框中使用系统默认的选项（最大迭代次子对话框中使用系

40、统默认的选项（最大迭代次数为数为10和收敛判据为和收敛判据为0），所以在第三次迭代后，类中心的），所以在第三次迭代后，类中心的变化为变化为0，从而迭代停止。，从而迭代停止。3.ClusterMembership（给出各观测量所属的类及与所属类（给出各观测量所属的类及与所属类中心的距离）中心的距离）表表5.19中中Cluster列给出了观测量所属的类别，列给出了观测量所属的类别，Distance列给列给出了观测量与所属类中心的距离。（出于排版要求，此表经出了观测量与所属类中心的距离。（出于排版要求，此表经过加工，因此与原始输出表形态有一定差异）。过加工，因此与原始输出表形态有一定差异）。表表5.

41、18迭代过程中类中心的变化量迭代过程中类中心的变化量表表5.19各观测量所属类成员表各观测量所属类成员表4.FinalClusterCenters（给出聚类结果形成的类中心的各变（给出聚类结果形成的类中心的各变量值）量值）表表5.20最终的类中心表最终的类中心表n结合表结合表5.19和表和表5.20，我们可以看出，我们可以看出31个地区被分成个地区被分成3类。第类。第一类包括：江苏、浙江、山东和广东一类包括：江苏、浙江、山东和广东4个省。这一类的类中个省。这一类的类中心三个产业的产值分别为心三个产业的产值分别为1102.14亿元、亿元、6423.01亿元和亿元和4454.26亿元，属于三个产业

42、都比较发达的地区。第二类包括：亿元，属于三个产业都比较发达的地区。第二类包括：天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。个地区。这一类的类中心三个产业的产值分别为这一类的类中心三个产业的产值分别为307.61亿元、亿元、795.41亿元和亿元和673.63亿元，属于欠发达地区。剩下的亿元，属于欠发达地区。剩下的11个地区为第个地区为第三类。这一类的类中心三个产业的产值分别为三类。这一类的类中心三个产业的产值分别为713.28亿元、亿元、2545.20亿元和亿元和212.87亿元，属于中等发达地区。亿元，属于中等发达地区。5.由于我们已经在由于我们已经在Save子对话框中设置了在数据文件中生成子对话框中设置了在数据文件中生成新的分类变量，所以，在数据编辑窗口中，我们可以看到生新的分类变量，所以，在数据编辑窗口中，我们可以看到生成的两个表示分类结果的新变量。变量成的两个表示分类结果的新变量。变量qcl_1和变量和变量qcl_2分分别代表分类号和观测量距所属类中心的距离。别代表分类号和观测量距所属类中心的距离。本章结束本章结束

展开阅读全文

第5章聚类分析5.45.5

最新文档