聚类分析－金锄头文库

资源描述

《聚类分析》由会员分享，可在线阅读，更多相关《聚类分析（37页珍藏版）》请在金锄头文库上搜索。

1、聚类分析引言相似性度量系统聚类 K-均值聚类聚类分析的SPSS实现引言l物以类聚，人以群分。l例：中国的民族分成若干类，上市公司分类，等等l对于一个数据集，人们既可以对变量（指标）进行分类（称为R型聚类），也可以对观测值（个案，样品）来分类（称为Q型聚类）。这两种聚类在数学上是对称的，没有什么不同。2例：哪些少数民族的生存状况更接近？民族原始数据标化死亡率()出生时期望寿命( 岁) 满族 5.8070.59 朝鲜族 7.4467.14 蒙古族 8.1165.48 维吾尔族10.2158.88 藏族 9.5159.24 哈萨克族 9.8160.47 *标化死亡率是根据相同的人口

2、年龄结构（标准组）计算的，因而更具可比性。3聚类分析需要解决的一个问题l如何衡量样本点之间的距离或相似程度？l距离，主要用于样品（观测）间相似性度量l相似系数，主要用于变量间相似性度量4常用的距离的计算方法l设每个样品有p个指标（变量）。把n个样品看成p维空间中的n个点，则两个样品间相似程度就可用p维空间中的两点距离公式来度量。l两点距离公式可以从不同角度进行定义。l当变量的测量值相差悬殊时，要先进行标准化，以消除计量单位对计算结果的影响。5常用的距离的计算方法l欧氏距离（Euclidean）l平方欧氏距离Squared Euclideanl切比雪夫距离（Chebychev）6明考夫

3、斯基距离(明氏距离)*按q的取值不同可以包括多种距离计算方法。例如：7相似系数的计算方法l变量间的相似性可以从它们的方向趋同性或“相关性”进行考察， “夹角余弦法”和“相关系数”两种主要度量方法，统称为相似系数。 (1) 夹角余弦* 两变量Xi与Xj看作p维空间的两个向量，这两个向量间的夹角余弦可用下式进行计算显然，cos ij 1。8相似系数的计算方法(2) Pearson相关系数Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为显然也有，rij 1。9系统聚类法（分层聚类） hierarchical clusterl开始时，有多少样本点就

4、是多少类。l第一步先把最近的两类（点）合并成一类；l然后再把剩下的最近的两类合并成一类；l这样下去，每次都少一类，直到最后只有一大类为止。显然，越是后来合并的类，距离就越远。10需要解决的新问题：如何计算类与类之间的距离？l最短距离法 l最长距离法 l重心法 lWard法（离差平方和法）l等等11最短距离S1S3S2S4S5最短距离 12最长距离S1S3S4S513重心法（Centroid clustering): 均值点的距离14离差平方和法：合并离差平方和变动最小的两个类1，24，57，915红绿（1，2，7，9） 44.75离差平方和增加44.752.542.25黄绿（4，5，

5、7，9）14.75 离差平方和增加14.752.512.25 黄红（1，2，4，5）10 离差平方和增加1019 故按该方法黄红首先连接。离差平方和法：合并离差平方和变动最小的两个类166个不同民族的聚类:数据表民族原始数据标准化数据标化死亡率 ()出生时期望寿命(岁)标化死亡率 ()出生时期望寿命(岁) 满族 5.8070.59-1.59 1.44朝鲜族 7.4467.14-0.62 0.73蒙古族 8.1165.48-0.22 0.38维吾尔族10.2158.88 1.03-0.99藏族 9.5159.24 0.61-0.91哈萨克族 9.81 60.47 0.79-0.6617各

6、民族之间的欧氏距离满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1=S1 G2=S2 G3=S3 G4=S4 G5=S5 G6=S6 满族G1=S1 0朝鲜族G2=S2 1.2080蒙古族G3=S3 1.7320.5260维吾尔族G4=S4 3.5702.3741.8510藏族G5=S5 3.2242.0481.5390.4220哈萨克族G6=S6 3.1731.9731.4480.4060.311018最短距离法举例l（1）首先合并G5、G6，再计算新类与其他类之间的距离。满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1=S1 G2=S2 G3=S3 G4=S4 G5=S5 G6=S6 满族G1

7、=S1 0朝鲜族G2=S2 1.2080蒙古族G3=S3 1.7320.5260维吾尔族G4=S4 3.5702.3741.8510藏族G5=S5 3.2242.0481.5390.4220哈萨克族G6=S6 3.1731.9731.4480.4060.311019（2）根据计算结果合并G4，G7G1=S1G2=S2G3=S3G4=S4G7=S5,S6 G1=S10G2=S21.2080G3=S31.7320.5260G4=S43.5702.3741.8510G7=S5,S6 3.1731.9731.4480.406020根据表中的结果合并G2,G3G1=S1G2=S2G3=S3G8=S4,S

8、5,S6 G1=S10G2=S21.2080G3=S31.7320.5260G8=S4,S5,S63.1731.9731.448021根据表中的数据合并G1，G9G1=S1G9=S2,S3G8=S4,S5,S6G1=S10G9=S2,S31.2080G8=S4,S5,S63.1731.448022最后合并成一类G10=S1,S2,S3G8= S4,S5,S6G10=S1,S2,S3 0G8= S4,S5,S61.448023聚类结果的谱系聚类图(最短距离法) 藏族哈萨克族维吾尔族朝鲜族蒙古族满族 0.3110.4060.5261.2081.44824l聚类结果受所选择的变量影响。如果

9、去掉一些变量，或者增加一些变量，结果会很不同。l从分层聚类的计算机结果可以得到任何可能数量的类。l聚类的目的是要使各类距离尽可能地远，而类内点的距离尽可能的近，而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。聚类要注意的问题 25啤酒名热量钠含量酒精价格 Budweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00 7.00 5.20 .73 Heineken 152.00 11.00 5.00 .77

10、Old-milnaukee145.00 23.00 4.60 .26 Aucsberger 175.00 24.00 5.50 .40 Strchsbohemi149.00 27.00 4.70 .42 Miller-lite 99.00 10.00 4.30 .43 Sudeiser-lich113.00 6.00 3.70 .44 Coors 140.00 16.00 4.60 .44 Coorslicht 102.00 15.00 4.10 .46 Michelos 135.00 11.00 4.20 .50 Secrs 150.00 19.00 4.70 .76 Kkirin 149.

11、00 6.00 5.00 .79 Pabst 68.00 15.00 2.30 .36 Hamms 136.00 19.00 4.40 .43 Heilemans144.00 24.00 4.90 .43 Olympia 72.00 6.00 2.90 .46 Schlite 97.00 7.00 4.20 .47SPSS系统聚类的实现和结果分析：数据表26相关软件操作l选择分析分类系统聚类l把热量、钠含量、酒精、价格选入变量框；把啤酒名选入“标注个案”框。l选择“绘制”，选中“树状图”；27方法设定l在聚类方法框中选择需要的方法；l在度量标准框中选择距离的计算方法；l在“标准化”

12、框中选择Z得分。28输出结果：聚类表这一步合并了1和17这一步合并了第9和 12。但这里9代表第 8步中形成的类，12 代表第9步中形成的类。依此类推可知这一步合并之后的新类包括出9，20， 10，12，13。29冰柱图从图中可以读出所有的分类结果。图中标出的是分5类的情况。30聚类树形图(SPSS18.0)l图形反映了类间的距离和聚类过程。31最短距离法的聚类结果l按照不同的聚类方法可能得到完全不同的聚类结果。选择各类较为均衡、易于解释的方法！32SPSS结果分析l在开始的操作中，通过相应的选项可以把分类结果存储起来。33K-均值聚类l系统聚类法需要计算

13、出不同样品或变量的距离，还要在聚类的每一步都要计算“类间距离”，相应的计算量自然比较大；特别是当样本的容量很大时，需要占据非常大的计算机内存空间，这给应用带来一定的困难。lk-均值聚类（k-means cluster）可以避免上述问题，适用于样本点很多的情况，但要求你先确定要分多少类。34K-均值聚类的步骤l先确定k个点为“凝聚点”(SPSS软件自动确定)；也就是说，把这k个点作为k类中每一类的凝聚点。l然后，根据和这k个点的距离远近，把所有点分成k类。再把这k类的中心(均值)作为新的凝聚点，再重新按照距离分类。l如此叠代下去，直到达到停止叠代的要求（比如，各类最后变化不大了，或者叠代次数太多了）。35K-均值聚类的SPSS操作l分析分类 K-均值聚类，设置好相应的选项。主要是设置好分类的数量。366个民族的k-均值聚类结果（3类）37

展开阅读全文