第十二章 聚类分析

上传人:pu****.1 文档编号:457107207 上传时间:2023-08-05 格式:DOCX 页数:12 大小:126.55KB
返回 下载 相关 举报
第十二章 聚类分析_第1页
第1页 / 共12页
第十二章 聚类分析_第2页
第2页 / 共12页
第十二章 聚类分析_第3页
第3页 / 共12页
第十二章 聚类分析_第4页
第4页 / 共12页
第十二章 聚类分析_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《第十二章 聚类分析》由会员分享,可在线阅读,更多相关《第十二章 聚类分析(12页珍藏版)》请在金锄头文库上搜索。

1、第十二章 聚类分析聚类分析(CLUSTER)是将样本或变量进行分类的一种方法。通常用相似性指标“距离”和“相似系数”来衡量研究对象的联系紧密程度, 从而进行合理分类。“距离”常用来对样本分类,即把每一个样本看作是m维空 间(若样本被m个变量所描述)的一个点,把距离较近的点归为一类,距离较远 的点归为不同的类。“相似系数”用来对变量分类,将变量间相似系数较大的归 为一类,较小的归为不同类。第一节 距离和相似系数一、距离1、“欧几里得”距离A和B两点由m个变量所描述,其坐标分别是(x ,x , *,x )和(y ,y ,y ),12m12m那么 d(A,B)二占(x - y )2。* i=1例如:

2、某次收视率调查中的部分数据如表1 ,则1 号被访者和 2 号被访者的“距离”为:d(A,B)= ;(25-60)2 + (16-6)2 + (40-120)2 +.表 1:原始数据被访者年龄(岁)文化程度(年)日收看电视时间(分)X1X2X31251640260612034212906003414150X =41, S =201 1X =12, S =52 2X =90, S =4033上述测量的距离存在问题:(1)同一个变量单位不同会导致不同的距离;(2) 不同变量的度量不一致,无法判断变量值大小和变量的重要程度,从而无法判断 距离的意义。因而需要对原始数据进行标准化。表 2:标准化数据被访

3、者年龄(岁)文化程度(年)日收看电视时间(分)X1X2X31-0.80.81.2520.95-1.20.7530.050.00.00600-0.350.41.50X =0, S =11 1X =0, S =12 2X =0, S =1332、SPSS 聚类分析中提供的距离(1) 欧式距离(EUCLID),等于J变量差2+变量差2+.(2) 欧式距离的平方(SEUCLID),等于变量差2+变量差2+(3) 曼哈顿距离(BLOCK),等于变量差的绝对值之和(4) 切比雪夫距离(CHEBYCHEV),等于变量差中绝对值最大者(5) 幂距离P0WER(p,r),等于变量差的绝对值的p次方之和,再求r方

4、根。2、相似系数( 1 )变量间的相关系数即皮尔逊相关系数;(2)变量间的夹角余弦,即将两变量分别看成n维空间的向量时的夹角余弦值。相关系数一般针对定距变量,对于定类变量特别是二项变量也可引入虚拟变 量后计算相关系数。例1:假定5个样本(人)具有如下指标:(1)请对个体进行分类;(2)对变量进行分类。解:变量中包含定距和定类变量,可以全部变成虚拟变量(也可将后四个虚拟), 令X =1X=41,身高21700,身高1701,高鼻梁0, 低鼻梁1,体重21300,体重130 1,用左手 0,用右手:;X2=;X3=1,双眼皮0, 单眼皮,表3可转化为表4:X1X2X3X4X5X6个体1000101

5、个体2111000个体3010100个体40010011,女0,男;X5=;X6=表 3:五个人的六种身体特征指标身高(cm)体重(公斤)眼睛形状鼻子形状习惯用手性别个体1166120单高右女个体2175145双低右男个体3168135单高右男个体4167100双低右女个体5174150双低左男个体5111010(1)根据两个个体共同特征的多少来对个体分类,以欧式距离的平方来进行聚 类,个体之间的距离越小越相似,可求得:d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5d2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(

6、0-0)2+(1-0)2=2 d2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)2+(1-1)2=2;d2(l,5) = (0-l)2+(0-l)2+(0-l)2+(l-0)2+(0-l)2+(l-0)2=6 ;同理计算其他距离,得到下表:表 5:5 个体间距离1210250323423561345040440根据距离大小,判断相似程度。个体 2 和 5 距离最小,最相似。1 和 3, 1 和4距离较小,较相似。如果分两类,则可分为 1 , 5 和 1,3,4。2)对特征变量进行分类,先计算两个变量间的相似系数:r=12工(X - 0.4)(X - 0.6)=0

7、.6667同理计算其它相关系数:表 6:六个变量间的相关系数12345611.000020.66671.000030.66670.16671.00004-0.6667-0.1667-1.00001.000050.61240.40820.4082-0.40821.00006-0.6667-1.0000-0.16670.1667-0.40821.0000表6中出现负相关系数,不予考虑符号,仅以绝对值来表示相关程度。X2与X,X与X两对变量最相似,同时X和X、X,X和X、X之间相关系数很小,6 3 4 2 3 4 6 3 4所以 X,X和 X,X是几乎不相交的两类。X、X和其它5个变量的相关关系 2

8、63415都适中,所以二者都不宜于其它变量合并,将X和X单独归为一类。15几个注意问题:(1)对个体进行聚类时, 1-1匹配和0-0匹配是完全同等看待,实际上不太合理。如两个左撇子比两个同用右手的人更相似一些。因此有时 对 1-1 匹配和 0-0 匹配区别处理,或给予不同权数。( 2 )此法聚类较为主观,对 X 和 X 处理较粗糙。12第二节 谱系聚类法谱系聚类法中常用的聚集法是先将所有研究对象都各自视为一类,将最靠近 的首先聚类,再将这个类和其它类中最靠近的对象结合,一直合并到所有对象都 综合成一类。谱系聚类法的聚集或分割过程可以用“谱系图”直观表示出来。 一、最短距离法两个类之间的距离定义

9、为:两类中两两元素之间距离最小者,并依此逐次选 择最靠近的类聚集的方法。例如d1,2,3,45,6,7= mind , d, d, d, d, d, d, d, d, d, d, d =15 16 17 25 26 27 35 36 37 45 46 47 d37例2:假定5个对象间的距离如表 9所示,用最短距离法聚类,并画出谱系图。表 7 : 5 个对象间距离1234510260324043450571550解:将5 个对象分别视为 1 类,最靠近的两类是2和 5,因为它们间具有最小类 间距离d =min 6,2,3,7,4,1,5=1,将2和5合并为一个新类2,5。25其次再求出2,5和1

10、, 3, 4的距离:d =min d , d = min 6, 7=62,512151d =min d , d = min 4,5=42,532353d =min d , d = min 4,5=42,542454于是可以将2,5, 1, 3, 4这四类的距离重新做出表10(1):表 8(1):4 个类间的距离2,51342,50160342044350在这4类中,和3最靠近,它们具有最小类间距离d =min6, 4,2,3,5=2。13将1 和3合并成新类 1,3,再求出 1,3和 2,5, 4的距离:d =min d , d = min 6, 4=4 1,32,512,532,5d =mi

11、n d , d = min 3,5=3 1,341434将 1,3, 2,5, 4这三类的距离作出表10(2):表 8(2):3 个类间的距离2,5 1,342,50 1,3404430在这三类中,最靠近的类是1,3和4, d =min 4, 3 =3。因此可将1,3 1,34 和4合并成为一个新类1,3,4,这时只有两个不同的类2,5和1,3,4,它 们的距离为d= min d , d = min 4, 4=4。最后再将 2,52,5 1,3,42,5 1,32,54和 1,3,4合并为一类,由此完成整个聚类过程。相应谱系图如图1: 图1:最短距离法谱系图2、最长距离法 与最短距离法聚类方式

12、相同,不同的是类与类之间的距离定义为两类中元素 之间距离最大者。例如:d,35例3:对例3中的相同数据用最长距离法聚类并画处谱系图:d,36d,37d,45d,46d =47解:首先将最靠近的2和 5合并为一类,并计算2,5和 1, 3, 4的距离:d = max d , d = max 6, 7=72,512151d = max d , d = max 4,5=52,5323 53d = max d , d = max 4,5=52,5424 54由此可以写出新的四个类间的距离如表 9(1)所示。其中最靠近的是 1 和 3 将其合并为新类 1,3,并计算 1,3和 2,5,4 的距离:d = max d , d = max 7,5=7 1,32,5 12,5 32,5d = max d , d = max 3,5=5 1,34 14 34 新的三类间的距离如表9(2)所示,由于两个距离都是5,因此可以合并 1,3和 4 为一个新类,也可以合并 2,5 和 4 为一个新类。不管何种合并,最后新的 两类间的距离都是 7,如表 9(3)和表 9(4)。2,51342,50

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号