第十二章 聚类分析.pdf

上传人:摩西的****12 文档编号:136603988 上传时间:2020-06-29 格式:PDF 页数:9 大小:379.50KB
返回 下载 相关 举报
第十二章 聚类分析.pdf_第1页
第1页 / 共9页
第十二章 聚类分析.pdf_第2页
第2页 / 共9页
第十二章 聚类分析.pdf_第3页
第3页 / 共9页
第十二章 聚类分析.pdf_第4页
第4页 / 共9页
第十二章 聚类分析.pdf_第5页
第5页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第十二章 聚类分析.pdf》由会员分享,可在线阅读,更多相关《第十二章 聚类分析.pdf(9页珍藏版)》请在金锄头文库上搜索。

1、学 海 无 涯 第第十十二二章章 聚类分析聚类分析 聚类分析(CLUSTER)是将样本或变量进行分类的一种方法。 通常用相似性指标 “距离” 和 “相似系数” 来衡量研究对象的联系紧密程度, 从而进行合理分类。 “距离”常用来对样本分类,即把每一个样本看作是 m 维空 间(若样本被 m 个变量所描述)的一个点,把距离较近的点归为一类,距离较远 的点归为不同的类。 “相似系数”用来对变量分类,将变量间相似系数较大的归 为一类,较小的归为不同类。 第一节第一节 距离和相似系数距离和相似系数 一、距离一、距离 1、 “欧几里得”距离 A 和 B 两点由 m 个变量所描述,其坐标分别是(x1,x2,x

2、m)和(y1,y2,ym), 那么 d(A,B)= 2 1 () m ii i xy = 。 例如:某次收视率调查中的部分数据如表 1,则 1 号被访者和 2 号被访者的 “距离”为:d(A,B)= 222 (2560)(166)(40 120).+ 表表 1 1:原始数据:原始数据 被访者 年龄(岁) 文化程度(年) 日收看电视时间 (分) X1 X2 X3 1 25 16 40 2 60 6 120 3 42 12 90 600 34 14 150 1 X=41,S1=20 2 X=12,S2=5 3 X=90,S3=40 上述测量的距离存在问题:(1) 同一个变量单位不同会导致不同的距离

3、;(2) 不同变量的度量不一致,无法判断变量值大小和变量的重要程度,从而无法判断 距离的意义。因而需要对原始数据进行标准化。 表表 2 2:标准化数据:标准化数据 被访者 年龄(岁) 文化程度(年) 日收看电视时间 (分) X1 X2 X3 1 -0.8 0.8 1.25 2 0.95 -1.2 0.75 学 海 无 涯 3 0.05 0.0 0.00 600 -0.35 0.4 1.50 1 X=0,S1=1 2 X=0,S2=1 3 X=0,S3=1 2 2、SPSSSPSS 聚类分析中提供的距聚类分析中提供的距离离 (1)欧式距离(EUCLID) ,等于 22 +.变量差变量差 (2)欧

4、式距离的平方(SEUCLID) ,等于变量差 2+变量差2+ (3)曼哈顿距离(BLOCK) ,等于变量差的绝对值之和 (4)切比雪夫距离(CHEBYCHEV) ,等于变量差中绝对值最大者 (5)幂距离 POWER(p,r),等于变量差的绝对值的 p 次方之和,再求 r 方根。 2 2、相似系数、相似系数 (1)变量间的相关系数即皮尔逊相关系数; (2) 变量间的夹角余弦,即将两变量分别看成 n 维空间的向量时的夹角余弦值。 相关系数一般针对定距变量, 对于定类变量特别是二项变量也可引入虚拟变 量后计算相关系数。 例例 1 1:假定:假定 5 5 个样本(人)具有如下指标: (个样本(人)具有

5、如下指标: (1 1)请对个体进行分类; ()请对个体进行分类; (2 2)对变量)对变量 进行分类。进行分类。 表表 3 3:五个人的六种身体特征指标:五个人的六种身体特征指标 身高(cm) 体重(公斤) 眼睛形状 鼻子形状 习惯用手 性别 个体 1 166 120 单 高 右 女 个体 2 175 145 双 低 右 男 个体 3 168 135 单 高 右 男 个体 4 167 100 双 低 右 女 个体 5 174 150 双 低 左 男 解:变量中包含定距和定类变量,可以全部变成虚拟变量(也可将后四个虚拟) , 令 X1= ;X2= ;X3= ; X4= ;X5= ;X6= ,表

6、3 可转化为表表 4 4: X1 X2 X3 X4 X5 X6 个体 1 0 0 0 1 0 1 个体 2 1 1 1 0 0 0 个体 3 0 1 0 1 0 0 个体 4 0 0 1 0 0 1 1,身高170 0,身高170 1,体重130 0,体重130 1,双眼皮 0,单眼皮 1,高鼻梁 0,低鼻梁 1,用左手 0,用右手 1,女 0,男 学 海 无 涯 个体 5 1 1 1 0 1 0 (1)根据两个个体共同特征的多少来对个体分类,以欧式距离的平方来进行聚 类,个体之间的距离越小越相似,可求得: d 2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2

7、+(1-0)2=5; d 2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)2=2; d 2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)2+(1-1)2=2; d 2(1,5)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-1)2+(1-0)2=6;同理计算其他距离,得 到下表: 表表 5 5:5 5 个体间距离个体间距离 1 2 3 4 5 1 0 2 5 0 3 2 3 0 4 2 3 4 0 5 6 1 4 4 0 根据距离大小,判断相似程度。个体 2 和 5 距离最小,最相似。1 和 3,1

8、和 4 距离较小,较相似。如果分两类,则可分为1,5和 1,3,4。 (2)对特征变量进行分类,先计算两个变量间的相似系数: r12= 1122 22 1122 ()() ()() XXXX XXXX = 12 22 12 (0.4)(0.6) (0.4)(0.6) XX XX =0.6667 同理计算其它相关系数: 表表 6 6:六个变量间的相关系数:六个变量间的相关系数 1 2 3 4 5 6 1 1.0000 2 0.6667 1.0000 3 0.6667 0.1667 1.0000 4 -0.6667 -0.1667 -1.0000 1.0000 5 0.6124 0.4082 0.

9、4082 -0.4082 1.0000 6 -0.6667 -1.0000 -0.1667 0.1667 -0.4082 1.0000 表 6 中出现负相关系数,不予考虑符号,仅以绝对值来表示相关程度。X2 与 X6,X3与 X4两对变量最相似,同时 X2和 X3、X4,X6和 X3、X4之间相关系数很小, 所以 X2,X6和 X3,X4是几乎不相交的两类。X1、X5和其它 5 个变量的相关关系 都适中,所以二者都不宜于其它变量合并,将 X1和 X5单独归为一类。 几个注意问题: (1)对个体进行聚类时,1-1 匹配和 0-0 匹配是完全同等看 待,实际上不太合理。如两个左撇子比两个同用右手的

10、人更相似一些。因此有时 学 海 无 涯 对 1-1 匹配和 0-0 匹配区别处理,或给予不同权数。 (2)此法聚类较为主观,对 X1和 X2处理较粗糙。 第第二二节节 谱系聚类法谱系聚类法 谱系聚类法中常用的聚集法是先将所有研究对象都各自视为一类, 将最靠近 的首先聚类,再将这个类和其它类中最靠近的对象结合,一直合并到所有对象都 综合成一类。谱系聚类法的聚集或分割过程可以用“谱系图”直观表示出来。 一、最短距离法一、最短距离法 两个类之间的距离定义为:两类中两两元素之间距离最小者,并依此逐次选 择最靠近的类聚集的方法。例如 d1,2,3,45,6,7= mind15, d16, d17, d2

11、5, d26, d27, d35, d36, d37, d45, d46, d47 = d37 例例 2 2:假定:假定 5 5 个对象间的距离如表个对象间的距离如表 9 9 所示,用最短距离法聚类,并画出谱系图。所示,用最短距离法聚类,并画出谱系图。 表 7:5 个对象间距离 1 2 3 4 5 1 0 2 6 0 3 2 4 0 4 3 4 5 0 5 7 1 5 5 0 解:将 5 个对象分别视为 1 类,最靠近的两类是 2 和 5,因为它们间具有最小类 间距离 d25=min 6,2,3,7,4,1,5=1,将 2 和 5 合并为一个新类2,5。 其次再求出2,5和 1,3,4 的距离

12、: d2,51=min d21, d51 = min 6, 7=6 d2,53=min d23, d53 = min 4,5=4 d2,54=min d24, d54 = min 4,5=4 于是可以将2,5,1,3,4 这四类的距离重新做出表 10(1): 表 8(1):4 个类间的距离 2,5 1 3 4 2,5 0 1 6 0 3 4 2 0 5 6 7 1 2 4 3 学 海 无 涯 4 4 3 5 0 在这 4 类中, 1 和 3 最靠近, 它们具有最小类间距离 d13=min 6, 4,2,3,5=2。 将 1 和 3 合并成新类 1,3,再求出 1,3和 2,5,4 的距离: d

13、 1,32,5=min d12,5, d32,5 = min 6, 4=4 d 1,34=min d14, d34 = min 3,5=3 将 1,3, 2,5,4 这三类的距离作出表 10(2): 表 8(2):3 个类间的距离 2,5 1,3 4 2,5 0 1,3 4 0 4 4 3 0 在这三类中, 最靠近的类是 1,3和 4, d 1,34=min 4, 3 =3。 因此可将 1,3 和 4 合并成为一个新类 1,3,4,这时只有两个不同的类 2,5和 1,3,4,它 们的距离为 d2,5 1,3,4= min d2,5 1,3, d2,54 = min 4, 4=4。最后再将 2,

14、5 和 1,3,4合并为一类,由此完成整个聚类过程。相应谱系图如图 1: 图图 1 1:最短距离法谱系图:最短距离法谱系图 1 2 3 4 距离 2 5 1 3 4 对象 2 2、最长距离法、最长距离法 与最短距离法聚类方式相同, 不同的是类与类之间的距离定义为两类中元素 之间距离最大者。例如: d1,2,3,45,6,7= maxd15, d16, d17, d25, d26, d27, d35, d36, d37, d45, d46, d47 = d16 例例 3 3:对例:对例 3 3 中的相同数据用最长距离法聚类并画处谱系图:中的相同数据用最长距离法聚类并画处谱系图: 解:首先将最靠近的 2 和 5 合并为一类,并计算2,5和 1,3,4 的距离: d2,51= max d21, d51 = max 6, 7=7 1 2 4 3 5 6 7 学 海 无 涯 d2,53= max d23, d53 = max 4,5=5 d2,54= max d24, d54 = max 4,5=5 由此可以写出新的四个类间的距离如表 9(1)所示。其中最靠近的是 1 和 3, 将其合并为新类 1,3,并计

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号