聚类分析

上传人:jiups****uk12 文档编号:45547751 上传时间:2018-06-17 格式:PPT 页数:37 大小:627KB
返回 下载 相关 举报
聚类分析_第1页
第1页 / 共37页
聚类分析_第2页
第2页 / 共37页
聚类分析_第3页
第3页 / 共37页
聚类分析_第4页
第4页 / 共37页
聚类分析_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《聚类分析》由会员分享,可在线阅读,更多相关《聚类分析(37页珍藏版)》请在金锄头文库上搜索。

1、聚类分析引言 相似性度量 系统聚类 K-均值聚类 聚类分析的SPSS实现引言l物以类聚,人以群分。l例:中国的民族分成若干类,上市公司分类 ,等等l对于一个数据集,人们既可以对变量(指标 )进行分类(称为R型聚类),也可以对观 测值(个案,样品)来分类(称为Q型聚类 )。这两种聚类在数学上是对称的,没有什 么不同。2例:哪些少数民族的生存状况更接近? 民族原始数据标化死亡率()出生时期望寿命( 岁) 满族 5.8070.59 朝鲜族 7.4467.14 蒙古族 8.1165.48 维吾尔族10.2158.88 藏族 9.5159.24 哈萨克族 9.8160.47 *标化死亡率是根据相同的人口

2、年龄结构(标准组)计算的,因而更具可比性。3聚类分析需要解决的一个问题l如何衡量样本点之间的距离或相似程度?l距离,主要用于样品(观测)间相似性度量l相似系数,主要用于变量间相似性度量4常用的距离的计算方法l设每个样品有p个指标(变量)。把n个样 品看成p维空间中的n个点,则两个样品间 相似程度就可用p维空间中的两点距离公式 来度量。l两点距离公式可以从不同角度进行定义。l当变量的测量值相差悬殊时,要先进行标 准化,以消除计量单位对计算结果的影响 。5常用的距离的计算方法l欧氏距离(Euclidean)l平方欧氏距离Squared Euclideanl切比雪夫距离(Chebychev)6明考夫

3、斯基距离(明氏距离)*按q的取值不同可以包括多种距离计算方法。例如:7相似系数的计算方法l变量间的相似性可以从它们的方向趋同性或“相关 性”进行考察, “夹角余弦法”和“相关系数”两种主 要度量方法,统称为相似系数。 (1) 夹角余弦* 两变量Xi与Xj看作p维空间的两个向量,这两个向 量间的夹角余弦可用下式进行计算显然,cos ij 1。8相似系数的计算方法(2) Pearson相关系数Pearson相关系数经常用来度量变量间的相似性 。变量Xi与Xj的Pearson相关系数定义为显然也有,rij 1。9系统聚类法(分层聚类) hierarchical clusterl开始时,有多少样本点就

4、是多少类。l第一步先把最近的两类(点)合并成一类 ;l然后再把剩下的最近的两类合并成一类;l这样下去,每次都少一类,直到最后只有 一大类为止。显然,越是后来合并的类, 距离就越远。10需要解决的新问题:如何计算类 与类之间的距离?l最短距离法 l最长距离法 l重心法 lWard法(离差平方和法)l等等11最短距离S1S3S2S4S5最短距离 12最长距离S1S3S4S513重心法(Centroid clustering): 均值点的距离14离差平方和法:合并离差平方和 变动最小的两个类1,24,57,915红绿(1,2,7,9) 44.75离差平方和增加44.752.542.25黄绿(4,5,

5、7,9)14.75 离差平方和增加14.752.512.25 黄红(1,2,4,5)10 离差平方和增加1019 故按该方法黄红首先连接。离差平方和法:合并离差平方和 变动最小的两个类166个不同民族的聚类:数据表 民族原始数据标准化数据标化死亡率 ()出生时 期望寿命(岁)标化死亡率 ()出生时 期望寿命(岁) 满族 5.8070.59-1.59 1.44朝鲜族 7.4467.14-0.62 0.73蒙古族 8.1165.48-0.22 0.38维吾尔族10.2158.88 1.03-0.99藏族 9.5159.24 0.61-0.91哈萨克族 9.81 60.47 0.79-0.6617各

6、民族之间的欧氏距离 满族朝鲜族蒙古族维吾尔 族藏族哈萨克 族G1=S1 G2=S2 G3=S3 G4=S4 G5=S5 G6=S6 满族G1=S1 0朝鲜族G2=S2 1.2080蒙古族G3=S3 1.7320.5260维吾尔族G4=S4 3.5702.3741.8510藏族G5=S5 3.2242.0481.5390.4220哈萨克族G6=S6 3.1731.9731.4480.4060.311018最短距离法举例l(1)首先合并G5、G6,再计算新类与其 他类之间的距离。满族朝鲜族蒙古族维吾尔 族藏族哈萨克 族G1=S1 G2=S2 G3=S3 G4=S4 G5=S5 G6=S6 满族G1

7、=S1 0朝鲜族G2=S2 1.2080蒙古族G3=S3 1.7320.5260维吾尔族G4=S4 3.5702.3741.8510藏族G5=S5 3.2242.0481.5390.4220哈萨克族G6=S6 3.1731.9731.4480.4060.311019(2)根据计算结果合并G4,G7G1=S1G2=S2G3=S3G4=S4G7=S5,S6 G1=S10G2=S21.2080G3=S31.7320.5260G4=S43.5702.3741.8510G7=S5,S6 3.1731.9731.4480.406020根据表中的结果合并G2,G3G1=S1G2=S2G3=S3G8=S4,S

8、5,S6 G1=S10G2=S21.2080G3=S31.7320.5260G8=S4,S5,S63.1731.9731.448021根据表中的数据合并G1,G9G1=S1G9=S2,S3G8=S4,S5,S6G1=S10G9=S2,S31.2080G8=S4,S5,S63.1731.448022最后合并成一类G10=S1,S2,S3G8= S4,S5,S6G10=S1,S2,S3 0G8= S4,S5,S61.448023聚类结果的谱系聚类图(最短距离法) 藏族 哈萨克族 维吾尔族 朝鲜族 蒙古族 满族 0.3110.4060.5261.2081.44824l聚类结果受所选择的变量影响。如果

9、去掉一 些变量,或者增加一些变量,结果会很不同 。l从分层聚类的计算机结果可以得到任何可能 数量的类。l聚类的目的是要使各类距离尽可能地远,而 类内点的距离尽可能的近,而且分类结果还 要有令人信服的解释。这一点就不是数学可 以解决的了。聚类要注意的问题 25啤酒名热量钠含量酒精价格 Budweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00 7.00 5.20 .73 Heineken 152.00 11.00 5.00 .77

10、Old-milnaukee145.00 23.00 4.60 .26 Aucsberger 175.00 24.00 5.50 .40 Strchsbohemi149.00 27.00 4.70 .42 Miller-lite 99.00 10.00 4.30 .43 Sudeiser-lich113.00 6.00 3.70 .44 Coors 140.00 16.00 4.60 .44 Coorslicht 102.00 15.00 4.10 .46 Michelos 135.00 11.00 4.20 .50 Secrs 150.00 19.00 4.70 .76 Kkirin 149.

11、00 6.00 5.00 .79 Pabst 68.00 15.00 2.30 .36 Hamms 136.00 19.00 4.40 .43 Heilemans144.00 24.00 4.90 .43 Olympia 72.00 6.00 2.90 .46 Schlite 97.00 7.00 4.20 .47SPSS系统聚类的实现和结果分析:数据表26相关软件操作l选择分析分类系统聚类l把热量、钠含量、酒精、价格选入变量框 ; 把啤酒名选入“标注个案”框。l选择“绘制”,选中“树状图”;27方法设定l在聚类方法框中 选择需要的方法 ;l在度量标准框中 选择距离的计算 方法;l在“标准化”

12、框中 选择Z得分。28输出结果 :聚类表这一步合并了1和17这一步合并了第9和 12。但这里9代表第 8步中形成的类,12 代表第9步中形成的 类。依此类推可知 这一步合并之后的 新类包括出9,20, 10,12,13。29冰 柱 图从图中可以 读出所有的 分类结果。 图中标出的 是分5类的 情况。30聚类树形图(SPSS18.0)l图形反映了类间的距离和聚类过程。31最短距离法的聚类结果l按照不同的聚类方法可能得到完全不同的聚类结 果。选择各类较为均衡、易于解释的方法!32SPSS结果分析l在开始的 操作中, 通过相应 的选项可 以把分类 结果存储 起来。33K-均值聚类l系统聚类法需要计算

13、出不同样品或变量的 距离,还要在聚类的每一步都要计算“类间 距离”,相应的计算量自然比较大;特别是 当样本的容量很大时,需要占据非常大的 计算机内存空间,这给应用带来一定的困 难。lk-均值聚类(k-means cluster)可以避免上 述问题,适用于样本点很多的情况,但要 求你先确定要分多少类。34K-均值聚类的步骤l先确定k个点为“凝聚点”(SPSS软件自动确 定);也就是说,把这k个点作为k类中每一 类的凝聚点。l然后,根据和这k个点的距离远近,把所有 点分成k类。再把这k类的中心(均值)作为新 的凝聚点,再重新按照距离分类。l如此叠代下去,直到达到停止叠代的要求 (比如,各类最后变化不大了,或者叠代 次数太多了)。35K-均值聚类的SPSS操作l分析分类 K-均值聚 类,设置好 相应的选项 。主要是设 置好分类的 数量。366个民族的k-均值聚类结果(3类 )37

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号