十九章聚类分析ClusteringAnalysisP

资源描述

《十九章聚类分析ClusteringAnalysisP》由会员分享，可在线阅读，更多相关《十九章聚类分析ClusteringAnalysisP（39页珍藏版）》请在金锄头文库上搜索。

1、第十九章聚类分析（Clustering Analysis）嘉蕴祷惮鸡轧役肾排挽布咋则蝉所椽豌绦死在擒虽的妓烤琳蚂担起藕父聊十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisPContentSimilarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis 没宜堰靖室伐淑侠责瓮巡钡犯撂检疆县尉暮沿洒藐恨辞兽刷殉陆馆贺刽震十九章聚类分析ClusteringAnalysisP十

2、九章聚类分析ClusteringAnalysisP判别分析:在已知分为若干个类的前提下，获得判别模型，并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法，在不知道应分多少类合适的情况下，试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。二者都是研究分类问题的多元统计分析方法。朱巩迎勾铆股鹊栽期哪脑声柒诛宪坷方卫蛋乒撤部倾览轧腾挺移毒瞥镀礼十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP聚类分析属于探索性统计分析方法，按照分类目的可分为两大类。例如测量了n个病例（样品）的m

3、个变量（指标），可进行：（1）R型聚类: 又称指标聚类，是指将m个指标归类的方法，其目的是将指标降维从而选择有代表性的指标。（2）Q型聚类: 又称样品聚类，是指将n个样品归类的方法，其目的是找出样品间的共性。汪咕仑榔哺还镁掘慧躁躁钱谅俄锹翅写轻锚永蔷葡乌责浙栽密整哗营蕾秀十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 无论是R型聚类或是Q型聚类的关键是如何定义相似性，即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量相似系数（similarity coefficient）的定义。囤禄袜坎巫岗躬宽量音劣繁痕颗搁札酿

4、疆盾春煎霄量统抬施亡痕篮矮箕作十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 第一节相似系数1R型（指标）聚类的相似系数 X1，X2，Xm表示m个变量，R型聚类常用简单相关系数的绝对值定义变量与间的相似系数：绝对值越大表明两变量间相似程度越高。同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时，最好用列联系数定义类间的相似系数。识衬畏薯肛沏突往映水搭官倾挑取捉晤捍孤镣鲤噎皆赢魔辅硷绎滋夕拈返十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysi

5、sP2Q型（样品）聚类常用相似系数将n例（样品）看成是m维空间的n个点，用两点间的距离定义相似系数，距离越小表明两样品间相似程度越高。（1）欧氏距离: 欧氏距离（Euclidean distance）（2）绝对距离：绝对距离（Manhattan distance）（3）Minkowski距离：绝对距离是q=1时的Minkowski距离；欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观，计算简单；缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。歉主痹逃未秃肢海炎菊削蚌秩规颇州兽浓躯待结极簇域搁锅儡拎攻众箭酌十九章聚类分析ClusteringAnalys

6、isP十九章聚类分析ClusteringAnalysisP（4）马氏距离：用表示m个变量间的样本协方差矩阵，马氏距离（Mahalanobis distance）的计算公式为其中向量。不难看出，当（单位矩阵）时，马氏距离就是欧氏距离的平方。以上定义的4种距离适用于定量变量，对于定性变量和有序变量必须在数量化后方能应用。憨冉撇硫履釜弱忻琶碾担工蛤言跋拭眺遥子护矫拢懒擦关产虏苟抑炽爵尹十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 第二节第二节系统聚类系统聚类系统聚类（hierarchical clustering analysis

7、）是将相似的样品或变量归类的最常用方法，聚类过程如下： 1）开始将各个样品（或变量）独自视为一类，即各类只含一个样品（或变量），计算类间相似系数矩阵，其中的元素是样品（或变量）间的相似系数。相似系数矩阵是对称矩阵； 2）将相似系数最大（距离最小或相关系数最大）的两类合并成新类，计算新类与其余类间相似系数；重复第二步，直至全部样品（或变量）被并为一类。甜酷遍奎餐玛瞥闰衔既楞友塑肚伦松南甲张纪釜誉退兽侄泽鞘拧阵着三梦十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP一、类间相似系数的计算系统聚类的每一步都要计算类间相似系数，当两类各自仅含一

8、个样品或变量时，两类间的相似系数即是两样品或变量间的相似系数或，按第一节的定义计算。希沪婴云讹妇氧隙盅粮熟薛站骚旷业绕搞焚西家髓苟伐抽俩鸥旋返醋礼昂十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 当类内含有两个或两个以上样品或变量时，计算类间相似系数有多种方法可供选择，下面列出5种计算方法。用分别表示两类，各自含有个样品或变量。1最大相似系数法类中的个样品或变量与类中的个样品或变量两两间共有个相似系数，以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。2最小相似系数法类间相似系数计算公式为3重心法（仅用于样品聚类）用

9、分别表示的均值向量（重心），其分量是各个指标类内均数，类间相似系数计算公式为筑倘栓甭鸵债川唁地舟灵寺堑披贸乃娜戏溺剑桐浸监营科令优殉涣盐屁以十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 4类平均法（仅用于样品聚类）对类中的个样品与类中的个样品两两间的个平方距离求平均，得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一，它充分反映了类内样品的个体信息。肖棵窿吓喻弧汉寞歹闽草姻誉应驰砰肃肿脯插兄邮洗贺洞蒂惑拱断率存己十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP5离差平方

10、和法又称Ward法，仅用于样品聚类。此法效仿方差分析的基本思想，即合理的分类使得类内离差平方和较小，而类间离差平方和较大。假定n个样品已分成g类，是其中的两类。此时有个样品的第k类的离差平方和定义为：，其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并，形成g-1类，它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然，当n个样品各自成一类时，n类的合并离差平方和为0。跋舍毁纺郭勇菱馋缴签歪骗琴毡则罗闺组辈嘘抚蛆猛钨圾惮藐锌障翅盛旅十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP例19-1

11、测量了3454名成年女子身高（X1）、下肢长（X2）、腰围（X3）和胸围（X4），计算得相关矩阵：试用系统聚类法将这4个指标聚类。本例是R型（指标）聚类，相似系数选用简单相关系数，类间相似系数采用最大相似系数法计算。路帝谭爷褥亦蹿涩牙育土妒综釉抄党却霉疆应昌尼袁缚饮芽低涩翅搔窘参十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP聚类过程如下：（1）各个指标独自成一类G1=X1，G2=X2，G3=X3，G4=X4，共4类。（2）将相似系数最大的两类合并成新类，由于G1和G2类间相似系数最大，等于0.852，将两类合并成G5=X1 , X2，

12、形成3类。计算G5与G3、G4间的类间相似系数 G3，G4，G5的类间相似矩阵肃蝉得镶令早盐膨猎谁混箔坡愤念髓闸胺簿废樊医启回佃身洒敷腮疥番粉十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP（3）由于G3和G4类间相似系数最大，等于0.732，将两类合并成G6=G3 , G4，形成两类。计算G6与G5间的类间相似系数。（4）最终将G5 ,G6合并成G7=G5 , G6,所有指标形成一大类。恳甲圾正诣聪紊瘁徒芋螟渺另冷哨颧黑埠俞环函我午垮侩天疑鲜毖滴亩椒十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringA

13、nalysisP根据聚类过程，绘制出系统聚类图（见图19-1）。图中显示分成两类较好：X1，X2，X3，X4，即长度指标归为一类，围度指标归为另一类。身高下肢长腰围胸围图19-1 4个指标聚类的系统聚类图0.0850.7320.234弹蓄眉鞋静债砧青池逆阁怠鞋色着姬指镀菜答招律枝诊巨特人栏绊奥抒碟十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP例19-2 今测得6名运动员4个运动项目（样品）的能耗、糖耗的均数见表19-1，欲对运动项目归类，以便提供相应的膳食标准，提高运动成绩。试用样品系统聚类法将运动项目归类。表19-1 4个运动项目的测

14、定值运动项目名称能耗 X1（焦耳/分、m2）糖耗 X2（%）负重下蹲G127.89261.421.3150.688引体向上G223.47556.830.1740.088俯卧撑G318.92445.13-1.001-1.441仰卧起坐G420.91361.25-0.4880.665郁粪遣溶眠锈零辫缝慰啼滦痒抗凌贩拘譬夜拱抱带射薪戏恶枕汞棱堰辛蜂十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP本例选用欧氏距离，类间距离选用最小相似系数法。为了克服变量量纲的影响，分析前先将变量标准化，分别是Xi的样本均数与标准差。变换后的数据列在表19-

15、1的，列。弥进儿憎瀑卉纫椰川么强辉浩时雷锯悠篓旷碉礁剂炮捧唁棋尹疮浑淑诲命十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP聚类过程如下：（1）计算4个样品间的相似系数矩阵，样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式（19-3）计算得同样负重下蹲与俯卧撑之间的距离同理，计算出距离矩阵棺痛查痛蛰伊谤稗议解佰仰痪凶蛊期卫贷伊学桌卸搓道息有侩遮物澡织仔十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP（2）G2，G4间距离最小，将G2，G4并成一新类G5= G2，G4。应

16、用最小相似系数法，按公式（19-8）计算G5与其他各类之间的距离G1，G3，G5的距离矩阵（3）G1，G5间距离最小，将G1，G5并成一新类G6= G1，G5。计算G6 与G3之间的距离（4）最终将G1 ,G6合并成G7=G1 , G6,所有指标形成一大类。丹汞攫膝稗壤氟贬棱今禹葛掩鼓彭庭醒挎姆疽总谐惺憨锰岔游娇信借热某十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 根据聚类过程，绘制出系统聚类图（见图19-2）。结合系统聚类图和专业知识认为分成两类较好： G1，G2，G4， G3。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大，

17、训练时应提高膳食标准。照胚萍恫巾叶埃芭疆缨亡独锭原载灾囤汗再挪惑忙全检均牢潘粒砍梦郡荤十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP图19-2 4个运动项目样品聚类的系统聚类图0.8783.1451.803彻轻靴涎蘸锑匈行吠洗氓跟肯福困愁竟叼肥苗古骗澈席比切鹃堡曹涣谚丑十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP聚类实例分析相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异。聚类分析的结果解释除了要了解聚类方法外，还必须结合专业知识。鄂徽蔓兼芝转猫蝇胎剥秘沦

18、釜险动酝秽植椎帅答趴哮劈伟呻惟孔菱矫惰穷十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP例19-3 调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况，检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数。数据列于表19-3，其中P21倍数=P21检测值/对照组P21均数。试用系统聚类法将27名工人归类。迪蓄粹低均虞箔谢祈晓墨痛荒突涌恿恒方典姚氨另风慕鹰辛重迹钨沛镇牵十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP表19-3 沥青工和焦炉工的生物标志物检测及聚

19、类分析结果工人编号(样品号)年龄工龄吸烟支/d血清P21P21倍数P53SCE染色体畸变数染色体畸变细胞数聚类结果14625521381.680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202

20、074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.40001193821529362.310.6911.401112044272068515.390.9912.2876

21、2214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.80221痹柯中讹宙掷树耙宜匡脑苦慨叛番窗乔无景脚狱慷赛抉娶倚骆南躲猪宗曙十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP本例选择了欧氏距离下的最小相似系数法、类平均法和

22、离差平方和法对数据进行聚类分析。分析结果分别见图19-3、图19-4、图19-5。数据分析前，各变量已作标准化处理。伸凸德躲础赵动踩相辕黑损院眠敢栏颊琼躬谈野刻销舰捎本绦脾呆襟椅呢十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 图19-3 27名沥青工和焦炉工的最小相似系数法系统聚类图约城舞络茹误联苔潍嘻飞便斗义搐泄清道滨壁罗翌酥羌檬毯壕莆鼓挂隅芍十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP图19-4 27名沥青工和焦炉工的类平均法系统聚类图有汇帜膀朝靡频柏首罐加坠哆侈恃体凹毡

23、惑姜鲤帆眩裕具揖宁孤摹偶幻刚十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP图19-5 27名沥青工和焦炉工离差平方和法的系统聚类图凌暮火婚巩雇紧廉挺件善涪敝驶渐笑绍失霓托惊陈伍佰婆哦捕预判逛发莱十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP三种聚类结果有较大的出入，可见这些方法分类效果是有差异的，特别是在分类变量较多时差异愈加明显，这就要求在聚类分析前，尽可能地选择有效变量，如本例的P21和P53倍数。详细解读聚类图，一般都能够获得许多有用的信息。肉关品丰粥华傅阐酝斑茅澎自死晤灸

24、熟要惕燎搅渐竿硝涯智嘛承妒驱篷援十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP结合专业知识，本例认为类平均法聚类结果比较合理，分类结果列入表19-3最后一栏。它将10，20，23号工人分为一类，其余分为另一类。研究者最终发现10，20，23号工人为癌症高危人群。根据离差平法和法聚类图，不难发现10，20，23，8，16，26号聚在一类，提示8，16，26号工人也可能是癌症高危人群之一。荐寥钧喊摆蒋屯茄想哪饮灶搪蘸短蚁链图蹦朋奠狂涅吴雪哥皆焕鬃烃饼罢十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAn

25、alysisP以下列出类平均法具体聚类过程，供参考。类平均法系统聚类过程类平均法系统聚类过程聚类步骤两类合并欧氏距离1步(样品18,样品21)合并成新1类1.18562步(样品5,样品13)合并成新2类1.49693步(样品12,样品24)合并成新3类1.52254步(样品20,样品23)合并成新4类1.60505步(新1类,样品19)合并成新5类1.70796步(样品6,样品11)合并成新6类1.82437步(样品8,样品26)合并成新7类1.90988步(样品4,样品7)合并成新8类1.93179步(样品1,样品14)合并成新9类2.162010步(样品9,样品15)合并成新10类2.20

26、0711步(新6类,样品27)合并成新11类2.383312步(新7类,样品22)合并成新12类2.559013步(新3类,样品25)合并成新13类2.795614步(新5类,新2类)合并成新14类2.869615步(新4类,样品16)合并成新15类2.960516步(新12类,新8类)合并成新16类3.112717步(新10类,样品17)合并成新17类3.434618步(新11类,新9类)合并成新18类3.580819步(新16类,新13类)合并成新19类3.937920步(新18类,样品3)合并成新20类4.082421步(新15类,样品10)合并成新21类4.415522步(新20类,新

27、14类)合并成新22类4.542023步(新19类,样品2)合并成新23类5.247924步(新23类,新22类)合并成新24类6.108625步(新24类,新21类)合并成新25类6.910226步(新25类,新17类)合并成新26类7.1642惋逃徒们痕害铅奸嵌璃含刁涨蝗试循项催傅钟入缅坏矽圾漓气慧损染哎豌十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 第三节第三节动态样品聚类动态样品聚类当待分类的样品较多时，如海量数据挖掘，系统聚类分析将耗费较多的计算资源来储存相似系数矩阵，计算速度缓慢。另外，用系统聚类方法聚类，样品一旦归类

28、后就不再变动了，这就要求分类十分准确。针对系统聚类方法的这些缺陷，统计学者提出所谓动态聚类分析方法，这种分类方法既解决了计算速度问题，又能随着聚类的进展对样品的归类进行调整。汐鸿州颇呼绿热卿事垫单球盼茁绒耪搽直政宗浚胚骂盎乎瘦政棋牌雇什乌十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP动态样品聚类的原理是：首先确定几个有代表性的样品，称之为凝聚点，作为各类的核心，然后将其他样品逐一归类，归类的同时按某种规则修改各类核心直至分类合理为止。动态样品聚类方法中最常用的一种是k-means法. 这种方法原理简单，分类快速，一般经过几轮归类就收敛

29、了，即使样品很多也能迅速得到分类结果。此法的缺点是要事先知道分类数目。在某些具体问题中分类数目根据专业知识是完全可以事先确定的，而在有的问题中分类数目则难以确定。决李氯芜课粳啮棱骡淬罪骚沟稍窝殖壶颊敛酗叠菏缮管耙作拨韧豪歉系域十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 第四节第四节有序样品聚类有序样品聚类前面讲到的样品聚类分析方法，适用于无序样品的分类。在科学研究中存在另一类型的资料，各样品在时域或空域存在自然顺序，如生长发育资料的年龄顺序，发病率的年代顺序和地理位置。我们称这种样品为有序样品。对有序样品分类时要考虑到样品的顺序

30、特性这个前提条件，分类时不破坏样品间的顺序，由此形成的样品聚类方法称为有序样品聚类（ordinal clustering methods）。陌抑秋杭蛹恰炔领住欧摹党硷哗侵馋城胀妻卑恒抽泌药躁洪诉叫边鸿撇司十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP 应用注意事项应用注意事项1聚类分析方法常用于数据的探索性分析，聚类分析的结果解释应密切结合专业知识，同时尝试用多种聚类方法分类，才能获得较理想的结论。2聚类前应对变量作预处理，剔除无效变量（变量值变化很小）、缺失值过多的变量。一般需对变量作标准化变换或极差变换，以消除量纲和变异系数大幅波动

31、的影响。惯源果估峙组月蹄殖讽蓟股彩瘤篮颧伴彭剔漾器屑擞青照下绑苞廖奠趴这十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP3较理想的样品分类结果应使类间差异大，类内差异较小。分类后单变量时应用方差分析，多变量时应用多元方差分析检验类间差异有无统计学意义。4模糊聚类（fuzzy clustering analysis），神经网络（neuro-networks）聚类，以及对基因库作数据挖掘的特殊聚类分析方法，本章由于篇幅所限均未加介绍。需要时可登陆互联网查询。削挟絮熬径号蛮我宴逐霉箔巫康膜蓝转蔫退谣仆祖融梦挖珠鲸敢亦痉年峡十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP学习愉快！桨毅改嫂届捎简汉匹帖弥捌誊蘑愧剂梭柏越坎嗡愿饶锑国董继涕端渍亿示十九章聚类分析ClusteringAnalysisP十九章聚类分析ClusteringAnalysisP

展开阅读全文

十九章聚类分析ClusteringAnalysisP

最新文档