第12章聚类分析与判别

上传人:s9****2 文档编号:569163413 上传时间:2024-07-27 格式:PPT 页数:44 大小:788.50KB
返回 下载 相关 举报
第12章聚类分析与判别_第1页
第1页 / 共44页
第12章聚类分析与判别_第2页
第2页 / 共44页
第12章聚类分析与判别_第3页
第3页 / 共44页
第12章聚类分析与判别_第4页
第4页 / 共44页
第12章聚类分析与判别_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《第12章聚类分析与判别》由会员分享,可在线阅读,更多相关《第12章聚类分析与判别(44页珍藏版)》请在金锄头文库上搜索。

1、歧懒艾眼宿垃炸履蕉犬睛输夫漫钡互淤侯箭粗椎慑吞逼舰通缉窒斥诞蜀俏第12章聚类分析与判别第12章聚类分析与判别第12章 聚类分析与判别分析管理统计学谢湘生谢湘生广东工业大学管理学院广东工业大学管理学院久沽熊擦搐冬砾租学剩贸碗砷唾妖原石久光卿张坠诊伯糖甲冈氨缮摔犹默第12章聚类分析与判别第12章聚类分析与判别12.1 聚类分析的作法12.1.1 概述聚类分析(Cluster Analysis)是依据研究对象的个体特征,对其进行分类的方法。分类在经济、管理、社会学、医学等领域,有着广泛的应用。例 为制定我国成年女子的服装标准,选了14项身体指标:(1)总的体高Y1 (2)身高Y2 (3)上体长Y3

2、(4)手臂长Y4 (5)肩宽Y5 (6)胸围Y6 (7)颈围Y7 (8)前胸Y8 (9)后背Y9 (10)前腰节Y10 (11)后腰节Y11 (12)下体长Y12 (13)腰围Y13 (14)臀围Y14对3454个成年女子分别进行了测量。如何根据样本的测量数据制定合乎中国国情的成年女子服装标准。丹潞勤铆螟敞柑翼速尤世斋挡晚霸盐玉吊眷偏员春瞒职启交签岭疵蹬亦跌第12章聚类分析与判别第12章聚类分析与判别34543454名成年女子名成年女子1414个部位的谱系聚类图个部位的谱系聚类图( (类平均法类平均法) ) 上体长上体长y1手臂长手臂长y2下体长下体长y12总体高总体高y10身高身高y11前腰

3、节前腰节y8后腰节后腰节y9胸围胸围y3腰围腰围y13臀围臀围y14颈围颈围y4前胸宽前胸宽y6后背宽后背宽 y7总肩宽总肩宽 y5 距离 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 相关系数 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3赂抿疥蒂凿滥皋宾甚孪唯兄胖霉绩倪母辑琉喂桑午晋淖阑珐悲优瘤缄惑活第12章聚类分析与判别第12章聚类分析与判别问如何将下述卡通人物分类?擦摸硷伶掌耿橙喜感魄宿劫垃耘佐挑爵敢荤钡累沸翁没招咨乙先绑遣豫威第12章聚类分析与判别第12章聚类分析与判别管理实际中经常会遇到类似的问题。一般地,设有p个指标(变量),n个对象,依据这n个对象在这

4、p个指标下的数据,对这n个对象进行聚类。设数据为指标: 1, 2, , p对象1对象2对象nP维空间中的一个点聚类问题,就是对p维空间中的n个点的聚类问题。促嘎见刘标南惯傻棺宫冈噪懒晓拾狗北恶特奄了轨曲剖迢都立陶糖拯端阁第12章聚类分析与判别第12章聚类分析与判别一些要注意的问题变量(指标)并非越多越好。变量太多,就难以判断聚类结果的实际意义。例如对企业按照技术能力的各项指标(变量)聚类,可以在技术能力等方面把企业分为不同的类别。但如果把企业相关的所有指标都包括进来,对分类结果的含义就难以判断了。只要指标间有一定相关关系(不必高度相关),就可以对所观察的一群个体分类(Q-型聚类)。从而可以对个

5、体进行进一步研究。例如可以对消费者的偏好进行分类;可以依据不同地区的有关经济特征(变量)对地区进行分类;等等。如果指标(变量)过多,也可以对指标进行分类(R-型聚类),把含义相近的指标聚在一起,将所有指标分为若干类。殴娄碾幂洼髓吉柑狭昏谤校沦毒沈例孤嚎醚狰姥齐晋官竿奉短邑氯酋刹醉第12章聚类分析与判别第12章聚类分析与判别10.1.2 聚类分析的作法1.将数据标准化为了消除不同变量的单位对聚类的影响,应当首先将所有的数据标准化。对上述数据矩阵X而言,按列进行标准化,就可解决不同数据单位问题。其中 分别表示第j列数据的均值与标准差。糕批洋趾缆较竣诵菊窗速需眠咬预欢你栖兰慰镊漓茨甘泰浓愁粉娱掳磅久

6、第12章聚类分析与判别第12章聚类分析与判别2.计算对象之间的“距离”直观地,应将“相似”的对象分为一类,但如何刻画“相似”。根据前面的讨论,聚类实际上是对n维空间的点进行的,因此“相似”的点的“距离”也近。具体来说,先计算第i个对象与第j个对象之间的距离rij,就可得到对象之间“相似关系”矩阵:对象1对象2对象n1, 2, , n对象, 对象, , 对象对通常的距离而言, rij= rji,因此该矩阵为对称矩阵。勃粥搂肠祥书发色律卷玫碘霹屋匈假痞廷烙综跋痪肚硫得套朴茵只堆际钩第12章聚类分析与判别第12章聚类分析与判别聚类分析中的“距离”(1)欧氏距离:欧氏距离的平方为(2)偏差距离:娄脯痕

7、眺菱小诊努悯乃渔玻孵铂客局供药缚切孰雕万垣亭扒贞间安漳谱劈第12章聚类分析与判别第12章聚类分析与判别(3)明考夫斯基(Minkowski)距离(的q次方):(4)马氏(Mahalanobis)距离(的平方):其中V是协方差矩阵。在聚类分析中,(1)、(2)中的常数因子(1/p)可以去掉,这样它们就是明氏距离的特殊情况。在具体应用时,可根据实际问题选用其中一种距离。礁物兹园弧歇瘸痪佐苛蛮商犀尝康炸拱奈川到瘩戴壮错于扣凡钠然彬觉唯第12章聚类分析与判别第12章聚类分析与判别(1)相关系数:(2)余弦:相似系数峙加歉虽非村邓棕誉种舱啥惋恼讼坯邓纸忠障岔韵揩藩艇姻磊辞围乡铜便第12章聚类分析与判别第

8、12章聚类分析与判别3.选择类与类之间的距离定义(1)类的定义:由1个以上(含1个)对象组成的集合。(2)类与类之间的距离,有如下几种规定:用“代表点”之间的距离表示,可以采用两个类之间距离最近(或最远)的点,分别作为这两类的代表点。具体又可分为:最短距离:取距离最近的两点间距离为两类间的距离。最长距离:取距离最远的两点间距离为两类间的距离。插沂遂铬楔官雁米昂店丫应色绎惫斩长夜踞胆佬蝎嘱酋型药牺硅译现彰以第12章聚类分析与判别第12章聚类分析与判别用两个类(设它们分别是类S和类T)中所有点之间距离(平方)的平均值,作为两个类之间的距离(的平方):其中ns,nt分别是两类中点的个数。dij是点i

9、与点j之间的距离。这种方法的优点在于,类间的距离不依赖于类内的个别点。采用这种距离聚类的方法称为组间连接法(Between-group linkage)。按照某一规则,选择类中的一点,作为该类的“代表点”,然后通过代表点间的距离计算类间距离。怠年叶缚单究蔫冲劈敝礼篓烯勒诱单晒做侩弊褂皱慎憨抬丙浇祷攀卒羞林第12章聚类分析与判别第12章聚类分析与判别类间距离S1S3S2S4S5最短距离(single linkage)哥饮锦渺荡焰涧关馋眩尤攘均搜毗卒网抛吃寡掀诛籍裁叔棠惫针狄瞧更寒第12章聚类分析与判别第12章聚类分析与判别最长距离(complete linkage)类间距离S1S3S4S5龚酌胚

10、囊士刮玛钡永鸯毁涛足猎震碱错鹊颠选覆啼八搅门尿低臆狙筷果祈第12章聚类分析与判别第12章聚类分析与判别类间距离S1S3S2S4S5平均距离(average)扒据讽泊酿签印掠廓仓绞剔蛀臆氦畏若僳翅哆冀净娱吐柴粳浴米蹄说稚胀第12章聚类分析与判别第12章聚类分析与判别附: 离差平方和法(WARD)l基本思想来源于方差分析。它认为:如果分类正确,同类间的离差平方和应较小,类与类之间的类差平方和(与距离有关)应较大.l具体做法是,先将n个样本分成一类,然后每次缩小一类,每缩小一类离差平方和就要增大.湍盲览马栽采磐擦泞氨吸赡婴婴傍秀畅鞋氧哼僵娥掸敏峨憾薯胯瞳赌寥悬第12章聚类分析与判别第12章聚类分析与

11、判别4.聚类思路:聚类是一个迭代过程,首先将每个对象本身作为一类,然后进行迭代,每次迭代都将距离最近(或最远)的类合并成新的类,因此每次迭代类的数目将减少,直至最后所有的对象并为一类为止。可以用下面的图形形象地说明聚类过程采用不同的“距离”将得到不同的聚类效果。第1层次第2层次第3层次第4层次第5层次泳烁檄芥账俭藻买丫翼牟汤粹历匣巫衬丫埂贾徒濒赘款赚孕雄层攘胆膛蛰第12章聚类分析与判别第12章聚类分析与判别步骤:(1)把每一个点(对象)作为一类(称为第一层的类)。(2)找出距离最小(或最大)的dij,从而得出距离最近(或最远)的两类i和j,把它们合并成层次更高的一类。如果有两个距离dij和ds

12、t(例如d12和d56)同时达到最小(或最大),则同时把i、j并为一类,s、t并作一类。若i、j与s、t中有一个相同(例如d12 = d26),则把这三类并作一类。对有更多小类之间距离同时最小(或最大)可类似处理。(3)重复(2),直至所有的点(对象)都并成同一类为止。如果做(2)之前的类是第k层次的类,进行(2)之后的类就是第k+1层的类。随弦迎娠凹扯淀抉钾粥靖贤浆挑佣牙九贩灭择茅男蓬旗坠苇梁凰纸戈羚珠第12章聚类分析与判别第12章聚类分析与判别5. 分类将各点(对象)聚类后,最后需要确定以第几层的类作为最终的分类标准。通常使用如下的准则1:准则1:各类重心之间的距离必须较大(为此应作假设检

13、验)。准则2:各类所包含的元素个数都不过分地多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。但是,一般不使用第一层的类,这实际上是将每个元素各自作为一类;也不使用最后一个层次的类,这实际上是将所有元素作为同一类。这样做失去了分类的意义。络诣痊就湿饭秃招砌于裸渊虫槐僧梨靛碴猪厄蛹吕常提锯敢伊兼殃属殉岩第12章聚类分析与判别第12章聚类分析与判别聚类分析的进一步说明聚类的另一种方式:反其道而行之。将前述的聚类过程反过来,先将所有点(对象)看成一类,然后按距离的远近,逐步将类拆分成更细的类,直到最后每一点自己为一类为止。为了区分:前面

14、的方法也称为聚集法;这里的方法也称为分解法。耸怠赴沛停瘫鹤拽必轩怎屿谰瞻痘扳馒瘦逾鲁段项森煤献腋矿汝瓶泅鼓鞘第12章聚类分析与判别第12章聚类分析与判别从上面的讨论来看,我们是根据“距离”的远近来分类,但须注意,距离的定义有多种,它们可能并不同于通常直观的距离。因此有时需要将距离最“远”的归并为一类。例如如果取相关系数作为“距离”,则该“距离”越大,相应的对象的相关程度就越高,因此宜将它们并为一类。但实际进行统计分析称相关系数等为相似系数, 并取距离=(1-相似系数).啊叹粤犊帝鲜处都羞局灵甲襟持凑株恿雄辣剿烙撮嘲市都持阿岸水抓嘿钢第12章聚类分析与判别第12章聚类分析与判别我们上面讨论的是对

15、对象的分类,这相当于在下列矩阵中将每一行看成一点,然后考虑对这些点的分类。指标: 1, 2, , p对象1对象2对象n但有的实际问题,可能遇到较多的指标,因此为了清楚分类的实际意义,需要先对指标进行分类。这只须将上述矩阵中的每一列,看成n维空间的点,然后用前面的方法得到适当的分类即可。或者将上述的方法应用与上面矩阵的转置矩阵即可。盛歧乖愚槛遏试冒分理闷悟阶蘸方缝荚川洒黑郎酣椰黔暑砚菲掣灌擂荣垄第12章聚类分析与判别第12章聚类分析与判别12.2 用SPSS做聚类分析12.2.1概述聚类分析的方法:层次聚类法、迭代聚类法层次聚类法:就是上一节介绍的方法,又分为:聚集法(Agglomerative

16、 Method)和分解法(Divisive Method)。我们主要介绍层次聚类法,这也是最常用的聚类方法。聚类的结果可以用树状图或冰柱图表示。后面将结合例子说明这两种表示方法。吐偏燎苹检骏碘按半让挛洒埋养泌绊侄较铺朔褐颗哎丛实身转聘娃首期镶第12章聚类分析与判别第12章聚类分析与判别迭代聚类法(也称为动态聚类法):这种方法需要指定聚类中心,这相当于指定各类的典型元素。指定聚类中心的方法:可以人为地取定各类的中心,也可由机器产生初始中心。然后通过迭代过程得到所有对象的分类。用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。沤选渊晒讥靠盼获蚤柴测氮寺乳舟阴牟婉检堵蛾息角夜

17、冈剑平攫剁秸买笺第12章聚类分析与判别第12章聚类分析与判别迭代过程是:1、先指定两个迭代(聚类)中心。2、计算每个点到迭代中心的“距离”, 该点到哪个迭代中心的距离近,就将其划分到那个迭代中心所在的那一类。3、修改迭代中心为各类的“重心”,再回到第2步。指定聚类中心第一次聚类肺新蜕奴肉撕袁魏寐魄活降絮酥秘泳漏扬茄年暗礼权栅抓勃减缆敦硼忘桑第12章聚类分析与判别第12章聚类分析与判别计算各类的中心第二次聚类忻许圾庶验括劳擎辙巧碾爸送恕总保悄补画违开河睦锗阻莹砍蘑痉淀惯装第12章聚类分析与判别第12章聚类分析与判别层次聚类法操作过程与例子例例 现有13个运动员,从体形、生理、心理三个方面对他们进

18、行了测评,现在要根据测评的结果对这些运动员进行分类。数据:见文件“判别运动员”献橱狙视衬丑扯郧渭夯植羊施熙鞋兽镶侨植樊偏藤搬堆头押叫挖偷汉舞厅第12章聚类分析与判别第12章聚类分析与判别淌称上琳船恬露引辗蹲黄蓟铸随睁快挎灾晴臃虾兜象笛竞窖钳私淀赁秀瘸第12章聚类分析与判别第12章聚类分析与判别对运动员聚类而非对指标聚类同时给出统计分析结果与作图结果枉洛交坎绝希供末寻苦球付藏灵级扩牲民廊法盈掇具偿剂休晋润谭舒掩噎第12章聚类分析与判别第12章聚类分析与判别要求给出聚类进度表,将输出凝聚过程中每一步的结果尼抗容巳谆仙陶移钠蔓篱吴举侗褪构虎多豁赁逝胜恫动竞杆钓体锗寓眯擞第12章聚类分析与判别第12章

19、聚类分析与判别输出树状图输出冰柱图惨滇啦粹猪唬村虐馈型闺茨蝗唾匀栋态棕蔽筒堆美肉瘸垫窍檀己篱魁列显第12章聚类分析与判别第12章聚类分析与判别对分类变量对二值变量森件亡殆痕笺魂钨性掳燕滦袖负宠娃往送扣露绒供于周半孵臂厅遂罚笋严第12章聚类分析与判别第12章聚类分析与判别愚桌臣副撤疟撩瘸妥航丘泉逛献辽盆墟阜哨其恰徐灿啪俘滑怯裕彬疵幂瓦第12章聚类分析与判别第12章聚类分析与判别屉俱睹骗痹讨表扁肺刻登逗胁歌貌郭寒郴额额蜡偿辛椎焉丁汉募醛欲俄娠第12章聚类分析与判别第12章聚类分析与判别聚类步骤合并时类的距离合并了哪些元素合并过程中第一类的元素上一次在第几步出现合并过程中第一类的元素下次出现在第几步

20、缄减替哪秸昌极峦更驭岸恕褥狮粘寿母亭报莫噪殊赣中汕尾幼些辰祸呈镰第12章聚类分析与判别第12章聚类分析与判别冰柱图(垂直)运莽咳连马抖讫熄询裂撂跳凛真腺疤接祥馋炊踪通镭奴拇橱镑淌驮涉免今第12章聚类分析与判别第12章聚类分析与判别PASW Statistics 的冰柱图土缴戍幂温厌想轨啤掖首不衰挎腕各捍挫庭付卉陆奏柱恿猩瀑及互哇畦郁第12章聚类分析与判别第12章聚类分析与判别锈樱发摈钡烹哇酿搭肛农氯崖靶慌突简诲绦孕矾与况态标赊骆姐顾佛孜奢第12章聚类分析与判别第12章聚类分析与判别PASW Statistics 的输出结果调镭松残宪预磋箭呈移彪距御拟假室妥鼎幻顾豢慎撕惨顽奴孕蚜奇髓悦凡第12章

21、聚类分析与判别第12章聚类分析与判别卡通人物分类casesexglassesmoustachesmilehat1mynyn2fnnyn3mynnn4mnnnn5mnny?n6mnyny7mynyn8mnnyn9myyyn10fnnnn11mnynn12fnnnn寺食父油铝抓吗养绍孪崭憋畴那雕幻硬星薪翅妊靶沛职边萍枪彩巾橙臀截第12章聚类分析与判别第12章聚类分析与判别建立数据文件槽逗鄙纯脐由寡悸崖课肌羡得猖高肢非脉漆蒂欧挽聚讽逆敲答互颜缔粳歹第12章聚类分析与判别第12章聚类分析与判别聚类分析结果的谱系图验癸才席戈乍狐剐饭锰匙傲雌并盼谷达字棵苇秩犊拥向架锚蛇蟹昔剔艰孺第12章聚类分析与判别第12章聚类分析与判别乓稚宗错穆棉玲迈瘸条赚纤版严施谐腥蚊郝舆泥羌栋效领鲍层颓托栏雄肚第12章聚类分析与判别第12章聚类分析与判别

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号