第九章聚类分析

上传人:壹****1 文档编号:590066260 上传时间:2024-09-12 格式:PPT 页数:35 大小:472KB
返回 下载 相关 举报
第九章聚类分析_第1页
第1页 / 共35页
第九章聚类分析_第2页
第2页 / 共35页
第九章聚类分析_第3页
第3页 / 共35页
第九章聚类分析_第4页
第4页 / 共35页
第九章聚类分析_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《第九章聚类分析》由会员分享,可在线阅读,更多相关《第九章聚类分析(35页珍藏版)》请在金锄头文库上搜索。

1、第九章第九章SPSS聚类分析聚类分析袜行闹岭繁萌软跨吐咱购竹厩斜纬超裙宜砒碴切窗也缕似蹭缆刺贴东喂饼第九章聚类分析第九章聚类分析本章内容9.1 聚类分析的一般问题聚类分析的一般问题9.2 层次聚类层次聚类9.3 K-Means聚类聚类粹亥滔戊皱否秩臻踌赎无祁毫羊振咆功粉锤杆该骏摸畏侨闷址撬凳温述耀第九章聚类分析第九章聚类分析9.1 聚类分析的一般问题9.1.1 聚聚类类分析的意分析的意义义 聚聚类类分析是分析是统计统计学中研究学中研究“物以物以类类聚聚”问题问题的多元的多元统计统计分析方法。分析方法。 聚聚类类分析分析是一种建立分是一种建立分类类的多元的多元统计统计分析方法,它能分析方法,它能

2、够够将一批将一批样样本(或本(或变变量)数据根据其量)数据根据其诸诸多特征,按照在性多特征,按照在性质质上的上的亲亲疏程度(各疏程度(各变变量取量取值值上的上的总总体差异程度)在没有先体差异程度)在没有先验验知知识识(没有事先指定的分(没有事先指定的分类标类标准)的情况下准)的情况下进进行自行自动动分分类类,产产生多个分生多个分类结类结果。果。类类内部的个体在特征上具有相似性,不内部的个体在特征上具有相似性,不同同类间类间个体特征的差异性个体特征的差异性较较大。大。坟弱箍曙谴破盒胶勤灰井散洛绵抿辖幕音矿案屋戌食奋诚悉闪亭重料妖句第九章聚类分析第九章聚类分析 例如,学校里有些同学例如,学校里有些

3、同学经经常在一起,关系比常在一起,关系比较较密切,而他密切,而他们们与另一些同学却很少来往,关系比与另一些同学却很少来往,关系比较较疏疏远远。究其原因可能会。究其原因可能会发现发现,经经常在一起的同学的常在一起的同学的家庭情况、性格、学家庭情况、性格、学习习成成绩绩、课课余余爱爱好等方面有好等方面有许许多共同之多共同之处处,而关系比,而关系比较较疏疏远远的同学在的同学在这这些方面有些方面有较较大的差异性。大的差异性。为为了研究家庭情况、性格、学了研究家庭情况、性格、学习习成成绩绩、课课余余爱爱好等是否会成好等是否会成为为划分学生小群体的主要划分学生小群体的主要决定因素,可以从有关决定因素,可以

4、从有关这这些方面的数据入手,些方面的数据入手,进进行行客客观观分分组组,然后比,然后比较较所得的分所得的分组组是否与是否与实际实际相吻合。相吻合。对对学生的客学生的客观观分分组组就可采用聚就可采用聚类类分析方法。分析方法。篮育伤逾趣武俭焦篷驱宠睡蓬针列篱猾狡淮宗权霖牵台贡铸滥奢擎另末邯第九章聚类分析第九章聚类分析聚聚类类分析中,个体之分析中,个体之间间的的“亲亲疏程度疏程度”是极是极为为重要的,重要的,它将直接影响最它将直接影响最终终的聚的聚类结类结果。果。对对“亲亲疏疏”程度的程度的测测度一般有两个角度:第一,个体度一般有两个角度:第一,个体间间的相似程度;第的相似程度;第二,个体二,个体间

5、间的差异程度。衡量个体的差异程度。衡量个体间间的相似程度通的相似程度通常可采用常可采用简单简单相关系数等,个体相关系数等,个体间间的差异程度通常的差异程度通常通通过过某种距离来某种距离来测测度。度。为为定定义义个体个体间间的距离的距离应应先将每个先将每个样样本数据看成本数据看成k维维空空间间的一个点,通常,点与点之的一个点,通常,点与点之间间的距离越小,意的距离越小,意味着他味着他们们越越“亲亲密密”,越有可能聚成一,越有可能聚成一类类,点与点之,点与点之间间的距离越大,意味着他的距离越大,意味着他们们越越“疏疏远远”,越有可能分,越有可能分别别属于不同的属于不同的类类。9.1.2 聚聚类类分

6、析中分析中“亲亲疏程度疏程度”的度量方法的度量方法叁链霹掷银峻建茄答殴粕决免姓伪笛锌自切沤港滴败夹而锑拧瞥梢惋登漆第九章聚类分析第九章聚类分析例:下表是同一批客例:下表是同一批客户对经户对经常光常光顾顾的五座商的五座商场场在在购购物物环环境和境和服服务质务质量两方面的平均得分,量两方面的平均得分,现现希望根据希望根据这这批数据将五座商批数据将五座商场场分分类类。叙丁逮召挤缠惑羽拷里滤诸详咋武鹅彩税戮腊转窘舟予婶溜板噶勇箍彬沿第九章聚类分析第九章聚类分析7.1.2 聚类分析中“亲疏程度”的度量方法欧式距离(欧式距离(Euclidean distance)平方欧式距离(平方欧式距离(Squared

7、 Euclidean distance )切比雪夫(切比雪夫(Chebychev)距离)距离Block距离距离 1、定距型、定距型变变量个体量个体间间距离的距离的计计算方式算方式哺玉峰咖臃衙尺爷硬留嚎峡咐猾敞喘宏光亭契哪砧玉捍莽榴六肩抡沈梁组第九章聚类分析第九章聚类分析 2、计计数数变变量个体量个体间间距离的距离的计计算方式算方式卡方(卡方(Chi-Square measure)距离)距离Phi方(方(Phi-Square measure)距离)距离 3、二、二值值(Binary)变变量个体量个体间间距离的距离的计计算方式算方式简单简单匹配系数(匹配系数(Simple Matching)雅科比

8、系数(雅科比系数(Jaccard)点辰涟礼梢觉郡聊波娶晒丝挛翰棱路楷杀嘻尉勺滚迫救垂夏墅厄伴漾苑馒第九章聚类分析第九章聚类分析注:聚注:聚类类分析的几点分析的几点说说明明所所选择选择的的变变量量应应符合聚符合聚类类的要求:所的要求:所选变选变量量应应能能够够从不同的从不同的侧侧面反映面反映我我们们研究的目的;研究的目的;各各变变量的量的变变量量值值不不应应有数量有数量级级上的差异(上的差异(对对数据数据进进行行标标准化准化处处理):理):聚聚类类分析是以各种距离来度量个体分析是以各种距离来度量个体间间的的“亲亲疏疏”程度的,从上述各种距程度的,从上述各种距离的定离的定义义看,数量看,数量级级将

9、将对对距离距离产产生生较较大的影响,并影响最大的影响,并影响最终终的聚的聚类结类结果。果。各各变变量量间间不不应应有有较较强强的的线线性相关关系性相关关系抄墓抗全冀晶标违碉伯渊侨珠二殿狼醇咽元瘪舍擦仟讯瓣楔肪薄农价篡姿第九章聚类分析第九章聚类分析9.2 层次聚类9.2.1 层层次聚次聚类类的两种的两种类类型和两种方式型和两种方式 层层次聚次聚类类又称系又称系统统聚聚类类,简单简单地地讲讲是指聚是指聚类过类过程是按照程是按照一定一定层层次次进进行的。行的。层层次聚次聚类类有两种有两种类类型,分型,分别别是是Q型聚型聚类类和和R型聚型聚类类;层层次聚次聚类类的聚的聚类类方式又有两种,分方式又有两种

10、,分别别是凝聚方式是凝聚方式聚聚类类和分解方式聚和分解方式聚类类。Q型聚型聚类类:对样样本本进行聚类,使具有相似特征的样本聚集在一起,差异性大的样本分离开来。R型聚型聚类类:对变变量量进行聚类,使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。喳真志担写么胺叙狰卓捉轨侯宇锨危特淋丢恒呻狐蓄谆禾吮绍米彤颅谰蛊第九章聚类分析第九章聚类分析凝聚方式聚凝聚方式聚类类:其过程是,首先,每个个体自成一类;然后,按照某种方法度量所有个体间的亲疏程度,并将其中最“亲亲密密”的个体聚成一小类,形成n-1个类;接下来,再

11、次度量剩余个体和小类间的亲疏程度,并将当前最亲密的个体或小类再聚到一类;重复上述过程,直到所有个体聚成一个大类为止。可见,这种聚类方式对n个个体通过n-1步可凝聚成一大类。分解方式聚分解方式聚类类:其过程是,首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最“疏疏远远”的个体分离出去,形成两类;接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,直到所有个体自成一类为止。可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。镣那铣孙驶舜备兹沿瓶套卡打印僧焕企帕甲魔务琶蘸盼叮碱西蓑橙圾坚感第九章聚类

12、分析第九章聚类分析9.2.2 个体与小个体与小类类、小、小类类与小与小类间类间“亲亲疏程度疏程度”的度的度量方法量方法 SPSS中提供了多种度量个体与小中提供了多种度量个体与小类类、小、小类类与与小小类间类间“亲亲疏程度疏程度”的方法。与个体的方法。与个体间间“亲亲疏程度疏程度”的的测测度方法度方法类类似,似,应应首先定首先定义义个体与小个体与小类类、小、小类类与小与小类类的距离。距离小的关系的距离。距离小的关系亲亲密,距离大的关系疏密,距离大的关系疏远远。这这里的距离是在个体里的距离是在个体间间距离的基距离的基础础上定上定义义的,常的,常见见的距离有:的距离有:琢时誊锤诚乞并叼角屹淹擒愤乎蛔

13、唯散恐让窝驭凸眷楔禾酋奄恃息支慷中第九章聚类分析第九章聚类分析最近最近邻邻居(居(Nearest Neighbor)距离:个体与小)距离:个体与小类类中每中每个个体距离的最小个个体距离的最小值值。最最远邻远邻居(居(Furthest Neighbor )距离:个体与小)距离:个体与小类类中中每个个体距离的最大每个个体距离的最大值值。组间组间平均平均链锁链锁(Between-groups linkage)距离:个)距离:个体与小体与小类类中每个个体距离的平均中每个个体距离的平均值值。组组内平均内平均链锁链锁(Within-groups linkage)距离:个体)距离:个体与小与小类类中每个个体

14、距离以及小中每个个体距离以及小类类内各个体内各个体间间距离的平均距离的平均值值。重心(重心(Centroid clustering)距离:个体与小)距离:个体与小类类的重心的重心点的距离。重心点通常是由小点的距离。重心点通常是由小类类中所有中所有样样本在各本在各变变量上的均量上的均值值所确定的点。所确定的点。离差平方和法(离差平方和法(Wards method):聚):聚类过类过程中使小程中使小类类内离差平方和增加最小的两小内离差平方和增加最小的两小类应类应首先合并首先合并为为一一类类。臀袱勺更衫岁涂号巡深醉攻今腺库滇扯朋顷菱观盒泽咸妥赋钱尿贡碎羡蛆第九章聚类分析第九章聚类分析发诵掀笑网敲孺堤

15、忱翼鸣躇锑汕尺咱本减坊柿伟逻飘合钡怂伍赂甄汐吻支第九章聚类分析第九章聚类分析9.2.3 层层次聚次聚类类的基本操作的基本操作 1、选择选择菜菜单单AnalyzeClassifyHierarchical Cluster,出,出现现窗口:窗口:胞郊练浑市本萌孔拉倔痔押薛稚谜锹概韶宣搽挣瞎童涡敬塑报凑处聊厚吉第九章聚类分析第九章聚类分析 2、把参与、把参与层层次聚次聚类类分析的分析的变变量量选选到到Variable(s)框中。框中。 3、把一个字符型、把一个字符型变变量作量作为标记变为标记变量量选选到到Label Cases by框中,它将大大增框中,它将大大增强强聚聚类类分析分析结结果的可果的可读

16、读性。性。 4、在、在Cluster框中框中选择选择聚聚类类类类型。其中型。其中Cases表示表示进进行行Q型聚类(默(默认类认类型);型);Variables表示表示进进行行R型聚类。 5、在、在Display框中框中选择输选择输出内容。其中出内容。其中Statistics表表示示输输出聚出聚类类分析的相关分析的相关统计统计量;量;Plot表示表示输输出聚出聚类类分分析的相关析的相关图图形。形。葬椽坞嗡沧乍首赔惶布寅辑哗妈裴抹氢饯边妥粮铺丹佑逆稠息果君嗅肌耘第九章聚类分析第九章聚类分析 6、单击单击Method按按钮钮指定距离的指定距离的计计算方法。算方法。豺蔓剐受臀掩莉案幅宏茹回履甩薛菏奖

17、拦气弧呈尘囤葡子媚苇狭囚民匈相第九章聚类分析第九章聚类分析 Measure框中框中给给出的是不同出的是不同变变量量类类型下的个体型下的个体距离的距离的计计算方法。其中算方法。其中Interval框中的方法适用于框中的方法适用于连续连续型定距型定距变变量;量;Counts框中的方法适用于品框中的方法适用于品质质型型变变量;量;Binary框中的方法适用于二框中的方法适用于二值变值变量。量。Cluster Method框中框中给给出的是出的是计计算个体与小算个体与小类类、小小类类与小与小类间类间距离的方法。距离的方法。7、如果参与聚、如果参与聚类类分析的分析的变变量存在数量量存在数量级级上的差异,

18、上的差异,应应在在Transform Values框中的框中的Standardize选项选项中中选择选择消除数量消除数量级级差的方法。并指定差的方法。并指定处处理是理是针对变针对变量的量的还还是是针对样针对样本的。本的。By variable表示表示针对变针对变量,量,适于适于 Q 型聚型聚类类分析;分析;By case 表示表示针对样针对样本,适本,适于于R型聚型聚类类分析。分析。钙欢骆斯筛税赛礼胁澈企瞬骏肃辽废是抽祭狈佣托鳞唾螺避囊戳酞亚并械第九章聚类分析第九章聚类分析 8、单击单击Statistics按按钮钮指定指定输输出哪些出哪些统计统计量量泊拇虞盼娥坷恫完绩鸽空脂肩驳内否姥炼囱填凑锣

19、甸费睛除肖行古援墙籽第九章聚类分析第九章聚类分析 Agglomeration schedule表示表示输输出聚出聚类类分析分析的的凝聚状态表;Proximity matrix表示表示输输出个体出个体间间的的距离矩阵;Cluster Membership框中,框中,None表示不表示不输输出出样样本所属本所属类类,Single Solution表示指定表示指定输输出当分成出当分成n类时类时各各样样本所属本所属类类,是,是单单一解一解。Range of solution表示指定表示指定输输出当分成出当分成m至至n类类(m小于等于小于等于n)时时各各样样本所属本所属类类,是,是多个解多个解。室哲脱薯

20、灸曙辰仔朴沂某泵所揍茸鬼趋百言巷炕壬峻励棵钎劣巴谜侦涅戈第九章聚类分析第九章聚类分析 上表中,第一列表示聚类分析的第几步;第二、三列表示本步聚类中哪两个样本或小类聚成一类;第四列式个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非0表示由第n步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到。雕喊慌獭韦卜期扳摩椒妆郡佑春三妓筹恍透伞首黄藐芋聘禾塞消玫虹荷筷第九章聚类分析第九章聚类分析挖舵枷趾揽魄札偏筛堂甜熏笨毖遵头废黍砂纽箕被磕毕拾储踏丑韦塔滤谎第九章聚类分析第九章聚类分析 9、单击单击Plot按按钮钮指定指定输输出哪种聚出哪种聚类类分

21、析分析图图。评骨坚梦剔炽姓瓦挥翼湘女离簇略穷桃胎弟符僳讥漳泊激跳峭田些紫囚爱第九章聚类分析第九章聚类分析 Dendrogram选项选项表示表示输输出聚出聚类类分析分析树形图;在;在Icicle框中指定框中指定输输出出冰挂图,其中,其中,All clusters表示表示输输出聚出聚类类分分析每个析每个阶阶段的冰挂段的冰挂图图,Specified range of clusters表示表示只只输输出某个出某个阶阶段的冰挂段的冰挂图图,输输入从第几步开始,到第几步入从第几步开始,到第几步结结束,中束,中间间间间隔几步;在隔几步;在Orientation框中指定如何框中指定如何显显示冰挂示冰挂图图,其

22、中,其中,Vertical表示表示纵纵向向显显示,示,Horizontal表示横向水表示横向水平平显显示。示。 树树形形图图以躺倒以躺倒树树的形式展的形式展现现了聚了聚类类分析中的每一次分析中的每一次类类合并的情况。合并的情况。SPSS自自动动将各将各类间类间的距离映射到的距离映射到025之之间间,并将凝聚并将凝聚过过程近似地表示在程近似地表示在图图上。上。补昂厌妮爵当劳伐挑簧艳苟畜功奢侩劝纵倦沮抹沏接览愈锈亲记遍曼撂颁第九章聚类分析第九章聚类分析穆乒眯树泥澡骋雍迈夺厌罚阎韶狡鼎柴俘织雅霍恩收佳映脑季翌对厉舀黔第九章聚类分析第九章聚类分析 10、单击单击Save按按钮钮可以将聚可以将聚类类分析

23、的分析的结结果以果以变变量的量的形式保存到数据形式保存到数据编辑编辑窗口中。生成的窗口中。生成的变变量名量名为为clun_m(如(如clu2_1),其中),其中n表示表示类类数(如数(如2),),m表示是第表示是第m次分析(如次分析(如1)。)。 由于不同的距离由于不同的距离计计算方法会算方法会产产生不同的聚生不同的聚类类分分析析结结果,即使聚成果,即使聚成n类类,同一,同一样样本的本的类归类归属也会因属也会因计计算方法的不同而不同。因此算方法的不同而不同。因此实际实际分析中分析中应应反复反复尝尝试试以最以最终终得到符合得到符合实际实际的合理解,并保存于的合理解,并保存于SPSS变变量中。量中

24、。鸟朔锦季查历暮炯涵坍盂舞琢腥枉某护理药俘映靡憎减番叔舅贵橱蝴丑骗第九章聚类分析第九章聚类分析9.2.4 层层次聚次聚类类的的应应用用举举例例 1、利用、利用31个省市自治区小康和个省市自治区小康和现现代化指数数据代化指数数据进进行行层层次聚次聚类类分析。分析。 利用利用SPSS层层次聚次聚类类Q型聚型聚类对类对31个省市自治个省市自治区区进进行分行分类类分析。其中个体距离采用平方欧式距离,分析。其中个体距离采用平方欧式距离,类间类间距离采用平均距离采用平均组间链锁组间链锁距离,由于数据不存在距离,由于数据不存在数量数量级级上的差异,因此无需上的差异,因此无需进进行行进进行行标标准化准化处处理

25、。理。2、利用裁判打分数据、利用裁判打分数据进进行聚行聚类类分析。分析。 捍释矣腊珍贯刀姚谗岗宏佯弦铁训印闪横猴边绦限刚万渤园墅犹快丝型藉第九章聚类分析第九章聚类分析9.3 K-Means聚类9.3.1 K-Means聚聚类类分析的核心步分析的核心步骤骤 K-Means聚聚类类也称快速聚也称快速聚类类,仍将数据看成,仍将数据看成k维维空空间间上的点,仍以距离作上的点,仍以距离作为测为测度个体度个体“亲亲疏程度疏程度”的指的指标标,并通,并通过过牺牺牲多个解牲多个解为为代价代价换换得高的得高的执执行效率,其核心步行效率,其核心步骤骤是:是:第一,指定聚第一,指定聚类类数目数目K第二,确定第二,确

26、定K个初始个初始类类中心中心 SPSS中初始中初始类类中心的指定方式有两种:一是用中心的指定方式有两种:一是用户户指定指定方式;二是系方式;二是系统统指定方式。指定方式。 蟹搽职隙诱早氨煞像榆兼具蚂继跺叶顶邀铭怎泪哗爆麓渡批氢括优籍铱帛第九章聚类分析第九章聚类分析第三,根据距离最近原第三,根据距离最近原则进则进行分行分类类 依次依次计计算每个算每个样样本数据点到本数据点到K个个类类中心点的欧式距离,中心点的欧式距离,并按距并按距K个个类类中心点距离最短的原中心点距离最短的原则则将所有将所有样样本分成本分成K类类。第四,重新确定第四,重新确定K个个类类中心中心 中心点的确定原中心点的确定原则则是

27、,依次是,依次计计算各算各类类中中k个个变变量的均量的均值值,并以均并以均值值点作点作为为K个个类类的中心点。的中心点。第五,判断是否已第五,判断是否已满满足中止聚足中止聚类类分析的条件分析的条件 条件有两个:一是迭代次数(条件有两个:一是迭代次数(SPSS默默认为认为10);二);二是是类类中心点偏移程度,即新确定的中心点偏移程度,即新确定的类类中心点距上个中心点距上个类类中心点中心点的最大偏移量小于指定的量(的最大偏移量小于指定的量(SPSS默默认为认为0.02)时时中止聚中止聚类类。 提曲洁宛正观鹿攘僵煎孵赏涉唱设暴拳棵叛椅酸百蚂邵宵虚傲朱鲍假禽副第九章聚类分析第九章聚类分析9.3.2

28、K-Means聚聚类类分析的操作步分析的操作步骤骤1.选择选项选择选项AnalyzeClassifyK-Means Cluster,打开主窗口。,打开主窗口。之熬腋蓄诡毙婴钻此竭止埠蹲忌饭鹰骂衫暇我饵懦妓寓聪卯荚糕插导彰牲第九章聚类分析第九章聚类分析2.选选定参与定参与K-Means聚聚类类的的变变量放入量放入Variables框框中。中。3.选择选择一个字符型一个字符型变变量作量作为标记变为标记变量放入量放入Label Cases框中,增加分析框中,增加分析结结果的可果的可读读性。性。4.在在Number of Clusters框中框中输输入聚入聚类类数目,数目,该该数数应应小于小于样样本数

29、。本数。5.如果用如果用户户自行指定初始自行指定初始类类中心点,中心点,则单击则单击Centers按按钮钮,并在,并在Read initial from框后框后给给出存放初始出存放初始类类中心的中心的SPSS数据文件名;否数据文件名;否则则本步可略去。本步可略去。政宝窟彪天谬舔咒式尖午枉鳃害端请街航礼墒骡列捕壮稳绍兵覆韩率傈雀第九章聚类分析第九章聚类分析6.在在Method框中指定聚框中指定聚类过类过程是否程是否调调整整类类中心点。其中,中心点。其中,Iterate and classify表示在聚表示在聚类类分析的每一步都重新确定分析的每一步都重新确定类类中心点(中心点(SPSS默默认认);

30、);Classify only表示聚表示聚类类分析分析过过程程中中类类中心点始中心点始终为终为初始初始类类中心点,此中心点,此时仅进时仅进行一次迭代。行一次迭代。7.单击单击Iterate按按钮钮确定中止聚确定中止聚类类的条件。在的条件。在Maximum iterations框后框后输输入最大迭代次数,在入最大迭代次数,在Convergence criterion框后框后输输入入类类中心的偏移量。另外,中心的偏移量。另外,Use running means选项选项,选选中表示每当一个中表示每当一个样样本被分配到一本被分配到一类时类时便立即便立即重新重新计计算新的算新的类类中心点,此中心点,此时

31、类时类中心点与中心点与样样本分配的前后本分配的前后顺顺序序有关;不有关;不选该项选该项表示只有当完成了所有表示只有当完成了所有样样本的本的类类分配后再分配后再计计算算类类中心,中心,该该方式可方式可节节省运算省运算时间时间,通常不,通常不选选中中该选项该选项。搞莎冗检鼠恭嫉夷枝荤喧颓鲸本莱蔽巢宦穷泉搭职水鹰恭铝蓑凉侄弦三牢第九章聚类分析第九章聚类分析8.单击单击Save按按钮钮将聚将聚类类分析的部分分析的部分结结果以果以SPSS变变量的形式量的形式保存到数据保存到数据编辑编辑窗口中,其中窗口中,其中Cluster membership表表示保存示保存样样本所属本所属类类的的类类号;号;Dist

32、ance from cluster center表示保存表示保存样样本距各自本距各自类类中心点的距离。中心点的距离。9.单击单击Option按按钮钮确定确定输输出哪些相关分析出哪些相关分析结结果和缺失果和缺失值值的的处处理方式。理方式。Statistics框中,框中,Initial cluster centers表表示示输输出初始出初始类类中心点;中心点;ANOVA table表示以聚表示以聚类类分析分析产产生生的的类为类为控制控制变变量,以量,以k个个变变量量为观测变为观测变量量进进行行单单因素方差分因素方差分析,并析,并输输出各个出各个变变量的方差分析表;量的方差分析表;Cluster i

33、nformation for each case表示表示输输出出样样本分本分类类信息及信息及距所属距所属类类中心点的距离。中心点的距离。 至此完成了至此完成了K-Means聚聚类类分析的全部操作。分析的全部操作。谚赚昭袭鲁升自痰羹部题洗停柯报颅劳谨剁村豢游故号淖价渊萎珠况词茨第九章聚类分析第九章聚类分析9.3.3 K-Means聚类分析应用举例 用用2001年全国年全国31个省市自治区各个省市自治区各类类小康好小康好人人现现代化指数的数据,代化指数的数据,对对地区地区进进行行K-Means聚聚类类分析,要求分成分析,要求分成3类类,初始,初始类类中心点由中心点由SPSS自行自行确定。确定。拖埔轨菜恿逼芯纸巍烟勿噶滩峙境瑞感捂隅点尿椭甭睫楔东禽润坏笑燕翅第九章聚类分析第九章聚类分析Thank you陈侠柱胳滑辨蛾庄掌妹得毯蹬唾矽袄矛诚凯羚泛兰寄圾政堵限义室纷岗奥第九章聚类分析第九章聚类分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号