《第15章聚类分析1统计学原理.课件》由会员分享,可在线阅读,更多相关《第15章聚类分析1统计学原理.课件(58页珍藏版)》请在金锄头文库上搜索。
1、12 - 1统计学统计学STATISTICS(第三版第三版)第第15章章聚类分析2008年8月聚类分析聚类分析1 聚类分析的基本原理聚类分析的基本原理2 系统聚类系统聚类3 K-均值聚类均值聚类 2008年8月12 - 3统计学统计学STATISTICS(第三版第三版)学习目标学习目标l聚类分析的基本思想和原理聚类分析的基本思想和原理 l层次聚类和层次聚类和K-均值聚类的基本过程均值聚类的基本过程l解释聚类的结果解释聚类的结果l层次聚类和层次聚类和K-均值聚类的差异及应用条件均值聚类的差异及应用条件l聚类分析的注意事项聚类分析的注意事项l用用SPSS进行聚类分析进行聚类分析2008年8月12
2、- 4统计学统计学STATISTICS(第三版第三版)n n在现实生活中,分类问题是十分常见的在现实生活中,分类问题是十分常见的l l根根据据经经济济发发展展水水平平把把各各个个国国家家分分成成发发达达国国家家、中中等等发发达达国国家、发展中国家家、发展中国家l l按按照照消消费费者者的的特特征征对对消消费费者者分分类类,按按照照产产品品特特征征对对产产品品分分类类n n这这些些分分类类中中,有有的的事事先先并并不不知知道道存存在在什什么么类类别别,完完全全按按照照反反映映对对象象特特征征的的数数据据把把对对象象进进行行分分类类,这这在在统统计计上上称称为为聚聚类类分分析析;有有的的则则是是在
3、在事事先先有有了了某某种种分分类类标标准准之之后后,判判定定一一个个新新的的研研究究对对象象应应该该归归属属到到哪哪一一类类别别,这在统计上则称为判别分析这在统计上则称为判别分析( (discriminantdiscriminant analysis) analysis)n n本章主要介绍聚类分析方法本章主要介绍聚类分析方法聚类分析聚类分析 (cluster analysis)2008年8月1 聚类分析的基本原理聚类分析的基本原理1.1 什么是聚类分析什么是聚类分析?1.2 相似性的度量相似性的度量聚类分析聚类分析2008年8月1.1 什么是聚类分析?什么是聚类分析?聚类分析的思想和原理聚类分
4、析的思想和原理2008年8月12 - 7统计学统计学STATISTICS(第三版第三版)n把“对象对象”分成不同的类别l l这这些些类类不不是是事事先先给给定定的的,而而是是直直接接根根据据数数据据的的特特征确定的征确定的n把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大n聚类分析就是按照对象之间的“相相似似”程度把对象进行分类什么是聚类分析?什么是聚类分析? (cluster analysis)2008年8月12 - 8统计学统计学STATISTICS(第三版第三版)n聚聚类类分分析析的的“ “对对象象” ”可可以以是是所所观观察察的的多多个个样样本本,
5、也可以是针对每个样本测得的多个变量也可以是针对每个样本测得的多个变量n按照变量对所观察的样本进行分类称为按照变量对所观察的样本进行分类称为QQ型聚类型聚类型聚类型聚类l l按按照照多多项项经经济济指指标标( (变变量量) )对对不不同同的的地地区区( (样样本本) )进进行行分类分类n按照样本对多个变量进行分类,则称为按照样本对多个变量进行分类,则称为R R型聚类型聚类型聚类型聚类l l按照不同地区的样本数据对多个经济变量进行分类按照不同地区的样本数据对多个经济变量进行分类n两两种种聚聚类类没没有有什什么么本本质质区区别别,实实际际中中人人们们更更感感兴兴趣的通常是根据变量对样本进行分类趣的通
6、常是根据变量对样本进行分类(Q(Q型聚类型聚类) )什么是聚类分析?什么是聚类分析? (两种分类方式两种分类方式)2008年8月12 - 9统计学统计学STATISTICS(第三版第三版)n按对象的“相似相似”程度分类n根据样本的观测数据测度变量之间的相似性程度可以使用夹夹角角余余弦弦、Pearson相相关关系系数数等工具,也称为相似系数相似系数l l变量间的相似系数越大,说明它们越相近变量间的相似系数越大,说明它们越相近n根据变量来测度样本之间的相似程度则使用“距离距离”l l把把离离得得比比较较近近的的归归为为一一类类,而而离离得得比比较较远远的的放放在在不同的类不同的类什么是聚类分析?什
7、么是聚类分析? (按什么分类按什么分类)2008年8月1.2 相似性的度量相似性的度量聚类分析的思想和原理聚类分析的思想和原理2008年8月12 - 11统计学统计学STATISTICS(第三版第三版)n n聚聚类类分分析析中中是是用用“ “距距离离” ”或或“ “相相似似系系数数” ”来来度度量量对对象象之间的相似性之间的相似性n n3131个个地地区区的的人人均均GDPGDP数数据据就就是是直直线线上上的的3131个个点点,每每一个点对应一个地区一个点对应一个地区n n如如果果按按照照人人均均GDPGDP对对它它们们进进行行分分类类,就就可可以以把把在在直直线线上上离离得得比比较较近近的的
8、那那些些点点归归为为一一类类。如如果果再再考考虑虑财财政政收收入入,那那么么人人均均GDPGDP和和财财政政收收入入就就是是二二维维平平面面上上的的一一个个点,点,3131个地区就是平面中的个地区就是平面中的3131个点个点n n多多个个变变量量就就是是高高维维空空间间中中的的一一个个点点,3131个个地地区区就就是是高高维空间中的维空间中的3131个点个点n n各个点之间距离的远近就是分类的依据各个点之间距离的远近就是分类的依据相似性的度量相似性的度量2008年8月12 - 12统计学统计学STATISTICS(第三版第三版)n在对样本进行分类时,度量样本之间的相似性使用点间距离n点间距离的
9、计算方法主要有l l欧氏距离欧氏距离(Euclidean distance)(Euclidean distance)l l平方欧氏距离平方欧氏距离(Squared Euclidean distance)(Squared Euclidean distance)l lBlockBlock距离距离(Block distance)(Block distance)l lChebychevChebychev距离距离( (ChebychevChebychev distance) distance)l l马氏距离马氏距离( (MinkovskiMinkovski distance) distance)l l最
10、常用的是平方欧氏距离最常用的是平方欧氏距离相似性的度量相似性的度量(样本点间距离的计算方法样本点间距离的计算方法)2008年8月12 - 13统计学统计学STATISTICS(第三版第三版)相似性的度量相似性的度量(样本点间距离的计算方法样本点间距离的计算方法) Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离2008年8月12 - 14统计学统计学STATISTICS(第三版第三版)n在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有相似性的度量相似性的度量(变量相似系数的计算方法变量相似
11、系数的计算方法) 夹角余弦夹角余弦 Pearson相关系数相关系数 2008年8月2 系统聚类系统聚类2.1 系统聚类的两种方式系统聚类的两种方式2.2 类间距离的计算方法类间距离的计算方法2.3 系统聚类的应用系统聚类的应用聚类分析聚类分析2008年8月2.1 系统聚类的两种方式系统聚类的两种方式2 系统聚类系统聚类2008年8月12 - 17统计学统计学STATISTICS(第三版第三版)n系统聚类又称层次聚类n事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类n根据运算的方向不同,层次聚类法又分为合合并并法法和分分解解法法,两种方法的运算原理一样,只是方向相反系统聚类
12、系统聚类(hierarchical cluster)2008年8月12 - 18统计学统计学STATISTICS(第三版第三版)n n将每一个样本作为一类,如果是将每一个样本作为一类,如果是k k个样本就分个样本就分k k成类成类n n按按照照某某种种方方法法度度量量样样本本之之间间的的距距离离,并并将将距距离离最最近近的两个样本合并为一个类别,从而形成了的两个样本合并为一个类别,从而形成了k-1k-1个类别个类别n n再再计计算算出出新新产产生生的的类类别别与与其其他他各各类类别别之之间间的的距距离离,并并将将距距离离最最近近的的两两个个类类别别合合并并为为一一类类。这这时时,如如果果类类别
13、别的的个个数数仍仍然然大大于于1 1,则则继继续续重重复复这这一一步步,直直到到所所有的类别都合并成一类为止有的类别都合并成一类为止n n总是先把离得最近的两个类进行合并总是先把离得最近的两个类进行合并l l合并越晚的类,距离越远合并越晚的类,距离越远l l事事先先并并不不会会指指定定最最后后要要分分成成多多少少类类,而而是是把把所所有有可可能能的的分类都列出,再视具体情况选择一个合适的分类结果分类都列出,再视具体情况选择一个合适的分类结果 系统聚类系统聚类(合并法合并法)2008年8月12 - 19统计学统计学STATISTICS(第三版第三版)n分解方法原理与合并法相反n先把所有的对象(样
14、本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象)n再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这一过程,直到所有的对象都自成一类为止nSPSS中只提供了合并法系统聚类系统聚类(分解法分解法)2008年8月2.2 类间距离的计算方法类间距离的计算方法系统聚类系统聚类2008年8月12 - 21统计学统计学STATISTICS(第三版第三版)n在系统聚类法中,当类别多于1个时,就涉及到如何定义两个类别之间的距离问题n计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚
15、类结果n实际中较常用的是离差平方和法(Wards method),又称Ward法类间距离的计算方法类间距离的计算方法2008年8月12 - 22统计学统计学STATISTICS(第三版第三版)类间距离的计算方法类间距离的计算方法最短距离法最短距离法(Nearest neighbor) 最长距离法最长距离法(Furthest neighbor) 重心法重心法(Centroid clustering)组间平均距离组间平均距离(Between-groups linkage)离差平方和法离差平方和法(Wards method)2008年8月12 - 23统计学统计学STATISTICS(第三版第三版)
16、n nNearest Nearest neighborneighbor( (最最短短距距离离法法)用用两两个个类类别别中中各各个个数数据据点点之之间间最最短短的的那那个个距距离离来来表表示示两两个个类类别别之之间间的的距离距离n nFurthest Furthest neighborneighbor( (最最长长距距离离法法)用用两两个个类类别别中中各各个个数数据据点点之之间间最最长长的的那那个个距距离离来来表表示示两两个个类类别别之之间间的的距离距离n nCentroidCentroid clusteringclustering( (重重心心法法)用用两两个个类类别别的的重重心心之之间的距离
17、来表示两个类别之间的距离间的距离来表示两个类别之间的距离n nbetween-groups between-groups linkagelinkage( (组组间间平平均均距距离离法法)SPSSSPSS的的的的默默默默认认认认方方方方法法法法。是是用用两两个个类类别别中中间间各各个个数数据据点点之之间间的的距离的平均来表示两个类别之间的距离距离的平均来表示两个类别之间的距离n nWards Wards methodmethod( (离离差差平平方方和和法法)使使各各类类别别中中的的离离差差平方和较小,而不同类别之间的离差平方和较大平方和较小,而不同类别之间的离差平方和较大类间距离的计算方法类间
18、距离的计算方法2008年8月2.3 系统聚类的应用系统聚类的应用系统聚类系统聚类2008年8月12 - 25统计学统计学STATISTICS(第三版第三版)【例例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析层次聚类的应用层次聚类的应用 (实例分析实例分析) 3131个地区的个地区的个地区的个地区的6 6项经济指标项经济指标项经济指标项经济指标2008年8月12 - 26统计学统计学STATISTICS(第三版第三版)用用SPSS进行层次聚类进行层次聚类第第1步步 选择【Analyze】下拉菜单,并选择【Classify- Hierarch
19、ical Cluster】,进入主对话框第第2步步 将用于聚类的所有变量选入【Variable(s)】;把区分样 本的标签 (本例为“地区”)选入【Label Cases by】;若 对样本进行聚类,在【Cluster】下选择【Cases】(本 例选择对样本聚类),若对变量进行聚类,在 【Cluster】下选择【Variables】第第3步步 点入【Statistics】选中【Agglomeration schedule】, 点击【Continue】回到主对话框第第4步步 点入【Plots】选中【Dendrogram】,点击 【Continue】回到主对话框2008年8月12 - 27统计学统
20、计学STATISTICS(第三版第三版)用用SPSS进行层次聚类进行层次聚类第第5步步 点入【Method】,在【Cluster Method】中选择类间距离的 定义方法(本例选择Wards method);在【Measure】下选择 点间距离的定义方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框第第6步步 点入【Save】,在【Cluster Membership】下选择在原始数 据中保留分类结果,
21、其中【Single solution】表示指定要分成 类时各样本所属的类,【Range of solution】表示指定要分成 最少类、最多类时各样本所属的类(SPSS会将分类的结果以 变量形式保存到原数据窗口中),点击【Continue】【OK】 用用用用SPSSSPSS进行系统聚类进行系统聚类进行系统聚类进行系统聚类2008年8月12 - 28统计学统计学STATISTICS(第三版第三版)SPSS的输出结果的输出结果(实例分析实例分析)层层层层次次次次聚聚聚聚类类类类过过过过程程程程的的的的步步步步骤骤骤骤号号号号 2008年8月12 - 29统计学统计学STATISTICS(第三版第三
22、版)SPSS的输出结果的输出结果(实例分析实例分析) 层次聚类过程的步骤号层次聚类过程的步骤号层次聚类过程的步骤号层次聚类过程的步骤号 n第第1列列是是聚聚类类的的步步骤骤号号。第第2列列和和第第3列列给给出出了了每每一一步被合并的对象步被合并的对象(这里是地区这里是地区)n首首先先把把31个个地地区区各各自自作作为为一一类类(共共有有31类类)。第第1步步是是把把距距离离最最近近的的两两个个地地区区21(海海南南)和和地地区区30(宁宁夏夏)合合并并成成一一类类。在在后后面面的的步步骤骤中中,对对于于包包含含多多个个样样本本的的新新类类别别,实实际际上上是是用用类类中中的的一一个个样样本本来
23、来代代表表该该类类别别,比比如如,第第2步步被被合合并并的的是是21和和地地区区29(青青海海),这这里里的的“21”实实际际上上是是指指在在第第1步步中中被被合合并并的的类类别别,只只是是用用“21”表表示示21(海海南南)所所在在的的类类别别2008年8月12 - 30统计学统计学STATISTICS(第三版第三版)SPSS的输出结果的输出结果(实例分析实例分析) 层次聚类过程的步骤号层次聚类过程的步骤号层次聚类过程的步骤号层次聚类过程的步骤号 n第第4列列给给出出每每一一步步被被合合并并的的两两个个类类之之间间的的聚聚类类系系数数(即即距距离离)。距距离离按按从从小小到到大大排排列列,越
24、越早早合合并并的的类类距距离离越越近近。0.013是是地地区区21(海海南南)和和地地区区30(宁宁夏夏)之之间间的的距距离离,而而0.040是是先先被被合合并并的的第第一一小类与地区小类与地区29(青海青海)之间的距离之间的距离n第第5列列和和第第6列列表表示示本本步步聚聚类类中中参参与与聚聚类类的的是是原原始始的的样样本本还还是是已已经经合合并并的的小小类类,0表表示示本本步步聚聚类类的的是是原原始始的的样样本本,第第一一次次出出现现在在聚聚类类过过程程中中,其其他他数数字字则则表表示示第第几几步步聚聚类类生生成成的的小小类类参参与与了了本本步步聚聚类类。第第7列列给给出出了了在在每每一一
25、步步中中合合并并形形成成的的新新类类别别下下一一次次将将在在第第几几步步中中与与其其他他类类别别合合并并。例例如如,在在第第2步步中中,参参与与聚聚类类的的是是第第1步步形形成成的的小小类类(21号号样样本本所所在在的的类类)和和地地区区29(青青海海),第第5列列的的“1”表表示示21号号类类是是在在第第1步步中中形形成成的的小小类类,而而“0”表表示示地地区区29(青青海海)是是第第一一次次出出现现在在本本步步聚聚类类中中的的原原始始样样本本,第第7列列中中的的“10”表示这一类将在第表示这一类将在第10步中与其他类别合并,其余类推步中与其他类别合并,其余类推2008年8月12 - 31统
26、计学统计学STATISTICS(第三版第三版)Cluster MembershipCluster Membership分分分分成成成成2 2类类类类到到到到5 5类类类类时时时时各各各各地地地地区区区区所所所所属属属属的的的的类类类类别别别别2008年8月12 - 32统计学统计学STATISTICS(第三版第三版)层层层层次次次次聚聚聚聚类类类类的的的的树树树树状状状状图图图图 分成两类分成两类 分成四类分成四类 最大距离作为相对距离最大距离作为相对距离25,其余的距离都换算成与,其余的距离都换算成与之相比的相对距离大小之相比的相对距离大小 2008年8月12 - 33统计学统计学STATI
27、STICS(第三版第三版)层次聚类的应用层次聚类的应用 (分类汇总分类汇总)类别类别 地区地区地区个数地区个数第一类第一类北京,天津,上海北京,天津,上海3第二类第二类河北,辽宁,安徽,福建,河南,湖北,河北,辽宁,安徽,福建,河南,湖北,湖南,四川湖南,四川 8第三类第三类山西,内蒙古,吉林,黑龙江,江西,山西,内蒙古,吉林,黑龙江,江西,广西,海南,重庆,贵州,云南,西藏,广西,海南,重庆,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆陕西,甘肃,青海,宁夏,新疆 16第四类第四类江苏,浙江,山东,广东江苏,浙江,山东,广东 42008年8月12 - 34统计学统计学STATISTICS(
28、第三版第三版)使用使用SPSS中的中的Means过程过程(计算分类统计量计算分类统计量)注意注意 使用Means过程时可直接在聚类分析的数据中进行,数 据表中应包括SPSS以变量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的结果,然后按下列步骤操作第一步第一步 选择【Analyze】下拉菜单,并选择 【Compare Means-Means】主对话框第二步第二步 将用于描述的所有变量选入【Dependentlist】,把地 区所属的类别号变量选入【Independent list】第三步第三步 点击【Options】并选 择所需要的统计量,点击 【Continue】主对话框
29、 【OK】 使使使使用用用用SPSSSPSS的的的的MeansMeans过程过程过程过程2008年8月12 - 35统计学统计学STATISTICS(第三版第三版)层次聚类的应用层次聚类的应用 (类别检验类别检验)各类别所属地区的描述统计量各类别所属地区的描述统计量各类别所属地区的描述统计量各类别所属地区的描述统计量 2008年8月12 - 36统计学统计学STATISTICS(第三版第三版)层次聚类的应用层次聚类的应用 (类别检验类别检验)不同类别不同类别不同类别不同类别6 6项经济指标的方差分析表项经济指标的方差分析表项经济指标的方差分析表项经济指标的方差分析表 方方方方差差差差分分分分析
30、析析析2008年8月3 K-均值聚类均值聚类3.1 K-均值聚类的基本过程均值聚类的基本过程3.2 K-均值聚类的应用均值聚类的应用3.3 使用聚类方法的注意事项使用聚类方法的注意事项聚类分析聚类分析2008年8月12 - 38统计学统计学STATISTICS(第三版第三版)n系系统统聚聚类类事事先先不不需需要要确确定定要要分分多多少少类类,聚聚类类过过程程一一层层层层进进行行,最最后后得得出出所所有有可可能能的的类类别别结结果果,研研究究这这根根据据具具体体情情况况确确定定最最后后需需要要的的类类别别。该该方方法法可可以以绘绘制制出出树树状状聚聚类类图图,方方便便使使用用者者直直观观选选择择
31、类类别别,但但其其缺缺点点是是计计算算量量较较大大,对对大大批批量量数数据据的的聚聚类效率不高类效率不高nK-K-均均值值聚聚类类事事先先需需要要确确定定要要分分的的类类别别数数据据,计计算算量要小得多,效率比层次聚类要高,量要小得多,效率比层次聚类要高,n也被称为快速聚类也被称为快速聚类(quick cluster)(quick cluster)K-均值聚类均值聚类(K-means cluster)2008年8月3.1 K-均值聚类的基本过均值聚类的基本过程程3 K-均均值聚类聚类2008年8月12 - 40统计学统计学STATISTICS(第三版第三版)n n第第第第1 1步:步:步:步:
32、确定要分的类别数目确定要分的类别数目K Kl l需要研究者自己确定需要研究者自己确定l l在在实实际际应应用用中中,往往往往需需要要研研究究者者根根据据实实际际问问题题反反复复尝尝试试,得到不同的分类并进行比较,得出最后要分的类别数量得到不同的分类并进行比较,得出最后要分的类别数量n n第第第第2 2步:步:步:步:确定确定K K个类别的初始聚类中心个类别的初始聚类中心l l要要求求在在用用于于聚聚类类的的全全部部样样本本中中,选选择择K K个个样样本本作作为为K K个个类类别的初始聚类中心别的初始聚类中心l l与与确确定定类类别别数数目目一一样样,原原始始聚聚类类中中心心的的确确定定也也需需
33、要要研研究究者根据实际问题和经验来综合考虑者根据实际问题和经验来综合考虑l l使使用用SPSSSPSS进进行行聚聚类类时时,也也可可以以由由系系统统自自动动指指定定初初始始聚聚类类中心中心K-均值聚类均值聚类(步骤步骤)2008年8月12 - 41统计学统计学STATISTICS(第三版第三版)n第第第第3 3步步步步:根根据据确确定定的的K K个个初初始始聚聚类类中中心心,依依次次计计算算每每个个样样本本到到K K个个聚聚类类中中心心的的距距离离欧欧氏氏距距离离,并并根根据据距距离离最最近近的的原原则则将将所所有有的的样样本本分分到到事事先先确确定定的的K K个类别中个类别中n第第第第4 4
34、步步步步:根根据据所所分分成成的的K K个个类类别别,计计算算出出各各类类别别中中每每个个变变量量的的均均值值,并并以以均均值值点点作作为为新新的的K K个个类类别别中中心心。根根据据新新的的中中心心位位置置,重重新新计计算算每每个个样样本本到到新中心的距离,并重新进行分类新中心的距离,并重新进行分类K-均值聚类均值聚类(步骤步骤)2008年8月12 - 42统计学统计学STATISTICS(第三版第三版)n第第第第5 5步:步:步:步:重复第重复第4 4步,直到满足终止聚类条件为止步,直到满足终止聚类条件为止l l迭迭代代次次数数达达到到研研究究者者事事先先指指定定的的最最大大迭迭代代次次数
35、数(SPSS(SPSS隐含的迭代次数是隐含的迭代次数是1010次次) )l l新新确确定定的的聚聚类类中中心心点点与与上上一一次次迭迭代代形形成成的的中中心心点点的的最大偏移量小于指定的量最大偏移量小于指定的量(SPSS(SPSS隐含的是隐含的是0.02)0.02)nK-K-均均值值聚聚类类法法是是根根据据事事先先确确定定的的K K个个类类别别反反复复迭迭代代直直到到把把每每个个样样本本分分到到指指定定的的里里类类别别中中。类类别别数数目目的的确确定定具具有有一一定定的的主主主主观观性性,究究竟竟分分多多少少类类合合适适,需需要要研研究究者者对对研研究究问问题题的的了了解解程程度度、相相关关知
36、知识和经验识和经验K-均值聚类均值聚类(步骤步骤)2008年8月3.2 K-均值聚类的应均值聚类的应用用K-均均值聚类聚类2008年8月12 - 44统计学统计学STATISTICS(第三版第三版)【例例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析K-均值聚类的应用均值聚类的应用 (实例分析实例分析) 3131个地区的个地区的个地区的个地区的6 6项经济指标项经济指标项经济指标项经济指标2008年8月12 - 45统计学统计学STATISTICS(第三版第三版) 数据检查数据检查数据检查数据检查l l若若原原始始变变量量取取值值差差异异较
37、较大大,应应先先将将原原始始数数据据进进行行标标准准化化,避免变量值差异过大对分类结果的影响避免变量值差异过大对分类结果的影响l l可以先观察可以先观察6 6项经济指标的有关描述统计量项经济指标的有关描述统计量 K-均值聚类的应用均值聚类的应用 (实例分析实例分析)2008年8月12 - 46统计学统计学STATISTICS(第三版第三版) 数据标准化数据标准化(SPSS)l【Analyze】【Descriptive Statistics】 【Descriptives】主对话框l将需要标准化的变量选入【Variable(s)】 【Save standardized values as vari
38、ables】 【OK】K-均值聚类的应用均值聚类的应用 (实例分析实例分析) 3131个地区的个地区的个地区的个地区的6 6项经济指标的标准化项经济指标的标准化项经济指标的标准化项经济指标的标准化2008年8月12 - 47统计学统计学STATISTICS(第三版第三版)K-均值聚类的应用均值聚类的应用 (实例分析实例分析)分成分成分成分成4 4类的初始聚类中心类的初始聚类中心类的初始聚类中心类的初始聚类中心 该该表表列列出出每每一一类类别别的的初初始始聚聚类类中中心心,本本例例的的这这些些中中心心是是由由SPSS自自动动生生成成的的,它它实实际际上上就就是是数数据据集集中中的的某某一一条条记
39、记录录。聚聚类类中中心心的的选选择择原原则则是是中中心心点点距距离离其其他他点点尽尽可可能能远远。例例如如,第第一一类类的的聚聚类类中中心心是是3.17960,这这实实际际上上就就是是上上海海的的人人均均GDP标标准准化化后后的的值值。第第二二类类聚聚类类中中心心是是1.83293则则是是天天津津的的标标准准化化人均人均GDP,等等,等等2008年8月12 - 48统计学统计学STATISTICS(第三版第三版)K-均值聚类的应用均值聚类的应用 (实例分析实例分析)分成分成分成分成4 4类的迭代过程类的迭代过程类的迭代过程类的迭代过程 该该表表从从表表中中可可以以看看出出每每次次迭迭代代过过程
40、程中中类类别别中中心心的的变变化化,随随着着迭迭代代次次数数的增加,类别中心点的变化越来越小。本例只的增加,类别中心点的变化越来越小。本例只4次就已经收敛了次就已经收敛了2008年8月12 - 49统计学统计学STATISTICS(第三版第三版)K-均值聚类的应用均值聚类的应用 (实例分析实例分析)分成分成分成分成4 4类的最终聚类中心类的最终聚类中心类的最终聚类中心类的最终聚类中心 表表中中的的数数据据表表示示各各个个类类别别在在各各变变量量上上的的平平均均值值。如如,第第一一类类的的2.88521表示被分到第一类的地区表示被分到第一类的地区(北京和上海北京和上海)标准化后的人均标准化后的人
41、均GDP平均值平均值 2008年8月12 - 50统计学统计学STATISTICS(第三版第三版)K-均值聚类的应用均值聚类的应用 (实例分析实例分析)分类后各个变量在类别之间的方差分析表分类后各个变量在类别之间的方差分析表分类后各个变量在类别之间的方差分析表分类后各个变量在类别之间的方差分析表 利利用用方方差差分分析析表表可可以以判判断断所所分分的的类类别别是是否否合合理理。从从表表中中可可以以看看出出,分分类后各变量在不同类别之间的差异都是显著的类后各变量在不同类别之间的差异都是显著的(P值均接近值均接近0) 2008年8月12 - 51统计学统计学STATISTICS(第三版第三版)K-
42、均值聚类的应用均值聚类的应用 (实例分析实例分析)分成分成分成分成4 4类时每一类的地区数量类时每一类的地区数量类时每一类的地区数量类时每一类的地区数量 由由该该表表可可以以看看出出,第第一一类类包包括括2个个地地区区,第第二二类类包包括括11个个地地区区,第三类包括第三类包括4个地区,第四类包括个地区,第四类包括14个地区个地区2008年8月12 - 52统计学统计学STATISTICS(第三版第三版)K-均值聚类的应用均值聚类的应用 (实例分析实例分析)分分分分成成成成4 4类类类类时时时时每每每每个个个个地地地地区区区区所所所所属属属属的的的的类类类类别别别别 2008年8月12 - 5
43、3统计学统计学STATISTICS(第三版第三版)K-均值聚类的应用均值聚类的应用 (分类汇总分类汇总)类别类别 地区地区地区个数地区个数第一类第一类上海,北京上海,北京 2第二类第二类天津,内蒙古,吉林,海南,重庆,贵天津,内蒙古,吉林,海南,重庆,贵州,西藏,甘肃,青海,宁夏,新疆州,西藏,甘肃,青海,宁夏,新疆 11第三类第三类江苏,浙江,山东,广东江苏,浙江,山东,广东 4第四类第四类河北,山西,辽宁,黑龙江,安徽,福河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,建,江西,河南,湖北,湖南,广西,四川,云南,陕西四川,云南,陕西 142008年8月3.3 使用聚类
44、方法的注意事项使用聚类方法的注意事项K-均均值聚类聚类2008年8月12 - 55统计学统计学STATISTICS(第三版第三版)n n除除分分层层聚聚类类法法和和K-K-均均值值聚聚类类法法外外,19961996年年还还提提出出一一种种新新的的聚聚类类方方法法,即即两两步步聚聚类类法法( (TwoStepTwoStep Cluster)(SPSSCluster)(SPSS提提供供了该聚类方法的程序了该聚类方法的程序) )n n无无论论那那种种分分类类方方法法,最最终终要要分分成成多多少少类类别别,并并不不是是完完全全由方法本身来决定,研究者应结合具体问题而定由方法本身来决定,研究者应结合具体
45、问题而定n n聚聚类类分分析析是是一一种种探探索索性性的的数数据据分分析析方方法法。相相同同的的数数据据采采用用不不同同的的分分类类方方法法,也也会会的的得得到到不不同同的的分分类类结结果果。分分类类的结果没有对错之分,只是分类标准不同而已的结果没有对错之分,只是分类标准不同而已n n使使用用聚聚类类方方法法时时,首首先先要要明明确确分分类类的的目目的的,再再考考虑虑选选择择哪哪些些变变量量( (或或数数据据) )参参与与分分类类,最最后后才才需需要要考考虑虑方方法法的的选选择择。至至于于分分类类结结果果是是否否合合理理,该该如如何何解解释释,更更多多取取决决于于研研究究者者对对所所研研究究问
46、问题题的的了了解解程程度度、相相关关的的背背景景知知识识和和经经验验聚类分析的注意事项聚类分析的注意事项2008年8月12 - 56统计学统计学STATISTICS(第三版第三版)n n从数据要求上看从数据要求上看从数据要求上看从数据要求上看l l参与分类的变量首先应符合要求参与分类的变量首先应符合要求l l各各变变量量的的取取值值不不应应有有数数量量级级上上的的过过大大差差异异,否否则则会会对对分分类类结结果果产产生生较较大大影影响响。这这时时需需要要对对变变量量进进行行标标准准化化处处理理(SPSS(SPSS提提供供的的层层次次聚聚类类法法中中在在聚聚类类时时可可以以选选择择对对变变量量做
47、做标标准准化化处处理理,而而K-K-均均值值聚聚类类法法则需要单独做标准化处理,尔后再进行聚类则需要单独做标准化处理,尔后再进行聚类) )l l各各变变量量间间不不应应有有较较强强的的相相关关关关系系。若若两两个个强强相相关关的的变变量量同同时时参参与与聚聚类类分分析析,在在测测度度距距离离时时,就就加加大了它们的贡献,而其他变量则相对被削弱大了它们的贡献,而其他变量则相对被削弱聚类分析的注意事项聚类分析的注意事项2008年8月12 - 57统计学统计学STATISTICS(第三版第三版)n从聚类方法的选择上从聚类方法的选择上从聚类方法的选择上从聚类方法的选择上l l首首先先看看数数据据的的类
48、类型型,如如果果参参与与分分类类的的变变量量是是连连续续变变量量,层层次次聚聚类类法法、K-K-均均值值聚聚类类法法、以以及及两两步步聚聚类类法法都都是是适适用用的的。如如果果变变量量中中包包括括离离散散变变量量( (计计数数变变量量) ),则则需需要要将将先先对对离离散散变变量量进进行行连连续续化化处处理理,否否则则应应该该使使用用两两步步聚聚类类法法。当当数数据据量量较较少少时时( (比比如如小小于于100)100),三三种种方方法法都都可可以以选选用用,当当数数据据量量较较多多时时( (比比如如大大于于1000)1000),则则应应该该考考虑虑选选用用K-K-均均值值聚聚类类法法或或两两
49、步聚类法步聚类法l l要要看看分分类类的的对对象象。如如果果是是对对样样本本分分类类,三三种种方方法法都都可可用用;如如果果是是对对变变量量分分类类则则应应选选择择层层次次聚聚类类法法( (至至少少SPSSSPSS的程序是这样的程序是这样) ) 聚类分析的注意事项聚类分析的注意事项2008年8月12 - 58统计学统计学STATISTICS(第三版第三版)n注意对分类结果的检验注意对分类结果的检验l l分类结果是否合理取决于它是否“有用”,但分类结果是否可靠和稳定,则需要反复聚类和比较l l一般来说,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些聚类分析的注意事项聚类分析的注意事项2008年8月