SPSS操作方法：聚类分析[整理]

资源描述

《SPSS操作方法：聚类分析[整理]》由会员分享，可在线阅读，更多相关《SPSS操作方法：聚类分析[整理]（15页珍藏版）》请在金锄头文库上搜索。

1、1 实验指导之一聚类分析的 SPSS操作方法系统聚类法实验例城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构，需将相关性强的指标归并到一起，这实际上就是对指标聚类。实验数据表 2001 年 30 个省。市，自治区城镇居民月平均消费数据 x 1人均粮食支出 (元人 ) x5人均衣着商品支出(元人 ) x 2人均副食支出 (元人 ) x6人均日用品支出 ( 元人 ) x3人均烟、酒、茶支出( 元人 ) x7人均燃料支出 (元人 ) x 4人均其他副食支出(元人 ) x8人均非商品支出 ( 元人 ) x 1 x 2 x 3 x 4 x

2、 5 x 6 x 7 x8 北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南 2 湖北湖南1323 广东广西海南四川贵州云南西藏陕西甘肃青海宁夏新疆系统聚类法的 SPSS 操作： 1. 从数据编辑窗口点击Analyze Classify Hierachical Cluster , （见图 1）图 1 系统聚类法打开层次聚类法对话如图2。 3 图 2 系统聚类法对话框选择需要进行聚类分析的变量进入Variable框内后，在 Cluster栏中选择聚类类型， SPSS 有两种层次聚类方法： Cases 对样品聚类（

3、 Q型；系统默认）， Variable 对指标变量聚类 (R 型），本例选择。在 Display 栏中选择默认的输出项。 2. 点击 Statistics按钮，打开对话框如图3. 图 3 Statistics对话框 Agglomeration schedule输出凝聚状态表（聚类进度表）；本例选择。 Ploximity matrix 输出个体间的距离矩阵，本例选择。 Cluster Membership栏中显示每个观测量被分派到的类。 None 不输出。本例选择。 Simple solution 指定分类数，并输出样本所属类，单一解。 4 Renge of solution 指定输出从 m

4、到 n 类的各样本所属类。多个解。选好后返回主对话框。 3. 单击 Method按钮，打开对话框如图4-1. Cluster Method ：选择聚类方法： SPSS中提供 7 种聚类方法，分别是：类间平均，类内平均，最短距离，最长距离，重心法，中值法，最小平方和法。本例选择类间平均。 Measure栏：对距离的测度方法选择 SPSS 中提供了三种类型： Interval等间距度量的变量（连续型）， Counts 计数型变量（离散型）和Binary 二值变量。 Interval等间隔测度的变量方法包括: Euclidean distance欧氏距离； Squared Euclidean d

5、istance欧氏平方距离； Cosine 夹角余弦（ R 型聚类）； Pearson Correlation皮尔逊相关系数距离（ R 型聚类），本例选择此项。 Chebychev契比雪夫距离； block 距离； Minkowski 明氏距离； Customized 用户自定义距离 - 即变量绝对值的第p 次幂之和的第 r 次根。p 与 r 由用户指定。 5 图 4-1 Method对话框 Transform Values栏，选择消除数量级差的方法（见图4-2），依次是： None不作处理（系统默认）；本例选择此项。 Z scores 标准化处理； Range -1 to 1 各变量值除

6、全距； Range 0 to 1各变量值减最小值后除全距； Maximum magnitude of 1各变量值除最大值； Mean of 1 各变量值除以均值； Standard deviation of 1各变量值除以标准差。图 4-2 Method对话框 4. 单击 Plots 按钮，打开对话框如图5. 6 图 5 Plots对话框 Dendrogram 表示输出树形图，本例选择此项。 Icicle表示输出冰柱图。其中， All clusters表示输出聚类分析每个阶段的冰柱图；本例选择此项。 Specified range of cluster 表示只输出某个阶段的冰柱图，输入从第

7、几步开始到第几步结束，中间间隔几步。 Orientationk 栏中指定如何显示冰挂图： Vertical纵向显示，本例选择此项。 Horizontal 横向显示。图 6 Save New Variables对话框 5. 单击 Save按钮，打开Save New Variables对话框，如图6 所示。选择是否将聚类的结果以变量形式保存在数据文件中。变量名为：clun_m，其中 n 表示类数， m表示第 m次分析。 Cluster Membership栏 None 不输出 Simple solution 指定分类数，并输出样本所属类。单一变量。 Renge of solution 指定输

8、出从 m到 n 类的各样本所属类。多个变量。当选择结束后，在主对话框中点击OK ，可得下面的输出表和图。 7 Proximity Matrix两两变量间距离矩阵（相关系数矩阵） CaseMatrix File Input 人均粮食支出（元 / 人）人均副食支出 ( 元人 ) 人均烟、酒、茶支出 (元人) 人均其他副食支出 (元人 ) 人均衣着商品支出 ( 元人 ) 人均日用品支出( 元人) 人均燃料支出 ( 元人 ) 人均非商品支出( 元人) 人均粮食支出（元 /人） .00 0 .33 4 .197 .34 9 .319 人均副食支出(

9、元人 ) .33 4 .00 0 .399.716 .41 4 .835 人均烟、酒、茶支出 (元人 ) .000.533.497.033 人均其他副食支出 (元人 ) .39 9 .533.000.698.478.313 人均衣着商品支出 (元人 ) .497.698.000.284 人均日用品支出 ( 元人 ) .19 7 .71 6 .033.478.284.000 .40 8 .710 人均燃料支出 ( 元人 ) .34 9 .41 4 .408 .00 0 .399 人均非商品支出 ( 元人 ) .31 9 .83 5 .313.710 .39 9 .000 Averag

10、e Linkage (Between Groups) 类间平均 Agglomeration Schedule 凝聚状态进度表； St age Cluster Combined Coeffic ients Stage Cluster First Appears Next Stage Clust er 1 Clust er 2 Clust er 1 Clust er 2 128.835002 226.713105 8 345.698004 434.515037 527.407206 612.299057 713.004640 凝聚状态进度表：第一列 (Stage) 表示聚类的进度顺序；第二、三

11、列(Cluster combine) 表示每一步将哪两类合并；第四列(Cofficients)表示被合并的两类之间的距离；第五、六列 (Stage Cluster First Appares)表示被合并的两类上一次合并分别是在哪一步形成的。0表示被合并的类为单个样品。最后一列(Next Stage) 表示每一步形成的新类将在哪一步参与下一次合并。 Vertical Icicle冰柱图 Number of clusters Case 人均衣着商品支出 ( 元人) 人均其他副食支出 ( 元人) 人均烟、酒、茶支出 ( 元人) 人均燃料支出

12、 ( 元人) 人均日用品支出 ( 元人) 人均非商品支出 (元人) 人均副食支出 ( 元人) 人均粮食支出（元 / 人） 1XXXXXXXXXXXXXXX 2XXXXXXXXXXXXXX 3XXXXXXXXXXXXX 4XXXXXXXXXXXX 5XXXXXXXXXXX 6XXXXXXXXXX 7XXXXXXXXX Dendrogram表示输出树形图（谱分析图） * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram

13、using Average Linkage (Between Groups类间平均 ) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ X2 2 X8 8 X6 6 9 X7 7 X1 1 X4 4 X5 5 X3 3 二： K- 聚类法的具体操作以例为例，说明快速聚类法的操作过程。 1. 在数据窗口单击 Analyze ClassifyK-Mean Cluster 打开对话框（见图 7） 10 图 7 K-Means Cluster Analysis 对话框将变量选入 Var

14、iables 栏；将标识变量选入 Label Cases 栏（可省略）将分类数输入 Number of 框（系统默认为 2），本例中选择 4. Method 栏聚类方法栏 Iterate and classify （按 K-means 算法）叠代分类（系统默认）。 Classify only 仅按初始类别中心点分类（不叠代）。 Centers 类中心数据的输入与输出（可省略） Read initial from 使用指定数据文件中的数据作为初始类中心（文件格式参考 Write final as 文件格式）选择 Write final as 把聚类结果中的各类中心数据保存到指定的文件。

15、本例中选择系统默认项。 2. 单击 Iterate按钮，打开 Iterate对话框如图 8 所示： Maximum Iterations 限定 K-Means 算法的迭代次数，系统默认值 10 Convergence Criterion-指定限定收敛标准，系统默认值为0 。 11 Use running means 限定在每个观测量被分配到一类后即刻计算新的类中心，不选此项表示只有当全部样本的类分配完后再计算类中心，可以节省运算时间，所以一般情况下不选择此项。本例中选择默认项。图 8 Iterate对话框 3. 单出 Save按钮，打开 Save对话框见图 9. Cluster Member 在原数据文件中保存分类结果（本例选择）。 Distance from cluster center在原数据文件中保存各观测量距所属类中心间的欧氏距离。图 9 Save对话框 4. 单击 Options 按钮，打开 Options 对话框见图 10。 Statistics栏 Initial cluster centers 输出初始类中心。 ANOVA table 输出方差分析表 Cluster information for each case每个观测量的分类信息 ( 分类结果和该观测量距所属类中心的距离等） 12 图 10 Options对话框 Missing Values

展开阅读全文