SPSS操作方法:聚类分析[整理]

上传人:x****育 文档编号:143419399 上传时间:2020-08-29 格式:PDF 页数:15 大小:568.02KB
返回 下载 相关 举报
SPSS操作方法:聚类分析[整理]_第1页
第1页 / 共15页
SPSS操作方法:聚类分析[整理]_第2页
第2页 / 共15页
SPSS操作方法:聚类分析[整理]_第3页
第3页 / 共15页
SPSS操作方法:聚类分析[整理]_第4页
第4页 / 共15页
SPSS操作方法:聚类分析[整理]_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《SPSS操作方法:聚类分析[整理]》由会员分享,可在线阅读,更多相关《SPSS操作方法:聚类分析[整理](15页珍藏版)》请在金锄头文库上搜索。

1、1 实验指导之一 聚类分析的 SPSS操作方法 系统聚类法 实验例 城镇居民消费水平通常用下表中的八项指标来描述。八项指标间 存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并 到一起,这实际上就是对指标聚类。 实验数据表 2001 年 30 个省。市,自治区城镇居民月平均消费数据 x 1人均粮食支出 (元人 ) x5人均衣着商品支出(元人 ) x 2人均副食支出 (元人 ) x6人均日用品支出 ( 元人 ) x3人均烟、酒、茶支出( 元人 ) x7人均燃料支出 (元人 ) x 4人均其他副食支出(元人 ) x8人均非商品支出 ( 元人 ) x 1 x 2 x 3 x 4 x

2、 5 x 6 x 7 x8 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 2 湖北 湖南1323 广东 广西 海南 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 系统聚类法的 SPSS 操作: 1. 从数据编辑窗口点击Analyze Classify Hierachical Cluster , (见图 1) 图 1 系统聚类法 打开层次聚类法对话如图2。 3 图 2 系统聚类法对话框 选择需要进行聚类分析的变量进入Variable框内后,在 Cluster栏中选择 聚类类型, SPSS 有两种层次聚类方法: Cases 对样品聚类(

3、 Q型;系统默认), Variable 对指标变量聚类 (R 型),本例选择。 在 Display 栏中选择默认的输出项。 2. 点击 Statistics按钮,打开对话框如图3. 图 3 Statistics对话框 Agglomeration schedule输出凝聚状态表(聚类进度表);本例选 择。 Ploximity matrix 输出个体间的距离矩阵,本例选择。 Cluster Membership栏中显示每个观测量被分派到的类。 None 不输出。本例选择。 Simple solution 指定分类数,并输出样本所属类,单一解。 4 Renge of solution 指定输出从 m

4、到 n 类的各样本所属类。多个解。 选好后返回主对话框。 3. 单击 Method按钮,打开对话框如图4-1. Cluster Method :选择聚类方法: SPSS中提供 7 种聚类方法,分别是:类间平均,类内平均,最短距离,最 长距离,重心法,中值法,最小平方和法。本例选择类间平均。 Measure栏:对距离的测度方法选择 SPSS 中提供了三种类型: Interval等间距度量的变量(连续型), Counts 计数型变量(离散型)和Binary 二值变量。 Interval等间隔测度的变量方法包括: Euclidean distance欧氏距离; Squared Euclidean d

5、istance欧氏平方距离; Cosine 夹角余弦( R 型聚类); Pearson Correlation皮尔逊相关系数距离( R 型聚类),本例选择此项。 Chebychev契比雪夫距离; block 距离; Minkowski 明氏距离; Customized 用户自定义距离 - 即变量绝对值的第p 次幂之和的第 r 次 根。p 与 r 由用户指定。 5 图 4-1 Method对话框 Transform Values栏,选择消除数量级差的方法(见图4-2), 依次是: None不作处理(系统默认);本例选择此项。 Z scores 标准化处理; Range -1 to 1 各变量值除

6、全距; Range 0 to 1各变量值减最小值后除全距; Maximum magnitude of 1各变量值除最大值; Mean of 1 各变量值除以均值; Standard deviation of 1各变量值除以标准差。 图 4-2 Method对话框 4. 单击 Plots 按钮,打开对话框如图5. 6 图 5 Plots对话框 Dendrogram 表示输出树形图,本例选择此项。 Icicle表示输出冰柱图。其中, All clusters表示输出聚类分析每个阶段的冰柱图;本例选择此项。 Specified range of cluster 表示只输出某个阶段的冰柱图,输入 从第

7、几步开始到第几步结束,中间间隔几步。 Orientationk 栏中指定如何显示冰挂图: Vertical纵向显示,本例选择此项。 Horizontal 横向显示。 图 6 Save New Variables对话框 5. 单击 Save按钮,打开Save New Variables对话框,如图6 所示。 选择是否将聚类的结果以变量形式保存在数据文件中。变量名为:clun_m, 其中 n 表示类数, m表示第 m次分析。 Cluster Membership栏 None 不输出 Simple solution 指定分类数,并输出样本所属类。单一变量。 Renge of solution 指定输

8、出从 m到 n 类的各样本所属类。 多个变量。 当选择结束后,在主对话框中点击OK ,可得下面的输出表和图。 7 Proximity Matrix两两变量间距离矩阵(相关系数矩阵) CaseMatrix File Input 人 均粮食 支出(元 / 人) 人 均副食 支出 ( 元 人 ) 人均 烟、酒、茶 支出 (元 人) 人均 其他副食 支出 (元 人 ) 人均 衣着商品 支出 ( 元 人 ) 人均 日用品支 出( 元 人) 人 均燃料 支出 ( 元 人 ) 人均 非商品支 出( 元 人) 人均粮食支 出(元 /人) .00 0 .33 4 .197 .34 9 .319 人均副食支 出(

9、元人 ) .33 4 .00 0 .399.716 .41 4 .835 人均烟、酒、 茶支出 (元人 ) .000.533.497.033 人均其他副 食支出 (元人 ) .39 9 .533.000.698.478.313 人均衣着商 品支出 (元人 ) .497.698.000.284 人均日用品 支出 ( 元人 ) .19 7 .71 6 .033.478.284.000 .40 8 .710 人均燃料 支出 ( 元人 ) .34 9 .41 4 .408 .00 0 .399 人均非商品 支出 ( 元人 ) .31 9 .83 5 .313.710 .39 9 .000 Averag

10、e Linkage (Between Groups) 类间平均 Agglomeration Schedule 凝聚状态进度表; St age Cluster Combined Coeffic ients Stage Cluster First Appears Next Stage Clust er 1 Clust er 2 Clust er 1 Clust er 2 128.835002 226.713105 8 345.698004 434.515037 527.407206 612.299057 713.004640 凝聚状态进度表: 第一列 (Stage) 表示聚类的进度顺序; 第二、三

11、列(Cluster combine) 表示每一步将哪两类合并;第四列(Cofficients)表示被合并的两类之 间的距离;第五、六列 (Stage Cluster First Appares)表示被合并的两类上一 次合并分别是在哪一步形成的。0表示被合并的类为单个样品。最后一列(Next Stage) 表示每一步形成的新类将在哪一步参与下一次合并。 Vertical Icicle冰柱图 Number of clusters Case 人 均 衣 着 商 品 支 出 ( 元 人) 人 均 其 他 副 食 支 出 ( 元 人) 人 均 烟、 酒、 茶 支 出 ( 元 人) 人 均 燃 料 支 出

12、 ( 元 人) 人 均 日 用 品 支 出 ( 元 人) 人 均 非 商 品 支 出 (元 人) 人 均 副 食 支 出 ( 元 人) 人 均 粮 食 支 出 ( 元 / 人) 1XXXXXXXXXXXXXXX 2XXXXXXXXXXXXXX 3XXXXXXXXXXXXX 4XXXXXXXXXXXX 5XXXXXXXXXXX 6XXXXXXXXXX 7XXXXXXXXX Dendrogram表示输出树形图(谱分析图) * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram

13、using Average Linkage (Between Groups类间平均 ) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ X2 2 X8 8 X6 6 9 X7 7 X1 1 X4 4 X5 5 X3 3 二: K- 聚类法的具体操作 以例为例,说明快速聚类法的操作过程。 1. 在数据窗口单击 Analyze ClassifyK-Mean Cluster 打开对话框(见 图 7) 10 图 7 K-Means Cluster Analysis 对话框 将变量选入 Var

14、iables 栏; 将标识变量选入 Label Cases 栏(可省略) 将分类数输入 Number of 框(系统默认为 2),本例中选择 4. Method 栏聚类方法栏 Iterate and classify (按 K-means 算法)叠代分类(系统默认)。 Classify only 仅按初始类别中心点分类(不叠代)。 Centers 类中心数据的输入与输出(可省略) Read initial from 使用指定数据文件中的数据作为初始类中心(文件格式 参考 Write final as 文件格式) 选择 Write final as 把聚类结果中的各类中心数据保存到指定的文件。

15、本例中选择系统默认项。 2. 单击 Iterate按钮,打开 Iterate对话框如图 8 所示: Maximum Iterations 限定 K-Means 算法的迭代次数,系统默认 值 10 Convergence Criterion-指定限定收敛标准,系统默认值为0 。 11 Use running means 限定在每个观测量被分配到一类后即刻计算 新的类中心,不选此项表示只有当全部样本的类分配完后再计算类中 心,可以节省运算时间,所以一般情况下不选择此项。 本例中选择默认项。 图 8 Iterate对话框 3. 单出 Save按钮,打开 Save对话框见图 9. Cluster Member 在原数据文件中保存分类结果(本例选择)。 Distance from cluster center在原数据文件中保存各观测 量距所属类中心间的欧氏距离。 图 9 Save对话框 4. 单击 Options 按钮,打开 Options 对话框见图 10。 Statistics栏 Initial cluster centers 输出初始类中心。 ANOVA table 输出方差分析表 Cluster information for each case每个观测量的分类信息 ( 分类结果和 该观测量距所属类中心的距离等) 12 图 10 Options对话框 Missing Values

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号