第8章聚类分析－金锄头文库

资源描述

《第8章聚类分析》由会员分享，可在线阅读，更多相关《第8章聚类分析（19页珍藏版）》请在金锄头文库上搜索。

1、第 8 章聚类分析在自然与社会科学研究中,存在着大量分类研究的问题，如病虫害种群消长演替规律的研究中，需要从生态系统出发，构造其数量、时间和空间关系的分类模式，以此来研究病虫害的发生规律。聚类分析就是其分类研究的方法之一。聚类分析是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。根据分类对象的不同可分为样品聚类和变量聚类。1)样品聚类样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件(Cases)进行聚类，或是说对观测量进行聚类。是根据被观测的对象的各种特征，即反映被观测对象的特征的各变量值进行分类。2)变量

2、聚类变量聚类在统计学又称为 R 型聚类。反映同一事物特点的变量有很多，我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的，往往难以找出彼此独立的有代表性的变量，而影响对问题的进一步认识和研究。例如在回归分析中，由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类，找出彼此独立且有代表性的自变量，而又不丢失大部分信息。8.1 快速聚类过程 (K-Means Cluster )调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类，然后逐步调整，得到最终

3、分类。例子 8-1根据 1962 年至 1988 年积累的三化螟有关资料进行聚类分析，研究三化螟种群消长规律。数据见表8-1，其中发生期是指卵盛孵高峰期(2代以5月31日和3代7月20 日为零计算天数)，F2-F3为2代至3代的增殖系数，F3-F4为3代至4代的增殖系数。对幼虫发生量和发生期数据进行快速聚类，分析各年的发生程度。表 8-1年份幼虫发生量发生期增殖系数第2代第3代第2代第3代F2-F3F3-F4196234433332999.691.9119631211497271912.371.341964187181332189.701.061965500400034148.001.82

4、1966441375036148.501.8719674044600331611.391.52196832898635183.011.261969806179032152.222.141970730197036202.702.64197126333329151.271.07197248660032191.231.47197324858533202.361.0819742100270022141.281.3319753332873819.86.70197690774024.861.871977192540271.322.8819782302525392010.96.551979139210413

5、318.754.171980308413128.133.34198141591636182.211.09198234401382911.79.99198326780337263.01.0919841043350039263.36.0719852243745231203.32.12198623659935262.54.001987558106133241.90.001988162281734212.64.008.1.1操作方法1) 数据准备在数据管理窗口，定义变量名：年份、幼虫 2、幼虫 3、发生期 2、发生期 3、增殖 23、增殖 34，分别代表年份、第 2代幼虫发生量、第 3代幼虫发生量、第

6、2 代发生期、第3代发生期、F2-F3增殖系数、F3-F4增殖系数。其中年份变量为字符变量，其它为数值变量。然后输入原始数椐。数据保存在配套光盘中(SPSSDATADATA8-2.SAV)。2) 启动快速聚类过程在SPSS主菜单中按“AnalyzeClassifyK-Means Cluster”顺序逐一单击鼠标键, 打开快速聚类主对话框，如图 8-1所示。图 8-1 快速聚类主对话框3) 指定分析变量和标识变量选择参与聚类分析的数值型变量，在变量列表中选中变量后，单击“ Variables ”矩形框左边的右拉箭头按钮，使选中的变量名移到右面的“Variables ”矩形框中。本例题要求

7、根据“幼虫 2”、“幼虫 3”、“发生期 2”和“发生期 3”进行聚类。因此选择这 4 个变量并移至“ Variables ”矩形框中。本例子中标识每个观测量的变量是年份。因此，选择主对话框中左面变量表中的“年份”，单击鼠标键使之选中。单击右拉箭头按钮，使变量名移到“ Label Cases by: ”框中。4) 确定分类数系统默认的分类数为2,显示在“Number of Clusters”框中。按发生程度轻、中、重，应该分为3类，将原数值2改为3。5) 选择聚类方法在主对话框中的“ Met hod ”栏中的两项中可以选择一种聚类方法。系统默认值是 “It era tive and c

8、lassif y” 项。It era te and classify选项，选择初始类中心，在迭代过程中使用K-Means算法不断更换类中心，把观测量分派到与之最近的以类中心为标志的类中去。Classify only选项，只使用初始类中心对观测量进行分类。本例选择 “Iterative and classify”。6) 类中心数据的输入与输出在主对话框中单击“Centers”按钮，展开“Cluster Centers ”带有选择保存类中心数据的对话框，如图 8-2。图 8-2 设置读入 / 保存类中心数据对话框Read initial from File选框，要求使用指定数据文件中的观测量作

9、为初始类中心。选择此项单击鼠标键后，再按其后的“ File”按钮，显示选择文件的对话框，指定文件所在位置（路径）和文件名。按“ OK ”按钮返回。在“ Center ” 选择框中的“File”按钮后面显示文件全名（包括路径）。如要选择此项，需要事先建立一个数据集，其中观测量的数目与要聚成的类数相等，每个观测量都由参与聚类的变量值组成。Write final as File选框，要求把聚类结果中的各类中心数据保存到指定的文件中。操作方法同上。本例题不选择这两项。7）控制聚类何时停止的选择项如果选择了 “Iterate and classify”方法进行聚类，还可以进一步选择迭代参数。

10、在主对话框中单击“Iterate”按钮，打开设置迭代参数的对话框，如图8-3所示。图 8-3 指定迭代参数对话框Maximumteratior参数，限定-Mean算法中的迭代次数。改变后面框中的数字，则改变迭代次数。当达到限定的迭代次数时即使没有满足收敛判据，迭代也停止。系统默认值为 10。选择范围为 1-999。Convergence Criterion参数，指定K-Means算法中的收敛判据。其值必须大于等于 0，小于 1，系统默认值为 0。该项数值为 N 的含义为，当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的百分之 N 时迭代停止。例如判据设置为 0.02，当一次

11、完整的迭代不能使任何一个类中心距离的移动与原始类中心距离的比小于 2%，则迭代停止。如果设置了以上两个参数，只要在迭代过程中满足了一个参数，迭代就停止。Convergence Cri terion设置为0,就是要求以Maximum It era tions最大迭代次数为迭代停止的判据。userunninmeans复选框，选中该复选框，限定在每个观测量被分配到一类后立刻计算新的类中心。如果不选择此项，则在完成了所有观测量的一次分配后再计算各类的类中心。不选择此项会节省迭代时间。本例子选择第一项的系统缺省设置值。8）输出数据选择项在主对话框中单击“Save”按钮，打开“Save N

12、ew Variables”保存新变量选择框, 见图 8-4。图 8-4 选择保存新变量对话框Cluster Membership复选框，建立一个新变量，系统默认变量名为qcl_l。其值表示聚类结果，即各观测量被分配到哪一类。其值为1、2、3的序号。该变量存入输入数据文件（DATA8-1）中。Distance from cluster center复选框，建立一个新变量，系统默认变量名为 qcl_2。聚类结束后把各观测量距所属类中心间的欧氏距离存入工作数据区（SPSS 数据管理窗口）中。本例子两项都选中。9）输出统计量的选择项与缺失值处理。在主对话框中单击“Option”按钮，打开选择对话框

13、，如图8-5所示。在此选择框中指定要计算的统计量和对带有缺失值的观测量的处理方式。图 8-5 Option 选择对话框在 Statistics 栏中可以选择要求计算和输出的统计量有： Initial cluster centers 初始类中心；ANOVA tabe方差分析表；Cluster information for each case每个观测量的分类信息。如分配到哪一类和该观测量距所属类中心的距离。本例题 3 项都选中。 Missing Values 栏中选择一种处理带有缺失值观测量的方法。Exclude cases listwise选项，将出现在Variables变量表中变量带有缺

14、失值的观测量从分析中剔除。Exclude cases pairwise选项，只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除。本例选中第 1 项系统默认。10）提交各项设置点击“OK”按钮，SPSS输出结果将显示在输出浏览器和数据编辑窗口文件中。在SPSS输出窗口中将看到表8-2至表8-7的分析结果。表8-2 初始聚类中心 Initial Cluster CentersCluster123第二代幼虫2100192243第三代幼虫二2700257452代幼虫发生期224031二代幼虫发生期142720表8-3 每步迭代的类中心改变值 Iteration HistoryChange in Cluster CentersIteration12311478.755735.718.0002146.10570.414.0003159.46670.526.0004.000.000.000a Convergence achieved due to

展开阅读全文