spss教程06(带图)_聚类分析和判别分析

资源描述

《spss教程06(带图)_聚类分析和判别分析》由会员分享，可在线阅读，更多相关《spss教程06(带图)_聚类分析和判别分析（42页珍藏版）》请在金锄头文库上搜索。

1、简单教程 06 1. 相关配套数据已经上传百度文库：2. 配套软件 SPSS 17.0 已经上传百度文库；百度文库搜索“SPSS 简单教程配套数据及软件 _chenxy”百度云盘链接7. 聚类分析 .27.1 Q 型聚类 .27.2 R 型聚类 .97.3 快速聚类 .108. 判别分析 .158.1 判别分析_ 全模型法（无待判别个体） .178.2 判别分析_ 逐步选择法（无待判别个体） .297. 聚类分析聚类分析(Cluster Analysis)：又称群分析、点群分析、簇类分析等，根据事物本身的特性研究个体分类的方法，是研究“物以类聚”的一种方法。聚类分析的基本思想：在聚类分析

2、的基本思想是认为研究的样本或指标(变量) 之间存在着程度不同的相似性(亲疏关系 )。于是根据一批样本的多个观测指标，具体找出一些能够度量样本或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些彼此之间相似程度较大的样本(或指标 )聚合为一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样本(或指标 )都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统。分层聚类( Hierarchical Cluster )，反映事物特点的变量很多，根据所研究的问题选择部分变量对事物的某一方面进行研究。快速样本聚类(Quick Cluster)，就是

3、对观测值进行聚类，是反映被观测对象特征的各变量进行分类；当要聚成的类数已知时，使用快速聚类过程可很快将观测量分到各类中去。层次聚类法最终得到的只是一个树状结构图，从图中可以看出存在很多不同的类，四个因素会大大影响聚类方法的使用效果：类的结构(主要指类的形状、规模和个数 ) 奇异值(Outliers)的存在类与类之间重叠的程度相似测度的选择聚类分析的基本步骤1、数据标准化2、计算对象之间的相异度（距离衡量两个对象之间的相异度）3、选择类与类之间的距离定义4、聚类5、分类:依据实际需要，确定以第几层的类为最终的分类标准。目标; 根据聚类结果写出聚类过程和最后的聚类情况层次聚

4、类分析：是根据观察值或变量之间的亲疏程度，将最相似的对象结在一起，以逐次聚合的方式(Agglomerative Clustering)，它将观察值分类，直到最后所有样本都聚成一类。层次聚类分析中的 Q 型聚类：是对样本( 个案)进行分类；层次聚类分析中的 R 型聚类：是对研究对象的观察变量进行分类。聚类时会涉及两种类型亲疏程度的计算：样本数据之间的亲疏程度样本数据与小类、小类与小类之间的亲疏程度。7.1 Q 型聚类定义：对样本(个案)进行分类操作步骤 1 ：（数据文件见 20151217_聚类分析_Q 型聚类）对样本数据作聚类分析，设定变量中必须对所分类目标的数据类型设为 Strin

5、g（字符串）点击 Type 所在列对应行数据单元格更改 type 为 String对于 String 类型数据直接可以在 Data view 数据窗口录入汉字，字母等其他形式数据操作步骤 2 ： Analyze - Classify - Hierarchial点击 - Method 选择默认选项不做更改点击 - plotsQ 型聚类对个案进行分类（大多为行数据）点击 - Statistics点击 -continue - OK 结果如下输出结果以及分析结果如下：系统树状图集聚附表（集聚时间表）亲近矩阵（近似矩阵）目标分类个数输入指定个数： n判定：数据是否丢失；由表格显示 N=10 且

6、 percent = 100% 故无数据丢失近似矩阵：判定数据相似性显示任意两个个案（学生姓名）之间的距离，且距离越小近似性越高由表看出：正对角线值都为 0，意为自己与自己本身完全相关完全相似，故距离为 0第一列 stage(1-9)：表示本次实验迭代的次数第二列 cluster combined：表示本次试验中每次迭代所聚类的两个簇（簇可以是一个个案也可以是一个已经聚集的小类）第三列 coefficients：表示所比较两个簇之间的距离，必须从小到大排序第四列 stage cluster first appears ：若 C1=0 且 C2=0，则表示为两个个案之间的聚类若 C1，C2 仅

7、有一个为 0，则为个案和小类之间的聚类若 C1，C2 都不为 0，则为两个小类之间的聚类第五列 next stage ：表示在第几次迭代中需要使用到本次迭代所生成的小类具体分析该表格：开始共分为 10 个个案，则可以简单看作为分成 10 个簇，第一个个案为第一个簇，以此类推；第一行数据：为个案 5 和个案 8 的聚类，形成了第一个小类，暂时称为小类 1；且在第三次迭代中使用到本次迭代生成的小类 1 ；第二行数据：为个案 1 和个案 10 的聚类，形成了第二个小类，暂时称为小类 2；且在第八次迭代中使用到本次迭代生产的小类 2 ；第三行数据：为个案 3 和个案 5 所在的小类 1 的聚类，后面

8、的（cluster combined）对应数据此时为 0,1，也表明为个案和小类之间的聚类，故形成了第三个小类，暂时称为小类 3，且在第七次迭代中使用到本次迭代生产的小类 3 ；依次第四，五行数据分别有个案 6 和个案 9 生产小类 4，以及个案 2 和个案 7 生成小类 5 ；第六行数据：由个案 2 所在的小类 5 和个案 4 进行聚类，生产小类 6 ；第七行数据：继续由个案 2 所在的小类 6 和个案 3 所在的小类 3 进行聚类，此时后面的（cluster combined）对应数据，此时为 6,3，也表明为小类和小类之间的聚类，继而生成了小类 7 ；第八行数据，第九行数据依次类推即可；

9、且还原为树状图3 51 81 0 2 47 6 9注释：纵线为不同距离下按距离从小到大顺序的每一次迭代的聚类虚线表示每一迭代不同距离的分界线由于确定聚类目标为 3 类，则从图中若分为三类则为上述红色方框中所聚集的 3 类对于该图简单了解下如何判断：银灰色长条：表示各簇与簇之间的差异个数，即差异程度，分隔开不同的类土灰色长条：表示各簇与簇之间的相近个数，即近似程度第 1 条红线将所有个案分为两类第 2 条红线将所有个案分为三类第 3 条红线将所有个案分为四类第 4 条红线将所有个案分为五类此时五类分别为：9,68,5,347,210,1在确定聚类目标是 3 的情况下并通过左侧表格也可以

10、看出个案 1 和个案 10 最终聚集为 1 类个案 2,3,4,5,7,8 聚集为 1 类个案 6 和个案 9 最终聚集为 1 类依此类推补充：Analyze - Classify - Hierarchial 进入该窗口后点击 - save仅仅会使数据界面发生改变，对输出界面没有影响即使数字不同，和原 Statistics 按钮下的聚类目标个数也没有矛盾和冲突拓展：当指定聚类目标类数个案个数（10）的时候此时，上述输出聚类结果及其具体信息都不变（理解：聚类不是分类）由于聚类的目标类数溢出故在聚类目标数大于等于个案个数的情况下该表都只能显示同样的信息7.2 R 型聚类定义：是对研究对象的观

11、察变量进行分类R 型聚类和 Q 型聚类基本操作步骤和原理大致相同且 R 型聚类的计算公式和 Q 型聚类的计算公式是类似的，不同的是 R 型聚类是对变量间进行距离的计算，Q 型聚类则是对样本间进行距离的计算。操作步骤 1：（数据文件见 20151217_聚类分析_R 型聚类）输出结果：对研究对象的观察变量进行分类即对各学科数学，物理，语文，政治进行聚类其他分析结论同上；分为两类数学，物理和语文，政治（简略）7.3 快速聚类操作步骤 1：（数据文件见 20151217_聚类分析_ 快速聚类）Analyze - Classify - K-means 点击 - iterateMaximum It

12、erations 框：指定最大的迭代次数，迭代达到该次数时终止聚类分析过程。Convergence Criterion 框：为迭代的距离收敛标准。当新一次迭代形成的若干个类中心点和上一次的类中心点间的最大距离小于指定数据时，终止聚类分析过程。点击 - saveCluster membership 复选框，建立一个新变量，系统默认变量名为 QCL-1。其值表示聚类结确定聚类目标类数果，即各观测量被分配到哪一类，其值为 1、2 、3的序号。该变量存入输入数据文件中。Distance from cluster center 复选框，建立一个新变量。系统默认变量名为 QCL-2。聚类结束后，把各观测量

13、距所属类中心间的欧氏距离存入输入数据文件中。点击 - optionsInitial cluster centers 复选框：初始类中心； ANOVA table 复选框：方差分析表；Cluster infomation for each case 复选框：每个观测量的分类信息。如分配到哪一类和该观测量距所属类中心的距离。Missing values 栏：Exclude cases listwise 选项：将出现在 Variables 变量表中带有缺失值的观测量从分析中剔除；Exclude cases pairwise 选项：只有当一个观测量的全部聚类变量值均缺失时，才将其从分析中剔除，否则，根据所有其他非缺失变量值把它分配到最近的一类中去。- continue -OK输出结果如下：由表格可知：聚类结果为：1 2 3,5 其他最终迭代后：对应每一个属性，每一个类（簇）中心的数值（均值）最终迭代后，各个类的簇心（类中心，类均值）之间的距离由单因素假设检验结果可知：各变量（身高，体重，胸围，坐高）的假设检验为有 P 值都 = 0.00，故都拒绝原假设 H0；既有 95%的把握认为各变量有显著性差异故该聚

展开阅读全文