第九章spss的聚类分析

资源描述

《第九章spss的聚类分析》由会员分享，可在线阅读，更多相关《第九章spss的聚类分析（39页珍藏版）》请在金锄头文库上搜索。

1、第八章 SPSS的聚类分析,聚类分析概述,(一)概念 (1)聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法. 例如：细分市场、消费行为划分聚类分析是建立一种分类，是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.,聚类分析概述,两类:(001 002) (003 004 005) 三类:(001 002) (003) (004 005),(2)例如,聚类分析概述,(3)总结上述分类的原则:依据学生成绩的差距,差距较小的为一类分类过程中,没有事先指定分类的标准.完全根据样本数据客观

2、产生分类结果. (4)SPSS中的聚类方法分层聚类 K-MEANS快速聚类,聚类分析概述,（二）特点聚类分析前所有个体所属的类别是未知的，类别个数一般也是未知的，分析的依据只有原始数据，可能事先没有任何有关类别的信息可参考严格地，聚类分析并不是纯粹的统计技术，不象其他多元分析，需要从样本去推断总体一般不涉及统计量分布，也不需显著性检验聚类分析更象是一种建立假设的方法，而对相关假设的检验还需要借助其他统计方法,聚类分析概述,（三）注意聚类分析主要用于探索性研究，其分析结果可提供多个可能的解，最终解的选择需要研究者的主观判断和后续分析聚类分析的解完全依赖于研究者所选择的聚类变量，增加

3、或删除一些变量对最终解都可能产生实质性的影响不管实际数据中是否存在不同的类别，利用聚类分析都能得到分成若干类别的解,分层聚类,(一)思路:聚类过程具有一定的层次性以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即：把所有的个体和小类聚集成越来越大的类，直到所有的个体都到一起(一大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低一旦个案（变量）被聚为一类，以后分类结果不会改变,分层聚类,(一)思路以分解的方式聚类首先,所有个体都属于一类其次,将大类中最“疏远”的小类

4、或个体分离出去然后,分别将小类中最“疏远”的小类或个体再分离出去重复上述过程,即：把类分解成越来越小的小类，直到所有的个体自成一类为止可见,随着聚类的进行,类内的亲密性在逐渐增强,分层聚类,(二)“亲疏”程度的衡量 (1)衡量指标相似性:数据间相似程度的度量距离: 数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类 (2)衡量对象个体间距离个体和小类间、小类和小类间的距离,分层聚类,(三)定距数据个体间的距离把每个个案数据看成是k维空间上的点,在点和点之间定义某种距离.一般适用于定距数据欧氏距离(EUCLID) 平方欧氏距离(SEUC

5、LID) 马氏距离(BLOCK) 切比雪夫距离(CHEBYCHEV) 明考斯基绝对值幂距离(POWER),分层聚类,结论:由于3.61距离最小，因此(004,005)首先聚成一类,个体距离矩阵,(三)定距数据个体间的距离欧氏距离举例,分层聚类,(四)品质数据个体间的距离简单匹配(simple matching)系数:适用二值变量。,a为样本i与样本j在所有变量上同时取1的个数；d为同时取0的个数特点：排除同时拥有或同时不拥有某特征的情况；取0和1地位等价，编码方案的变化不会引起系数的变化。,分层聚类,(四)品质数据个体间的距离简单匹配(simple matching)系数:适用二值变量

6、,姓名手机上网无线音乐选某门课程张三 1 1 1 李四 1 1 0 王五 0 0 1 （张三，李四）：a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 （张三，王五）：a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3 张三距李四近,分层聚类,(四)品质数据个体间的距离雅科比（Jaccard）系数:适用二值变量,a为样本i与样本j在所有变量上同时取1的个数；d为同时取0的个数特点：排除同时不拥有某特征的情况；取1的状态比取0更有意义(如:临床检验中的阳性特征)；编码方案会引起系数的变化,分层聚类,(四)品质数据个体间的距离雅科比（Jaccar

7、d）系数:适用二值变量,姓名手机上网无线音乐手机报张三 1 (0) 1(0) 1(0) 李四 1 (0) 1(0) 0(1) 王五 0 (1) 0(1) 1(0) (张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 (张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同) (张三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3 （Jaccard） (张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同) （Jaccard）,分层聚类,

8、(四)品质数据个体间的距离 Jaccard系数举例:根据临床表现研究病人是否有类似的病,姓名性别发烧咳嗽检查1 检查2 检查3 检查4 张三男 1 0 1 0 0 0 李四女 1 0 1 0 1 0 王五男 1 1 0 0 0 0 ,结论:张三和李四最有可能得类似的病;李四和王五不太有可能,分层聚类,(四)个体和小类、类和类间的距离最短距离法(nearest neighbor): 两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法(furthest neighbor)：两类间的距离定义为两类中距离最远的两个个案之间的距离以上易受极端值影响平均链锁法两类之间

9、的距离定义为两类个案之间距离的平均值。包括：组间平均链锁法(between-groups linkage):只考虑两类间个案的距离较多采用组内平均链锁法（within-groups linage)：考虑所有个案间的距离,分层聚类,以最短距离法为例的聚类过程：,分层聚类,(五)说明聚类分析包括：个案聚类和变量聚类两种。聚类分析中的变量选择问题聚类结果仅是所选定变量所具数据特点的反应. 变量应和聚类分析的目标密切相关(如;客户消费行为用通话时长、通话时段、通话类型、通话流向等) 变量之间不应具有高度相关性,否则相当于给这些变量进行了加权聚类过程中如果数据在数量级上存在差异时，应进行标准

10、化处理。,分层聚类,(六)基本操作步骤 1.基本操作 A.菜单选项: analyze-classify-hierachical cluster B.选择参与聚类分析的变量入variables框 C.选择一字符型变量作为个案的标记变量 (label cases) D.选择个案聚类还是变量聚类,分层聚类,(六)基本操作步骤 2. 选择距离计算方法（method选项） cluster method:计算类间距离的方法 measure:计算样本距离的方法 transform values:对数据进行标准化处理 by variable:以变量为单位标准化，适于个案聚类 by case:以个案为单位标准化

11、，适于变量聚类,分层聚类,(七)进一步的工作 1.数据输出（statistics选项） agglomeration schedule:凝聚状态表（默认） distance matrix:样本的距离矩阵 cluster membership:类成员 none:不输出类成员（默认） single solution：聚成n类时各样本的归属 range of solutions:聚成mn类时各样本的归属(mn总样本数),分层聚类,(七)进一步的工作 2. 图形输出（plot选项） dendrogram:树型图 icicle:冰柱图 all cluster:聚类的每一步均在冰柱图中体现 specifie

12、d range of clusters:将聚类为n1类开始到n2类结束，间隔n3类的聚类分析过程在冰柱图中体现 orientation:冰柱图的方向 vertical:纵向; horizontal:横向,分层聚类,(七)进一步的工作 3. 结果保存（save选项） single solution:生成一新变量存储在聚成n类时各样本属于哪一类(cluN_M: N为聚类数,M为第几次做的) range of solutions:生成若干个变量分别存放聚成nm类时各样本的归属情况,分层聚类,(八)应用举例选取人均GDP资产、人均可支配收入、移动电话普及率指标分类研究中国各省移动通信业务的发展情况

13、个案聚类观察聚类凝聚表观察类成员类特征分析,分层聚类,研究不同国家裁判和体育爱好者在评判体育比赛中对选手的评分问题变量聚类树状图的使用不同聚类结果的比较欧氏距离适用于对个案聚类，person correlation适用于对变量聚类,分层聚类,(九)聚类数目的确定聚类数目确定无统一标准，一般原则：各类中心间距离应较大各类所包含的元素都不应过多分类数目应符合分析的目的分层聚类中可以将类间距离作为确定类数目的辅助工具 SPSS中，聚类过程中，类间距离呈增加趋势类间距离小，类的相似性大；距离大，相似性小,聚类结果的类特征观察聚类结果的检验,K-means快速聚类,(一)出发

14、点希望：克服分层聚类在大样本时产生的困难，提高聚类效率做法：通过事先指定聚类数目的方式提高效率分层聚类可以对不同的聚类数而产生一系列的聚类解，而快速聚类只能产生单一的聚类解,K-means快速聚类,(二)思路 1.指定最后要聚成K类 2.用户指定k个样本作为初始类中心或系统自动确定k个样本作为初始类中心 3.系统按照距k个中心距离最近的原则把每个样本分派到各中心所在的类中去,形成一个新的k类，完成一次迭代 4.重新计算k个类的类中心(计算每类各变量的均值,以均值点作为类中心) 5.重复3步和4步，直到达到指定的迭代次数或达到终止迭代的条件各个案的分类在聚类过程中会发生变化,K-me

15、ans快速聚类,(二)思路 SPSS中两个判断聚类是否结束的条件,满足其中一个即可结束聚类过程. 达到指定迭代次数(maximum iteration),默认10次。收敛标准(convergence),默认0.02（显示0），即：本次迭代产生的任意新类,各中心位置变化较小.其中最大的变化率小于2%.,K-means快速聚类,(三)基本操作步骤 A.菜单选项:analyze-classify-k means cluster B.选定参加快速聚类分析的变量到variables框 C.确定快速聚类的类数(number of clusters).类数应小于个案总数 D.选择聚类方法(method)：默认iterate and classify，即：在聚类的每一步都重新计算新的类中心 E.确定聚类终止条件（iterate),K-means快速聚类,(四)其他 1. 保存快速聚类的结果(save) cluster membership:将各个案所属类的类号保存到qcl_1变量中 distance from cluster center:将各样本距所属类中心的距离保存到qcl_2变量中.,K-means快速聚类,(四)其他 2.输出选项(option) initial cluster centers

展开阅读全文