第7章聚类分析－金锄头文库

资源描述

《第7章聚类分析》由会员分享，可在线阅读，更多相关《第7章聚类分析（163页珍藏版）》请在金锄头文库上搜索。

1、第7章聚类分析 (Cluster Analysis),聚类分析是根据研究对象的特性，对样本或变量进行定量分类的一种多元统计方法。,主要内容,7.1 聚类分析概述 7.2 分类统计量 7.3 系统聚类法 7.4 用SPSS进行聚类分析,聚类的目的,根据已知数据，计算各观察个体或变量之间亲疏关系的统计量。在没有先验知识的情况下自动进行分类的方法，聚类分析根据某种准则，使同一类内的差别较小，而类与类之间的差别较大，最终将观察个体或变量分为若干类。,聚类分析的应用例子,不同地区城镇居民收入和消费状况的分类研究。区域经济及社会发展水平的分析及全国区域经济综合评价市场营销中按照消费者的特征对消费者分

2、类，按照产品特征对产品分类，从而进行市场分层、建立目标市场为多种动物群体昆虫、哺乳动物和爬行动物的区分建立生物分类学动物界节肢动物门昆虫纲膜翅目细腰亚目蜜蜂科蜜蜂,两类:(001 002) (003 004 005) 三类:(001 002) (003) (004 005),例如,上述分类的原则:依据学生成绩的差距,差距较小的为一类分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.,7.1 聚类分析概述,聚类分析是根据对象的特性对其进行定量分类的一种多元统计方法，是从数值分类学中分离出的一种科学的分类法。常用的聚类方法有系统聚类法、模糊聚类法、动态聚类法、有序样本

3、聚类法、分解法、加入法等等。,聚类分析概述,聚类分析是将数据中的观测值或变量按相似度加以归类在各个类别内这些类不是事先给定的而是直接根据数据的特征确定的聚类的原则是“组(类)内同质，组(类)间差异” 类别内部的“差异”尽可能小而类别之间的“差异”尽可能大,聚类分析特点,聚类分析前所有个体所属的类别是未知的，类别个数一般也是未知的，分析的依据只有原始数据，可能事先没有任何有关类别的信息可参考严格地，聚类分析并不是纯粹的统计技术，不象其他多元分析，需要从样本去推断总体一般不涉及统计量分布，也不需显著性检验聚类分析更象是一种建立假设的方法，而对相关假设的检验还需要借助其他统计方法,聚类

4、分析注意,聚类分析主要用于探索性研究，其分析结果可提供多个可能的解，最终解的选择需要研究者的主观判断和后续分析聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终解都可能产生实质性的影响不管实际数据中是否存在不同的类别，利用聚类分析都能得到分成若干类别的解,聚类分析的分类,在实际问题中，收集n个样品，对每一个样品测量 p 个指标： Q型聚类根据p个指标值对n个样品进行分类如，根据多项经济指标（指标）对不同的地区（样品）进行分类 R型聚类根据n个样品对p个指标进行分类根据不同地区的样本数据对多个经济指标进行分类,两者没有本质区别，实践中人们更感兴趣的通常是Q型聚类,

5、聚类分析的基本步骤,(1) 选择描述事物对象的变量(指标)。 (2) 建立样品数据资料矩阵。 (3) 确定数据是否要标准化。 (4) 确定表示对象距离或相似程度的统计量。 (5) 选择适当的聚类方法，进行聚类。,分层聚类,(一)思路:聚类过程具有一定的层次性以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即：把所有的个体和小类聚集成越来越大的类，直到所有的个体都到一起(一大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低一旦个案（变量）被聚为一类，以后分类结果不会改变,分

6、层聚类,(一)思路以分解的方式聚类首先,所有个体都属于一类其次,将大类中最“疏远”的小类或个体分离出去然后,分别将小类中最“疏远”的小类或个体再分离出去重复上述过程,即：把类分解成越来越小的小类，直到所有的个体自成一类为止可见,随着聚类的进行,类内的亲密性在逐渐增强,7.2 分类统计量,变量分类,间隔尺度变量:指标用连续的实值变量表示，如长度、重量、时间有序尺度变量:用该指标度量时无数量表示，只表示次序，如产品质量的等级；名义尺度变量:该指标只代表某些分类或属性，不代表大小和次序，如性别。,本章重点介绍间隔尺度变量的聚类分析方法,数据分类（计量尺度）：分类数据、顺序数据

7、和数值型数据,m个指标X1，X2，X3，Xm，数据资料矩阵为,X1，， Xm,m个指标,n次观测,数据资料矩阵,为消除各个变量所用量纲的影响，以保证各变量在分析中处于同等地位，对数据资料矩阵做标准化处理,变换后各指标均值为0，标准差为1。,距离和相似系数,距离：此处我们将每个样品看成是m维空间中的一个点，并在空间中定义距离。根据样本间距离的远近将样本进行划分。,以dij表示第i个样品与第j个样品之间的距离，作为p维空间中两点距离，要满足： dij0 ，对一切i，j dij0 ,当第i个样品与第j个样品p个指标都相同 dij dji ，对一切i，j dij dik+ dkj ，对一切i，j，

8、k,距离是用来描述样品间亲疏程度的分类统计量,q=1时，绝对值距离,q=2时，欧氏(Euclidean )距离,闵氏距离适用于一般p 维欧氏空间。缺点是没有考虑变量之间的相关性。,闵氏(Minkowski )距离,二维空间欧式距离,s=(sij),分别为第i号样品和第j号样品各指标的均值,马氏距离适用于衡量来自正态总体的样品点之间接近程度的距离；优点：马氏距离既排除了各指标间的相关性干扰，又消除了各指标的量纲缺点：需要计算协方差阵（有可能是奇异阵），实际使用效果不是很好,马氏(Mahalanobis)距离,切比雪夫距离(CHEBYCHEV),以cij表示第i个指标与第j个指标之间的

9、相似系数，要满足： cij1 ，对一切i，j cij1 ,当且仅当 xixj cij cji，对一切i，j,指标的相似系数与指标间的距离的关系,相似系数是用来描述指标间亲疏程度的分类统计量。,相似系数,两个变量相似系数的绝对值越接近于1，说明这两个变量的关系越密切，性质越接近。相似系数绝对值大的变量归为一类，相似系数绝对值小的变量归属于不同的类。,Pearson相关系数,2) 夹角余弦,若将第i个变量的n个观测值(x1i,x2i,xni)T和第j个变量的n个观测值(x1j,x2j,xnj)T看成n维空间中的两个向量，则正好是这两个向量的夹角余弦。若夹角余弦越大，则夹角越小，则两个变量越相似

10、。,夹角余弦与相关系数示意图,xi,xj,相关系数是对数据做标准化处理后的夹角余弦,1.用距离作为亲疏程度的度量值时，距离越小，样品之间的关联性越大；用相似系数作为亲疏程度的度量值时，相似系数的绝对值越大，意味着指标之间的关联性越大。,2.有时样品之间也可以用相似系数来描述它们的亲疏程度，变量之间也可以用距离来描述它们的亲疏程度。 3.聚类分析时到底选择哪一种分类统计量，有时并无最优或唯一选择，通常也可尝试性地多选择几个不同的度量值进行聚类，通过比较分析确定。,几点说明：,应注意的问题,(1)在聚类分析中，应根据不同的目的选用不同的指标，例如选拔运动员所用的指标（身体形态、身体素质、心理

11、素质、生理功能等）与分课外活动小组所选用的指标不相同，对啤酒按价格分类与按成分分类所用的指标也不相同。一般来说，选择哪些变量应该具有一定的理论支持，但在实践中往往缺乏这样强有力的理论基础，一般根据实际工作经验和所研究问题的特征人为的选择变量，这些变量应该和分析的目标密切相关，反映分类对象的特征，在不同研究对象上的值具有明显差异，变量之间不应该高度相关。,选变量时并不是加入的变量越多，得到的结果越客观。有时，加入一两个不合适的变量就会使分类结果大相径庭。变量之间高度相关相当于加权有两种处理方法：（1）首先进行变量聚类，从每类中选一代表性变量，再进行样品聚类；（2）进行主成分分析或因子分析

12、，降维，使之成为不相关的新变量，再进行样品聚类。,（2 ）标准化问题指标选用的度量单位将直接影响聚类分析的结果。例如将高度的单位由米改为英寸，或者将重量单位由千克改为磅，可能产生非常不同的聚类结构。一般来说，所用度量单位越小，变量的值域就越大，对聚类结果的影响也越大。为了避免对变量单位选择的依赖，数据应当标准化。数据量纲不同时，必须进行标准化；但如果量纲相同，可数量级相差很大，这时也应该进行标准化。,7.3 系统聚类法,系统聚类法的聚类效果一方面取决于分类统计量的选择，另一方面还取决于类间距离的定义。系统聚类分析方法主要有：最短距离法、最长距离法、中间距离法、重心法、类平均法、类间平均连接

13、法、类内平均连接法和离差平方和法。,一.类与类之间的距离,1.最短距离法(Nearest neighbor) 2.最长距离法(Furthest neighbor) 3.中间距离法(Centroid clustering) 4.类平均法(Median clustering) 5.可变类平均法(flexible-beta method) 6.重心法(centroid method) 7.Ward离差平方和法(Wards minimum-variance method),8.Mcquitty的相似分析法(Mcquittys similarity analysis) 9.最大似然估计法(Exact M

14、aximum Likelihood EML) 10.密度估计(density linkage) 11.两阶段密度估计法(two-stage density linkage),考虑类Gp与类Gq之间的距离，并假设类Gp中共有f个元素(样品或统计量)，类Gq中共有f个元素。用,和,表示两个类的重心(即类均值)。,1. 最短距离法(Nearest neighbor),DN(p,q)=mindjkjGp,kGq,两类间的距离定义为两类中距离最近的两个个案之间的距离,最短距离示意图,Dpq,Gp,Gq,A*,B*,*C,*D,例（最短距离法）,设随机抽取5个样品，每个样品只测了一个指标，分别是1，2，3

15、.5，7，9.,样品间距离（采用绝对值距离，建立D(0) ）,例（最短距离法）,由D(0)中非对角线最小元素为1：G1 与G2合并成一个新类，记为G6=x1, x2；计算新类与其他类的距离，得距离阵D(1).,由D1中非对角线最小元素为1.5：将G3 ,G6合并成一个新类，记为G7 =x1, x2 , x3 ；重新计算新类与其它类之间的距离, 得到D(2).,例（最短距离法）,由D(2)中非对角线最小元素为2：将G4 ,G5合并成一个新类，记为G8=x4, x5 ；重新计算新类与其它类之间的距离, 得到D(3).,最后，将G7 ,G8合并成G9=x1 , x2 , x3 , x4, x

16、5 , 聚类结束.,例7.2 （最短距离法）,谱系图,分为两类： x1，x2，x3、x4，x5,分为三类： x1，x2，x3、x4、x5,分为四类： x1，x2、x3、x4、x5,最短距离法的缺陷,有链接聚合的趋势：因为类与类之间的距离为所有距离中的最短者，两类合并以后，它与其他类间的距离缩小了，这样容易形成一个较大的类，大部分样品被分在一个类中。聚类效果不好，实际中不提倡使用。,以两个类别各自类别内的所有样品与另一类中的所有样品间的距离最大者作为两类间的距离。,2. 最长距离法(Furthest neighbor),DF(p,q)=maxdjkjGp,kGq,两类间的距离定义为两类中距离最远的两个个案之间的距离,最长距离示意图,Dpq,Gp,Gq,A*,B*,*C,*D,例（最长距离法）,设随机抽取5个样品，每个样品只测了一个指标，分别是1，2，3.5，7，9.,样品间距离（采用绝对值距离，建立D(0) ）,例（最长距离法）,例（最长距离法）,如何分类？,最长距离法

展开阅读全文

第7章 聚类分析

第7章聚类分析