应用统计学课件－金锄头文库

资源描述

《应用统计学课件》由会员分享，可在线阅读，更多相关《应用统计学课件（92页珍藏版）》请在金锄头文库上搜索。

1、第四章聚类分析,俗语说“物以类聚, 人以群分”。在实际问题中, 经常要遇到分类的问题。例如对某系学生可按各门课程的学习成绩进行分类。在经济学中, 可根据人均国民收入, 人均工农业产值和人均消费水平等指标对各国进行分类。在我国, 可按经济发展水平对各地区进行分类。在产品质量管理中, 可按产品的一些重要指标进行分类等。在传统的分类学中, 人们主要靠经验和专业知识实现分类。随着人类对自然的认识不断加深, 分类越来越细, 要求越来越高, 以致有时光凭经验和专业知识还不能进行科学有效的分类。于是数学这个有用的工具逐渐引进到分类学中, 形成了数值分类学。随着多元分析方法的引进,从数值分类学中逐渐分离出聚

2、类分析这个分支。,基本思想,聚类分析的基本思想: 对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。于是根据一批样品的多个指标, 具体找出一些能够度量样品或指标之间的相似程度的统计量。以这些统计量为分类的依据, 把一些相似程度较大的样品(或指标)聚合为一类。并把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。从而按相似程度的大小, 把关系密切的样品聚合到一个小的分类单位, 关系疏远的样品聚合到一个大的分类单位, 直到把所有的样品(或指标)都聚合完毕。把不同的类型一一划分出来, 形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图), 用它把所有样品

3、(或指标)间的亲疏关系表示出来。,聚类分析和判别分析的区别,应该指出, 聚类分析和判别分析都是研究事物分类的基本方法,但二者有着重要的区别。聚类分析把分类对象按一定规则划分成若干类型, 这些类型不是事先给定的。而判别分析则事先已知类型的划分. 通常每一类都有一个训练样本, 据此得出判别函数或判别准则,从而对新样品的归属作出判别。与多元分析的其它方法相比, 聚类分析的方法很粗糙, 理论也尚不完善。但由于它的应用取得很大成功, 和回归分析和判别分析一起被称为多元分析的三大实用方法。本章重点介绍一些常用的分类统计量和目前较为广泛使用的谱系聚类方法。最后, 简要介绍一种模糊聚类法。,4.1 分类统计量

4、,聚类分析不仅可以对样品进行分类, 也可以对指标(变量)进行分类。设有个样品, 每个样品有个指标。对观察值 , 可根据间的某种相似性, 对个样品进行分类。例如某班有个学生, 可根据每个学生的各科考试成绩把学生分为优、良、中和差四类。另一方面, 也可对指标进行分类。即根据某种相似性, 把这个指标进行分类。例如在服装设计中, 往往要测量很多的指标(变量), 如身高, 上体长, 臂长, 肩宽, 胸围等。对这些指标, 大致可分为两大类。一类反映人的高矮, 另一类反映人的胖瘦。,分类统计量,对样品进行分类的方法称为 Q 型聚类法。由于每个样品可看成是 p 维空间的一个点,n 个样品就组成

5、p 维空间中的 n 个点。这时, 自然可以用距离来度量样品之间的相似性。而对指标(变量)进行分类的方法, 称为R 型聚类法。指标(变量)间的某种相似性, 常用“相似系数”来描述。下面介绍几种常用的距离和相似系数。,4.1.1 样品间的“相似性”度量距离,1.明考斯基(Minkowski)距离(明氏距离),(4.1.2),明氏距离有如下三种特殊形式。,2.绝对距离(m=1),(4.1.3),3.欧氏距离(m=2),(4.1.4),4.切比雪夫(Chebychev)距离(m=),(4.1.5),数据的标准化方法,当各指标的观察值相差很大时, 则不应直接采用明氏距离。这时应对每个指标的数据进行标准

6、化, 然后对标准化数据计算距离。令,(4.1.6),(4.1.8),(4.1.7),分别表示第个指标的样本均值、样本方差和样本极差。,标准化方法,5.方差加权距离,6.马氏(Mahalanobis)距离,例4.1.1,欧洲各国的语言有许多相似之处,有的十分相近。为了研究这些语言之间的历史关系, 对数字 1,2,10 的单词作比较, 表4. 1.1列出了英语(E)，挪威语(N)，丹麦语(Da), 荷兰语(Du), 德语(G), 法语(Fr), 西班牙语(S), 意大利语(I), 波兰语(P), 匈牙利语(H)和芬兰语(Fi)11种语言的单词 1,2,10 的拼写方法, 希望计算这11种语言之间

7、的距离。,表4.1.1,11种欧洲语言的数词,选择适用的距离,在聚类分析中通常要结合实际问题来选择适用的距离, 有时应根据实际问题定义新的距离, 下面的例子说明了这一点。显然，本例无法直接用上述公式来计算距离。但可以发现前三种文字(英、挪、丹)很相似, 特别是每个单词的第一个字母。于是可以用10个数词中第一个字母不同的个数来定义两种语言之间的距离。例如英语和挪威语中只有1和8的第一个字母不同, 则它们之间的距离为2。这11种语言两两之间的距离列于表4.1.2。,表4.1.2,11种欧洲语言之间的距离,4.1.2 变量间的“关联性”度量相似系数,1.夹角余弦,2.相关系数,4.2 谱系聚类法,谱

8、系聚类法是广泛采用的一种聚类方法, 许多统计软件(例如SAS, SPSS)中都有专门的程序。谱系聚类法的基本思想是逐步把距离最近的类合并在一起。具体做法是1 先把每个样品(指标)作为一类, 即有类 n 。2 选择距离最近的两类合并成一个新类, 每次合并至少要减少一类。3 如此重复, 直至所有样品(指标)都并成一类为止。谱系聚类法的合并过程中要涉及两个类之间的距离, 而类与类之间的距离有许多种不同定义, 而不同的定义则产生不同的谱系聚类法。本节首先引进三种类与类之间的距离, 然后详细介绍谱系聚类法。,4.2.1 类与类之间的距离,先讨论样品聚类的方法。用 i , j 表示样品。用表示与之

9、间的距离, 用与表示两个类, 所包含的样品数分别为与。与之间的距离用表示。下面给出三种最常用的类与类之间距离的定义。,1.最短距离,2.最长距离,3.类平均距离,类平均距离,4.2.2 谱系聚类法,根据样品之间的距离(或指标间的相似系数), 以及类与类之间的距离, 就可进行谱系聚类, 基本步骤归纳如下：1.n 个样品各成一类, 计算两两之间的距离(或相似系数), 得距离矩阵(或相似系数矩) 。 n 阶矩阵 D 对称, 矩阵 D 的对角线上的元素全为零(相似系数矩阵的对角线元素全为1)。这时, 记。2.选择中的最小元素(相似系数矩阵则选最大元素), 设为, 则将与合并成一个新类

10、。在中划去与所在的行与列, 再加入新类所对应的行与列, 得到一个新的距离矩阵。是一个 n - 1 阶对称矩阵。如果最小元素不止一个, 可同时合并。每合并两类, 距离矩,谱系聚类法,阵降低一阶。 3.对重复步骤2 得对称矩阵 , 依次类推, 直到所有样品(指标)合并成一类为止。4.在合并时记下两类合并时的样品(或变量)的编号, 以及合并两类时的距离(或相似系数)的大小(称为水平), 并绘成聚类的谱系图。然后根据实际情况或要求, 选定相应的临界水平, 从而确定分类的个数。对给定的 , 采用不同的类与类之间距离定义, 通常就会得到不同的聚类结果。对于上述三种类与类距离的谱系聚类法,

11、分别称为最短距离法, 最长距离法和类平均法。下面通过具体例子说明这三种谱系聚类方法。,例4.2.1,为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费的分布规律，需要用调查资料对5个省分类，指标(变量)及数据如表 4.2.1。表4.2.1 1991年5省城镇居民月均消费数据 (单位：元/人),例,例,1.最短距离法,对例4.2.1, 采用最短距离法的聚类过程如下:()把每个省看作一个样品, 即 . 这时, 中的最小元素为 . 因而在水平 2.20 上合并和成 . 利用递推公式(4.2.2),计算与之间的最短距离,最短距离法,划去中所在的行与列, 加入新类与其余各

12、类的距离作为新行与新列, 得如下,最短距离法,最短距离法,谱系图,本例首先在水平2.20上合并样品3 和样品4 成新类。接着又在2.21水平上合并和成新类。然后在水平11.67上合并和成新类。最后在水平12.80上合并和成一个大类。把上述聚合过程及合并时的水平用图表示出来,称为谱系图(或聚类图)。(见图4.2.1),阈值,在聚类分析中, 最后应分成几类, 即类的个数问题, 至今尚未有令人满意的方法。一种常用方法是根据谱系图选择一个合适的阈值T , 当类间距离大于T 时就不再并类。例如对图4.2.1, 取 T =12 时, 相当于在距离12处切一刀, 则5个样品分成两类,

13、即辽宁和浙江为一类, 河南、甘肃和青海为一类。而取 T =2.5时可分为三类, 即河南、甘肃和青海为一类, 辽宁与浙江各自为一类。,2最长距离法,对例4.2.1，采用最长距离法的聚类过程如下：() 首先在水平 2.20 上合并和成新类。,最长距离法,最长距离法,最长距离法,3类平均法,采用类平均法对例4.2.1作聚类分析。()在水平2.20上合并和成新类。,类平均法,()计算与之间的类平均距离。根据(4.2.6)式,类平均法,得,类平均法,类平均法,不同聚类方法的聚类结果一般是不同的,对于例4.2.1, 三种谱系聚类法的聚类结果相同。一般来说, 不同聚类方法的聚类结果是不同的,

14、甚至会有较大的差异。,SPSS判别分析的主要步骤 (1)输入数据,(2)依次单击AnalyzeClassifyHierarchical cluster,(3)聚类分析主对话框,(4) 在 Hierarchical Cluster Analysis 对话框中输入分析变量和标识变量, 把移到 Variable 框中作为分折变量。而把省份名称移到 Label Cases by 框中作为标识变量。 Cluster 选项: 选择 Cases 项(SPSS默认项), 即选择对样品进行聚类。而选择 Variables 则是对变量(指标)进行聚类。 Display选项: 选择 Statistics 和 Plots 项(SPSS默认项)。,(5)Statistics选项,单击Statistics, 打开Statistics对话框, 选择输出的结果。 Agglomeration schedule选项: 选择该项可以列出系统聚类过程中每一步被合并的这两个类、被合并类的类间距离以及最终的聚类结果。 Proximity Matrix 选项: 选择该项可以给出类与类之间的距离矩阵。,

展开阅读全文

应用统计学课件

最新文档