多元统计分析讲义(第二章)

上传人:012****78 文档编号:141580742 上传时间:2020-08-10 格式:DOC 页数:15 大小:858.50KB
返回 下载 相关 举报
多元统计分析讲义(第二章)_第1页
第1页 / 共15页
多元统计分析讲义(第二章)_第2页
第2页 / 共15页
多元统计分析讲义(第二章)_第3页
第3页 / 共15页
多元统计分析讲义(第二章)_第4页
第4页 / 共15页
多元统计分析讲义(第二章)_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《多元统计分析讲义(第二章)》由会员分享,可在线阅读,更多相关《多元统计分析讲义(第二章)(15页珍藏版)》请在金锄头文库上搜索。

1、注意电子文档使用范围多 元 统 计 分 析Multivariate Statistical Analysis主讲:统计学院 薛伟统计学院应用统计学教研室School of Statistics2004年9月第二章 聚类分析【教学目的】1 让学生了解聚类分析的背景、基本思想;2 掌握聚类分析的基本原理与方法;3 掌握聚类分析的操作步骤和基本过程;4 学会应用聚类分析解决实际问题。【教学重点】1 分类的统计量;2 各种聚类分析方法的阐述。1 概述一、 什么是聚类分析1研究背景在实际问题中,经常要遇到分类的问题。例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征

2、进行分类;在经济学中,为了研究不同地区城镇居民的收入及消费情况,往往需要划分为不同的类型去研究;在产品质量管理中,也要根据各产品的某些重要指标而将其分为一等品,二等品等等。总之,科学的分类方法无论在自然科学,还是在社会科学中,都有着极其广泛的应用。俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。有时,只凭经验和专业知识

3、还不能进行科学有效的分类,于是数学这一有力的工具被逐渐引入到分类学中,形成了一门新兴的学科数值分类学。后来,随着多元分析方法的引进,从数值分析学中逐渐分离出了聚类分析这个分支。对于一个数据,人们既可以按照观测值对变量(或指标)进行分类(相当于对数据中的列分类),也可以按照变量对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如利用学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(cluster analysis)。有人称按照观测值对变量的分类为R型聚类,而称按照变

4、量对观测值的分类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。聚类分析就是一种分类方法,它将一批样品、变量(或指标),按照它们在性质上相似、疏远程度进行科学的分类。而度量相似或疏远程度常有两种指标:距离和相似系数。2基本思想哲学理念:物以类聚、人以群分聚类分析的基本思想是,从一批样品的多个指标变量中,定义能度量样品间或变量间相似程度(或亲疏关系)的统计量,在此基础上求出各样品(或变量)之间的相似程度度量值,按相似程度的大小,把样品(或变量)逐一分类,关系密切的类聚集到一个小的分类单位,关系疏远的类聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一

5、个亲疏关系谱系图,用以更直观地显示分类对象(样品或变量)的差异和联系。一开始将要归类的个变量(或个体)各自看成一类,然后按事先规定好的方法计算各类之间的归类指标(如某种距离或相似系数),根据指标值大小衡量两两之间关系的密切程度,将关系最密切的两类并成一类,其余不变,即得类;又按事先规定的方法重新计算各类之间的归类指标(仍为某种距离或相似系数),又将关系密切的两类并成一类,其余不变,即得类;如此进行下去,每次归类都减少一类,直到最后,个变量(或个体)都归成一类为止。这一归类过程可以用一张聚类图(或称谱系图)形象地表示出来,由谱系图来进行分类。可以看到,这种系统归类过程,显然与计算类与类之间的归类

6、指标是什么有关系,同时也与归类的方法有关系。二、 聚类分析方法值得一提的是聚类分析和第三章的判别分析都是研究分类问题,但二者有本质的区别。聚类分析一般上寻求客观分类的方法,事先对总体到底有几种类型无所知晓,而判别分析则是在总体类型划分已知,在各总体分布或来自各总体训练样本的基础上,对当前的新样品用统计的方法判定它们属于哪个总体。聚类分析的历史还很短,由于在其发展过程中首先是着重于实用,因此相对而言理论上还不够完善。无论聚类统计量还是聚类的方法,都还未最终定型。目前,聚类统计量种类繁多,聚类方法也五花八门,但由于聚类分析方法能广泛地应用于解决实际问题,它和回归分析,判别分析一起被称为多元分析的三

7、大实用方法。本章将重点介绍一些常见的分类统计量和目前使用较为广泛的谱系聚类方法。关于其它聚类方法,如模糊聚类法,动态聚类法,有序样品聚类法,分解法,加入法等等,可以参看其它的文献。2 聚类统计量聚类分析所研究的内容包括两个方面,一是对样品进行分类,设n个样品,每个样品均用p个指标的观测向量来表征,要根据间某种相似性度量,将这n个样品进行分类。如某班有n个学生,根据每个学生的期末各科考试成绩将该班学生分类(如分为优,良,中,差四类等)。另一方面是对变量进行分类,即对所考察的p个指标,根据n个观测值及某些相似性原则将这p个变量进行分类。如在服装设计中,往往要测量很多的指标(变量),如身高,上体长,

8、臂长,肩宽,胸围,腰围等,有时需要对这些指标分类,以显示人体各部分的不同特点,以便于服装设计。对样品进行分类的方法称为Q型聚类法,所用的统计量用“距离”这一术语描述;对变量进行分类的方法,称为R型聚类法,所用的统计量用“相似系数”描述。下面分别介绍几种常用的距离和相似系数 当变量为定性变量(如性别,职业,等级)时,也可定义样品间的“距离”和变量间的“相似系数”,在此不作深入讨论。一、 样品间的相似性度量距离我们将不区分样品与它的指标观测值。设每个样品有p个指标,它们的观测值可表示为这时,每个样品可看成p维空间中的一个点,n个样品就组成p组空间中的n个点,我们很自然地用各点之间的距离来衡量各样品

9、之间的靠近程度。设为样品与之间的距离,则一般要求它满足下列三个条件 在聚类分析中,有时所用的距离并不满足第三条,我们在广义的角度上仍称它为距离。:下面介绍几种聚类分析中的常用距离。1 Minkowski距离;(1)当时,为绝对距离;(2)当时,为欧氏距离;(3)当时,为Chebishov距离 可以利用不等式的缩放技术进行证明。NOTE:明氏距离存在不足它与各指标的量纲有关;它没有考虑指标之间的相关性;要求一个向量的个分量是不相关的且具有相同的方差若考虑个指标的相关性和异方差等问题,我们可以采用方差加权距离或Mahalanobis距离。2 方差加权距离其中,为第个指标的方差。3 Mahalano

10、bis距离 由印度统计学家马哈拉诺比斯于1936年引入。其中,为个指标的协方差矩阵。实际应用中,若与未知,可用观测数据对其估计,一般用和样本协方差阵作为其估计。4 兰氏(Lance-Williams)距离NOTE:此距离仅适用于一切的情况,该距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。用聚类分析解决实际问题时,选用何种距离是十分重要的,这通常要结合有关专业的实际背景而定。距离的定义有很大的灵活性,有时可根据实际问题定义新的距离。二、 变量间的“关联性”度量相似系数当对个指标(或变量)进行聚类时,用相似系数衡量变量间的关联程度。定义:一般地,称为变量和之间的相关系数,如果对一

11、切的满足:;。越接近于1,说明变量和之间的关系越密切。设表示对变量的个观测值,常用的相似系数有:1夹角余弦(向量内积)ABCDNOTE:若将变量的个观测值和变量的个观测值看成维空间中的两个向量,正好是这两个向量夹角的余弦,这个统计量在图像识别中非常有用;当时,说明完全相似;当时,说明完全不一样。2相关系数(相似系数)从统计角度看,两个随机变量的相关系数是描述这两个变量关联性(线性关系)强弱的一个很有用的特征数字。因此,用任意两个变量的n个观测值对其相关系数的估计可作为两个变量关联性的一种度量。其定义为其中,。NOTE:其实就是的样本相关矩阵中的各元素;就是零均值化后向量的夹角余弦;如果将原始数

12、据标准化,则且,这时有。3同号率其中,为指标和之间相应各分量取同号的个数;为指标和之间相应各分量取异号的个数。3 谱系聚类法(系统聚类)谱系聚类法是目前应用较为广泛的一种聚类方法。有关该方法的研究内容相当丰富,而且许多统计软件(如SPSS、STATISTICA、SAS)中都有专门的程序。谱系聚类法是根据古老的植物分类学的思想对研究对象进行分类的一种方法。我们知道,在植物分类学中,分类的单位:门、纲、目、科、属、种,其中种是分类的基本单位。分类单位越小它所包含的植物种类就越少,植物间的共同特征就越多。利用这种分类思想,谱系聚类法首先视各样品(或变量)自成一类,然后把最相似的样品(或变量)聚为小类

13、,再将已聚合的小类按其相似性再聚合,随着相似性的减弱,最后将一切子类都聚合到一个大类,从而得到一个按相似性大小聚结起来的一个谱系关系。在谱系聚类法的合并过程中要涉及到两个类之间的距离(或相似系数)问题。类与类之间的距离有许多定义方式,不同的定义方式就产生了不同的谱系聚类法。本节中,我们首先引进八种类与类之间的距离,然后再详细介绍谱系聚类法。一、 类与类之间的距离我们先就样品聚类的情形予以讨论,并为简单起见,以i,j等分别表示样品,以简记样品i与j之间的距离,用和表示两个类,它们所包含的样品个数分别记为和,类与之间的距离用表示。下面给出八种最常用的类与类之间距离的定义。1最短距离法(1)定义类与

14、之间的距离为两类中所有样品之间距离最小者最短距离法就是以为准则进行聚类的方法。NOTE:类与类之间的最短距离有如下的递推公式,设为由与合并所得,则与其它类的最短距离为(2)基本步骤STEP01:定义样品之间的距离,计算样品两两之间的距离,得到样本距离矩阵。初始时,每个样本点自成一类,易见。STEP02:选择中非对角线最小元素 如果最小的非零元素不止一个时,对应这些最小元素的类可以同时合并。,不防设为,于是将与类合并,记为STEP03:计算新类与其它类的距离将中的第行及列用上面公式并成一个新行新列,得到的矩阵记为。STEP04:对,重复上述对的STEP02和STEP03两步得。如此下去,直到所有

15、的元素并成一类为止 在实际问题中,一般事先给定分类的数目,或给定阈值T,要求类与类之间的距离小于T。(3)例子:P71例1。2最长距离法(1)定义类与之间的距离为两类最远样本点之间的距离NOTE:类与类之间的最长距离有如下的递推公式,设为由与合并所得,则与其它类的最长距离可由下式递推得到有两点不同:其一,类与类之间距离的定义方法不同;其二,计算新类与其它类距离所用的递推公式不同。(2)基本步骤基本步骤完全等同于最短距离法。只是距离是按照最远样本点计算,但聚类仍然按照距离最小的并为一类。GpGqGkGrDkqDkpDkr(3)例子:P74续例1。3中间距离法(1)定义类与类之间的距离既不采用两类之间最近的距离,也不采用两类之间最远的距离,而是采用介于两者之间的距离,故称中间距离法。如果,则任一类与新类的距离公式为: 式中采用平方距离是为了上机的方便,也可以完全不采用平方距离。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号