北大应用多元统计分析课件第六章

上传人:F****n 文档编号:88509871 上传时间:2019-04-29 格式:PPT 页数:120 大小:1.37MB
返回 下载 相关 举报
北大应用多元统计分析课件第六章_第1页
第1页 / 共120页
北大应用多元统计分析课件第六章_第2页
第2页 / 共120页
北大应用多元统计分析课件第六章_第3页
第3页 / 共120页
北大应用多元统计分析课件第六章_第4页
第4页 / 共120页
北大应用多元统计分析课件第六章_第5页
第5页 / 共120页
点击查看更多>>
资源描述

《北大应用多元统计分析课件第六章》由会员分享,可在线阅读,更多相关《北大应用多元统计分析课件第六章(120页珍藏版)》请在金锄头文库上搜索。

1、1,应用多元统计分析,第六章 聚类分析,2,第六章 聚类分析 目 录,6.1 聚类分析的方法 6.2 距离与相似系数 6.3 系统聚类法 6.4 系统聚类法的性质及类的确定,3,第六章 6.1 聚类分析的方法 什么是聚类分析,聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法. 所谓的“类”,通俗地说就是相似元素的集合.聚类分析是按照观测样品(或变量)取值的相似程度,对观测样品(或变量)进行分类,使在同一类内的观测样品(或变量)是相似的,不同类间的观测(或变量)是不相似的. 什么是分类?它只不过是将一个观测对象指定到某一类(组).,4,第六章 6.1 聚类分析的方法 什么是聚类

2、分析,分类的问题可以分成两种: 一种是对当前所研究的问题已知它的类别数目,且知道各类的特征(如分布规律,或知道来自各类的训练样本),我们的目的是要将另一些未知类别的个体正确归属于其中某一类,这是第五章判别分析所要解决的问题. 另一种是事先不知道研究的问题应分为几类,更不知道观测到的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的量,确定分类数目,建立一种分类方法,并按亲近程度对观测对象给出合理的分类.这种问题在实际中大量存在,它正是聚类分析所要解决的问题.,5,第六章 6.1 聚类分析的方法 什么是聚类分析,聚类分析是实用多元统计分析的一个新的分

3、支,正处于发展阶段,理论上虽不很完善,但由于它能够解决许多实际问题,因此这个方法很受人们的重视,特别是和其他方法联合起来使用往往效果更好. 例如对一批观测对象先用聚类分析进行分类,然后用判别分析的方法建立判别准则,用以对新的观测对象判别归类.,6,第六章6.1 聚类分析的方法,聚类分析的方法可分为以下几种: (1) 系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度.这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述. (2) 调优法(动态聚类法) ; (3) 最优分割法(有序样品聚类法) ; (4) 模糊聚类法

4、 ; (5) 图论聚类法 ; (6) 聚类预报法 .,7,第六章6.1 聚类分析的方法 聚类分析的类型及目的,聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理. R型聚类分析的目的有以下方面: 了解变量间及变量组合间的亲疏关系; 对变量进行分类; 根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为典型变量,利用少数几个典型变量进一步作分析计算,如进行回归分析或Q型聚类分析等.,8,第六章6.1 聚类分析的方法Q型聚类分析的目的,Q型聚类分析的目的主要是对样品进行分类.分类的结果是直观的,且比传统分类方法更细致、全面、合理.当

5、然使用不同的分类方法通常会得到不同的分类结果.对任何观测数据都没有唯一“正确的”的分类方法. 实际应用中,常采用不同的分类方法,对数据进行分析计算,以便对分类提供意见,并由实际工作者决定所需要的分类数及分类情况. 本章重点介绍应用最广泛的系统聚类法;且主要讨论Q型聚类分析问题.,9,第六章6.2 距离与相似系数,为了对观测样品(或变量)进行分类,就必须研究它们之间的关系.描述样品之间亲疏相似程度的统计量很多,目前用得最多的是距离和相似系数,这两个统计量的定义与变量的类型密切相关,我们首先介绍变量的类型.,10,第六章6.2 距离与相似系数 定量变量和定性(属性)变量,定量变量就是我们通常所说的

6、连续变量,例如长度、重量、产量、人口、温度等,它们是由测量或计数、统计所得到的量, 这类变量具有数值特征,称为定量变量.,根据变量取值的不同,变量可分为两大类:定量变量和定性(属性)变量.,11,第六章6.2 距离与相似系数 定量变量和定性(属性)变量,定性(属性)变量只有性质上的差异,例如天气(阴、晴),性别(男、女),产品质量分为 上 中 下三个等级. 这些变量都是 属性(定性)变量. 属性变量又分为名义变量和有序变量二种: (1)有序变量:其值有明确的逻辑次序,但各个值之间的距离并不清楚. (2) 名义变量:其值之间无逻辑次序,可按任何次序排序编码.例如性别,职业,地区,都是名义变量.

7、不同类型的变量在定义距离或相似性测度时有很大差异.,12,第六章6.2 距离与相似系数 数据的变换方法,设有n个样品,每个样品测得m项指标(变量),得观测数据xij(i=1,n,j=1,m).通常将数据列成以下表格的形式.,13,第六章6.2 距离与相似系数 数据的变换方法,1. 中心化变换 变换后数据的均值为0,而协差阵不变. 2. 标准化变换 变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据x*ij与变量的量纲无关. 3. 极差标准化变换 变换后的数据,每个变量的样本均值为0,极差为1,变换后的数据也是无量纲的量.,14,第六章6.2 距离与相似系数 数据的变换方法

8、,4. 极差正规化变换(规格化变换) 变换后的数据0 x*ij 1;极差为1,也是无量纲的量. 5. 对数变换 它可将具有指数特征的数据结构化为线性数据结构.,15,第六章6.2 距离与相似系数 样品间的距离,描述样品间的亲疏程度最常用的是距离. n个样品看成m维空间中的n个点,用dij表示样品X(i)和X(j) 之间的距离,一般要求: dij 0,对一切i,j ; 当dij =0 X(i) = X(j) ; dij = dji ,对一切i,j; dij dik+ dkj,对一切i,j,k(三角不等式).,X(k),X(i),X(j),16,第六章6.2 距离与相似系数 样品间的距离,1. 闵

9、科夫斯基(Minkowski)距离 当q=1时的一阶Minkowski度量就称为绝对值距离.,17,第六章6.2 距离与相似系数 样品间的距离,当q=时的Minkowski度量称为切比雪夫距离 . ,当q=2时的二阶Minkowski度量称为欧氏距离.欧氏距离是聚类分析中用得最广泛的距离.,18,第六章6.2 距离与相似系数 样品间的距离,缺点:(1) 与各变量的量纲有关; (2) 没有考虑指标间的相关性; (3) 没有考虑各变量方差的不同.如欧氏距离,变差大的变量在距离中的作用(贡献)就会大,这是不合适的. 合理的方法就是对各变量加权,如用1/s2 作为权数可得出“统计距离”:,19,第六章

10、6.2 距离与相似系数 样品间的距离,对n个样品计算两两间的距离dij后,可排成矩阵D,d11 d12 . d1n d21 d22 . d2n D = . dn1 dn2 . dnn,nn,dij 值越小,表示两个样品越接近, dij值越大,表示两个样品越不相近.,20,第六章6.2 距离与相似系数 样品间的距离,2. 兰氏距离(要求xij0) 这是由Lance和Williams最早提出的,故称为兰氏距离. 这是一个无量纲的量.克服了闵氏距离与各指标的量纲有关的缺点.且兰氏距离对大的奇异值不敏感,这样使得它特别适合高度偏倚的数据. 但兰氏距离也没有考虑变量间的相关性.,21,第六章6.2 距离

11、与相似系数 样品间的距离,3. 马氏距离(Mahalanobis),马氏距离既排除了变量间相关性的干扰,而且还不受各项指标量纲的影响.另马氏对线性变换具有不变性.,22,第六章6.2 距离与相似系数 样品间的距离,马氏距离虽然可以排除变量之间相关性的干扰,并且不受量纲的影响,但是在聚类分析处理之前,如果用全部数据计算均值和协差阵来求马氏距离,效果不是很好. 比较合理的办法是用各个类的样本来计算各自的协差阵,同一类样品间的马氏距离应当用这一类的协差阵来计算,但类的形成都要依赖于样品间的距离,而样品间合理的马氏距离又依赖于类,这就形成了一个恶性循环,因此在实际聚类分析中,马氏距离也不是理想的距离.

12、,23,第六章6.2 距离与相似系数 样品间的距离和相似系数,4. 斜交空间距离 在m维空间中,为使具有相关性变量的谱系结构不发生变形,采用斜交空间距离,即,在数据标准化处理下,rkl为变量Xk和Xl之间的相关系数 5. 相似系数 样品间的亲疏程度除了用距离描述外,也可用相似系数来表示.参见以下“变量间的相似系数”的定义.,24,第六章 6.2 距离与相似系数 定性变量样品间的距离或相似系数,6.定性变量样品间的距离或相似系数 下面来介绍定性变量(名义变量或有序变量)的距离或相似系数的定义方法. 在数量化理论中,常把定性变量叫做项目,而把定性变量的各种不同取“值“叫做类目. 例如性别是项目,而

13、男或女是这个项目的类目;体形也是一个项目,而适中、胖、瘦、壮等是 这个项目的类目.性别只能取男或女中一类,不能兼取;而体形可以是适中且壮,即兼取两类.,25,第六章 6.2 距离与相似系数 定性变量样品间的距离或相似系数,设样品X(i)的第k个项目( k=1,2,m)的取值为 (i (k,1),i (k,2),i (k,rk) ) (i=1,2,n), 其中n为样品的个数,m为项目的个数,rk是第k个项目的类目数.,并称i (k,l) 为第k项目之l类目在第i个样品中的反应 .,26,第六章 6.2 距离与相似系数 定性变量样品间的距离或相似系数,设两个样品为X(i)和X(j),若i (k,l

14、)=j (k,l) =1,则称这两个样品在第k个项目的第l类目上1-1配对;若i (k,l)=j (k,l) =0,则称这两个样品在第k个项目之l类目上0-0配对;若i (k,l) j (k,l) ,则称为不配对.,27,第六章 6.2 距离与相似系数 定性变量样品间的距离或相似系数,记m1为X(i)和X(j)在m个项目的所有类目中1-1配对的总数;m0为0-0配对的总数;m2为不配对总数.显然m0+ m1+ m2=总类目数p(p=r1 +r2+rm). 表6.2给出两个样品的取“值”情况.显然m1 =3, m0=7, m2=4.项目数m=4,总类目数p=14.,28,第六章 6.2 距离与相

15、似系数定性变量样品间的距离或相似系数,(1) 两个样品为X(i)和X(j)间的距离定义为,即不配对的类目数在有反应的类目(包括 1-1配对和不配对)数中的比例.比如 表6.2, dij=4/7.,29,第六章 6.2 距离与相似系数 定性变量样品间的距离或相似系数,当项目只能取可能类目中的一类,不能兼取的情况下,两样品的距离定义为:,其中m*2是不配对的项目(变量)个数;m表示项目总个数.,类似于欧氏距离,还可以定义不配对的总数:,30,第六章 6.2 距离与相似系数 定性变量样品间的距离或相似系数,(2) 样品X(i)和X(j)间的相似性度量由表6.3给出几种定义方法.这种相似性度量也称为匹配系数,31,第六章 6.2 距离与相似系数 定性变量样品间的距离或相似系数,(p+m2=2m2+m1+m0),32,第六章6.2 距离与相似系数 变量间的相似系数和距离,在对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度. 设Cij表示变量Xi和Xj间的相似系数,一般要求 Cij =1 Xi =a Xj (a0,常数); | Cij |1,对一切i,j成立; Cij = Cji ,对一切i,j成立. | Cij |越接近1,则表示Xi 和Xj 的关系越密切, |Cij| 越接近0,两者关系越疏远.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号