多元统计分析第6章(聚类分析)课件

资源描述

《多元统计分析第6章(聚类分析)课件》由会员分享，可在线阅读，更多相关《多元统计分析第6章(聚类分析)课件（193页珍藏版）》请在金锄头文库上搜索。

1、1,第六章聚类分析,“物以类聚，人以群分”,2,聚类分析的实际案例,老师要了解学生数学知识的掌握情况，该如何做？,考试,分析试卷,将学生分类，每类给予相应的辅导,3,判别分析：对总体的信息有一定的了解，比如知道一些训练样本的情况. 聚类分析：没有总体的信息，也不知道应该分成几类.,判别分析和聚类分析的区别：,4,6.1 引言 6.2 距离与相似系数 6.3 系统聚类法 6.4 动态聚类法 6.5 有序样品聚类法 6.6 变量聚类法,5,利用SAS帮助系统找到聚类分析方法的使用说明和例子的路径：,聚类分析方法的帮助路径：帮助(H)SAS帮助和文档(H) SAS产品SAS/stat SAS/s

2、tat Users Guide Introduction to Clustering Procedures,6,6.1 引言,聚类分析要解决的问题：事先不知道所研究的问题应分为几类，更不知道观测到的个体的具体分类情况，我们的目的正是需要通过对观测数据所进行的分析处理，选定一种度量个体接近程度的统计量、确定分类数目、建立一种分类方法，并按亲近程度对观测对象给出合理的分类.,7,(系统)聚类分析的关键步骤：,指标的选取样品之间距离的刻画类与类之间距离的刻画确定最终的分类个数,8,9,R型聚类分析的目的：（1）对变量进行分类；（2）可以了解变量间及变量组合间的亲疏关系；（3）根据分类结果

3、及它们之间的关系，在每一类中选择有代表性的变量作为重要变量，利用少数几个重要变量进一步作分析计算，如进行回归分析、判别分析或Q型聚类分析.,10,Q型聚类分析的目的：（1）对观测进行分类；（2）找出每类的特点以指导具体的实际工作.,11,6.2 距离与相似系数,描述观测(变量)的亲疏关系的常用量有: 距离相似系数.,12,变量分类(Stevens)：,13,一、样品间的距离和相似系数,n个观测看成m维空间中的n个点，用dij表示样品X(i)和X(j)之间的距离，要求：,样本与样品,14,1.闽科夫斯基(Minkowski) 距离,15,(1) 绝对值距离,16,(2) 欧氏距离,17,(

4、3) 切比雪夫距离,18,2.兰氏距离(要求xij0,Lance and Williams),特点： (1) 一个无量纲的量 (2) 对大的奇异值不敏感,19,3.马氏距离(Mahalanobis),特点：考虑了变量之间的相关性一个无量纲的量 (3) 所有观测用同一个协差阵S效果不好，使用不便,20,4.斜交空间距离,其中rkl为变量Xk和Xl之间的相关系数.,21,二、变量间的相似系数和距离,设Cij表示变量Xi和Xj之间的相似系数，要求：,22,1.夹角余弦,23,2.相关系数,相关系数就是对数据作标准化处理后的夹角余弦.,24,3. 变量间的距离 (1) 利用相似系数来定义变量间的距

5、离,25,(2) 利用样本协差阵来定义变量间的距离,(3) 利用前面定义样品的距离公式来定义变量间的距离,26,4. 特殊定性变量间的距离定义的一个例子,案例1 欧洲各国的语言有许多相似之处,有的十分相似,为了研究这些语言之间的关系,我们先来计算这十一种语言之间的距离. 英语(English E)、挪威语(Norwegian N)、丹麦语(Danish Da)、荷兰语(Dutch Du)、德语(German G)、法语(Franch Fr)、西班牙语(Spanish Sp)、意大利语(Italian I)、波兰语(Polish P)、匈牙利语(Hungarian H)、芬兰语(Finnish

6、Fi).,27,28,用两种语言的10个数词中的第一个字母不相同的个数来定义这两种语言之间的距离.,29,30,可见，无论是变量之间的距离还是观测之间的距离都有不同的定义，在实际问题中，我们要选择合适的距离.,再比如时间序列数据的距离参考文献：基于核密度估计的非线性时间序列聚类，张贝贝，统计教育，2010年第4期.,31,6.3 系统聚类法一、系统聚类法的基本思想和基本步骤,系统聚类法的示意图：,n个类，每个观测是一个类,n1个类,n2个类,1个类,最近的两个观测合并,最近的两个类合并,最近的两个类合并,合并,32,系统聚类法的基本思想：设有n个观测，每个观测测得m项指标. 首先定义观测间的

7、距离和类和类之间的距离. 一开始将n个观测各自自成一类，这时类间的距离与观测间的距离是等价的；然后将距离最近的两类合并，并计算新类与其他类的类间距离，再按最小距离准则并类. 这样每次减少一类，直到所有的观测都并成一类为止. 这个并类过程可以用谱系聚类图形象地表达出来.,33,系统聚类法的基本步骤： 0. 数据变换、选择观测之间的距离和类与类之间的距离； 1. 计算n个观测两两间的距离，得观测间的距离矩阵D(0)； 2. 一开始n个观测各自构成一类，类的个数k=n：Gi=X(i) (i=1,n) . 此时类间的距离就是观测间的距离(即D(1)=D(0). 然后对步骤执行并类过程的步骤3和4；,3

8、4,3. 每次合并类间距离最小的两类为一新类. 此时类的总个数k减少1类； 4. 计算新类与其他类的距离，得新的距离矩阵D(i). 若合并后类的总个数k仍大于1，重复3和4步；直到类的总个数为1时止；画谱系聚类图(tree过程)；决定分类的个数及各类的成员.,35,案例2 设有5个产品，每个产品测得一项指标X，其值如下：1，2，4.5，6，8. 试对5个产品按质量指标进行分类.,解：设观测间的距离取为欧氏距离，类间的距离取为类间的最短距离，计算如下：,36,（1）计算5个观测：X1、X2、X3、X4、X5两两间的距离，得初始的类间距离矩阵D(1)：,37,(2) 一开始n个观测各自构成一类

9、，得5个类： Gi=Xi (i=1,5)，类的个数k=5. (3) 由D(1)可知，首先合并X1和X2为一新类，记为CL4=X1, X2；此时类的总个数k减少1类，变为k=4，故把此步得到的新类记为CL4.,38,(4) 按最短距离法计算新类CL4与其他类的距离，得新的距离矩阵D(2)：因此时类的总个数k=4大于1类，重复并类过程.,39,(5) 由D(2)可知类间距离为1.5时最小，故合并X3和X4为一新类，记为CL3 =X3, X4；此时类的总个数k减少1类，变为k=3，故把此步得到的新类记为CL3.,40,(6) 按最短距离法计算新类CL3与其他类的距离，得新的距离矩阵D(3)：因此

10、时类的总个数k=3大于1类，重复并类过程.,41,(7) 由D(3)可知，类间距离为2时最小，故合并X5和CL3为一新类，记为CL2=X3, X4, X5；此时类的总个数k减少1类，变为k=2，故把此步得到的新类记为CL2.,42,(8) 按最短距离法计算新类CL2与其他类的距离，得新的距离矩阵D(4)：因此时类的总个数k=2大于1类，重复并类过程,43,(9) 由D(4)可知类间距离为2.5时最小，故合并CL4和CL2为一新类，记为CL1 =X1, X2, X3, X4, X5；此时类的总个数k=1，故把此步得到的新类记为CL1. (10) 此时所有观测合并成一类，并类过程结束. (11)

11、画谱系聚类图. (12) 确定类的个数及各类的成员.,44,45,二、系统聚类分析的方法,最短距离法(Single linkage) 最长距离法(Complete method) 中间距离法(Median method) 重心法(Centroid method) 类平均法(Average linkage) 可变类平均法(FLExible-beta method) 可变法及McQuitty相似分析法(MCQ) 离差平方和法(WARD) 最大似然谱系聚类(EML) 密度估计法(DEN) 两阶段密度估计法(TWO),类与类的距离,46,最短距离法(Single linkage) Meth

12、od=single|sin 类和类之间的距离定义为两类中最近观测之间的距离,47,最短距离,48,最短距离法的特点：不限制类的形状，对拉长的类或不规则的类效果更好，但对紧的球形类的效果不是很好，它通常会删除很多边缘的观测.,49,2. 最长距离法(Complete method) Method= complete|com 类和类之间的距离定义为两类中最远观测之间的距离,50,最长距离,51,最长距离法的特点：倾向于产生直径相等的类，易受异常值的影响，即使是中等程度的异常值，最好在聚类前剔除异常值.,52,3.中间距离法(Median method) Method= median|med 类和类

13、之间的距离定义,Dpk,Dqk,Dpq,Drk,53,4. 重心法(Centroid method) Method= centroid |cen 类和类之间的距离定义为两类重心间的距离.,54,若观测间的距离定义为欧氏距离的平方，则递推公式,55,递推公式的证明,56,再利用,57,58,重心法的特点：比其他方法对奇异值更稳健，但其他方面不如ward的离差平方和法和类平均法.,59,5.类平均法(Average linkage) Method= average|ave 类和类之间的距离定义为两类观测之间距离的平均.,递推公式,60,61,递推公式的证明,62,类平均法的特点：它倾向于先合并方差

14、小的类，而且偏向于产生方差相同的类. 利用了所有样本的信息，被认为是一种较好系统聚类法.,63,6. 可变类平均法(FLExible-beta method),=0，为类平均法.,一般的递推公式,64,SAS中称为可变法，递推公式为,65,7. McQuitty相似分析法(MCQ) Method=MCQ,递推公式,66,8.离差平方和法(WARD) Method= ward 类与类之间的距离定义为,67,68,69,70,递推公式的证明：,71,离差平方和法的特点：该方法倾向于先合并观测少的类，而且严重偏向于产生相等观测个数的类（有时比较符合实际需要），对奇异值非常敏感.,72,9.最大似然

15、谱系聚类(EML) Method=EML,其中n是观测个数，v是变量个数，PG是该层次水平的所有类内的离差平方和之和，由penalty=指定p的值，缺省为2.,73,最大似然谱系聚类的特点：实践经验暗示EML有点偏向于大小不等的类. 可以通过指定选项PENALTY=调整偏的程度.,注：该方法是SAS公司的职员给出的，没有其他参考资料. 利用极大似然的思想.,74,10. 密度估计法(DEN) Method=DEN,定义距离矩阵后使用最小距离法.,欧氏距离,75,SAS中密度估计有三种可以选择的方法：,近邻估计法(kth-nearest-neighbor method ): 需指定选项k= 均匀

16、核方法(uniform-kernel method )：需指定选项r= wong混合方法(Wongs Hybrid Method)：需指定选项Hybrid,76,密度估计法的特点：对类的形状没有限制，能用于拉长的类或不规则形状的类，对小样本紧集的类，密度估计法不适用.,77,11. 两阶段密度估计法(two-stage density linkage) Method=two|twostage,密度估计法和两阶段密度估计法是利用非参数方法估计密度，然后用密度定义观测之间的距离，最后用最短距离法聚类. 密度估计法和两阶段密度估计法的区别在于先合并哪样的类，两阶段密度估计法要求先将每个观测合并到一个模式类(要求观测个数不小于mode=指定的值)中，但合并的两类中至少有一类的观测个数小于mode=指定的值.,78,三、系统聚类方法的比较,系统聚类方法的统一其中Gr=Gp,Gq,79,80,系统聚类法的简单性质（1）单调性具有单调性的方法有：

展开阅读全文

多元统计分析 第6章(聚类分析)课件

多元统计分析第6章(聚类分析)课件