多元统计分析 第6章(聚类分析)课件

上传人:我*** 文档编号:145743137 上传时间:2020-09-22 格式:PPT 页数:193 大小:2.55MB
返回 下载 相关 举报
多元统计分析 第6章(聚类分析)课件_第1页
第1页 / 共193页
多元统计分析 第6章(聚类分析)课件_第2页
第2页 / 共193页
多元统计分析 第6章(聚类分析)课件_第3页
第3页 / 共193页
多元统计分析 第6章(聚类分析)课件_第4页
第4页 / 共193页
多元统计分析 第6章(聚类分析)课件_第5页
第5页 / 共193页
点击查看更多>>
资源描述

《多元统计分析 第6章(聚类分析)课件》由会员分享,可在线阅读,更多相关《多元统计分析 第6章(聚类分析)课件(193页珍藏版)》请在金锄头文库上搜索。

1、1,第六章 聚类分析,“物以类聚,人以群分”,2,聚类分析的实际案例,老师要了解学生数学知识的掌握情况,该如何做?,考试,分析试卷,将学生分类,每类给予相应的辅导,3,判别分析:对总体的信息有一定的了解,比如知道一些训练样本的情况. 聚类分析:没有总体的信息,也不知道应该分成几类.,判别分析和聚类分析的区别:,4,6.1 引言 6.2 距离与相似系数 6.3 系统聚类法 6.4 动态聚类法 6.5 有序样品聚类法 6.6 变量聚类法,5,利用SAS帮助系统找到聚类分析方法的使用说明和例子的路径:,聚类分析方法的帮助路径: 帮助(H)SAS帮助和文档(H) SAS产品SAS/stat SAS/s

2、tat Users Guide Introduction to Clustering Procedures,6,6.1 引言,聚类分析要解决的问题:事先不知道所研究的问题应分为几类,更不知道观测到的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的统计量、确定分类数目、建立一种分类方法,并按亲近程度对观测对象给出合理的分类.,7,(系统)聚类分析的关键步骤:,指标的选取 样品之间距离的刻画 类与类之间距离的刻画 确定最终的分类个数,8,9,R型聚类分析的目的: (1)对变量进行分类; (2)可以了解变量间及变量组合间的亲疏关系; (3)根据分类结果

3、及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析、判别分析或Q型聚类分析.,10,Q型聚类分析的目的: (1)对观测进行分类; (2)找出每类的特点以指导具体的实际工作.,11,6.2 距离与相似系数,描述观测(变量)的亲疏关系的常用量有: 距离 相似系数.,12,变量分类(Stevens):,13,一、样品间的距离和相似系数,n个观测看成m维空间中的n个点,用dij表示样品X(i)和X(j)之间的距离,要求:,样本与样品,14,1.闽科夫斯基(Minkowski) 距离,15,(1) 绝对值距离,16,(2) 欧氏距离,17,(

4、3) 切比雪夫距离,18,2.兰氏距离(要求xij0,Lance and Williams),特点: (1) 一个无量纲的量 (2) 对大的奇异值不敏感,19,3.马氏距离(Mahalanobis),特点: 考虑了变量之间的相关性 一个无量纲的量 (3) 所有观测用同一个协差阵S效果不好,使用不便,20,4.斜交空间距离,其中rkl为变量Xk和Xl之间的相关系数.,21,二、变量间的相似系数和距离,设Cij表示变量Xi和Xj之间的相似系数,要求:,22,1.夹角余弦,23,2.相关系数,相关系数就是对数据作标准化处理后的夹角余弦.,24,3. 变量间的距离 (1) 利用相似系数来定义变量间的距

5、离,25,(2) 利用样本协差阵来定义变量间的距离,(3) 利用前面定义样品的距离公式来定义变量间的距离,26,4. 特殊定性变量间的距离定义的一个例子,案例1 欧洲各国的语言有许多相似之处,有的十分相似,为了研究这些语言之间的关系,我们先来计算这十一种语言之间的距离. 英语(English E)、挪威语(Norwegian N)、丹麦语(Danish Da)、荷兰语(Dutch Du)、德语(German G)、法语(Franch Fr)、西班牙语(Spanish Sp)、意大利语(Italian I)、波兰语(Polish P)、匈牙利语(Hungarian H)、芬兰语(Finnish

6、Fi).,27,28,用两种语言的10个数词中的第一个字母不相同的个数来定义这两种语言之间的距离.,29,30,可见,无论是变量之间的距离还是观测之间的距离都有不同的定义,在实际问题中,我们要选择合适的距离.,再比如时间序列数据的距离 参考文献:基于核密度估计的非线性时间序列聚类,张贝贝,统计教育,2010年第4期.,31,6.3 系统聚类法一、系统聚类法的基本思想和基本步骤,系统聚类法的示意图:,n个类,每个观测是一个类,n1个类,n2个类,1个类,最近的两个观测合并,最近的两个类合并,最近的两个类合并,合并,32,系统聚类法的基本思想:设有n个观测,每个观测测得m项指标. 首先定义观测间的

7、距离和类和类之间的距离. 一开始将n个观测各自自成一类,这时类间的距离与观测间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他类的类间距离,再按最小距离准则并类. 这样每次减少一类,直到所有的观测都并成一类为止. 这个并类过程可以用谱系聚类图形象地表达出来.,33,系统聚类法的基本步骤: 0. 数据变换、选择观测之间的距离和类与类之间的距离; 1. 计算n个观测两两间的距离,得观测间的距离矩阵D(0); 2. 一开始n个观测各自构成一类,类的个数k=n:Gi=X(i) (i=1,n) . 此时类间的距离就是观测间的距离(即D(1)=D(0). 然后对步骤执行并类过程的步骤3和4;,3

8、4,3. 每次合并类间距离最小的两类为一新类. 此时类的总个数k减少1类; 4. 计算新类与其他类的距离,得新的距离矩阵D(i). 若合并后类的总个数k仍大于1,重复3和4步;直到类的总个数为1时止; 画谱系聚类图(tree过程); 决定分类的个数及各类的成员.,35,案例2 设有5个产品,每个产品测得一项指标X,其值如下:1,2,4.5,6,8. 试对5个产品按质量指标进行分类.,解:设观测间的距离取为欧氏距离,类间的距离取为类间的最短距离,计算如下:,36,(1)计算5个观测:X1、X2、X3、X4、X5两两间的距离,得初始的类间距离矩阵D(1):,37,(2) 一开始n个观测各自构成一类

9、,得5个类: Gi=Xi (i=1,5),类的个数k=5. (3) 由D(1)可知,首先合并X1和X2为一新类,记为CL4=X1, X2;此时类的总个数k减少1类,变为k=4,故把此步得到的新类记为CL4.,38,(4) 按最短距离法计算新类CL4与其他类的距离,得新的距离矩阵D(2): 因此时类的总个数k=4大于1类,重复并类过程.,39,(5) 由D(2)可知类间距离为1.5时最小,故合并X3和X4为一新类,记为CL3 =X3, X4;此时类的总个数k减少1类,变为k=3,故把此步得到的新类记为CL3.,40,(6) 按最短距离法计算新类CL3与其他类的距离,得新的距离矩阵D(3): 因此

10、时类的总个数k=3大于1类,重复并类过程.,41,(7) 由D(3)可知,类间距离为2时最小,故合并X5和CL3为一新类,记为CL2=X3, X4, X5;此时类的总个数k减少1类,变为k=2,故把此步得到的新类记为CL2.,42,(8) 按最短距离法计算新类CL2与其他类的距离,得新的距离矩阵D(4): 因此时类的总个数k=2大于1类,重复并类过程,43,(9) 由D(4)可知类间距离为2.5时最小,故合并CL4和CL2为一新类,记为CL1 =X1, X2, X3, X4, X5;此时类的总个数k=1,故把此步得到的新类记为CL1. (10) 此时所有观测合并成一类,并类过程结束. (11)

11、 画谱系聚类图. (12) 确定类的个数及各类的成员.,44,45,二、系统聚类分析的方法,最短距离法(Single linkage) 最长距离法(Complete method) 中间距离法(Median method) 重心法(Centroid method) 类平均法(Average linkage) 可变类平均法(FLExible-beta method) 可变法及McQuitty相似分析法(MCQ) 离差平方和法(WARD) 最大似然谱系聚类(EML) 密度估计法(DEN) 两阶段密度估计法(TWO),类 与 类 的 距 离,46,最短距离法(Single linkage) Meth

12、od=single|sin 类和类之间的距离定义为两类中最近观测之间的距离,47,最短距离,48,最短距离法的特点:不限制类的形状,对拉长的类或不规则的类效果更好,但对紧的球形类的效果不是很好,它通常会删除很多边缘的观测.,49,2. 最长距离法(Complete method) Method= complete|com 类和类之间的距离定义为两类中最远观测之间的距离,50,最长距离,51,最长距离法的特点:倾向于产生直径相等的类,易受异常值的影响,即使是中等程度的异常值,最好在聚类前剔除异常值.,52,3.中间距离法(Median method) Method= median|med 类和类

13、之间的距离定义,Dpk,Dqk,Dpq,Drk,53,4. 重心法(Centroid method) Method= centroid |cen 类和类之间的距离定义为两类重心间的距离.,54,若观测间的距离定义为欧氏距离的平方,则递推公式,55,递推公式的证明,56,再利用,57,58,重心法的特点:比其他方法对奇异值更稳健,但其他方面不如ward的离差平方和法和类平均法.,59,5.类平均法(Average linkage) Method= average|ave 类和类之间的距离定义为两类观测之间距离的平均.,递推公式,60,61,递推公式的证明,62,类平均法的特点:它倾向于先合并方差

14、小的类,而且偏向于产生方差相同的类. 利用了所有样本的信息,被认为是一种较好系统聚类法.,63,6. 可变类平均法(FLExible-beta method),=0,为类平均法.,一般的递推公式,64,SAS中称为可变 法,递推公式为,65,7. McQuitty相似分析法(MCQ) Method=MCQ,递推公式,66,8.离差平方和法(WARD) Method= ward 类与类之间的距离定义为,67,68,69,70,递推公式的证明:,71,离差平方和法的特点:该方法倾向于先合并观测少的类,而且严重偏向于产生相等观测个数的类(有时比较符合实际需要),对奇异值非常敏感.,72,9.最大似然

15、谱系聚类(EML) Method=EML,其中n是观测个数,v是变量个数,PG是该层次水平的所有类内的离差平方和之和,由penalty=指定p的值,缺省为2.,73,最大似然谱系聚类的特点:实践经验暗示EML有点偏向于大小不等的类. 可以通过指定选项PENALTY=调整偏的程度.,注:该方法是SAS公司的职员给出的,没有其他参考资料. 利用极大似然的思想.,74,10. 密度估计法(DEN) Method=DEN,定义距离矩阵后使用最小距离法.,欧氏距离,75,SAS中密度估计有三种可以选择的方法:,近邻估计法(kth-nearest-neighbor method ): 需指定选项k= 均匀

16、核方法(uniform-kernel method ):需指定选项r= wong混合方法(Wongs Hybrid Method):需指定选项Hybrid,76,密度估计法的特点:对类的形状没有限制,能用于拉长的类或不规则形状的类,对小样本紧集的类,密度估计法不适用.,77,11. 两阶段密度估计法(two-stage density linkage) Method=two|twostage,密度估计法和两阶段密度估计法是利用非参数方法估计密度,然后用密度定义观测之间的距离,最后用最短距离法聚类. 密度估计法和两阶段密度估计法的区别在于先合并哪样的类,两阶段密度估计法要求先将每个观测合并到一个模式类(要求观测个数不小于mode=指定的值)中,但合并的两类中至少有一类的观测个数小于mode=指定的值.,78,三、系统聚类方法的比较,系统聚类方法的统一 其中Gr=Gp,Gq,79,80,系统聚类法的简单性质 (1)单调性 具有单调性的方法有:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号