厦门大学《应用多元统计分析》第05章-聚类分析讲课教案

资源描述

《厦门大学《应用多元统计分析》第05章-聚类分析讲课教案》由会员分享，可在线阅读，更多相关《厦门大学《应用多元统计分析》第05章-聚类分析讲课教案（96页珍藏版）》请在金锄头文库上搜索。

1、第五章聚类分析第一节引言第二节相似性的量度第三节系统聚类分析法第四节K均值聚类分析第五节有序样品的聚类分析法第六节实例分析与计算机实现第一节引言物以类聚人以群分对事物进行分类是人们认识事物的出发点也是人们认识世界的一种重要方法因此分类学已成为人们认识世界的一门基础科学在生物经济社会人口等领域的研究中存在着大量量化分类研究例如在生物学中为了研究生物的演变生物学家需要根据各种生物不同的特征对生物进行分类在经济研究中为了研究不同地区城镇居民生活中的收入和消费情况往往需要划分不同的类型去研究在地质学中为了研究矿物勘探需要根据各种矿石的化学和物理

2、性质和所含化学成分把它们归于不同的矿石类在人口学研究中需要构造人口生育分类模式人口死亡分类状况以此来研究人口的生育和死亡规律第二节相似性的量度一样品相似性的度量二变量相似性的度量一样品相似性的度量在聚类之前要首先分析样品间的相似性 Q型聚类分析常用距离来测度样品之间的相似程度每个样品有p个指标变量从不同方面描述其性质形成一个p维的向量如果把n个样品看成p维空间中的n个点则两个样品间相似程度就可用p维空间中的两点距离公式来度量两点距离公式可以从不同角度进行定义令dij表示样品Xi与Xj的距离存在以下的距离公式 1 明考夫斯基距离 5 1 明考夫斯基距离简

3、称明氏距离按的取值不同又可分成欧氏距离是常用的距离大家都比较熟悉但是前面已经提到在解决多元数据的分析问题时欧氏距离就显示出了它的不足之处一是它没有考虑到总体的变异对距离远近的影响显然一个变异程度大的总体可能与更多样品近些既使它们的欧氏距离不一定最近另外欧氏距离受变量的量纲影响这对多元数据的处理是不利的为了克服这方面的不足可用马氏距离的概念 2 马氏距离设Xi与Xj是来自均值向量为协方差为 0 的总体G中的p维样品则两个样品间的马氏距离为 5 5 马氏距离又称为广义欧氏距离显然马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性如果各变量

4、之间相互独立即观测变量的协方差矩阵是对角矩阵则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离马氏距离还考虑了观测变量之间的变异性不再受各指标量纲的影响将原始数据作线性变换后马氏距离不变 3 兰氏距离 5 6 它仅适用于一切Xij 0的情况这个距离也可以克服各个指标之间量纲的影响这是一个自身标准化的量由于它对大的奇异值不敏感它特别适合于高度偏倚的数据虽然这个距离有助于克服明氏距离的第一个缺点但它也没有考虑指标之间的相关性 4 距离选择的原则一般说来同一批数据采用不同的距离公式会得到不同的分类结果产生不同结果的原因主要是由于不同的距离公式的侧重点

5、和实际意义都有不同因此我们在进行聚类分析时应注意距离公式的选择通常选择距离公式应注意遵循以下的基本原则 1 要考虑所选择的距离公式在实际应用中有明确的意义如欧氏距离就有非常明确的空间距离概念马氏距离有消除量纲影响的作用 2 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法如在进行聚类分析之前已经对变量作了标准化处理则通常就可采用欧氏距离 3 要考虑研究对象的特点和计算量的大小样品间距离公式的选择是一个比较复杂且带有一定主观性的问题我们应根据研究对象的特点不同做出具体分折实际中聚类分析前不妨试探性地多选择几个距离公式分别进行聚类然后对聚类分析的结果进行对比分析以

6、确定最合适的距离测度方法二变量相似性的度量多元数据中的变量表现为向量形式在几何上可用多维空间中的一个有向线段表示在对多元数据进行分析时相对于数据的大小我们更多地对变量的变化趋势或方向感兴趣因此变量间的相似性我们可以从它们的方向趋同性或相关性进行考察从而得到夹角余弦法和相关系数两种度量方法 1 夹角余弦两变量Xi与Xj看作p维空间的两个向量这两个向量间的夹角余弦可用下式进行计算 5 7 显然 cos ij 1 2 相关系数相关系数经常用来度量变量间的相似性变量Xi与Xj的相关系数定义为 5 8 显然也有 rij 1 无论是夹角余弦还是相关系数它们的绝对值都

7、小于1 作为变量近似性的度量工具我们把它们统记为cij 当 cij 1时说明变量Xi与Xj完全相似当 cij 近似于1时说明变量Xi与Xj非常密切当 cij 0时说明变量Xi与Xj完全不一样当 cij 近似于0时说明变量Xi与Xj差别很大据此我们把比较相似的变量聚为一类把不太相似的变量归到不同的类内在实际聚类过程中为了计算方便我们把变量间相似性的度量公式作一个变换为dij 1 cij 5 9 或者dij2 1 cij2 5 10 用表示变量间的距离远近小则与先聚成一类这比较符合人们的一般思维习惯第三节系统聚类分析法一系统聚类的基本思想二类间距离与系统聚类法

8、三类间距离的统一性一系统聚类的基本思想系统聚类的基本思想是距离相近的样品或变量先聚成类距离相远的后聚成类过程一直进行下去每个样品或变量总能聚到合适的类中系统聚类过程是假设总共有n个样品或变量第一步将每个样品或变量独自聚成一类共有n类第二步根据所确定的样品或变量距离公式把距离较近的两个样品或变量聚合为一类其它的样品或变量仍各自聚为一类共聚成n 1类第三步将距离最近的两个类进一步聚成一类共聚成n 2类以上步骤一直进行下去最后将所有的样品或变量全聚成一类为了直观地反映以上的系统聚类过程可以把整个分类系统画成一张谱系图所

9、以有时系统聚类也称为谱系分析除系统聚类法外还有有序聚类法动态聚类法图论聚类法模糊聚类法等限于篇幅我们只介绍系统聚类方法二类间距离与系统聚类法在进行系统聚类之前我们首先要定义类与类之间的距离由类间距离定义的不同产生了不同的系统聚类法常用的类间距离定义有8种之多与之相应的系统聚类法也有8种分别为最短距离法最长距离法中间距离法重心法类平均法可变类平均法可变法和离差平方和法它们的归类步骤基本上是一致的主要差异是类间距离的计算方法不同以下用dij表示样品Xi与Xj之间距离用Dij表示类Gi与Gj之间的距离 1 最短距离法定义类与之间的距离为两类最近样品的

10、距离即为 5 11 设类与合并成一个新类记为则任一类与的距离为 5 12 最短距离法进行聚类分析的步骤如下 1 定义样品之间距离计算样品的两两距离得一距离阵记为D 0 开始每个样品自成一类显然这时Dij dij 2 找出距离最小元素设为Dpq 则将Gp和Gq合并成一个新类记为Gr 即Gr Gp Gq 3 按 5 12 计算新类与其它类的距离 4 重复 2 3 两步直到所有元素并成一类为止如果某一步距离最小的元素不止一个则对应这些最小元素的类可以同时合并例5 1 设有六个样品每个只测量一个指标分别是1 2 5 7 9 10 试用最短距离法将它们分类 1 样品采用绝对值

11、距离计算样品间的距离阵D 0 见表5 1 表5 1 2 D 0 中最小的元素是D12 D56 1 于是将G1和G2合并成G7 G5和G6合并成G8 并利用 5 12 式计算新类与其它类的距离D 1 见表5 2 表5 2 3 在D 1 中最小值是D34 D48 2 由于G4与G3合并又与G8合并因此G3 G4 G8合并成一个新类G9 其与其它类的距离D 2 见表5 3 表5 3 4 最后将G7和G9合并成G10 这时所有的六个样品聚为一类其过程终止上述聚类的可视化过程见图5 1所示横坐标的刻度表示并类的距离这里我们应该注意聚类的个数要以实际情况所定其详细内容将在后面讨论图5

12、1最短距离聚类法的过程再找距离最小两类并类直至所有的样品全归为一类为止可以看出最长距离法与最短距离法只有两点不同一是类与类之间的距离定义不同另一是计算新类与其它类的距离所用的公式不同 3 中间距离法最短最长距离定义表示都是极端情况我们定义类间距离可以既不采用两类之间最近的距离也不采用两类之间最远的距离而是采用介于两者之间的距离称为中间距离法中间距离将类Gp与Gq类合并为类Gr 则任意的类Gk和Gr的距离公式为 1 4 0 5 15 设Dkq Dkp 如果采用最短距离法则Dkr Dkp 如果采用最长距离法则Dkr Dkq 如图5 2所示 5 15 式就是取它们最长距离与

13、最短距离的中间一点作为计算Dkr的根据特别当 1 4 它表示取中间点算距离公式为 5 16 图5 2中间距离法例5 2 针对例5 1的数据试用重心法将它们聚类 1 样品采用欧氏距离计算样品间的平方距离阵D2 0 见表5 4所示表5 4 2 D2 0 中最小的元素是D212 D256 1 于是将G1和G2合并成G7 G5和G6合并成G8 并利用 5 18 式计算新类与其它类的距离得到距离阵D2 1 见表5 5 其中其它结果类似可以求得 3 在D2 1 中最小值是D234 4 那么G3与G4合并一个新类G9 其与与其它类的距离D2 2 见表5 6 表5 6 4 在中最小值是 12

14、5 那么与合并一个新类其与与其它类的距离见表5 7 表5 7 5 最后将G7和G10合并成G11 这时所有的六个样品聚为一类其过程终止上述重心法聚类的可视化过程见图5 3所示横坐标的刻度表示并类的距离图5 3重心聚类法的过程 6 可变类平均法由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响因此将类平均法进一步推广如果将Gp和Gq合并为新类Gr 类Gk与新并类Gr的距离公式为 5 22 其中是可变的且 1 称这种系统聚类法为可变类平均法 8 离差平方和法该方法是Ward提出来的所以又称为Ward法该方法的基本思想来自于方差分析如果分类正确同类样品的离差平方和应当

15、较小类与类的离差平方和较大具体做法是先将n个样品各自成一类然后每次缩小一类每缩小一类离差平方和就要增大选择使方差增加最小的两类合并直到所有的样品归为一类为止设将n个样品分成k类G1 G2 Gk 用Xit表示Gt中的第I个样品 nt表示Gt中样品的个数是Gt的重心则Gt的样品离差平方和为这种系统聚类法称为离差平方和法或Ward方法下面论证离差平方和法的距离递推 5 26 式由于三类间距离的统一性上述八种系统聚类法的步骤完全一样只是距离的递推公式不同兰斯 Lance 和威廉姆斯 Williams 于1967年给出了一个统一的公式 5 28 其中ap aq 是参数

16、不同的系统聚类法它们取不同的数详见表5 8 这里应该注意不同的聚类方法结果不一定完全相同一般只是大致相似如果有很大的差异则应该仔细考查找到问题所在另外可将聚类结果与实际问题对照看哪一个结果更符合经验表5 8系统聚类法参数表第四节K均值聚类分析系统聚类法需要计算出不同样品或变量的距离还要在聚类的每一步都要计算类间距离相应的计算量自然比较大特别是当样本的容量很大时需要占据非常大的计算机内存空间这给应用带来一定的困难而K 均值法是一种快速聚类法采用该方法得到的结果比较简单易懂对计算机的性能要求不高因此应用也比较广泛 K均值法是麦奎因 MacQueen 1967 提出的这种算法的基本思想是将每一个样品分配给最近中心均值的类中具体的算法至少包括以下三个步骤 1 将所有的样品分成K个初始类 2 通过欧氏距离将某个样品划入离中心最近的类中并对获得样品与失去样品的类重新计算中心坐标 3 重复步骤2 直到所有的样品都不能再分配时为止 K均值法和系统聚类法一样都是以距离的远近亲疏为标准进行聚类的但是两者的不同之处也是明显的系统聚类对不同的类

展开阅读全文