厦门大学《应用多元统计分析》第05章-聚类分析讲课教案

上传人:youn****329 文档编号:131118785 上传时间:2020-05-04 格式:PPT 页数:96 大小:3.26MB
返回 下载 相关 举报
厦门大学《应用多元统计分析》第05章-聚类分析讲课教案_第1页
第1页 / 共96页
厦门大学《应用多元统计分析》第05章-聚类分析讲课教案_第2页
第2页 / 共96页
厦门大学《应用多元统计分析》第05章-聚类分析讲课教案_第3页
第3页 / 共96页
厦门大学《应用多元统计分析》第05章-聚类分析讲课教案_第4页
第4页 / 共96页
厦门大学《应用多元统计分析》第05章-聚类分析讲课教案_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《厦门大学《应用多元统计分析》第05章-聚类分析讲课教案》由会员分享,可在线阅读,更多相关《厦门大学《应用多元统计分析》第05章-聚类分析讲课教案(96页珍藏版)》请在金锄头文库上搜索。

1、第五章聚类分析 第一节引言 第二节相似性的量度 第三节系统聚类分析法 第四节K均值聚类分析 第五节有序样品的聚类分析法 第六节实例分析与计算机实现 第一节引言 物以类聚 人以群分 对事物进行分类 是人们认识事物的出发点 也是人们认识世界的一种重要方法 因此 分类学已成为人们认识世界的一门基础科学 在生物 经济 社会 人口等领域的研究中 存在着大量量化分类研究 例如 在生物学中 为了研究生物的演变 生物学家需要根据各种生物不同的特征对生物进行分类 在经济研究中 为了研究不同地区城镇居民生活中的收入和消费情况 往往需要划分不同的类型去研究 在地质学中 为了研究矿物勘探 需要根据各种矿石的化学和物理

2、性质和所含化学成分把它们归于不同的矿石类 在人口学研究中 需要构造人口生育分类模式 人口死亡分类状况 以此来研究人口的生育和死亡规律 第二节相似性的量度 一样品相似性的度量 二变量相似性的度量 一 样品相似性的度量 在聚类之前 要首先分析样品间的相似性 Q型聚类分析 常用距离来测度样品之间的相似程度 每个样品有p个指标 变量 从不同方面描述其性质 形成一个p维的向量 如果把n个样品看成p维空间中的n个点 则两个样品间相似程度就可用p维空间中的两点距离公式来度量 两点距离公式可以从不同角度进行定义 令dij表示样品Xi与Xj的距离 存在以下的距离公式 1 明考夫斯基距离 5 1 明考夫斯基距离简

3、称明氏距离 按的取值不同又可分成 欧氏距离是常用的距离 大家都比较熟悉 但是前面已经提到 在解决多元数据的分析问题时 欧氏距离就显示出了它的不足之处 一是它没有考虑到总体的变异对 距离 远近的影响 显然一个变异程度大的总体可能与更多样品近些 既使它们的欧氏距离不一定最近 另外 欧氏距离受变量的量纲影响 这对多元数据的处理是不利的 为了克服这方面的不足 可用 马氏距离 的概念 2 马氏距离设Xi与Xj是来自均值向量为 协方差为 0 的总体G中的p维样品 则两个样品间的马氏距离为 5 5 马氏距离又称为广义欧氏距离 显然 马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性 如果各变量

4、之间相互独立 即观测变量的协方差矩阵是对角矩阵 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离 马氏距离还考虑了观测变量之间的变异性 不再受各指标量纲的影响 将原始数据作线性变换后 马氏距离不变 3 兰氏距离 5 6 它仅适用于一切Xij 0的情况 这个距离也可以克服各个指标之间量纲的影响 这是一个自身标准化的量 由于它对大的奇异值不敏感 它特别适合于高度偏倚的数据 虽然这个距离有助于克服明氏距离的第一个缺点 但它也没有考虑指标之间的相关性 4 距离选择的原则一般说来 同一批数据采用不同的距离公式 会得到不同的分类结果 产生不同结果的原因 主要是由于不同的距离公式的侧重点

5、和实际意义都有不同 因此我们在进行聚类分析时 应注意距离公式的选择 通常选择距离公式应注意遵循以下的基本原则 1 要考虑所选择的距离公式在实际应用中有明确的意义 如欧氏距离就有非常明确的空间距离概念 马氏距离有消除量纲影响的作用 2 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法 如在进行聚类分析之前已经对变量作了标准化处理 则通常就可采用欧氏距离 3 要考虑研究对象的特点和计算量的大小 样品间距离公式的选择是一个比较复杂且带有一定主观性的问题 我们应根据研究对象的特点不同做出具体分折 实际中 聚类分析前不妨试探性地多选择几个距离公式分别进行聚类 然后对聚类分析的结果进行对比分析 以

6、确定最合适的距离测度方法 二 变量相似性的度量 多元数据中的变量表现为向量形式 在几何上可用多维空间中的一个有向线段表示 在对多元数据进行分析时 相对于数据的大小 我们更多地对变量的变化趋势或方向感兴趣 因此 变量间的相似性 我们可以从它们的方向趋同性或 相关性 进行考察 从而得到 夹角余弦法 和 相关系数 两种度量方法 1 夹角余弦两变量Xi与Xj看作p维空间的两个向量 这两个向量间的夹角余弦可用下式进行计算 5 7 显然 cos ij 1 2 相关系数相关系数经常用来度量变量间的相似性 变量Xi与Xj的相关系数定义为 5 8 显然也有 rij 1 无论是夹角余弦还是相关系数 它们的绝对值都

7、小于1 作为变量近似性的度量工具 我们把它们统记为cij 当 cij 1时 说明变量Xi与Xj完全相似 当 cij 近似于1时 说明变量Xi与Xj非常密切 当 cij 0时 说明变量Xi与Xj完全不一样 当 cij 近似于0时 说明变量Xi与Xj差别很大 据此 我们把比较相似的变量聚为一类 把不太相似的变量归到不同的类内 在实际聚类过程中 为了计算方便 我们把变量间相似性的度量公式作一个变换为dij 1 cij 5 9 或者dij2 1 cij2 5 10 用表示变量间的距离远近 小则与先聚成一类 这比较符合人们的一般思维习惯 第三节系统聚类分析法 一系统聚类的基本思想 二类间距离与系统聚类法

8、 三类间距离的统一性 一 系统聚类的基本思想 系统聚类的基本思想是 距离相近的样品 或变量 先聚成类 距离相远的后聚成类 过程一直进行下去 每个样品 或变量 总能聚到合适的类中 系统聚类过程是 假设总共有n个样品 或变量 第一步将每个样品 或变量 独自聚成一类 共有n类 第二步根据所确定的样品 或变量 距离 公式 把距离较近的两个样品 或变量 聚合为一类 其它的样品 或变量 仍各自聚为一类 共聚成n 1类 第三步将 距离 最近的两个类进一步聚成一类 共聚成n 2类 以上步骤一直进行下去 最后将所有的样品 或变量 全聚成一类 为了直观地反映以上的系统聚类过程 可以把整个分类系统画成一张谱系图 所

9、以有时系统聚类也称为谱系分析 除系统聚类法外 还有有序聚类法 动态聚类法 图论聚类法 模糊聚类法等 限于篇幅 我们只介绍系统聚类方法 二 类间距离与系统聚类法 在进行系统聚类之前 我们首先要定义类与类之间的距离 由类间距离定义的不同产生了不同的系统聚类法 常用的类间距离定义有8种之多 与之相应的系统聚类法也有8种 分别为最短距离法 最长距离法 中间距离法 重心法 类平均法 可变类平均法 可变法和离差平方和法 它们的归类步骤基本上是一致的 主要差异是类间距离的计算方法不同 以下用dij表示样品Xi与Xj之间距离 用Dij表示类Gi与Gj之间的距离 1 最短距离法定义类与之间的距离为两类最近样品的

10、距离 即为 5 11 设类与合并成一个新类记为 则任一类与的距离为 5 12 最短距离法进行聚类分析的步骤如下 1 定义样品之间距离 计算样品的两两距离 得一距离阵记为D 0 开始每个样品自成一类 显然这时Dij dij 2 找出距离最小元素 设为Dpq 则将Gp和Gq合并成一个新类 记为Gr 即Gr Gp Gq 3 按 5 12 计算新类与其它类的距离 4 重复 2 3 两步 直到所有元素 并成一类为止 如果某一步距离最小的元素不止一个 则对应这些最小元素的类可以同时合并 例5 1 设有六个样品 每个只测量一个指标 分别是1 2 5 7 9 10 试用最短距离法将它们分类 1 样品采用绝对值

11、距离 计算样品间的距离阵D 0 见表5 1 表5 1 2 D 0 中最小的元素是D12 D56 1 于是将G1和G2合并成G7 G5和G6合并成G8 并利用 5 12 式计算新类与其它类的距离D 1 见表5 2 表5 2 3 在D 1 中最小值是D34 D48 2 由于G4与G3合并 又与G8合并 因此G3 G4 G8合并成一个新类G9 其与其它类的距离D 2 见表5 3 表5 3 4 最后将G7和G9合并成G10 这时所有的六个样品聚为一类 其过程终止 上述聚类的可视化过程见图5 1所示 横坐标的刻度表示并类的距离 这里我们应该注意 聚类的个数要以实际情况所定 其详细内容将在后面讨论 图5

12、1最短距离聚类法的过程 再找距离最小两类并类 直至所有的样品全归为一类为止 可以看出最长距离法与最短距离法只有两点不同 一是类与类之间的距离定义不同 另一是计算新类与其它类的距离所用的公式不同 3 中间距离法最短 最长距离定义表示都是极端情况 我们定义类间距离可以既不采用两类之间最近的距离也不采用两类之间最远的距离 而是采用介于两者之间的距离 称为中间距离法 中间距离将类Gp与Gq类合并为类Gr 则任意的类Gk和Gr的距离公式为 1 4 0 5 15 设Dkq Dkp 如果采用最短距离法 则Dkr Dkp 如果采用最长距离法 则Dkr Dkq 如图5 2所示 5 15 式就是取它们 最长距离与

13、最短距离 的中间一点作为计算Dkr的根据 特别当 1 4 它表示取中间点算距离 公式为 5 16 图5 2中间距离法 例5 2 针对例5 1的数据 试用重心法将它们聚类 1 样品采用欧氏距离 计算样品间的平方距离阵D2 0 见表5 4所示 表5 4 2 D2 0 中最小的元素是D212 D256 1 于是将G1和G2合并成G7 G5和G6合并成G8 并利用 5 18 式计算新类与其它类的距离得到距离阵D2 1 见表5 5 其中 其它结果类似可以求得 3 在D2 1 中最小值是D234 4 那么G3与G4合并一个新类G9 其与与其它类的距离D2 2 见表5 6 表5 6 4 在中最小值是 12

14、5 那么与合并一个新类 其与与其它类的距离 见表5 7 表5 7 5 最后将G7和G10合并成G11 这时所有的六个样品聚为一类 其过程终止 上述重心法聚类的可视化过程见图5 3所示 横坐标的刻度表示并类的距离 图5 3重心聚类法的过程 6 可变类平均法由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响 因此将类平均法进一步推广 如果将Gp和Gq合并为新类Gr 类Gk与新并类Gr的距离公式为 5 22 其中 是可变的且 1 称这种系统聚类法为可变类平均法 8 离差平方和法该方法是Ward提出来的 所以又称为Ward法 该方法的基本思想来自于方差分析 如果分类正确 同类样品的离差平方和应当

15、较小 类与类的离差平方和较大 具体做法是先将n个样品各自成一类 然后每次缩小一类 每缩小一类 离差平方和就要增大 选择使方差增加最小的两类合并 直到所有的样品归为一类为止 设将n个样品分成k类G1 G2 Gk 用Xit表示Gt中的第I个样品 nt表示Gt中样品的个数 是Gt的重心 则Gt的样品离差平方和为 这种系统聚类法称为离差平方和法或Ward方法 下面论证离差平方和法的距离递推 5 26 式 由于 三 类间距离的统一性 上述八种系统聚类法的步骤完全一样 只是距离的递推公式不同 兰斯 Lance 和威廉姆斯 Williams 于1967年给出了一个统一的公式 5 28 其中ap aq 是参数

16、 不同的系统聚类法 它们取不同的数 详见表5 8 这里应该注意 不同的聚类方法结果不一定完全相同 一般只是大致相似 如果有很大的差异 则应该仔细考查 找到问题所在 另外 可将聚类结果与实际问题对照 看哪一个结果更符合经验 表5 8系统聚类法参数表 第四节K均值聚类分析 系统聚类法需要计算出不同样品或变量的距离 还要在聚类的每一步都要计算 类间距离 相应的计算量自然比较大 特别是当样本的容量很大时 需要占据非常大的计算机内存空间 这给应用带来一定的困难 而K 均值法是一种快速聚类法 采用该方法得到的结果比较简单易懂 对计算机的性能要求不高 因此应用也比较广泛 K均值法是麦奎因 MacQueen 1967 提出的 这种算法的基本思想是将每一个样品分配给最近中心 均值 的类中 具体的算法至少包括以下三个步骤 1 将所有的样品分成K个初始类 2 通过欧氏距离将某个样品划入离中心最近的类中 并对获得样品与失去样品的类 重新计算中心坐标 3 重复步骤2 直到所有的样品都不能再分配时为止 K均值法和系统聚类法一样 都是以距离的远近亲疏为标准进行聚类的 但是两者的不同之处也是明显的 系统聚类对不同的类

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号