系统聚类分析方法(2020年整理).pptx

上传人:摩西的****12 文档编号:136470492 上传时间:2020-06-28 格式:PPTX 页数:19 大小:510.74KB
返回 下载 相关 举报
系统聚类分析方法(2020年整理).pptx_第1页
第1页 / 共19页
系统聚类分析方法(2020年整理).pptx_第2页
第2页 / 共19页
系统聚类分析方法(2020年整理).pptx_第3页
第3页 / 共19页
系统聚类分析方法(2020年整理).pptx_第4页
第4页 / 共19页
亲,该文档总共19页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《系统聚类分析方法(2020年整理).pptx》由会员分享,可在线阅读,更多相关《系统聚类分析方法(2020年整理).pptx(19页珍藏版)》请在金锄头文库上搜索。

1、学 海 无 涯,系统聚类分析方法 聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性,用数学方法 按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本 进行聚类。 常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。 1. 聚类要素的数据处理 假设有 m 个聚类的对象,每一个聚类对象都有 个要素构成。它们所对应的要素数据可用 在聚 类分析中,常用的聚类要素的数据处理方法有如下几种。, 总和标准化, 标准差标准化,学 海 无 涯, 极大值标准化,经过这种标准化所得的新数据,各要素的极大值为 1,其余各数值小于 1。 极差的标准化,经过这

2、种标准化所得的新数据,各要素的极大值为 1,极小值为 0,其余的数值均在 0 与 1 之间。 2. 距离的计算 距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和 基础。 绝对值距离,学 海 无 涯,选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中,往往采用几种距离进行计算、 对比,选择一种较为合适的距离进行聚类。,学 海 无 涯 例:表 3.4.2 给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表 3.4.3 所示。,对于表 3.4.3 中的数据,用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵:,学 海 无 涯,3. 直接聚

3、类法 直接聚类法是根据距离矩阵的结构一次并类得到结果。 基本步骤: 把各个分类对象单独视为一类;, 根据距离最小的原则,依次选出一对分类对象,并成新类; 如果其中一个分类对象已归于 一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类; 每一次归并,都划去该对象所在的列与列序相同的行; 那么,经过 m-1 次就可以把全部分类 对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。 直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失。因此,直接 聚类法并不是最好的系统聚类方法。,例:已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析。

4、,解: 根据上面的距离矩阵,用直接聚类法聚类分析:,学 海 无 涯 第一步,在距离矩阵 D 中,除去对角线元素以外,d49=d94=0.51 为最小者,故将第 4 区与第 9 区并为一类, 划去第 9 行和第 9 列; 第二步,在余下的元素中,除对角线元素以外,d75= d57=0.83 为最小者,故将第 5 区与第 7 区并为一类, 划掉第 7 行和第 7 列; 第三步,在第二步之后余下的元素之中,除对角线元素以外,d82= d28=0.88 为最小者,故将第 2 区与第 8 区并为一类,划去第 8 行和第 8 列; 第四步,在第三步之后余下的元素中,除对角线元素以外,d43= d34=1.

5、23 为最小者,故将第 3 区与第 4 区 并为一类,划去第 4 行和第 4 列,此时,第 3、4、9 区已归并为一类; 第五步,在第四步之后余下的元素中,除对角线元素以外,d21= d12=1.52 为最小者,故将第 1 区与第 2 区 并为一类,划去第 2 行和第 2 列,此时,第 1、2、8 区已归并为一类; 第六步,在第五步之后余下的元素中,除对角线元素以外,d65= d56=1.78 为最小者,故将第 5 区与第 6 区 并为一类,划去第 6 行和第 6 列,此时,第 5、6、7 区已归并为一类; 第七步,在第六步之后余下的元素中,除对角线元素以外,d31= d13=3.10 为最小

6、者,故将第 1 区与第 3 区 并为一类,划去第 3 行和第 3 列,此时,第 1、2、3、4、8、9 区已归并为一类; 第八步,在第七步之后余下的元素中,除去对角线元素以外,只有 d51= d15=5.86,故将第 1 区与第 5 区并 为一类,划去第 5 行和第 5 列,此时,第 1、2、3、4、5、6、7、8、9、区均归并为一类; 根据上述步骤,可以做出直接聚类谱系图。(点击展开显示该图),学 海 无 涯,4. 最短距离聚类法 最短距离聚类法是在原来的 mm 距离矩阵的非对角元素中找出 ,把分类对象 Gp 和 Gq 归并为 一新类 Gr,然后按计算公式,计算原来各类与新类之间的距离,这样

7、就得到一个新的(m1)阶的距离矩阵;再从新的距离 矩阵中选出最小者 dij,把 Gi 和 Gj 归并成新类;再计算各类与新类的距离,这样一直下去,直 至各分类对象被归为一类为止。,例:已知九个农业区之间的绝对值距离矩阵,使用最短距离聚类法做聚类分析。,解:用最短距离聚类法对某地区的九个农业区进行聚类分析:,学 海 无 涯 第一步,在 99 阶距离矩阵 D 中,非对角元素中最小者是 d94=0.51,故首先将第 4 区与第 9 区并为一类, 记为 G10,即 G10=G4,G9。分别计算 G1,G2,G3,G5,G6,G7,G8 与 G10 之间的距离得:,这样就得到 G1,G2,G3,G5,G

8、6,G7,G8,G10 上的一个新的 88 阶距离矩阵:,第二步,在上一步骤中所得到的 88 阶距离矩阵中,非对角元素中最小者为 d57=0.83,故将 G5 与 G7 归并 为一类,记为 G11,即 G11=G5,G7。分别计算 G1,G2,G3,G6,G8,G10 与 G11 之间的距离,可 得到一个新的 77 阶距离矩阵:,学 海 无 涯 第三步,在第二步所得到的 77 阶距离矩阵中,非对角元素中最小者为 d28=0.88,故将 G2 与 G8 归并为一 类,记为 G12,即 G12=G2,G8。分别计算 G1,G3,G6,G10,G11 与 G12 之间的距离,可得到一 个新的 66

9、阶距离矩阵:,第四步,在第三步中所得的 66 阶距离矩阵中,非对角元素中最小者为 d6,11=1.07,故将 G6 与 G11 归并 为一类,记为 G13,即 G13=G6,G11=G6,(G5,G7)。计算 G1,G3,G10,G12 与 G13 之间 的距离,可得到一个新的 55 阶距离矩阵:,第五步,在第四步中所得的 55 阶距离矩阵中,非对角线元素中最小者为 d3,10=1.20,故将 G3 与 G10 归并为一类,记为 G14,即 G14=G3,G10=G3,(G4,G9)。再按照公式(3.3.10)式计算 G1, G12,G13 与 G14 之间的距离,可得一个新的 44 阶距离矩

10、阵:,第六步,在第五步所得到的 44 阶距离矩阵中,非对角线元素中最小者为 d12,14=1.29,故将 G12 与 G14,学 海 无 涯 归并为一类,记为 G15,即 G15=G12,G14=(G2,G8),(G3,(G4,G9)。再按照公式(3.3.10) 式计算 G1,G13 与 G15 之间的距离,可得一个新的 33 阶距离矩阵:,第七步,在第六步所得的 33 阶距离矩阵中,非对角线元素中最小者为 d1,15=1.32,故将 G1 与 G15 归并 为一类,记为 G16,即 G16=G1,G15=(G1,(G2,G8),(G3,(G4,G9)。再按照公式 (3.3.10)式计算 G1

11、3 与 G16 之间的距离,可得一个新的 22 阶距离矩阵:,第八步,将 G13 与 G16 归并为一类。此时,所有分类对象均被归并为一类。 综合上述聚类过程,可以作出最短距离聚类谱系图。(点击展开显示),5. 最远距离聚类法 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离采用的公式不同。 最远距离聚类法的计算公式:,学 海 无 涯,6. 系统聚类法计算类之间距离的统一公式 最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性(图 3.4.4)。最短距离 为 dAB=da1b1,最远距离为 dAB=dap2。, 最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统

12、一的式子表示:,当 = -1/2 时,就是最短距离聚类法计算类间距离的公式;当 =1/2 时,就是最远距离聚类法计 算类间距离的公式。 系统聚类的方法还有:,表示了八种不同系统聚类方法计算类间距离的统一表达式(见表 3.3.4)。,学 海 无 涯,7. 系统聚类分析实例 作为系统聚类分析方法的应用实例,下面对中国大陆 31 个省级区域第三产业综合发展水平进行 类型划分及差异性程度分析。 1) 聚类指标选择 选取如下 7 项指标作为对中国第三产业综合发展水平进行聚类分析的基础指标: y1人均 GDP,反映经济社会发展的总体状况和一般水平; y2人均第三产业增加值,反映人均服务产品占有量或服务密度

13、; y3第二产业增加值比重,反映工业化水平和产业结构现代化程度; y4第三产业增加值比重,反映第三产业的发展程度及其对国民经济的贡献; y5第三产业从业人员比重,反映第三产业对劳动力的吸纳能力; y6第三产业固定资产投资比重,反映第三产业的资金投入程度; y7城市化水平,反映农村人口转化为城市人口的程度及对服务的需求量。,学 海 无 涯,2) 聚类计算 以 1999 年国家统计局出版的中国统计年鉴(1998 年度的数据)为数据来源,运用上述 7 项指标(表 3.4.5) (点击显示该表),借助于统计分析软件包 SPSS10.0 进行聚类分析计算,计算 过程如下: 用标准差标准化方法对 7 项指

14、标的原始数据进行处理。 采用欧氏距离测度 31 个省(市、区)之间的样本间距离。 选用组平均法计算类间的距离,并对样本进行归类。 经过上述聚类计算步骤,得到的聚类结果见图 3.4.5。,学 海 无 涯,学 海 无 涯 定相似关系矩阵,标定距离的方法有很多,下面只列举几种常用的计算方法: 欧氏距离 其中, x ik 表示第 i 个样本的第 k 个指标的观察值, x jk 表示第 j 个 样本的第 k 个指标的观察值, r ij 表示第 i 个样本与第 j 个样本之间 的亲疏程度。 r ij 越小,则第 i 个样本与第 j 个样本之间的性质就越接 近。性质接近的样本就可以划归为一类。 绝对减数法,其中 c 应适当选取,使得 0 r ij 1 。 3 进行聚类 在确定了样本之间的距离后,就可以对样本进行归类,归类的方法很多, 其中用得最广泛的是系统聚类法。它首先把 n 个样本每个自成一类,然后 每次将具有最小距离的两类合并成一类,合并后又再重新计算类与类之间的 距离,直至所有样品归为一类为止。,学 海 无 涯,学 海 无 涯,学 海 无 涯,学 海 无 涯,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 总结/计划/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号