第十三章聚类分析

上传人:油条 文档编号:10604401 上传时间:2017-08-13 格式:PPT 页数:65 大小:413KB
返回 下载 相关 举报
第十三章聚类分析_第1页
第1页 / 共65页
第十三章聚类分析_第2页
第2页 / 共65页
第十三章聚类分析_第3页
第3页 / 共65页
第十三章聚类分析_第4页
第4页 / 共65页
第十三章聚类分析_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《第十三章聚类分析》由会员分享,可在线阅读,更多相关《第十三章聚类分析(65页珍藏版)》请在金锄头文库上搜索。

1、第十三章 聚类分析,例13-1 为研究辽宁等5省区1991年城镇居民生活费的分布规律,根据调查资料做类型划分。指标名称及原始数据见下表。,第一节 聚类分析的基本概念,一、聚类分析的基本思想,我们分析的样本或指标之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样本(或指标)都聚合完毕,把不同的类型一一划分出来

2、,形成一个由小到大的分类系统,最后在把所有的样品(或指标)间的亲疏关系表示出来,这种方法称为系统聚类分析法。,二、聚类分析法的分类,聚类分析根据分类对象的不同分为Q型和 R 型两大类。Q型聚类分析是对样本进行分类处理的,R 型聚类分析是对变量(指标)进行分类处理的。,1. R型聚类分析的特点,(1) R型聚类分析不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。 (2)根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析。,2. Q型聚类分析的特点,(1)可以综合利用多个变量的信息对样本进行分类。 (2)分类结果是直观的,聚类谱系图非常清楚地表现其数值分

3、类结果。 (3)聚类分析所得到的结果比传统的分类方法更细致,全面,合理。,第二节 距离和相似系数,对样本进行聚类时,我们将样本的“靠近”程度由某种距离来刻画;对指标的聚类,往往用某种相似系数来刻画。,一、距离,设我们研究的分类对象有p个指标,现选择n个样本,由p个指标和n个样本就可以获得一个n p的数据矩阵,该矩阵的元素 表示第 个样品的第 个指标。,在矩阵中,每个样本有p个指标,故每个样本可以看成为 p 维空间中的一个点,n个样本就组成 p 维空间中的n个点,此时自然用距离来度量样本之间接近的程度。,1.绝对值距离,2.欧氏距离,3.明考斯基距离,二、相似系数,1.相似系数,刻画两个指标之间

4、的相似程度的大小,用 表示第 个指标与第 个指标间的相似系数。,2.相似系数的特点,的绝对值越接近于1,表示指标与指标间的关系越密切; 值的绝对值越接近于0,表示指标与指标间的关系越疏远。,3.相似系数的计算,(1)夹角余弦,(2)相关系数,第三节 系统聚类法,系统聚类法的基本步骤(1) 计算n个样本间的距离 ,记作 ;(2) 构造n个类,每个类只包含一个样本;(3) 合并距离最近的两类为一新类;(4) 计算新类与当前各类的距离,若类的个数等于1,转到步骤(5),否则回到步骤(3);(5) 画聚类图;(6) 决定类的个数和类。,例13-1 为研究辽宁等5省区1991年城镇居民生活费的分布规律,

5、根据调查资料做类型划分。指标名称及原始数据见下表。,将表中的每个省区看成一个样本,先计算5省区之间的欧氏距离,用D(0)表示各样本之间的距离矩阵。,一、最短距离法,例13-1中开始有五类:,即这五类之间的距离等于5个样本之间的距离。,其各类之间元素的最近距离是:,得到各类之间的距离矩阵为D(1),D(1)中类间最小距离是d65=2.21,合并类G6和G5,得新类,再利用,得到各类之间的距离矩阵为D(2),D(2)中类间最小距离是d12=11.67,合并类G1和G2,得新类,这时我们有两个类G7=3,4,5和G8=1,2,它们的最近距离,得到各类之间的距离矩阵到D(3),把上述谱系聚类过程作图表

6、示,即成谱系图13-1。从图13-1上可以清楚地看到各个类在不同距离水平上聚集和归并的过程。,图13-1 最短距离法谱系图,在距离为2.20这个水平上首先合并样本3,4;然后,更新距离矩阵后又在距离为2.21这个水平上合并类G5和G6=3,4,变成新类G7=3,4,5;在距离为11.67这个水平上又合并G1和G2,得新类G8=1,2 ;最后在距离为12.8这个水平上又把类G7=3,4,5和G8=1,2合并,形成一个大类的聚类系统。,最后决定类的个数与类。图13-1中在距离为12处切一刀,就得到两大类: 一类是 河南,甘肃,青海, 另一类是 辽宁,浙江。,二、最长距离法,例13-1中开始有五类:

7、,即这五类之间的距离等于5个样本之间的距离。,D(0)中最小的元素是的d34=2.20,故将类G3和G4合并成一新类,其各类之间的距离是:,D(1)中类间最小距离是d65=3.51,合并类G6和G5,得新类,再利用,D(2)中类间最小距离是d12=11.67,合并类G1和G2,得新类,这时我们有两个类G7=3,4,5和G8=1,2,它们的最近距离,把上述谱系聚类过程作图表示,即成谱系图13-2。从图13-2上可以清楚地看到各个类在不同距离水平上聚集和归并的过程。,在距离为2.20这个水平上首先合并对象(34);然后,更新距离矩阵后又在距离为3.51这个水平上合并类(34)和(2),变成新类(3

8、45);在距离为11.67这个水平上又合并(2)和(1),得新类(12) ;最后在距离为24.63这个水平上又把类(345)和(12)合并,形成一个大类的聚类系统。,最后决定类的个数与类。如果在图13-2距离为23处切一刀,即得到两类。他们分别是河南,甘肃,青海与辽宁,浙江。,例13-2 下面的矩阵为5个对象之间的假想的欧氏距离,用系统聚类法对5个对象进行分类。,一、最短距离法,(1)先即每个对象看成一类,这五类之间的距离等于5个样本之间的距离。,(2)将两个距离最接近的对象进行合并。由于,故将对象5和3合并成一新类,形成聚类(35),其最近相邻的距离是:,从D(0)中将对象3和5的行和列删除

9、,并将对应于(35)行和列加上,便得到新的距离聚阵D(1)。,D(1)中类间最小距离是d(35)1=3,合并类(35)和(1),得到一个新的聚类(135),其最近相邻的距离是:,便得到新的距离聚阵D(2)。,D(2)中类间最小距离是d24=5,合并类(2)和(4),得新类,这时我们有两个类(135)和(24),它们的最近距离,最终的矩阵变为,把上述谱系谱系聚类过程作图表示,即成谱系图。从图上可以清楚地看到各个类在不同距离水平上聚集和归并的过程。,13524,0,2,4,6,在距离为2这个水平上首先合并对象(35);然后更新距离矩阵后,又在距离为3这个水平上合并类1和(35)变成新类(135);

10、在距离为5这个水平上又合并2和4得新类(24);最后在距离为6这个水平上又把类(135)和(24)合并,形成一个大类的聚类系统,最后决定类的个数与类。,二、最长距离法,最长距离法是用,(1)先即每个对象看成一类,这五类之间的距离等于5个样本之间的距离。,D(0)中最小的元素是2,故将类3和类5合并成一新类(35),其最近相邻的距离是:,从D0中将对象3和5的行和列删除,并将对应于(35)行和列加上,便得到新的距离聚阵D1。,便得到新的距离聚阵D2。,D(1)中类间最小距离是d24=5,合并类(2)和(4),得到一个新的聚类(24),其最近相邻的距离是:,D(2)中类间最小距离是d(24)1=9

11、,合并类(24)和(1),得新类(124),这时我们有两个类(124)和(35),它们的最近距离,最终的矩阵变为,把上述谱系谱系聚类过程作图表示,即成谱系图。从图上可以清楚地看到各个类在不同距离水平上聚集和归并的过程。,12435,0,8,12,4,2,6,10,在距离为2这个水平上首先合并对象(35);然后,更新距离矩阵后又在距离为5这个水平上合并类2和4,变成新类(24);在距离为9这个水平上又合并(24)和1,得新类(124) ;最后在距离为11这个水平上又把类(124)和(35)合并,形成一个大类的聚类系统。最后决定类的个数与类。,12435,0,8,12,4,2,6,10,三、重心法,重心法是用一个类的重心(该类样品的均值)来代表这个类,类与类之间的距离就用重心之间的距离来代表。,若样本之间采用欧氏距离,设某一步将类 与 合并成 ,它们各有 个样本,它们的重心用 表示,显然,,这就是重心法的距离递推公式。,例13-3 用重心法对例13-1五个省份分类,(1)计算个样本之间的距离平方,就是将例13-1中距离矩阵的各个元素平方。,在 找最小的数,它们是 ,将 和 合并为,计算新类 与各类的距离,这时,类似地可以计算出 时的值,结果列于下表,对 重复上述步骤,将类 和 合并成类 平方距离矩阵变为 ,计算结果列于下表,将类 和 合并成类 平方距离矩阵变为 ,计算结果列于下表,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 教育/培训/课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号