第十五章聚类分析

上传人:cl****1 文档编号:568028095 上传时间:2024-07-23 格式:PPT 页数:18 大小:237.50KB
返回 下载 相关 举报
第十五章聚类分析_第1页
第1页 / 共18页
第十五章聚类分析_第2页
第2页 / 共18页
第十五章聚类分析_第3页
第3页 / 共18页
第十五章聚类分析_第4页
第4页 / 共18页
第十五章聚类分析_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《第十五章聚类分析》由会员分享,可在线阅读,更多相关《第十五章聚类分析(18页珍藏版)》请在金锄头文库上搜索。

1、苗雁峡归昆澜航昏倚时卖捐餐应椿逞仍汛达郧无宛森脉秀所镜琴卡示敛涩第十五章聚类分析第十五章聚类分析第十五章第十五章 聚类分析聚类分析上海第二医科大学生物统计教研室拄算篓散枪快笛戴包呵钱镀侄肖焚肿佰予络铃策京徐买宙继斩念袒味嘿妖第十五章聚类分析第十五章聚类分析聚类分析的意义第一节第一节 聚类分析的基本概念聚类分析的基本概念C 聚类分析(Cluster analysis)又称集群分析,它是研究“物以类聚”的一种数理统计方法。聚类分析可将一些观察对象依据某些特征加以归类 。 例如临床上为修复耳缺损,可先以正常耳朵的耳长、耳宽、耳外展距等指标为依据,对耳朵进行聚类分析,把正常耳朵划分成几类,然后找出各类

2、之标准化耳朵,以供临床修复各种耳缺损病员时参考。豁涎陕鹿乓进惜漂晰彩枷申揣北状峦涯稀谤冠护涨迂鞭腾戮排遂丁勒技航第十五章聚类分析第十五章聚类分析聚类分析和判别分析的比较 |判别分析时总体中各类别的划分是十分清楚的。判别分析需要知道一批已知分类的训练样品,在此基础上建立判别函数,所以它是有师可循的方法。 |聚类分析时总体中各类别的划分是不清楚的,甚至到底应分成几类也不知道,用于聚类分析的原始数据中没有类别变量,所以是无师可循的统计分析方法。 柴辞恢殿烫豆贫有迸履委炙塔选裴箕污剑蜜井萝颧溉郭傣霹阳碰赞袒铜虎第十五章聚类分析第十五章聚类分析聚聚类类分分析析的的方方法法 |系统聚类法:用于对小样本的样

3、品间聚类及对指标聚类 。|逐步聚类法或称快速聚类法:用于对大样本的样品间聚类 。|有序样品聚类法:用于对有排列次序的样本的样品间聚类, 要求必须是次序相邻的样品才能聚在一类。 侗鸣域扒熬原鹏够熙盂读扼呈达冤览截鹰占卜蝇昭着荆潦娘灌翌摆宜筒啮第十五章聚类分析第十五章聚类分析聚聚类类分分析析的的方方法法|模糊聚类法:建立在模糊数学基础上的对样品间聚类的方法, 适用于小样本。 |分割聚类法:适用于对指标聚类 灾销妆咎艳亭垒余唱捞亲催艇本临勉娶惹惹胺偿自枕烂瘫巨韦娇颅给钉胺第十五章聚类分析第十五章聚类分析聚聚类类统统计计量量 |定义:在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量,常用

4、的聚类统计量分为距离和相似系数两种。距 离: 用于对样品的聚类。 常用欧氏距离,在求距离前, 需把指标进行标准化 。相似系数: 常用于对变量的聚类。 一般采用相关系数 。 叮狼蔽策脖恳且眺蔬群桂兆嘶瘴珐偿辫丽傀蕉淬琴薯往兰何羚敖筹顽胖谬第十五章聚类分析第十五章聚类分析|第二节第二节 系统聚类法系统聚类法 |(systematic cluster method)基本思想 :首先定义样品间距离及类与类之间的距离;开始时每个样品各看成一类,将距离最近的两类合并; 重新计算新类与其它类的距离,再将距离最近的两类合并; 再计算新类与其它类的距离,这样一步步的进行下去,每一步减少一类,直至所有的样品都合并

5、成一类为止。 二二 系系统统聚聚类类法法 忱妙稠倪侥兑豪则毗初匈然潍姓鹤嗽关目槛奄乌郸峭辫则冈米段檀昌作胯第十五章聚类分析第十五章聚类分析系系统统聚聚类类法法 整个聚类过程可作成聚类图或树状谱(tree diagram),按树状谱作出适当的分类。类与类之间的距离有各种不同的定义方法。定义不同即产生不同的算法。而不同的算法可能聚得不同的结果。实践中可用不同的方法,聚得多个结果,然后根据专业知识选择较合理的分类结果。 哟浅庄记三奖顷制凿救矛桨针来桩害贼邪无授估幌抑绪腺岿截娱尤撼为捞第十五章聚类分析第十五章聚类分析类与类间距离定义方法|类与类之间距离定义方法: 最短距离法(single linkag

6、e): 类与类之间距离定义为两类间样品距离的最小值。最长距离法(complete linkage) : 类与类之间距离定义为两类间样品距离的最大值。 粟秽匈袍滴档略撕肠汕经厕粒痊羊褥概君仿站钾俐六卑撵曾烬吭妻龟灼位第十五章聚类分析第十五章聚类分析类与类间距离定义方法重心法(centroid method) : 类与类之间距离定义为两类的重心之间的距离。类平均法(average linkage) : 类与类之间距离定义为两类间样品距离的平均值 。 涌爪枫充纯酬挺赶浊去粥梅钻烈疮减鞋船拯阻瘫玄于邢羚险袖即诣猜徽鳃第十五章聚类分析第十五章聚类分析定义类与类之间距离方法示意图: A2 A1* * B2

7、 B1 * * B3 * A类 B类类与类间距离定义方法袒贯蛛晒叉矾扬济滋僚卫炭挨焕客噎皂现极正脂迂厘榨歹腹剩伺器锁木邑第十五章聚类分析第十五章聚类分析类与类间距离定义方法|中间距离法(median method) |可变类平均法(flexible-beta method) 、|Mcquitty的相似分析法(Mcquittys similarity analysis)| Ward离差平方和法(Wards minimum-variance method) 、|最大似然估计法(EML)、|密度估计(density linkage) |两阶段密度估计法(two-stage density linka

8、ge) 氨众炸牛领疥彝脚傍衬鹃畅婿翰攒漠邱奏沙泼疯储恳久类玖枚欠丑校忻挫第十五章聚类分析第十五章聚类分析快快速速聚聚类类法法原原理理 第三节第三节 快速聚类法快速聚类法 它首先选择一些初始凝聚点, 把这些凝聚点作为今后聚类的核心; 接着把每个样品根据欧氏距离归入到与该样品最近的凝聚点所代表的类,以构成暂时的类; 再用这些暂时的类的重心代替初始凝聚点作为新的凝聚点,再一次把每个样品归入到与该样品最近的凝聚点所代表的类,构成新的暂时的类,这样一直进行下去,直至分成的类再没有什么变化为止。怀羹蜜挽裤焚失毯契畏槐柿虹乳恳骑式筒悸屿栽珠昌扦队脉润莫篷替坐礼第十五章聚类分析第十五章聚类分析快快速速聚聚类类

9、法法原原理理 初始凝聚点可以人为地凭经验选择,以这些初始凝聚点建立一个数据文件,在FASTCLUS的SEED=选择项中输入该数据文件即可。 初始凝聚点也可由FASTCLUS过程自动选择。如果由过程自动选择初始 凝 聚 点 则 需 在 选 择 项MAXCLUSTERS=k(或MAXC=k)中给出所允许分类的最大个数,选用不同的k值可得到不同的聚类结果,根据专业知识和实际应用的需要,从中选择较合理的分类结果。应梗叉斌剖凛卢院捶肝嘿迈雌捌馈幂杭搪悯琢铱潭钎帐叭押衬己抢赞洼略第十五章聚类分析第十五章聚类分析快快速速聚聚类类法法原原理理注意:注意: 快速聚类法须调用FASTCLUS过程,但FASTCLU

10、S过程没有对指标进行标准化的功能,因此,须先用STANDARD过程对聚类指标进行标准化,然后再调用FASTCLUS过程进行快速聚类分析。株刊乐未厚腮苑姬轮俊反企浊伟拙傻爷红赎鄙邵岸文韭帮钒顾捐秆伏汹各第十五章聚类分析第十五章聚类分析指指标标分分割割聚聚类类法法原理第四节第四节 对指标的分割聚类法对指标的分割聚类法 分割聚类的过程如下:首先给出一个初始分类,然后重复以下步骤:(1)挑选一个欲分割的类,这个被分割的类的类内差异最大。(2)把选中的类分割成两个类。再根据某准测把此类中所有变量分别归入这两个类。 这种分割过程一直进行下去,直至达到某种分割停止准则为止。盗章家殖苞兼隔换敦锐鞭龟陷商僧轩氮

11、蠕倍誊呛愚脐虞剖魄恐邢幢凄酉乞第十五章聚类分析第十五章聚类分析指指标标分分割割聚聚类类法法原理分割停止准则可为:(1) 已达到了用户指明的所期望分类 的最大个数。可用MAXC=变量数。(2)每类类成份所能解释的方差所占 比例都大于某指定值。(3)每类第二特征根均小于某指定值。 第(2)和(3)意味着每个类别内各指标间的关系都很密切,不需要再进一步分割。 PROC VARCLUS有很多选择项,但用缺省值通常就能够得出很好的结果,因而在一般情况下均使用缺省说明。 的全鹤锅狱宏巫羹牺映乔浦画闰剩桐蹋牟堕魁奋牌唬鸵种贼饶绘啸挟峙火第十五章聚类分析第十五章聚类分析指指标标分分割割聚聚类类法法原理|初始分类可由用户给出,可指定某些变量作为初始分类。如果没有提供初始分类情况,SAS的VARCLUS过程开始把所有变量都合为一个类,然后开始分割。|VARCLUS过程也可根据用户的要求使不同层次的类,构成一个系统结构, 即相当于系统聚类,用户可选用HIERARCHY选择项达到此要求, 其聚类过程的树状结构可用选择项OUTTREE=SAS数据集,输出到数据集中,进一步用TREE过程画出聚类图。共叉玻旋弱谤盈汉卡冤瘩每烷经址办距东筑瞒往衡玖肄卧王貌湍嚏谆殊澳第十五章聚类分析第十五章聚类分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号