十五章节聚类分析－金锄头文库

资源描述

《十五章节聚类分析》由会员分享，可在线阅读，更多相关《十五章节聚类分析（18页珍藏版）》请在金锄头文库上搜索。

1、第十五章第十五章聚类分析聚类分析上海第二医科大学生物统计教研室聚类分析的意义第一节第一节聚类分析的基本概念聚类分析的基本概念C 聚类分析(Cluster analysis)又称集群分析，它是研究“物以类聚”的一种数理统计方法。聚类分析可将一些观察对象依据某些特征加以归类。例如临床上为修复耳缺损，可先以正常耳朵的耳长、耳宽、耳外展距等指标为依据，对耳朵进行聚类分析，把正常耳朵划分成几类，然后找出各类之标准化耳朵，以供临床修复各种耳缺损病员时参考。聚类分析和判别分析的比较 |判别分析时总体中各类别的划分是十分清楚的。判别分析需要知道一批已知分类的训练样品，在此基础上建立判别函数，所以它是有

3、计量称为聚类统计量，常用的聚类统计量分为距离和相似系数两种。距离：用于对样品的聚类。常用欧氏距离，在求距离前，需把指标进行标准化。相似系数：常用于对变量的聚类。一般采用相关系数。 |第二节第二节系统聚类法系统聚类法 |（systematic cluster method）基本思想：首先定义样品间距离及类与类之间的距离；开始时每个样品各看成一类，将距离最近的两类合并; 重新计算新类与其它类的距离，再将距离最近的两类合并; 再计算新类与其它类的距离，这样一步步的进行下去，每一步减少一类，直至所有的样品都合并成一类为止。二二系系统统聚聚类类法法系系统统聚聚类类法法整个聚类

4、过程可作成聚类图或树状谱(tree diagram)，按树状谱作出适当的分类。类与类之间的距离有各种不同的定义方法。定义不同即产生不同的算法。而不同的算法可能聚得不同的结果。实践中可用不同的方法，聚得多个结果，然后根据专业知识选择较合理的分类结果。类与类间距离定义方法|类与类之间距离定义方法：最短距离法(single linkage)：类与类之间距离定义为两类间样品距离的最小值。最长距离法(complete linkage) ：类与类之间距离定义为两类间样品距离的最大值。类与类间距离定义方法重心法(centroid method) ：类与类之间距离定义为两类的重心之间的距离。类平均

6、(two-stage density linkage) 快快速速聚聚类类法法原原理理第三节第三节快速聚类法快速聚类法它首先选择一些初始凝聚点, 把这些凝聚点作为今后聚类的核心; 接着把每个样品根据欧氏距离归入到与该样品最近的凝聚点所代表的类，以构成暂时的类; 再用这些暂时的类的重心代替初始凝聚点作为新的凝聚点，再一次把每个样品归入到与该样品最近的凝聚点所代表的类,构成新的暂时的类，这样一直进行下去,直至分成的类再没有什么变化为止。快快速速聚聚类类法法原原理理初始凝聚点可以人为地凭经验选择，以这些初始凝聚点建立一个数据文件,在FASTCLUS的SEED=选择项中输入该数据文件即可。初始

7、凝聚点也可由FASTCLUS过程自动选择。如果由过程自动选择初始凝聚点则需在选择项MAXCLUSTERS=k(或MAXC=k)中给出所允许分类的最大个数，选用不同的k值可得到不同的聚类结果，根据专业知识和实际应用的需要，从中选择较合理的分类结果。快快速速聚聚类类法法原原理理注意：注意：快速聚类法须调用FASTCLUS过程，但FASTCLUS过程没有对指标进行标准化的功能，因此，须先用STANDARD过程对聚类指标进行标准化，然后再调用FASTCLUS过程进行快速聚类分析。指指标标分分割割聚聚类类法法原理第四节第四节对指标的分割聚类法对指标的分割聚类法分割聚类的过程如下：

8、首先给出一个初始分类，然后重复以下步骤：(1)挑选一个欲分割的类，这个被分割的类的类内差异最大。(2)把选中的类分割成两个类。再根据某准测把此类中所有变量分别归入这两个类。这种分割过程一直进行下去，直至达到某种分割停止准则为止。指指标标分分割割聚聚类类法法原理分割停止准则可为：(1) 已达到了用户指明的所期望分类的最大个数。可用MAXC=变量数。(2)每类类成份所能解释的方差所占比例都大于某指定值。(3)每类第二特征根均小于某指定值。第(2)和(3)意味着每个类别内各指标间的关系都很密切，不需要再进一步分割。 PROC VARCLUS有很多选择项，但用缺省值通常就能够得出很好的结果，因而在一般情况下均使用缺省说明。指指标标分分割割聚聚类类法法原理|初始分类可由用户给出，可指定某些变量作为初始分类。如果没有提供初始分类情况，SAS的VARCLUS过程开始把所有变量都合为一个类，然后开始分割。|VARCLUS过程也可根据用户的要求使不同层次的类，构成一个系统结构，即相当于系统聚类，用户可选用HIERARCHY选择项达到此要求，其聚类过程的树状结构可用选择项OUTTREE=SAS数据集，输出到数据集中，进一步用TREE过程画出聚类图。

展开阅读全文

十五章节聚类分析

最新文档