第六章聚类分析－金锄头文库

资源描述

《第六章聚类分析》由会员分享，可在线阅读，更多相关《第六章聚类分析（79页珍藏版）》请在金锄头文库上搜索。

1、第六章聚类分析,第一节系统聚类与CLUSTER过程,第二节变量聚类分析和VARCLUS过程,第三节模糊聚类分析,聚类分析又称群分析,它是对样品或指标进行分类的一种多元统计方法.在实际问题中,经常遇到分类问题,例如对某城市按大气污染的轻重分成几类;在经济学中根据人均国民收入、人均工农业产值、人均消费水平等多种指标对地区性的经济发展状况进行分类等. 分类只不过是将一个观测对象指定到某一类(组)中,分类的问题可以分成两种:一种是对当前所研究的问题已知它的类别数目,且知道各类的特征,我们的目的是要将另一些未知类别的个体正确归属于其中某一类,这是判别分析所要解决的问题.另一种是事先不知道研究的问

2、题应分为几类,更不知道观测到的个体的具体分类情况.,本章的目的正是需要通过对观测数据所进行分析和处理,选定一种度量个体接近程度的统计量、确定分类数目、建立一种分类方法,并按亲近程度对观测对象给出合理的分类.这种问题在实际中大量存在.聚类分析的职能是建立一种分类方法,将一批样品按它们在性质上的亲疏、相似程度进行分类.,第一节系统聚类与CLUSTER过程,在聚类分析中,基本的思想是认为我们所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系).于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品或指

3、标聚合为一类,把另外一些彼此之间相似程度较大的样品或指标又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样品或指标都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统.,一. 系统聚类法的基本思想和基本步骤,1. 系统聚类法的基本思想,(0)先对数据进行变换,数据变换的目的是为了比较、计算上的方便而改变数据的结构.再选择度量样品间距离的定义(如欧氏距离等).及度量类间距离的定义(如最短距离法,参见下面的系统聚类分析的方法).,(1)计算n个样品两两间的距离,得样品间的距离矩阵D(0)(2)一开始(第一步:i=1)n个样品各自构成一

4、类,类的个数k=n 此时的类为Gi=Xi i=1,2, n,类间的距离就是样品间的距离(即D(1)=D(0)然后对步骤i=1,2, n执行并类过程的步骤(3)和(4).(3)每次合并类间距离最小的两类为一新类.此时类的总个数k 减少1类,即k=n-i-1(4)计算新类与其他类的距离,得新的距离阵D(i),若合并后类的总个数k 仍大于1.重复步骤(3)和(4);直到类的总个数时k=1 为止。(5)画聚类谱系图；(6)决定分类的个数及各类的成员。例子设有5个产品,每个产品测得一项指标,其值如下: 1, 2 , 4.5 , 6 , 8试对这5个产品按质量指标进行分类。解样品间的距离取为欧氏

5、距离(普通的距离),类间的距离取为类间的最短距离,依以上步骤计算如下:,(1)计算5个样品x1,x2,x3, x4,x5两两间的距离,得初始的类间距离阵D(1)(2)一开始5个样品各自构成一类,得5个类G(i)=X(i) (i =1,2,3,4,5) 类的个数为k=5(3)由D(1)可知,首先合并x1和x2为一新类,记为CL4=x1,x2,此时类的个数减少一类变为k=4,故把此步得到的新类记为CL4.(4)按最短距离法计算新类与其他类间的距离,得新的距离矩阵 D(2)见右表二,因此时类的总个数k=4大于1类,重复并类过程.,(6)按最短距离法计算新类与其他类的距离,得新的距离矩阵D

6、(3) 因此时类的总个数大于1类,重复并类过程. (7)由D(3)可知,应合并x5和CL3为一新类,记为CL2=x5,CL3, 此时类的总个数k减少1类变为k=2,故把此步得到的新类记为CL2.,(5)由D(2)可知类间距离为1.5最小,故合并x3和x4为一新类,记为 CL3=x3, x4;类的总个数减少一个变为k=3,故把此步得到的新类记为CL3.,(8)按最短距离法计算新类CL2与其他类的距离,得新的距离矩阵D(4)因此时总的类个数 k=2大于1,重复并类过程.,(9)由D(4)可知,最后应合并CL4和CL2为一新类,记为 CL1=x1, x2, x5, x3,x4. 此时类的总个数

7、k=1, 故把此步得到的新类记为CL1,此时所有样品全合并为一类,并类过程至此结束.,(10)画聚类谱系图形.(11)确定类的个数及各类的成员. 若分为两类,则若分为三类,则若分为四类,则若分为五类,则,proc cluster data=数据集名称 method=方法选项串; var 变量名称; (用于聚类分析的变量) id 变量名称; (在聚类分析中用于标识观测样本的变量)proc tree data=数据集名 out=数据集名 horizontal graphics; id 变量名称; (在聚类谱系图中用于标识观测样本的变量),二. 聚类分析的SAS书写格式,data han1

8、;input name $ x ;cards; x1 1 x2 2 x3 4.5 x4 6 x5 8 ;proc cluster data=han1 method=single nonorm outtree=han2; var x; id name;proc tree data=han2 out=han3 ncl=2 horizontal graphics; id name;proc print data=han3; run;说明:以上SAS程序中,引入一个字符变量name,目的是在输出中用x1至x5来识别5个产品CLUSTER过程是用于系统聚类的过程.选项method=single规定类距离

9、使用最短距离法.选项nonorm表示类间的距离不进行规格化.,选项outtree=han2指定输出数据集的名字,该数据集包含用于画谱系聚类图的并类过程.Var语句指出用于聚类分析的变量; id语句指定在输出中用变量name识别观测样品.并类的历史过程见以上输出结果的第一部分.Tree过程用于画谱系图,选项 horizontal要求画水平的聚类谱系图.选项graphics要求画高分辨率的图形.输出的谱系图见下(输出结果的第三部分).选项 ncl=2和out=han3指出分为二类,并把分类结果放到输出数据集 han3中.Print过程输出分为二类的分类结果,见输出结果的第二部分.,(1)

10、Cluster History T Min i NCL -Clusters Joined- FREQ Dist e 4 X1 X2 2 1 3 X3 X4 2 1.5 2 CL3 X5 3 2 1 CL4 CL2 5 2.5() Obs name CLUSTER CLUSNAME 1 X1 1 CL4 2 X2 1 CL4 3 X3 2 CL2 4 X4 2 CL2 5 X5 2 CL2,输出的基本信息: The CLUSTER Procedure Single Linkage Cluster Analysis Eigenvalues of the Covariance Matrix Eige

11、nvalue Difference Proportion Cumulative 1 8.20000000 1.0000 1.0000 Root-Mean-Square Total-Sample Standard Deviation = 2.863564,聚类谱系图,聚类法的原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同就产生了不同的系统聚类分析方法,以下为几种系统聚类分析方法:1. 最短距离法(ingle linkage) method=sin2. 最长距离法(Complete method) method=com3. 中间距离法（Median method） metho

12、d=med 4. 重心法（Centriodmethod） method=cen 5. 类平均法（Average linkage） method= ave6. 可变类平均法(Flexible-beta method) method=fle 7.可变法及McQqity相似分析法(MCQ) method=mcq 8. 离差平方和法(ard) method=ward 9. 最大似然谱系聚类(EML) method=eml 10. 密度估计法(DEN) method= den11. 两阶段密度估计法(TWO) method=two 通常使用:类平均,离差平方和,可变类平均,中间距离,最短距离和最长距离.,

展开阅读全文

第六章聚类分析

最新文档