实证分析方法与软件6

资源描述

《实证分析方法与软件6》由会员分享，可在线阅读，更多相关《实证分析方法与软件6（4页珍藏版）》请在金锄头文库上搜索。

1、聚类分析问题的实际背景分类是科学研究的一个基础的、重要的方法。一般都是根据欲分类对象的性质来分类。对事物分类有多种方法。如内涵定义方法、外延定义方法等等。多元统计中的聚类分析是利用样本数据对样本或变量进行分类的一种数量方法。所谓对事物进行分类，就是根据事物特性，将性质相近的事物归为一类。因此，欲用数量方法对事物分类，就应先明确事物性质的“远近”的概念。从数学的观点看，事物性质的“远近”可以用“距离”来刻画。根据事物特性和分类要求的不同，可以定义事物各种不同的“距离”。定义了合适的距离，面对大量的对象，需要用系统的方法去进行聚类。此即聚类的算法。聚类分析有许多方法。理解聚类方法关键要注意两点：1

2、)距离；2)聚类的算法。距离与相似系数根据事物特性和分类要求的不同，可以定义事物各种不同的“距离”。假设有P个指标变量，n个样本，样本数据矩阵为(x11x1pxn1xnp在进行样本聚类分析时，最常用的有以下几种“距离”的定义：1、绝对值距离：d(1)=ijk=1x-xlk2、Euclid距离：d(2)=ijxxikjkk=11jk12maxx1knlk3、Chebyshev距离：d(a)二ijxjk4、Minkowski距离：d(q)二ijx一xikjkk=15、Markoff距离：d2(M)=(x一x)V-i(x一x)ijijij其中，x是样本观察值，x是样本数据矩阵的行向量，V是样本数据矩

3、阵的协方差矩iji阵。不难看出，绝对值距离、Euclld距离、Chebyshev距离分别是Minkowski距离分别取q=1、2、a时的特例。Markof距离不受量纲的影响。在对变量进行聚类分析时，也用上述的距离，但用得较多的是所谓的相似系数。常用的变量相似系数有下列几种：工xxkikj1、夹角余弦：c(1)=ijk=-工x2工xTkikj_k=1k=1_2、相关系数：c(1)=-ij(x-x)(x-x)kiikjjk=1E_V一112(x-x)2乙(x-x)2kiikjjk=1k=13、指数相似系数：c=-Yeijnk=14s2k丫min(x,x)ikjk4、(5)=fL乙max(x,x)i

4、kjkk=1工min(x,x)ikjk5、c.j(6)=寸1乙max(x+x)ikjkk=1丫min(x,x)ikjk6、c(7)=4kjkk=17、非参数相似系数：令x=x-x,ijijjn=Lx,k=1,n中大于的个数+ikjkn=Lx,k=1,n中小于的个数-ikjk定义非参数相关系数为c(4)=ijn-nIn+nI-除了要定义G表示类p对于名义尺度变量，可以利用列联表和X2系数定义一些相似系数。类间距离采用数量方法进行分类时，通常是逐步进行分类。因此，在分类过程中，样本或变量间的距离外，还要定义类与类之间的距离。记d是样本间的距离,ijD表示类之间的距离。类之间的距离有下列简单的常用四

5、种定义：pq1、最短距离：D二mind；PGieG.,jwGjij2、最长距离：D=maxd；Pq叫jwGjij3、重心距离：D二d一一；pqxxpq其中，G的重心Z是类G的算术平均数。ppp14、类平均距离：D2=工d2；pqnnijpqiwG.,jeG.ij其中，n是类G中的元素个数。pp除了上述定义的四种类间距离外，还有中间距离、离差平方距离等。定义了样本或变量距离和类间距离后，对样本分类和对变量分类的方法是一样的。聚类算法。由于对样本和对变量聚类的算法类似，下面介绍聚类方法不区分样本或变量。系统聚类算法系统聚类方法是最常用的分类方法。其基本思想是：定义类与类之间的距离，将每个样本或变量

6、看成一类，选择距离最小的一对并为一个新类，计算新类与其它各类的距离，再将距离最近的两类合并，如此等等，直到所有的样本或变量成为一类。其算法过程如下：1、将每个样本或变量分为一类，类间距离定义为样本或变量距离；2、计算各类的距离，并找出类距离的最小值点；3、将类距离最小的两类合并为一类；4、是否所有的样本或变量都成为一类？若是，分类停止；若否，转到步骤2。动态聚类算法用系统聚类的方法进行聚类时，样本或变量划分到某类后，就不会再改变了，并且，当样本数据量较大时，计算量非常大，内存耗费也比较大。因此希望找到较为简单的算法。动态聚类就是这类聚类方法。动态聚类方法的基本思想是先划分一个初始分类，再按某一

7、原则对分类进行修改，直至得到一个较为合理的分类。在进行原始分类时，往往是选择一些凝聚点，让样本或变量向凝聚点聚集。其分类算法过程如下：1、选择凝聚点；2、初始分类；3、分类是否合理：若合理，则终止分类；若不合理，则按修改原则修改分类，再次判别。由此可见，动态聚类方法的关键在于三点：选择凝聚点；初始分类；修改原则。选择凝聚点：选择凝聚点通常有下列几种方法：1）经验选择。如果对如何分类，要分成几类等问题已经有所了解，则可在各类中选择一个有代表性的样本或变量作为凝聚点；2）将样本或变量随意分成k类，以每类的均值作为凝聚点；3）任意选定两个正数d，d，且dd，以每个样本或变量为球心，d为半径作1212

8、1球，计算落入该球内的样本数或变量数（称为该样本或该变量的密度）。选择密度最大的样本点或变量为第一凝聚点，再在与第一凝聚点的距离大于d的样本点或2变量中，选择密度最大的样本点或变量作为第二凝聚点，如此等等；4）首先任意指定一个正数d,取所有样本点或变量的均值作为第一凝聚点，然后依次检查每个样本点或变量，若它与已有的凝聚点的距离大于d，则选作凝聚点，否则就不是凝聚点；5）当样本量或变量数较大时，任取部分样本或变量，以某种方法聚类，取各类的重心作为凝聚点。初始分类：初始分类也有多种方法，有些方法不需选取凝聚点。1）定义样本或变量间的距离，每个样本或变量按最近凝聚点归类；2）将每个凝聚点归为一类，依

9、次检查每个其它的样本或变量，将它归为最近的凝聚点并计算新类的重心，以该中心作为新的凝聚点，再检查下一个样本或变量；3）先认为取定一个正数d，令G=x，若x与x的距离dd，则将x归为1121212G，否则，令G=x，如此依次检查每个样本或变量。一般来说，在检查x时,122l设已有k个类G，,G，记第一个进入每个类的样本或变量为x，,x，如1kii1k果有mindd，则将x归于取得最小值的那一类，否则，令G=x。1八一；lk+ll1jkj修改原则：给出了初始分类后，应按一定的方法检查、修改分类，使之更为合理。1、按批修改。1）定义样本或变量间的距离，选择凝聚点；2）将所有样本点或变量按最近距离的凝

10、聚点归类；3）计算每类的重心，以这些重心为新的凝聚点；4）如果新凝聚点与老凝聚点重合，则分类停止；否则，返回第2步。2、逐个修改。逐个检查、归类每一个样本点或变量，归类一个样本点或变量，就修改凝聚点，直至前后两次分类没有变化为止。在按批修改和逐个修改中，关键是新凝聚点的确定。有非常多的重新确定凝聚点的方法，这也导致了不同的动态聚类方法。进一步的讨论，可以参考有关书籍。不论何种聚类方法，当数据达到一定的数量时，其计算量将非常大，手工计算几乎是不可能的，一般可以利用现有的统计软件。常用统计软件都提供了多种聚类的方法。例4：为了研究农民家庭收支情况，收集了某年28个省、市、自治区反映农民家庭生活消费支出情况的平均支出指标：食品（xl）、衣着（x2）、燃料（x3）、住房（x4）、生活用品及其他（x5）、文化生活服务（x6）等六项指标（数据见文件“例题数据-聚类分析.xls”。希望利用这些数据，将各省、市、自治区按农民家庭收支情况进行分组。

展开阅读全文