统计学聚类分析－金锄头文库

资源描述

《统计学聚类分析》由会员分享，可在线阅读，更多相关《统计学聚类分析（103页珍藏版）》请在金锄头文库上搜索。

1、统计学从数据到结论第十一章聚类分析分类l物以类聚、人以群分；l但根据什么分类呢？l如要想把中国的县分类，就有多种方法l可以按照自然条件来分，比如考虑降水、土地、日照、湿度等，l也可考虑收入、教育水准、医疗条件、基础设施等指标；l既可以用某一项来分类，也可以同时考虑多项指标来分类。聚类分析l对一个数据，既可以对变量(指标)进行分类(相当于对数据中的列分类)，也可以对观测值(事件，样品)来分类(相当于对数据中的行分类)。l当然，不一定事先假定有多少类，完全可以按照数据本身的规律来分类。l本章要介绍的分类的方法称为聚类分析（cluster analysis）。对变量的聚类称为R

2、型聚类，而对观测值聚类称为 Q型聚类。它们在数学上是无区别的。饮料数据（drink.txt ）l16种饮料的热量、咖啡因、钠及价格四种变量 11.1如何度量距离远近？l如果想要对100个学生进行分类，而仅知道他们的数学成绩，则只好按照数学成绩分类；这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。l如果还知道他们的物理成绩，这样数学和物理成绩就形成二维平面上的100个点，也可以按照距离远近来分类。11.1如何度量距离远近？l三维或者更高维的情况也是类似；只不过三维以上的图形无法直观地画出来而已。l在饮料数据中，每种饮料都有四个变量值。这就是四维空间点的问题了

3、。两个距离概念l按照远近程度来聚类需要明确两个概念：一个是点和点之间的距离，一个是类和类之间的距离。 l点间距离有很多定义方式。最简单的是歐氏距离。 l当然还有一些和距离相反但起同样作用的概念，比如相似性等，两点越相似度越大，就相当于距离越短。两个距离概念l由一个点组成的类是最基本的类；如果每一类都由一个点组成，那么点间的距离就是类间距离。但是如果某一类包含不止一个点，那么就要确定类间距离， l类间距离是基于点间距离定义的：比如两类之间最近点之间的距离可以作为这两类之间的距离，也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。两个距离概念l在计算

4、时，各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同，但一般不会差太多。向量x=(x1, xp)与y=(y1, yp)之间的距离或相似系数: 欧氏距离: Euclidean平方欧氏距离: Squared Euclidean夹角余弦(相似系数1) : cosinePearson correlation (相似系数2):Chebychev: Maxi|xi-yi|Block(绝对距离): Si|xi-yi|Minkowski :当变量的测量值相差悬殊时,要先进行标准化. 如R为极差, s 为标准差, 则标准化的数据为每个观测值减去均值后再除以R或s. 当观

5、测值大于0时, 有人采用Lance和Williams的距离类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi Gp和xj Gq之间的距离)最短距离法:最长距离法 :重心法:离差平方和 : (Wald)类平均法:(中间距离, 可变平均法,可变法等可参考各书 ). 在用欧氏距离时, 有统一的递推公式最短距离（Nearest Neighbor)x21x12x22x11最长距离（Furthest Neighbor ）x11x21 组间平均连接（Between-group Linkage)组内平均连接法（Within-group Linkage)x21x12x22x11重心法（Centroi

6、d clustering):均值点的距离离差平方和法连接2，41，56，5红绿（2，4，6，5）8.75离差平方和增加8.752.56.25黄绿（6，5，1，5）14.75 离差平方和增加14.758.56.25 黄红（2，4，1，5）10100 故按该方法的连接和黄红首先连接。有了上面的点间距离和类间距离的概念，就可以介绍聚类的方法了。这里介绍两个简单的方法。 11.2 事先要确定分多少类：k-均值聚类 l前面说过，聚类可以走着瞧，不一定事先确定有多少类；但是这里的k-均值聚类（k-means cluster，也叫快速聚类，quick cluster）却要求你先说好要分多少类。

7、看起来有些主观，是吧！ l假定你说分3类，这个方法还进一步要求你事先确定3个点为“聚类种子 ”(SPSS软件自动为你选种子)；也就是说，把这3个点作为三类中每一类的基石。11.2 事先要确定分多少类：k-均值聚类 l然后，根据和这三个点的距离远近，把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来 “种子”就没用了)，再重新按照距离分类。 l如此叠代下去，直到达到停止叠代的要求（比如，各类最后变化不大了，或者叠代次数太多了）。显然，前面的聚类种子的选择并不必太认真，它们很可能最后还会分到同一类中呢。下面用饮料例的数据来做k-均值聚类。假定要把这16种饮

8、料分成3类。利用SPSS，只叠代了三次就达到目标了（计算机选的种子还可以）。这样就可以得到最后的三类的中心以及每类有多少点根据需要，可以输出哪些点分在一起。结果是：第一类为饮料1、10；第二类为饮料2、4、8、11、12、13、14；第三类为剩下的饮料3、5、6、7、9、15、16。SPSS实现(聚类分析) lK-均值聚类 l以数据drink.sav为例，在SPSS中选择 AnalyzeClassifyK-Menas Cluster， l然后把calorie（热量）、caffeine（咖啡因）、sodium（钠）、price（价格）选入Variables, l在Number

9、of Clusters处选择3（想要分的类数）， l如果想要知道哪种饮料分到哪类，则选 Save，再选Cluster Membership等。 l注意k-均值聚类只能做Q型聚类，如要做R 型聚类，需要把数据阵进行转置。11.2 事先不用确定分多少类：分层聚类 l另一种聚类称为分层聚类或系统聚类（hierarchical cluster）。开始时，有多少点就是多少类。 l它第一步先把最近的两类（点）合并成一类，然后再把剩下的最近的两类合并成一类； l这样下去，每次都少一类，直到最后只有一大类为止。越是后来合并的类，距离就越远。对于饮料聚类。 SPSS输出为“冰柱图”(icicle)

10、例:5个样品距离阵令Dk为系统聚类法种第k次合并时的距离,如Dk为单调的,则称具有单调性 .前面只有重心和中间距离法不具有单调性.步骤: 最短距离法最长距离法阶段bk(第k阶段类的集合)DkDk D(0)(1)(2)(3)(4)(5)00 D(1) (1,3)(2)(4)(5)11 D(2) (1,3)(2,4)(5) 33 D(3) (1,3)(2,4,5)45 D(4) (1,3,2,4,5)69注:最短和最长距离法结果一样(一般不一定一样)聚类要注意的问题 l聚类结果主要受所选择的变量影响。如果去掉一些变量，或者增加一些变量，结果会很不同。l相比之下，聚类方法的选择则不那

11、么重要了。因此，聚类之前一定要目标明确。聚类要注意的问题 l另外就分成多少类来说，也要有道理。只要你高兴，从分层聚类的计算机结果可以得到任何可能数量的类。l但是，聚类的目的是要使各类之间的距离尽可能地远，而类中点的距离尽可能的近，并且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。SPSS实现(聚类分析)l分层聚类 l对drink.sav数据在SPSS中选择Analyze ClassifyHierarchical Cluster, l然后把calorie（热量）、caffeine（咖啡因）、sodium（钠）、price（价格）选入Variables, l在C

12、luster选Cases（这是Q型聚类：对观测值聚类），如果要对变量聚类（R型聚类）则选Variables, l为了画出树状图，选Plots，再点 Dendrogram等。统计学从数据到结论第十二章判别分析 12.1 判别分析 (discriminant analysis) l某些昆虫的性别只有通过解剖才能够判别 l但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并以此标准来判别其他未知性别的昆虫。 l这样虽非100%准确的判别至少大部分是对的，而且用不着杀生。此即判别分析判别分析(discri

13、minant analysis)l判别分析和聚类分析有何不同？ l在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。 l在判别分析中，至少有一个已经明确知道类别的“训练样本”，并利用该样本来建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。判别分析例子l数据disc.txt:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标（变量）进行评分。 l指标有:企业规模（is）、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等.l另外，有一些企业

14、已经被某杂志划分为上升企业、稳定企业和下降企业。判别分析例子l希望根据这些企业的上述变量的打分及其已知的类别(三个类别之一： group-1代表上升，group-2代表稳定，group-3代表下降)找出一个分类标准，以对尚未被分类的企业进行分类。 l该数据有90个企业（90个观测值），其中30个属于上升型，30个属于稳定型，30个属于下降型。这个数据就是一个“训练样本”。Disc.sav数据 1. 根据距离判别的思想lDisc.txt数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别 l每一个企业的打分在这8个变量所构成的8 维空间中是一个点。

15、这个数据在8维空间有 90个点，l由于已知所有点的类别，可以求得每个类型的中心。这样只要定义了距离，就可以得到任何给定的点（企业）到这三个中心的三个距离。1. 根据距离判别的思想l最简单的办法就是:某点离哪个中心距离最近，就属于哪一类。 l一个常用距离是Mahalanobis距离。l用来比较到各个中心距离的数学函数称为判别函数(discriminant function).l这种根据远近判别的思想，原理简单，直观易懂。为判别分析的基础2. Fisher判别法(先进行投影)lFisher判别法就是一种先投影的方法。 l考虑只有两个(预测)变量的判别问题。l假定只有两类。数据中的每个

16、观测值是二维空间的一个点。见图。 l这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44 个点(用“*”表示)。按原来变量(横坐标和纵坐标)，很难将这两种点分开。2. Fisher判别法(先进行投影)l于是就寻找一个方向，即图上的虚线方向，沿该方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出，如果向其他方向投影，判别效果不会比这个好。 l有了投影之后，再用前面讲到的距离远近的方法得到判别准则。这种先投影的判别方法就是Fisher判别法。 Fisher判别法的数学3.逐步判别法 (仅仅是在前面的方法中加入变量选择的功能)l有时，一些变量对于判别并没有什么作用，为了得到对判别最合适的变量，可以使用逐步判别。即，一边判别，一边选择判别能力最强的变量， l这个过程可以有进有出。一个变量的判别能力的判断方法有很多种，主要利用各种检验，例如 Wilks Lambda、Raos V、The Squared

展开阅读全文