从数据到结论(人民大学吴喜之教授)09判别分析

资源描述

《从数据到结论(人民大学吴喜之教授)09判别分析》由会员分享，可在线阅读，更多相关《从数据到结论(人民大学吴喜之教授)09判别分析（62页珍藏版）》请在金锄头文库上搜索。

1、判别分析判别有一些昆虫的性别很难看出，只有通过解剖才能够判别；但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确，但至少大部分判别都是对的，而且用不着杀死昆虫来进行判别了。判别分析(discriminant analysis) 这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢？主要不同点就是，在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。而在判别分

2、析中，至少有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。判别分析例子数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标（变量）进行评分。这些指标包括：企业规模（is）、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长 (msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外，有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别（三个类别之一：group-1代表上升，

3、group-2代表稳定，group-3代表下降）找出一个分类标准，以对没有被该刊物分类的企业进行分类。该数据有90个企业（90个观测值），其中30个属于上升型，30个属于稳定型，30个属于下降型。这个数据就是一个“训练样本”。Disc.sav数据根据距离的判别（不用投影） Disc.sav数据有8个用来建立判别标准(或判别函数)的（预测）变量，另一个（group）是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点，由于已经知道所有点的类别了，所以可以求得每个类型的中心。这样只要定义了如何计算距离，就可以得到任何给定的点（企业）到这三个

4、中心的三个距离。显然，最简单的办法就是离哪个中心距离最近，就属于哪一类。通常使用的距离是所谓的 Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法，原理简单，直观易懂。Fisher判别法(先进行投影) 所谓Fisher判别法，就是一种先投影的方法。考虑只有两个（预测）变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。这里只有两种已知类型的训练样本。其中一类有38个点（用“o”表示），另一类有44个点（用“*”表示）。按照原来的变量（横坐标和纵坐标），

5、很难将这两种点分开。于是就寻找一个方向，也就是图上的虚线方向，沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出，如果向其他方向投影，判别效果不会比这个好。有了投影之后，再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。逐步判别法(仅仅是在前面的方法中加入变量选择的功能) 有时，一些变量对于判别并没有什么作用，为了得到对判别最合适的变量，可以使用逐步判别。也就是，一边判别，一边引进判别能力最强的变量，这个过程可以有进有出。一个变量的判别能力的判断方法有很多种，主要利用各种检验，例如 Wilks

6、 Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了；这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。Disc.sav例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp)，还剩下七个变量。用x1,x2, x3, x4,x5, x6, x7分别表示标准化后的变量is，se，sa，prr，ms，msr，cs，得到两个典则判别函数（Canonical Discriminant

7、Function Coefficients）：这两个函数实际上是由Fisher判别法得到的向两个方向的投影。这两个典则判别函数的系数是下面的SPSS输出得到的： Disc.sav例子根据这两个函数，从任何一个观测值（每个观测值都有7个变量值）都可以算出两个数。把这两个数目当成该观测值的坐标，这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。 Disc.sav例子从上图可以看出，第一个投影（相应于来自于第一个典则判别函数横坐标值）已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的

8、一个输出就给出了这些判别函数（投影）的重要程度：前面说过，投影的重要性是和特征值的贡献率有关。该表说明第一个函数的贡献率已经是99%了，而第二个只有 1%。当然，二维图要容易看一些。投影之后，再根据各点的位置远近算出具体的判别公式（SPSS输出）：Disc.sav例子具体的判别公式（SPSS输出），由一张分类函数表给出：该表给出了三个线性分类函数的系数。把每个观测点带入三个函数，就可以得到分别代表三类的三个值，哪个值最大，该点就属于相应的那一类。当然，用不着自己去算，计算机软件的选项可以把这些训练数据的每一个点按照这里的分类法分到某一类。当然，我们一开始就知道这些训练数据的各

9、个观测值的归属，但即使是这些训练样本的观测值（企业）按照这里推导出的分类函数来分类，也不一定全都能够正确划分。 Disc.sav例子下面就是对我们的训练样本的分类结果（SPSS）：误判和正确判别率从这个表来看，我们的分类能够100%地把训练数据的每一个观测值分到其本来的类。该表分成两部分；上面一半（Original）是用从全部数据得到的判别函数来判断每一个点的结果（前面三行为判断结果的数目，而后三行为相应的百分比）。下面一半（Cross validated）是对每一个观测值，都用缺少该观测的全部数据得到的判别函数来判断的结果。这里的判别结果是100%判别正确，但一般

10、并不一定。 Disc.sav例子如果就用这个数据，但不用所有的变量，而只用4个变量进行判别：企业规模（is）、服务(se)、雇员工资比例(sa)、资金周转速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的150个企业的二维点图。它不如前面的图那么容易分清楚了原先的图Disc.sav例子下面是基于4个变量时分类结果表：这个表的结果是有87个点（96.7%）得到正确划分，有 3个点被错误判别；其中第二类有两个被误判为第一类，有一个被误判为第三类。判别分析要注意什么？训练样本中必须有所有要判别的类型，分类必须清楚，不能有混杂。要选择好可能由于判

11、别的预测变量。这是最重要的一步。当然，在应用中，选择的余地不见得有多大。要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的；这可以用单变量方差分析（ANOVA）和相关分析来验证。判别分析是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。判别分析要注意什么？在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果（在SPSS选项中选择 Wilks Lambda、Raos V、The Squared Mahalanobis Distance或The Sum of Unexpla

12、ined Variations等检验的计算机输出），以确定是否分类结果是仅仅由于随机因素。此外成员的权数（SPSS用prior probability，即“ 先验概率”，和贝叶斯统计的先验概率有区别）需要考虑；一般来说，加权要按照各类观测值的多少，观测值少的就要按照比例多加权。对于多个判别函数，要弄清各自的重要性。注意训练样本的正确和错误分类率。研究被误分类的观测值，看是否可以找出原因。 SPSS选项打开disc.sav数据。然后点击AnalyzeClassify Discriminant，把group放入Grouping Variable，再定义范围，即在Define Ra

13、nge输入13的范围。然后在Independents输入所有想用的变量；但如果要用逐步判别，则不选Enter independents together，而选择Use stepwise method，在方法（Method）中选挑选变量的准则（检验方法；默认值为Wilks Lambda）。为了输出Fisher分类函数的结果可以在Statistics中的 Function Coefficient选 Fisher和Unstandardized ，在 Matrices中选择输出所需要的相关阵；还可以在Classify中的Display选summary table, Leave-one- ou

14、t classification；注意在Classify选项中默认的Prior Probability为All groups equal表示所有的类都平等对待，而另一个选项为Compute from group sizes，即按照类的大小加权。在Plots可选 Combined-groups, Territorial map等。判别分析(Discriminant Analysis) 和聚类分析的关系判别分析和聚类分析都是分类. 但判别分析是在已知对象有若干类型和一批已知样品的观测数据后的基础上根据某些准则建立判别式. 而做聚类分析时类型并不知道. 可以先聚类以得知类型,再进行

15、判别.距离判别法假设有两个总体G1和G2, 如果能够定义点x到它们的距离D(x,G1) 和D(x,G2), 则如果D(x,G1) 0即D(x,G1)D(x,G2)则 xG2 如果W(x)=0即D(x,G1)=D(x,G2)则待判当m(1), m(2), S 已知时, 令a= S-1(m(1)- m(2) ) (a1, ap),则显然W(x)为x1, xp的线性函数, 称为线性判别函数; a称为判别系数. 当m(1), m(2), S 未知时, 可通过样本来估计:判别函数为为来自Gi的样本为(i=1,2)非线性判别函数:当S(1) S(2)时这是x的一个二次函数, 按照距离最近原则,

16、判别准则仍然为如果W(x)0即D(x,G1)D(x,G2)则 xG2 如果W(x)=0即D(x,G1)=D(x,G2)则待判多总体时的线性判别函数:当S(1)=S(k)=S时记相应的准则为: 如果对一切ji, Wij(x)0, 则 xGi 如果有某一个Wij(x)=0, 则待判非线性判别函数:当S(1) , S(k) 不等时相应的准则为: 如果对一切ji, Wij(x)0, 则 xGi 如果有某一个Wij(x)=0, 则待判. 当m(i), S(i) 未知时, 可通过样本来估计费歇(Fisher)判别法并未要求总体分布类型工作原理就是对原数据系统进行坐标变换,寻求能够将总体尽可能分开的方向. 点x在以a为法方向的投影为ax 各组数据的投影为将Gm组中数据投影的均值记

展开阅读全文

从数据到结论(人民大学吴喜之教授)09判别分析

最新文档