判别分析讲解－金锄头文库

资源描述

《判别分析讲解》由会员分享，可在线阅读，更多相关《判别分析讲解（7页珍藏版）》请在金锄头文库上搜索。

1、判别分析1. 判别分析的适用条件(1) 自变量和因变量间的关系符合线性假设。(2) 因变量的取值是独立的，且必须是事先就己经确定。(3) 自变量服从多元正态分布。(4) 所有自变量在各组间方差齐，协方差矩阵也相等。(5) 自变量间不存在多重共线性。2. 违背条件时的处理方法(1) 当样本的多元正态分布假设不能满足的时候采取的措施和方法如下: 如果数据的超平面是若干分段结构的话，采用分段判别分析。如果数据满足方差和协方差的齐次性可以采用距离判别分析、经典判别分析、贝叶斯判别分析中的任何一种，因为此时三者是等价的，建议使用经典判别分析。如果数据不满足方差和协方差的齐次性，则采用经典判别分析、非参

2、数判别分析、距离判别分析，这些方法无此适用条件。进行变量变换。(2) 方差和协方差的齐次性不能满足的时候可以采取的措施如下: 增加样本，这有时可以使其影响减小。慎重的进行变量变换。采用经典判别分析、非参数判别分析、距离判别分析，这些方法无此适用条件。在合乎总体实际情况的前提下，保证各个分组的样本量一样，判别分析中分组之间样本量一样可以带来以下几个好处:使得结果与方差齐次性假设不会偏离得太大;F检验时第二类错误(实际上为虚假的条件下正确的拒绝了原假设的概率)得到减小;使得均值更加容易比较和检验。要是样本服从多元正态分布，采用二次判别，但是应该注意到二次判别分析没有计算判错率和统计检

3、验的公式。(3) 存在多重共线性时可以采取的措施如下:增加样本量。使用逐步判别分析。采用岭判别分析。对自变量进行主成分分析，用因子代替自变量进行判别分析。通过相关矩阵结合实际的理论知识删去某些产生共线性的自变量。显然，上述措施和线性回归中对共线性的处理方式是非常类似的。(4) 当线性假设被违反的时候可以采取的措施如下:采用二次判别分析。K 最近邻判别分析或核密度判别分析两种非参数判别分析。离散型判别分析或混合型判别分析。3典型判别分析的基本原理试图找到一个由原始自变量组成的线性函数使得组间差异和组内差异的比值最大化。所谓 Fisher 判别法，就是一种先投影的方法。考虑只有两个(预测)变

4、量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示)，另一类有44个点(用 “*”表示)。按照原来的变量(横坐标和纵坐标)，很难将这两种点分开。于是就寻找一个方向，也就是图上的虚线方向，沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出，如果向其他方向投影，判别效果不会比这个好。有了投影之后，再用前面讲到的距离远近的方法来得到判别准则。32100*23*-4 -2 02464.例题：鸢尾花数据(花瓣，花萼的长宽)5个变量:花瓣长(slen)，花瓣宽(

5、swid),花萼长(plen),花萼宽(pwid),分类号(1:Setosa, 2:Versicolor, 3:Virginica):Analyze Classify Discriminant:Grouping Variable 框：group:Define Range :在 Minimum 框中填1,在 Maximum 中填3 ” : Continue:Independent 框：选入 SlenswidplenpwidL结果分析：结果的判别可以有两种方式进行，一种通过判别函数进行判定。详细输出内容如下所示：表 13.1 EigenvaluesFunctionEigenvalue% of V

6、arianceCumulative %Canonical Correlation130.410a90.0&9.0.9842,293aLO100.0476a First 7 canonical discriminarv functions were nd in rhA wnzlysis表13.1 给出了判别函数的特征根以及判别指数，本例中只提取了两个判别函数 (Funxt i on1 , 2)，且绝大部分信息都在第一个判别函数上(”% of Var i ance :”99%)，上文中发现第二个判别函数(” of Variance:”】)携带的信息量很少。表 13.2 Wilks LambdaT

7、est of Function(s)Wilks LambdaChi=squaredfSig.1 through 2025538 95080002.77437.3513000表13.2就是进一步对特征根的显著性检验，实际是间接的检验判别函数有无统计学意义，其原假设是:各分组的均值直向量相等, 分析结果显示两个判别函数均很有意义，第二个函数还是值得保留的。表 13,3 Standardized Canonical Discriminant Function CoefficientsFun ction1 2花萼长-.346.039花萼宽-.525.742左場壮,84G-.336表13.3为两个判

8、别函数中各个变量的标准化系数可用来判断两个函数分别主要受哪些变量的影响较大。同时，知道了该系数就可以写出标准化的判别函数式。本例的两个典型判别函数式如下:D1=-0.346Xz花尊长-0.525 Xz花尊宽+0.846 Xz花瓣长+0.613xz花瓣宽D2=0.039Xz 花尊长+0.742 Xz 花尊宽-0.386 Xz 花瓣长+0.555 Xz 花瓣宽变量名前加z表明是标准化以后的数值。实际上两个函数式计算的是各观测在各个判别维度上的坐标值，这样，就可以通过这两个函数式计算出各观测的具体空间位置。另外，这里的标化判别函数实质上和典型相关分析中得到的典型变量的转化公式等价。表 13

9、 4 Structure MatrixFun ction12花螂长.726*.165花萼宽-.121花瓣宽.651.718*花萼氏.221.340*Pooled withirngroups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. argest absolute correlation between each v

10、ariable and any discriminant function表13.4给出的是判别得分和自变量之间的相关系数，有些书也称它为组内结构系数/判别负载(St rue ture correla ti ons/Discriminant loadings.),SPSS 在结果中用* 标识出了每个自变量中与每组判别得分中相关系数最大的一个函数，这有些类似于主成分分析中的成分结构。由表格可见，第一判别函数主要与花瓣长这个自变量相关，另三个自变量则主要与第二判别函数相关。由于前面的结果己经表明第一个判别函数携带了绝大多数判别信息，这提示我们可能花瓣长这个变量在判别分析中起了主要作用。表

11、 13 5 Functions at Group Centroids分娄Function12列毛莺尾花-7 392.219变色莺尾花1.763-.737佛吉尼亚莺尾花5.629.518Unstandardized canonical discriminant functions evaluated at group means表13.5给出的是各组的判别函数的重心，或者说是各组的判别得分的均值向量。前面的判别函数的检验就是分别检验这两个向量在各组是否相等。在得知各类别重心后，只需要为每个待判个案求出判别得分，然后计算出该个案的散点离哪一个中心最近，就可以得到该个案的判别结果了。上面给出的

12、就是默认情况下的全部分析结果，可见其中的判别函数使用的是标化变量，相对而言使用不是非常方便，如果希望得到直接使用原始变量的判别函数，则可以在 Statist ic子对话框中选择最左下方的Uns tandarized框，可以得到如表13.6所示的输出。表 13.6 给出的就是使用原始变量的判别函数，式中有常数项，可写出表达式如下:D1=-2.526-O.063 x 花尊长-0.155 x 花尊宽+0.196 x 花瓣长+0.299 x 花瓣宽D2=-6.987+0.007 x 花尊长+0.218 x 花尊宽-0.089 x 花瓣长+0.271 x 花瓣宽 03.2)表 13.6 Canoni

13、cal Discriminant Function CoefficientsFunction12花萼底-.063.007花萼宽-.155.21819G-.089花瓣宽.271(Constant)-2 5266+987Unstandardized coefficients另一种判别结是以图形化方式展示，可以使用Classify子对话框中的Plot框组进行结果的图形化展示，如图13.3所示，三个复选框分别用于输出联合分布图、单独分布图和领域图（Territorial Map ，Canon.cal DiscriminantTerritorial MapI unction 2-12.0-8.0一

14、4.004.0&012.0-12.0一8.0- 4.004.08.012.0Canonical Discriminant Function 1Symbols used in territorial mapSymbol GroupLabel1 I刚石莺堆花2 2变色莺圮花3 3佛吉尼亚莺尾花*Indicates a group cenlroid上图显示为领域图的结果，其中Function1为横轴，Function2为纵轴，而整个图形中以数字1，数字2，数字3把图形划分为 3个区域。例如当第一个函数值为4时，如果第二个函数值为一4，则该案例应被判为2类;如果值为 4，则应为 3类。因此第二个函

15、数仍然应当在判别中使用，以上图形观察的结果和前面统计表格的结果完全一致。最为关键的是判别分析主要是用来将未知类别的数据判定其所归属的类别，比如，现在检测到四个自变量的取值分别为50、33、14， 2，我们要判定它到底归属于哪一类。其实方法很简单，在执行上述所有的操作前，将需要预测的数据添加至原始数据的最后一列，当然此记录的组信息是空的，然后按照执行步骤执行一遍。此时重要的结果不再是显示在 OUTPUT 中，而是需要我们返回到数据窗口，现在的数据窗口一定会多一列（Dis_1）,该列显示即为判定的分组信息，最后一列的分组信息也会在此项中显示（1）。但是一定要注意，如果需要判定一定要在save勾选 Predicted group membership。原理在于将4 个自变量的取值分别为50、33、14，2，将

展开阅读全文