判别分析spssppt课件－金锄头文库

资源描述

《判别分析spssppt课件》由会员分享，可在线阅读，更多相关《判别分析spssppt课件（39页珍藏版）》请在金锄头文库上搜索。

1、判别分析1;.判别判别有一些昆虫的性别很难看出，只有通过解剖才能够判别；但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确，但至少大部分判别都是对的，而且用不着杀死昆虫来进行判别了。 2;.判别分析判别分析(discriminant analysis)这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢？主要不同点就是，在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。而在判别分析中，至少

2、有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。3;.判别分析例子判别分析例子数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标（变量）进行评分。这些指标包括：企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外，有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别（三个类别之一：group-1代表上升，group-2代

3、表稳定，group-3代表下降）找出一个分类标准，以对没有被该刊物分类的企业进行分类。该数据有90个企业（90个观测值），其中30个属于上升型，30个属于稳定型，30个属于下降型。这个数据就是一个“训练样本”。4;.Disc.savDisc.sav数据数据 5;.根据距离的判别法（不用投影）根据距离的判别法（不用投影） Disc.sav数据有8个用来建立判别标准(或判别函数)的（预测）变量，另一个（group）是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点，由于已经知道所有点的类别了，所以可以求得每个类型的中心。这样只要定义了如何计算距离，就可以得到任何

4、给定的点（企业）到这三个中心的三个距离。显然，最简单的办法就是离哪个中心距离最近，就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法，原理简单，直观易懂。6;.FisherFisher判别法判别法(先进行投影先进行投影)所谓所谓Fisher判别法，就是一种先投影的方法。判别法，就是一种先投影的方法。考虑只有两个（预测）变量的判别分析问题。考虑只有两个（预测）变量的判别分析问题。假假定定这这里里只只有有两两类类。数数据据中中的的每每个个观观测测值值是是二二维维空空间间的

5、的一一个个点点。见见图图（下下一一张张幻幻灯灯片）。片）。这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。其其中中一一类类有有38个个点点（用用“o”表表示示），另另一一类类有有44个个点点（用用“*”表表示示）。按按照照原原来来的的变变量量（横横坐坐标标和和纵纵坐坐标标），很很难难将将这这两两种种点分开。点分开。于于是是就就寻寻找找一一个个方方向向，也也就就是是图图上上的的虚虚线线方方向向，沿沿着着这这个个方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出，如如果果向向其其他他方方向向投投影

6、影，判判别效果不会比这个好。别效果不会比这个好。有有了了投投影影之之后后，再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法来来得得到到判判别别准准则则。这这种种首首先先进进行行投投影的判别方法就是影的判别方法就是Fisher判别法。判别法。 7;.8;.逐步判别法逐步判别法(仅仅是在前面的方法中加入变量选择的功能仅仅是在前面的方法中加入变量选择的功能)有时，一些变量对于判别并没有什么作用，为了得到对判别最合适的变量，可以使用逐步判别。也就是，一边判别，一边引进判别能力最强的变量，这个过程可以有进有出。一个变量的判别能力的判断方法有很多种，主要利用各种检验，例如Wilks Lambda、

7、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了；这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。9;.Disc.sav例子例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp)，还剩下七个变量is，se，sa，prr，ms，msr，cs，得到两个典则判别函数（Canonical Discriminant Function Coefficients）：n0.035IS+3.283SE+0.037SA

8、-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166n0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.3840.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384 这这两两个个函函数数实实际际上上是是由由Fisher判判别别法法得得到到的的向向两两个个方方向向的的投投影影。这这两两个个典典则则判判别别

9、函函数数的系数是下面的的系数是下面的SPSS输出得到的：输出得到的： 10;.Disc.sav例子例子根据这两个函数，从任何一个观测值（每个观测值都有7个变量值）都可以算出两个数。把这两个数目当成该观测值的坐标，这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。 11;.12;.Disc.sav例子例子从上图可以看出，第一个投影（相应于来自于第一个典则判别函数值，即横坐标值）已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数（投影）的重要程度：前前面面说说过过，投投影影的的

10、重重要要性性是是和和特特征征值值的的贡贡献献率率有有关关。该该表表说说明明第第一一个个函函数数的的贡贡献献率率已已经经是是99%了了，而而第第二二个个只只有有1%。当当然然，二二维维图图要要容容易易看看一一些些。投投影影之之后后，再再根根据据各各点点的的位位置置远远近近算算出出具具体体的的判判别别公公式（式（SPSS输出）：输出）：13;.Disc.sav例子例子具体的判别公式（SPSS输出），由一张分类函数表给出：该该表表给给出出了了三三个个线线性性分分类类函函数数的的系系数数。把把每每个个观观测测点点带带入入三三个个函函数数，就就可可以以得得到到分分别别代代表表三三类类的的三三个个值值，

11、哪哪个个值值最最大大，该该点点就就属属于于相相应应的的那那一一类类。当当然然，用用不不着着自自己己去去算算，计计算算机机软软件件的的选选项项可可以以把把这这些些训训练练数数据据的的每每一一个个点点按按照照这这里里的的分分类类法法分分到到某某一一类类。当当然然，我我们们一一开开始始就就知知道道这这些些训训练练数数据据的的各各个个观观测测值值的的归归属属，但但即即使使是是这这些些训训练练样样本本的的观观测测值值（企企业业）按按照照这这里里推推导导出出的的分分类类函函数数来来分分类类，也也不不一一定定全都能够正确划分。全都能够正确划分。 14;.Disc.sav例子例子下面就是对我们的训练样本的分类

12、结果（SPSS）：15;.误判和正确判别率误判和正确判别率从这个表来看，我们的分类能够从这个表来看，我们的分类能够100%地把训练数据的每一个观测值分到其本来地把训练数据的每一个观测值分到其本来的类。的类。该表分成两部分；上面一半（该表分成两部分；上面一半（Original）是用从全部数据得到的判别函数来判断每）是用从全部数据得到的判别函数来判断每一个点的结果（前面三行为判断结果的数目，而后三行为相应的百分比）。一个点的结果（前面三行为判断结果的数目，而后三行为相应的百分比）。下面一半（下面一半（Cross validated）是对每一个观测值，都用缺少该观测的全部数据得）是对每一个观测值，都

13、用缺少该观测的全部数据得到的判别函数来判断的结果。到的判别函数来判断的结果。这里的判别结果是这里的判别结果是100%判别正确，但一般并不一定。判别正确，但一般并不一定。 16;.Disc.sav例子例子如果就用这个数据，但不用所有的变量，而只用4个变量进行判别：企业规模（is）、服务(se)、雇员工资比例(sa)、资金周转速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的150个企业的二维点图。它不如前面的图那么容易分清楚了原先的图原先的图17;.Disc.sav例子例子下面是基于4个变量时分类结果表：这这个个表表的的结结果果是是有有87个个点点（96.7%）

14、得得到到正正确确划划分分，有有3个个点点被被错错误误判判别别；其其中中第第二二类类有有两两个个被被误误判为第一类，有一个被误判为第三类。判为第一类，有一个被误判为第三类。18;.判别分析要注意什么判别分析要注意什么？训练样本中必须有所有要判别的类型，分类必须清楚，不能有混杂。训练样本中必须有所有要判别的类型，分类必须清楚，不能有混杂。要选择好可能用于判别的预测变量。这是最重要的一步。当然，在应用中，选择的余要选择好可能用于判别的预测变量。这是最重要的一步。当然，在应用中，选择的余地不见得有多大。地不见得有多大。要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的；要注意

15、数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的；这可以用单变量方差分析（这可以用单变量方差分析（ANOVA）和相关分析来验证。）和相关分析来验证。判别分析是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目判别分析是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。的。使用较少的变量意味着节省资源和易于对结果进行解释。 19;.判别分析要注意什么？判别分析要注意什么？在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果（在在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果

16、（在SPSS选选项中选择项中选择Wilks Lambda、Raos V、The Squared Mahalanobis Distance或或The Sum of Unexplained Variations等检验的计算机输出），以确定是否分类结等检验的计算机输出），以确定是否分类结果是仅仅由于随机因素。果是仅仅由于随机因素。此外成员的权数（此外成员的权数（SPSS用用prior probability，即，即“先验概率先验概率”，和贝叶斯统计的先，和贝叶斯统计的先验概率有区别）需要考虑；一般来说，加权要按照各类观测值的多少，观测值少的验概率有区别）需要考虑；一般来说，加权要按照各类观测值的多少

17、，观测值少的就要按照比例多加权。就要按照比例多加权。对于多个判别函数，要弄清各自的重要性。对于多个判别函数，要弄清各自的重要性。注意训练样本的正确和错误分类率。研究被误分类的观测值，看是否可以找出原因。注意训练样本的正确和错误分类率。研究被误分类的观测值，看是否可以找出原因。 20;.SPSS选项选项打开打开disc.sav数据。然后点击数据。然后点击AnalyzeClassifyDiscriminant，把把group放入放入Grouping Variable，再定义范围，即在，再定义范围，即在Define Range输入输入13的范围。然后在的范围。然后在Independents输入所有想

18、用的变量；但如果要用逐步判别，则输入所有想用的变量；但如果要用逐步判别，则不选不选Enter independents together，而选择，而选择Use stepwise method，在方法（在方法（Method）中选挑选变量的准则（检验方法；默认值为）中选挑选变量的准则（检验方法；默认值为Wilks Lambda）。）。为了输出为了输出Fisher分类函数的结果可以在分类函数的结果可以在Statistics中的中的Function Coefficient选选 Fisher和和UnStandardized（点则判别函数系数）（点则判别函数系数），在，在Matrices中选择输出所中选

19、择输出所需要的相关阵；需要的相关阵；还可以在还可以在Classify中的中的Display选选summary table, Leave-one-out classification；注意在；注意在Classify选项中默认的选项中默认的Prior Probability为为All groups equal表示所有的类都平等对待，而另一个选项为表示所有的类都平等对待，而另一个选项为Compute from group sizes，即按照类的大小加权。，即按照类的大小加权。在在Plots可选可选 Combined-groups, Territorial map等。等。 21;.14.4.3 判别分

20、析实例P379鸢尾花数据鸢尾花数据(花瓣花瓣,花萼的长宽花萼的长宽) 5个变量个变量:花瓣长花瓣长(slen),花瓣宽花瓣宽(swid), 花萼长花萼长(plen), 花萼宽花萼宽(pwid), 分类号分类号(1:Setosa, 2:Versicolor, 3:Virginica)(data14-04)22;.StatisticsClassify Discriminant:Variables: independent (slen,swid,plen,pwid) Grouping(spno) Define range(min-1,max-3) Classify: prior probabilit

21、y(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups, Territorial map) Display (Summary table)Statistics: Descriptive (Means) Function Coefficients (Fishers, Unstandardized) Matrix (Within-groups correlation, Within-groups covariance, Separate-groups covar

22、iance, Total covariance) Save: (Predicted group membership, Discriminant Scores, Probability of group membership)23;.鸢尾花数据鸢尾花数据(数据分析过程简明表数据分析过程简明表)24;.鸢尾花数据鸢尾花数据(原始数据的描述原始数据的描述)25;.鸢尾花数据鸢尾花数据(合并类内相关阵和协方差阵合并类内相关阵和协方差阵)26;.鸢尾花数据鸢尾花数据(总协方差阵总协方差阵)27;.鸢尾花数据鸢尾花数据(特征值表特征值表)Eigenvalue:用于分析的前两个典则判别函数的特征值用于分析

23、的前两个典则判别函数的特征值, 是组间平方和与组内平方和之比值是组间平方和与组内平方和之比值. 最大特征最大特征值与组均值最大的向量对应值与组均值最大的向量对应, 第二大特征值对应着次大的组均值向量第二大特征值对应着次大的组均值向量典则相关系数典则相关系数(canonical correlation):是组间平方和与总平方和之比的平方根是组间平方和与总平方和之比的平方根.被平方的是由组间被平方的是由组间差异解释的变异总和的比差异解释的变异总和的比.28;.鸢尾花数据鸢尾花数据(Wilks Lambda统计量统计量)检验的零假设是各组变量均值相等检验的零假设是各组变量均值相等. Lambda接近

24、接近0表示组均值不同表示组均值不同,接近接近1表表示组均值没有不同示组均值没有不同. Chi-square是是lambda的卡方转换的卡方转换, 用于确定其显著性用于确定其显著性. 29;.鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)标准化的典则判别函数系数标准化的典则判别函数系数(使用时必须用标使用时必须用标准化的自变量准化的自变量)30;.鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)典则判别函数系数典则判别函数系数31;.鸢尾花数据鸢尾花数据(有关判别函数的输出有关判别函数的输出)这是类均值这是类均值(重心重心)处的典则判别函数值处的典则判别函数值这是典则判

25、别函数这是典则判别函数(前面两个函数前面两个函数)在类均值在类均值(重心重心)处的值处的值32;.鸢尾花数据鸢尾花数据(用判别函数对观测量分类结果用判别函数对观测量分类结果)先验概率先验概率(没有给没有给)费歇判别函数系数费歇判别函数系数把自变量代入三个式子把自变量代入三个式子,哪个大归谁哪个大归谁.33;. Territorial MapCanonical DiscriminantFunction 2 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12.0 12 23 12 23 12 23 12 23 12 2

26、3 12 23 8.0 12 23 12 23 12 23 12 23 12 23 12 23 4.0 12 23 12 23 12 23 12 23 12 23 12 23 * .0 * 12 23 12 * 23 12 23 12 23 12 23 12 23 -4.0 12 23 12 23 12 23 12 23 12 23 12 23 -8.0 12 23 12 23 12 23 12 23 12 23 12 23 -12.0 12 23 趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 Canonical

27、Discriminant Function 1Symbols used in territorial mapSymbol Group Label- - - 1 1 刚毛鸢尾花 2 2 变色鸢尾花 3 3 佛吉尼亚鸢尾花 * Indicates a group centroid鸢尾花数据鸢尾花数据Territory Map(区域图区域图)Canonical Discriminate Function 1VersusCanonical Discriminate Function 2三种鸢尾花的典则变量值把一个典则变量组成三种鸢尾花的典则变量值把一个典则变量组成的坐标平面分成三个区域的坐标平面分成三个区域. *为中心坐标为中心坐标.34;.35;.36;.37;.38;.鸢尾花数据鸢尾花数据(预测分类结果小结预测分类结果小结)可以看出分错率可以看出分错率39;.

展开阅读全文

判别分析spssppt课件

最新文档