201103-判别分析教学幻灯片

资源描述

《201103-判别分析教学幻灯片》由会员分享，可在线阅读，更多相关《201103-判别分析教学幻灯片（63页珍藏版）》请在金锄头文库上搜索。

1、判别分析 (discriminant analysis),距离判别 Fisher判别贝叶斯（Bayes）判别,1 什么是判别分析,某些昆虫的性别只有通过解剖才能够判别但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并以此标准来判别其他未知性别的昆虫。这样虽非100%准确的判别至少大部分是对的，而且用不着杀生。此即判别分析。,判别分析是利用已知类别的样本点建立判别模型，为未知样本判类的一种统计方法。它产生于上世纪30年代。近年来，在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据

2、已掌握的、历史上每个类别的若干样本的数据信息，总结出客观事物分类的规律性，建立判别公式和判别准则。然后，当遇到新的样本点时，只要根据总结出来的判别公式和判别准则，就能判别该样本点所属的类别。,判别分析和聚类分析有何异同？判别分析和聚类分析都是分类. 但判别分析是在已知对象有若干类型和一批已知样品的观测数据(训练样本)后的基础上根据某些准则建立判别式.在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。可以先聚类以得知类型,再进行判别.,例中小企业的破产模型为了研究中小企业的破产模型，选定4个经济指标： X1总负债率（现金收益/总负债） X2收益性指标（纯收入/总财产

3、） X3短期支付能力（流动资产/流动负债） X4生产效率性指标（流动资产/纯销售额）对17个破产企业（1类）和21个正常运行企业（2类）进行了调查，得如下资料：,判别分析例子,2 距离判别,（一）马氏距离距离判别的最直观的想法是计算样品到第i类总体的距离，哪个距离最小就将它判归哪个总体，所以，我们首先考虑的是是否能够构造一个恰当的距离函数，通过样本与某类别之间距离的大小，判别其所属类别。,设是从期望= 和方差阵= 的总体G抽得的两个观测值，则称,样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离：,为x与y之间的马氏距离,马氏距离和欧氏距离之间的差别,马氏距离,欧氏距离,马氏距离有

4、如下的特点：,2、马氏距离是标准化后的变量的欧式距离,1、马氏距离不受计量单位的影响;,3、若变量之间是相互无关的，则协方差矩阵为对角矩阵,（二）两个总体距离判别法,先考虑两个总体的情况，设有两个协差阵相同的p维正态总体，对给定的样本Y，判别一个样本Y到底是来自哪一个总体，一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来给定判别规则，有：,1、方差相等,则前面的判别法则表示为,当和已知时，是一个已知的p维向量，W（y）是y的线性函数，称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观，使用起来最方便，在实际中的应用也最广泛。,例在企业的考核种，可以根据企业的生

5、产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有：资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业，观测值分别为（7.8，39.1，9.6）和（8.1，34.2，6.9），问这两个企业应该属于哪一类？,线性判别函数：,2、当总体的协方差已知，且不相等,显然，这是y 的二次函数。,随着计算机计算能力的增强和计算机的普及，距离判别法的判别函数也在逐步改进，一种等价的距离判别为：设有K个总体，分别有均值向量i(i=1,2,k)和协方差阵i= ，各总体出现的先验概率相等。又设Y是一个

6、待判样品。则样品与总体的距离为（即判别函数）,(三) 多总体的距离判别法,上式中的第一项Y -1Y与i无关，则舍去，得一个等价的函数,将上式整理，得,则距离判别法的判别函数为：,注：这与前面所提出的距离判别是等价的.,判别规则为,（四）对判别效果做检验 1、错判概率,由上面的分析可以看出，马氏距离判别法是合理的，但是这并不意味着不会发生误判。两总体分别服从其判别函数为,2、交叉核实交叉核实法的思想是：为了判断第i个观测的判别正确与否，用删除第i个观测的样本数据集计算出判别函数，然后用此判别函数来判别第i个观测。对每一个观测都这样进行。交叉核实检查比较严格，能说明所选择判别方法的有效性

7、。交叉核实可以检验所用方法是否稳定。交叉核实可以解决样本容量不大的情形，改变样本容量，来检验方法是否稳定的问题。,3 费歇（Fisher）判别法,Fisher判别法是一种先投影（降维）的方法。考虑只有两个(预测)变量的判别问题。假定只有两类。数据中的每个观测值是二维空间的一个点。见下页图。这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按原来变量(横坐标和纵坐标)，不容易将这两种点分开。,于是就寻找一个方向，如下页图上的虚线方向，沿该方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出，如果向其他方向投影，判别效果不

8、会比这个更好。有了投影之后，再用前面讲到的距离远近的方法得到判别准则。这种先投影的判别方法就是Fisher判别法。,Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向，即寻找线性判别函数，设有个总体，分别有均值向量， , 和协方差阵 , 分别各总体中得到样品：,第i个总体的样本均值向量,综合的样本均值向量,第i个总体样本组内离差平方和,综合的组内离差平方和,组间离差平方和,如果判别分析是有效的，则所有的样品的线性组合满足组内离差平方和小，而组间离差平方和大。则,而所对应的特征向量即。,Fisher样品判别函数是,然而，如果组数k太大，讨论的指标太多，则一个

9、判别函数是不够的，这时需要寻找第二个，甚至第三个线性判别函数其特征向量构成第二个判别函数的系数。类推得到m(mk)个线性函数。,关于需要几个判别函数的问题，需要累计判别效率达到85以上，即有设为B相对于E得特征根，则,以m个线性判别函数得到的函数值为新的变量，再进行距离判别。判别规则：,设Yi(X)为第i个线性判别函数，，,则,4 贝叶斯判别,一、最大后验概率准则二、最小平均误判代价准则,一、最大后验概率准则,设有个组，且组的概率密度为，样品来自组的先验概率为，满足。则属于的后验概率为最大后验概率准则是采用如下的判别规则：,二、最小平均误判代价准则,（5.3.

10、13）式的一些特殊情形,(1)当时， (5.3.13)式简化为实际应用中，如果先验概率未知，则它们通常被取成相等。,(2) 当时， (5.3.13)式简化为该式等价于组数时的 (5.3.2)式。实践中，若误判代价比无法确定，则通常取比值为1。 (3) 当时， (5.3.13)式可进一步简化为这时，判别新样品的归属，只需比较在处的两个概率密度值和的大小。,判别分析要注意的问题,训练样本中必须包含所有要判别的类型，分类必须清楚，不能有混杂。要选择好可能用于判别的预测变量。这是最重要的。当然，在应用中，选择余地不见得有多大。要注意数据是否有不寻常的点或者模式存在。,判别分析

11、是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果作解释。,判别分析要注意的问题,判别分析在SPSS中的实现,(一) 操作步骤 1. 在SPSS窗口中选择AnalyzeClassifyDiscriminate，调出判别分析主界面，将左边的变量列表中的“group”变量选入分组变量中，将变量选入自变量中，并选择Enter independents together单选按钮，即使用所有自变量进行判别分析。,判别分析主界面,2. 点击Define Range按钮，定义分组变量的取值范围。本例中分类变量的范围为1到3，所以在最小值和最大值中分

12、别输入1和3。单击Continue按钮，返回主界面。 3. 单击Statistics按钮，指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fishers和Unstandardized。这两个选项的含义如下： Fishers：给出Bayes判别函数的系数。（注意：这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fishers，是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆，请读者注意辨别。） Unstandardized：给出未标准化的Fisher判别函数（即典型判别函数）的系数（SPSS默认给出标

13、准化的Fisher判别函数系数）。,单击Continue按钮，返回主界面。,Statistics子对话框,4. 单击Classify按钮，定义判别分组参数和选择输出结果。选择Display栏中的Casewise results，输出一个判别结果表，包括每个样品的判别分数、后验概率、实际组和预测组编号等。其余的均保留系统默认选项。单击Continue按钮。,Classify子对话框,5. 单击Save按钮，指定在数据文件中生成代表判别分组结果和判别得分的新变量，生成的新变量的含义分别为： Predicted group membership：存放判别样品所属组别的值； Discriminant

14、scores：存放Fisher判别得分的值，有几个典型判别函数就有几个判别得分变量； Probabilities of group membership：存放样品属于各组的Bayes后验概率值。将对话框中的三个复选框均选中，单击Continue按钮返回。,6. 返回判别分析主界面，单击OK按钮，运行判别分析过程。,Save子对话框,（二）主要运行结果解释 1. Standardized Canonical Discriminant Function Coefficients（给出标准化的典型判别函数系数）标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的，所以要得到标准化

15、的典型判别得分，代入该函数的自变量必须是经过标准化的。 2. Canonical Discriminant Function Coefficients（给出未标准化的典型判别函数系数）未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分，所以该系数使用起来比标准化的系数要方便一些。,3. Functions at Group Centroids（给出组重心处的Fisher判别函数值）如下表所示，实际上为各类别重心在空间中的坐标位置。这样，只要在前面计算出各观测值的具体坐标位置后，再计算出它们分别离各重心的距离，就可以得知它们的分类了。,组重心处的Fisher判别函数值,

16、4. Casewise Statistics（给出个案观察结果）在Casewise Statistics输出表针对每个样品给出了了大部分的判别结果，其中包括：实际类（Actual Group）、预测类（Predicted Group）、Bayes判别法的后验概率、与组重心的马氏距离（Squared Mahalanobis Distance to Centroid）以及Fisher判别法的每个典型判别函数的判别得分（Discriminant Scores）。,表4.4 个案观察结果表,5. 由于我们在Save子对话框中选择了生成表示判别结果的新变量，所以在数据编辑窗口中，可以观察到产生的新变量。其中，变量dis-1存放判别样品所属组别的值，变量dis1-1和dis2-1分别代表将样品各变量值代入第一个和第二个判别函数所得的判别分数

展开阅读全文