判别分析方法与SPSS分析课件

上传人:桔**** 文档编号:567276393 上传时间:2024-07-19 格式:PPT 页数:33 大小:401.50KB
返回 下载 相关 举报
判别分析方法与SPSS分析课件_第1页
第1页 / 共33页
判别分析方法与SPSS分析课件_第2页
第2页 / 共33页
判别分析方法与SPSS分析课件_第3页
第3页 / 共33页
判别分析方法与SPSS分析课件_第4页
第4页 / 共33页
判别分析方法与SPSS分析课件_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《判别分析方法与SPSS分析课件》由会员分享,可在线阅读,更多相关《判别分析方法与SPSS分析课件(33页珍藏版)》请在金锄头文库上搜索。

1、判别分析方法基于基于SPSS应用软件应用软件 一、判别分析意义 判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。 不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(训练样本)。方法有 距离判别根据个案与总体均值间的距离大小的原则,进行判别。 贝叶斯判别根据后验概率最大的原则。根据后验概率最大的原则。 典型判别典型判别求原始变量的线

2、性组合,使产生求原始变量的线性组合,使产生的新变量之更能将类分开。的新变量之更能将类分开。 逐步判别逐步判别有逐步筛选的办法,将对判别有有逐步筛选的办法,将对判别有贡献的变量选出。贡献的变量选出。 例 中小企业的破产模型 为了研究中小企业的破产模型,选定4个经济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:总负债率总负债率收益性指标收益性指标短期支付能力短期支付能力生产效率指标生产效率指标类别类别-.45-.

3、411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532.38.38.11.113.273.27.55.

4、552 2.19.19.05.052.252.25.33.332 2.32.32.07.074.244.24.63.632 2.31.31.05.054.454.45.69.692 2.12.12.05.052.522.52.69.692 2-.02-.02.02.022.052.05.35.352 2.22.22.08.082.352.35.40.402 2.17.17.07.071.801.80.52.522 2.15.15.05.052.172.17.55.552 2-.10-.10-1.01-1.012.502.50.58.582 2.14.14-.03-.03.46.46.26.26

5、2 2.14.14.07.072.612.61.52.522 2-.33-.33-.09-.093.013.01.47.472 2.48.48.09.091.241.24.18.182 2.56.56.11.114.294.29.45.452 2.20.20.08.081.991.99.30.302 2.47.47.14.142.922.92.45.452 2.17.17.04.042.452.45.14.142 2.58.58.04.045.065.06.13.132 2.04.04.01.011.501.50.71.71待判待判-.06-.06-.06-.061.371.37.40.40待

6、判待判.07.07-.01-.011.371.37.34.34待判待判-.13-.13-.14-.141.421.42.44.44待判待判.15.15.06.062.232.23.56.56待判待判.16.16.05.052.312.31.20.20待判待判.29.29.06.061.841.84.38.38待判待判.54.54.11.112.332.33.48.48待判待判 距离的判别距离的判别 由由于于已已经经知知道道所所有有点点的的类类别别了了,所所以以可可以以求求得得每每个个类类型型的的中中心心。这这样样只只要要定定义义了了如如何何计计算算距距离离,就就可可以以得得到到任任何何给给定定

7、的的点点(企企业业)到到这这三三个个中心的三个距离。中心的三个距离。 显显然然,最最简简单单的的办办法法就就是是离离哪哪个个中中心心距距离离最最近近,就就属属于于哪哪一一类类。通通常常使使用用的的距距离离是是所所谓谓的的Mahalanobis距距离离(马马氏氏距距离离)。用用来来比比较较到到各各 个个 中中 心心 距距 离离 的的 数数 学学 函函 数数 称称 为为 判判 别别 函函 数数(discriminant function).这这种种根根据据远远近近判判别别的的方法,原理简单,直观易懂。方法,原理简单,直观易懂。 贝叶斯判别贝叶斯判别 根根据据后后验验概概率率最最大大的的原原则则,在

8、在企企业业的的财财务务状状况况下下,利利用用贝贝叶叶斯斯公公式式计计算算其其判判给给各各类类的的后后验验概概率,哪个概率越大,则判给哪类。率,哪个概率越大,则判给哪类。 典型典型判别法判别法(先计算新变量的线性组合先计算新变量的线性组合) 考虑只有两个(预测)变量的判别分析问题。考虑只有两个(预测)变量的判别分析问题。 假假定定这这里里只只有有两两类类。数数据据中中的的每每个个观观测测值值是是二二维维空空间的一个点。见图(下一张幻灯片)。间的一个点。见图(下一张幻灯片)。 这这里里只只有有两两种种已已知知类类型型的的训训练练样样本本。其其中中一一类类有有38个个点点(用用“o”表表示示),另另

9、一一类类有有44个个点点(用用“*”表表示示)。按按照照原原来来的的变变量量(横横坐坐标标和和纵纵坐坐标标),很很难难将将这这两种点分开。两种点分开。 于于是是就就寻寻找找一一个个方方向向,也也就就是是图图上上的的虚虚线线方方向向,沿沿着着这这个个方方向向朝朝和和这这个个虚虚线线垂垂直直的的一一条条直直线线进进行行投投影影会会使使得得这这两两类类分分得得最最清清楚楚。可可以以看看出出,如如果果向向其其他他方方向向投投影影,判别效果不会比这个好。判别效果不会比这个好。 有有了了投投影影之之后后,再再用用前前面面讲讲到到的的距距离离远远近近的的方方法法来来得得到到判判别别准准则则。这这种种首首先先

10、进进行行投投影影的的判判别别方方法法就就是是典典型型判别法。判别法。 逐步判别法逐步判别法(仅仅是在前面的方法中加入变仅仅是在前面的方法中加入变量选择的功能量选择的功能) 有有时时,一一些些变变量量对对于于判判别别并并没没有有什什么么作作用用,为为了了得得到到对对判判别别最最合合适适的的变变量量,可可以以使使用用逐逐步步判判别别。也就是,一边判别,一边引进判别能力最强的变量,也就是,一边判别,一边引进判别能力最强的变量, 这这个个过过程程可可以以有有进进有有出出。一一个个变变量量的的判判别别能能力力的的判判断断方方法法有有很很多多种种,主主要要利利用用各各种种检检验验,例例如如Wilks La

11、mbda、Raos V、The Squared Mahalanobis Distance、 Smallest F ratio或或 The Sum of Unexplained Variations等等检检验验。其其细细节节这这里里就就不不赘赘述述了了;这这些些不不同同方方法法可可由由统统计计软软件件的的各各种种选选项项来来实实现现。逐逐步步判别的其他方面和前面的无异。判别的其他方面和前面的无异。第一步:打开判别分析的窗口。变量全部选入。变量逐步选入全部选入。第二步:定义类的代码。第三步:将变量放入独立变量框。Means计算平均数;Univariate ANOVAs讨论单变量的方差分析,看哪些本

12、来在组间有差异;Boxs M统计量总体的协方差相等的检验。Fishers判别函数的系数;Unstandardized 没有标准化的判别函数的系数;关于协方差矩阵的要求。第四步:选择统计量。Prior对先验概率的要求,上一个选项是先验概率相等,后一个是以样本的频率为先验概率;Display对输出数据的要求。Casewise result所有个案的结果; Summary table判别结果的表格; Leave-out-classification交叉核实。Use Covariance利用什么矩阵计算判别函数。组内的协方差矩阵,还是分组协 方差矩阵;Plot对典型变量进行分组,画直方图。 分类区域散

13、点图。 第五步:选择判类的一些前提条件和输出。关于逐步判别的选项。下面来观察输出结果一、首先做全模型 要求:所有本来均进入;先验概率相等;输出判别函数;做交叉核实;画分类散点地图;保存后验概率,判类结果和判别函数得分。 标准化的典型变量的函数 典型判别函数和原始变量的相关系数。 典型判别函数的系数,判别函数的得分由此计算。典型变量在两类的均值。 距离判别法的判别函数。在正态假定下,它与贝叶斯判别等价。 错判和正判的结果。标志处是回代核实和交叉核实的正判率。误判和正确判别率误判和正确判别率p从这个表来看,我们的分类能够100%地把训练数据的每一个观测值分到其本来的类。p该表分成两部分;上面一半(

14、Original)是用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。p下面一半(Cross validated)是对每一个观测值,都用缺少该观测的全部数据得到的判别函数来判断的结果。p这里的判别结果是100%判别正确,但一般并不一定。 二、利用二、利用SPSS软件的逐步判别法的结果软件的逐步判别法的结果 选择了两个变量。选择了两个变量。判别分析要注意什么判别分析要注意什么?p训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。 p要选择好可能由于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。 p要注意数据是

15、否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。p判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。 判别分析要注意什么?判别分析要注意什么?p在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果(在SPSS选项中选择Wilks Lambda、Raos V、The Squared Mahalanobis Distance或The Sum of Unexplained Variations等检验的计算机输出),以确定是否分类结果是仅仅由于随机因素。p此外成员的权数(SPSS用prior probability,即“先验概率”,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权。p对于多个判别函数,要弄清各自的重要性。p注意训练样本的正确和错误分类率。研究被误分类的观测值,看是否可以找出原因。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号