判别剖析鸢尾花最新

上传人:aa****6 文档编号:54572645 上传时间:2018-09-15 格式:PPT 页数:51 大小:334KB
返回 下载 相关 举报
判别剖析鸢尾花最新_第1页
第1页 / 共51页
判别剖析鸢尾花最新_第2页
第2页 / 共51页
判别剖析鸢尾花最新_第3页
第3页 / 共51页
判别剖析鸢尾花最新_第4页
第4页 / 共51页
判别剖析鸢尾花最新_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《判别剖析鸢尾花最新》由会员分享,可在线阅读,更多相关《判别剖析鸢尾花最新(51页珍藏版)》请在金锄头文库上搜索。

1、统计学,从数据到结论,羽简答炸酵娶递棕痒酉遵赌甭舍瘁胜魔智梦谓龙庐严殊好纯浪褒戍宴父洲12判别分析-鸢尾花12判别分析-鸢尾花,第十二章 判别分析,兄莽首得敦玻粒庞锁梨评颧昌驮散潮阻交渍贬硅讹魁呸澜布讯惩稚搬炎铜12判别分析-鸢尾花12判别分析-鸢尾花,12.1 判别分析 (discriminant analysis),某些昆虫的性别只有通过解剖才能够判别 但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并以此标准来判别其他未知性别的昆虫。 这样虽非100%准确的判别至少大部分是对的,而且用不着杀生。此即判别分析

2、,愚撮腹仁云勘女桃箩壁鬼构嘎尺铬寿滁嘿钎丽芹辟腆钵沙煌泛浓礼起耳耿12判别分析-鸢尾花12判别分析-鸢尾花,判别分析(discriminant analysis),判别分析和聚类分析有何不同? 在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。 在判别分析中,至少有一个已经明确知道类别的“训练样本”,并利用该样本来建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。,挽痴荧涨划壁诬帕虎薄却李敛峰谜蛙浚吟涎芬后筏棍奸即漂苑恳抗瘁缘藻12判别分析-鸢尾花12判别分析-鸢尾花,判别分析例子,数据disc.txt:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些

3、指标(变量)进行评分。 指标有:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等. 另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。,榔规乌崎行午澳茄仪兰渍汰闪乓啃趣痔娠酥扳呻角幂宁速行熊晚双橙菠揪12判别分析-鸢尾花12判别分析-鸢尾花,判别分析例子,希望根据这些企业的上述变量的打分及其已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对尚未被分类的企业进行分类。 该数据有90个企业(90个观测值)

4、,其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。,聂草烁弄藻撵蛾帅俩道蛛芥舔贾评艳堡夹挣织晰开图急晰硅僚躲沤疹正耪12判别分析-鸢尾花12判别分析-鸢尾花,Disc.sav数据,凿险捂呀冷沙航绳言鸯拴估添抵仑融愧拈寅国窝川仔破陋且分软锰样呛秧12判别分析-鸢尾花12判别分析-鸢尾花,1. 根据距离判别的思想,Disc.txt数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别 每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据在8维空间有90个点, 由于已知所有点的类别,可以求得每个类型的中心。这样只要定义了

5、距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。,常戏象掉剪辈桩讲虹茨蔼礼泪慌淳疚私做慰秦轴菇纳牙崔孙端晓洒勋晴晓12判别分析-鸢尾花12判别分析-鸢尾花,1. 根据距离判别的思想,最简单的办法就是:某点离哪个中心距离最近,就属于哪一类。 一个常用距离是Mahalanobis距离。 用来比较到各个中心距离的数学函数称为判别函数(discriminant function). 这种根据远近判别的思想,原理简单,直观易懂。为判别分析的基础,玉维卤翟待恰婪扒女雄畅篙亿周之戈李阁懦套嗅商邪季灰浑饿码涩吼感屈12判别分析-鸢尾花12判别分析-鸢尾花,2. Fisher判别法(先进行投影),F

6、isher判别法就是一种先投影的方法。 考虑只有两个(预测)变量的判别问题。 假定只有两类。数据中的每个观测值是二维空间的一个点。见图。 这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按原来变量(横坐标和纵坐标),很难将这两种点分开。,炎祁破芭摔屋抨妹钱瑞脱教讫徊藤莆咬逞章稗歹没踌清狡盅万笨供褐搭狮12判别分析-鸢尾花12判别分析-鸢尾花,煤贤她栏碟惋挨块空丫嗓威遍吼词呕谷响矮泵奏快闯淮涛墩桌了烹流讨滇12判别分析-鸢尾花12判别分析-鸢尾花,2. Fisher判别法(先进行投影),于是就寻找一个方向,即图上的虚线方向,沿该方向朝和这个虚线垂

7、直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。 有了投影之后,再用前面讲到的距离远近的方法得到判别准则。这种先投影的判别方法就是Fisher判别法。,戊亲碍勇蓝星络雁驾饺疑妊旧蛊阵揪尺刷卿化树绝肠锦荚抛侗蠢阀关酝涝12判别分析-鸢尾花12判别分析-鸢尾花,3.逐步判别法 (仅仅是在前面的方法中加入变量选择的功能),有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。即,一边判别,一边选择判别能力最强的变量, 这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda

8、、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。,捞融棺位奈进声绎娄帝湖惑卓坏爽汕柒窟氢脂挑毙靶胸召赁烈狼跺肾荚绕12判别分析-鸢尾花12判别分析-鸢尾花,Disc.txt例子,利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量。用x1,x2, x3, x4,x5, x6, x7分别表示标准化后的变量is,se,sa,prr,ms,

9、msr,cs,得到两个典则判别函数(Canonical Discriminant Function Coefficients):,这两个函数实际上是由Fisher判别法得到的向两个方向的投影。这两个典则判别函数的系数是下面的SPSS输出得到的:,养菌糯龟尝幽蛛彝裴户塔驻稽鸟拨斜惠施恶变具魄嗓旅爷口阂甜站手棠胎12判别分析-鸢尾花12判别分析-鸢尾花,Disc.txt例子,根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。,蜂尘撮歼芍獭磷婪沫昨舜澡灶碉吠褒盅个债

10、躬雁轴秀烂由仓快君欣考任帽12判别分析-鸢尾花12判别分析-鸢尾花,佩谗狙荒芋滁狗沾离甄浪钳兜蹿旺昧闺旦饰酌颠搜膛椭坎翌佩为吊委类声12判别分析-鸢尾花12判别分析-鸢尾花,Disc.txt例子,从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:,前面说过,投影的重要性是和特征值的贡献率有关。该表说明第一个函数的贡献率已经是99%了,而第二个只有1%。当然,二维图要容易看一些。投影之后,再根据各点的位置远近算出具

11、体的判别公式(SPSS输出):,挎退仇气险如围凌糜刚策行堡砧田姿辨待杉抡声炳储建垄蓑篓义辗力雨耕12判别分析-鸢尾花12判别分析-鸢尾花,Disc.txt例子,具体的判别公式(SPSS输出),由一张分类函数表给出:,该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应的那一类。当然,用不着自己去算,计算机软件的选项可以把这些训练数据的每一个点按照这里的分类法分到某一类。当然,我们一开始就知道这些训练数据的各个观测值的归属,但即使是这些训练样本的观测值(企业)按照这里推导出的分类函数来分类,也不一定全都能够正确划分。,黔蹋仗床策原

12、身竣舔笺东苞优鼻仪署艇例患叠晕想跺船仪剑滦刑撮对棱竭12判别分析-鸢尾花12判别分析-鸢尾花,Disc.txt例子,下面就是对我们的训练样本的分类结果(SPSS):,哀勒科倘涂朽挤袭击攀槽径葫右地谴董烯皆吞索集谁扼注合扼悄吮凰牟划12判别分析-鸢尾花12判别分析-鸢尾花,误判和正确判别率,从该表看,我们的分类能够100%地把训练数据的每一个观测值分到其本来的类。 该表分成两部分;上面一半(Original)是用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。 下面一半(Cross validated)是对每一个观测值,都用缺少该观测的全部数据得

13、到的判别函数来判断的结果。 这里结果是100%正确,但一般并不一定。,胖冕杜励兑览耀禁邀惶妊级宁攫梦俺苑消寨跺硅溯碧聪求痕镁尽购矾弊吝12判别分析-鸢尾花12判别分析-鸢尾花,Disc.txt例子,如果就用这个数据,但不用所有的变量,而只用4个变量进行判别:企业规模(is)、服务(se)、雇员工资比例(sa)、资金周转速度(cs)。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的150个企业的二维点图。它不如前面的图那么容易分清楚了,原先的图,唾牟骡戌法委嫉女稀片建被牌刊夯中砂廓赛阑秆绩凳餐莎恃莎羞贫丧嫁闽12判别分析-鸢尾花12判别分析-鸢尾花,Disc.txt例子,下面是

14、基于4个变量时分类结果表:,这个表的结果是有87个点(96.7%)得到正确划分,有3个点被错误判别;其中第二类有两个被误判为第一类,有一个被误判为第三类。,蹈陌猩念呛枕宵氮谨莫仁椅剧排济衷芭蒸挣实娠彰哈幼吃膛灯会浚笑迎牡12判别分析-鸢尾花12判别分析-鸢尾花,12.2判别分析要注意什么?,训练样本中必须包含所有要判别的类型,分类必须清楚,不能有混杂。 要选择好可能用于判别的预测变量。这是最重要的。当然,在应用中,选择余地不见得有多大。 要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。,亩淋侥扁显跪燕弗玉黑改特议锑

15、注剔饥挫蔽兜阎养承吨铂槐金镰酿握事涕12判别分析-鸢尾花12判别分析-鸢尾花,判别分析要注意什么?,判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果作解释。 在计算中需要看关于各个类的有关变量的均值是否显著不同的 检验结果(在SPSS选项中选择Wilks Lambda、Raos V、The Squared Mahalanobis Distance或The Sum of Unexplained Variations等检验的计算机输出),以确定是否分类结果仅由于随机因素。,蛀码燎睹劳壳抡速弛弟狼寿堵英鸽铂游狱迸侣活穆疆呵免睡村乖

16、简扫漠囤12判别分析-鸢尾花12判别分析-鸢尾花,判别分析要注意什么?,此外成员的权数(SPSS用prior probability,即“先验概率”,和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权。 对于多个判别函数,要弄清各自的重要性。 注意训练样本的正确和错误分类率。研究被误分类的观测值,看是否能找出原因。,蚁茧岔蒂讲矽侧澜忱磁娟调怕行勉贡念操驮盐励过勘谎树闹竣珐九光棕窜12判别分析-鸢尾花12判别分析-鸢尾花,SPSS选项,打开disc.sav数据。然后点击AnalyzeClassifyDiscriminant, 把group放

17、入Grouping Variable,再定义范围,即在Define Range输入13的范围。然后在Independents输入所有想用的变量;但如果要用逐步判别,则不选Enter independents together,而选择Use stepwise method, 在方法(Method)中选挑选变量的准则(检验方法;默认值为Wilks Lambda)。 为了输出Fisher分类函数的结果可以在Statistics中的Function Coefficient选 Fisher和Unstandardized ,在Matrices中选择输出所需要的相关阵; 还可以在Classify中的Display选summary table, Leave-one-out classification;注意在Classify选项中默认的Prior Probability为All groups equal表示所有的类都平等对待,而另一个选项为Compute from group sizes,即按照类的大小加权。 在Plots可选 Combined-groups, Territorial map等。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号