第十四章判别分析DiscriminantAnalysis

资源描述

《第十四章判别分析DiscriminantAnalysis》由会员分享，可在线阅读，更多相关《第十四章判别分析DiscriminantAnalysis（46页珍藏版）》请在金锄头文库上搜索。

1、绥吞釉嘎拴琳扫谰寒龄叭桅荐槐蝇东煽类昂晨隘汗裤摸数遍宛泻纵尔氦轮第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis第十四章第十四章判别分析判别分析(Discriminant Analysis)(Discriminant Analysis)上海第二医科大学上海第二医科大学生物统计教研室生物统计教研室湛湛舒件搏恬敌守良啮撑筷卯丝传颤蒜姬席谨摔腾蝶低爸披脑迷债醒秉愈第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis第一节第一节判别分析的基本概念判别分析的基本概念l 1.什么

2、是判别分析l 判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。在医学研究中经常遇到这类问题；例如, 临床上常需根据就诊者的各项症状、体征、实验室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断，有时已初步诊断为某种疾病，还需进一步作出属该类疾病中哪一种或哪一型的判断。茬端坟泻仲攻髓视暗荚仟怜搁篡筋意剁颇嗅簧凸镑忌也眉娘柿菌弧谷虏窄第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis（1）有无某种疾病例：计算机用于胃癌普查，用于中风预报。（2）疾病的鉴别诊断例

3、：计算机用于对肺癌，肺结核和肺炎进行鉴别诊断。（3）患有某疾病中的哪一种或哪一型例：鉴别诊断单纯性或绞窄性肠梗阻。鉴别诊断阑尾炎中的卡他性，蜂窝织炎，坏疽性和腹膜炎。校叶迎恬鸟像飞赤淖刁荒揪猴增堡压欲搅通钞执篙慧早谋冶亥渴视芝闺盐第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 用一个实例来说明判别分析的基本思想 2. 判别分析步骤欲用显微分光光度计对病人细胞进行检查以判断病人是否患有癌症。（1）根据研究目的确定研究对象（样本）及所用指标例：110例癌症病人和190例正常人。指标：X1，X2和X3。 X1: 三倍体的得分，

4、X2: 八倍体的得分，X3: 不整倍体的得分。（0-10分）陀峪坊涂镇峡骋殃赠单激表扣踌买终简烽霹壮票屿扭验端难掺嗅抹抛拂应第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis（2）收集数据，得到训练样本对于若干已明确诊断为癌症的110个病人和无癌症的190个正常人均用显微分光光度计对细胞进行检测，得到X1，X2和X3的值。这就是训练样本。例号 X1 X2 X3 Y（类别） 1 1 2 2 0 2 2 5 6 1 。 300 3 3 3 0 坝执崇帐谬渊朵陛辕鲤愤纂囚顺触园挎社摄淑谷思到机木掸奎剂骗纱茬缴第十四章判别分析Discr

5、iminantAnalysis第十四章判别分析DiscriminantAnalysis（3）用判别分析方法得到判别函数根据实测资料(训练样本)用判别分析方法可建立判别函数，本例用Fisher判别分析方法得到: Y=X1+10X2+10X3 并确定判别准则为: 如有某病人的X1,X2,X3实测值，代入上述判别函数可得Y值，Y100则判断为癌症，Y100则判断为癌症，Y100则判断为非癌症。架剁碱凹铸饼翌懦毖表概寥江拈婶方班磺敬巧仓先酱昔齐屡剑趋锋辣几骚第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis判别分析的一般步骤臃胺建裹主卯档

6、毫谓伞舅蒙毖核壳拜伙越壁俩赣骗类偶写恤惑淌妥讽须窃第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 判别分析通常都要建立一个判别函数，然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习, 学出判断类别的规则, 并作多方考核。训练样本的质量与数量至为重要。每一个体所属类别必须用“金标准”予以确认; 解释变量（简称为变量或指标）X1,X2, Xp必须确实与分类有关; 个体的观察值必须准确;个体的数目必须足够多。责呀见集艺蓄用懊蛀刹乾救堤扑淋呵症拐逊逐愚卞丑颇祁疡杜贞萌恶礼偷第十四章判别

7、分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 训练样本的数据内容与符号解释变量个体号类别变量(Y) X1 X2 Xj XP 1 X11 X12 X1j X1P y1 2 X22 X22 X2j X2P y2 i Xi1 Xi2 Xij XiP y3 n Xn1 Xn2 Xnj XnP yP 慌因堤配诅基耻礁圆淤先褐彩踩倡沥枕玲扳躬滑衣础笋谗值脂硫导镶揩婶第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis判别分析常用方法l（1）最大似然法该法是建立在概率论中独立事件乘法定律

8、的基础上，适用于各指标是定性的或半定量的情况。l（2）Fisher判别分析用于两类或两类以上间判别，但常用于两类间判别，上例中应用的就是Fisher判别分析方法。l（3）Bayes判别分析用于两类或两类以上间判别，要求各类内指标服从多元正态分布。礁盎愤勾株歼契搂蔚桨抖察局佩佑滩命榜着是绥翰虚挤唁瞻挝同返咱聪既第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis（4 4）逐步判别分析）逐步判别分析建立在建立在BayesBayes判别分析基判别分析基础上，它象逐步回归分析一样础上，它象逐步回归分析一样, ,可以在众多指标中可以在众

9、多指标中挑选一些有显著作用的指标来建立一个判别函数挑选一些有显著作用的指标来建立一个判别函数, , 使方程内的指标都有显著的判别作用而方程外的使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。指标作用都不显著。（5 5）logisticlogistic判别判别常用于两类间判别。它不常用于两类间判别。它不要求多元正态分布的假设，故可用于各指标为两要求多元正态分布的假设，故可用于各指标为两值变量或半定量的情况。值变量或半定量的情况。乡殖努许遮诬龋铂扣格领帧陈杠锨挫珍少乖舅洲落胡及式嗅彪升嘻幢圆毖第十四章判别分析DiscriminantAnalysis第十四章判别分析Discrimina

10、ntAnalysis第二节 Bayes判别分析l( (一一). Bayes). Bayes准则准则 l 设有定义明确的g个总体1,2,g, 分别为X1,X2,Xp的多元正态分布。对于任何一个个体, 若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。l 如果我们制订了一个判别分类规则, 难免会发生错分现象。把实属第i类的个体错分到第j类的概率记为P(ji),这种错分造成的损失记为C(ji)。 Bayes判别准则就是平均损失最小的准则。按照这个准则去找一种判别分类的规则,就是Bayes判别。铂坟于忱霹虑烛字壕员窃俐刽书磨怀琉滇清降哨阮翱毒菇眷黔醒瘫健湛严第十四章判别分析Discrimin

11、antAnalysis第十四章判别分析DiscriminantAnalysis( (二二). ). 分类函数分类函数（g g个类别，个类别，p p个指标）个指标）Bayes准则下判别分析的分类函数形式如下： Y1=C01+C11X1+C21X2+Cp1Xp Y2=C02+C12X1+C22X2+Cp2Xp Yg=C0g+C1gX1+C2gX2+CpgXp 苫脂徒仔轴琵肇昨土懦讼冉摆灼苛唤犀峰兢器碱氧丘谦啡贺宪挟宿抄甲钝第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysisl即g个线性函数的联立方程，每个线性函数对应于某一类别。其中C0

12、j，C1j，Cpj，（j=1,2,g）为需估计的参数。用SAS的DISCRIM过程可得到这些参数的估计值。判别函数建立后通常的判别准则为：如欲判断某样品属于上述g类中的哪一类，可将该样品的各Xi值代入式(17.1)中的各个方程，分别算出Y1，Y2，Yg等值。其中如Yf为最大则意味着该样品属第f类的概率最大，故判它属于第f类。婪缝拦柒馅玉殊瘫彬果翅寞激扁帐儒说昧申眺艺斜旺谬睁刺讲佩胎妹蛤卫第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysisl 事前概率（prior probability）又称先验概率。如在所研究的总体中任取一个样品，该

13、样品属于第f类别的概率为q(yf)，则称它为类别f的事前概率。例如，阑尾炎病人总体中卡他性占50，蜂窝织炎占30，坏疽性占10，腹膜炎占10; 则在该总体中任取一个阑尾炎病人，该病人属于以上四型的概率分别为0.5，0.3，0.1和0.1, 它们也分别是这四类的事前概率。( (三三).). 事前概率隘肥改鸥毒囱衣烂纽危疆课髓少涣塔型蹲违险筐迹尝颐涩邪村膀吾问矽猪第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis考虑事前概率时，判别函数如下式: Y1=C01+C11X1+C21X2+Cp1Xp+ln(q(Y1) Y2=C02+C12X

14、1+C22X2+Cp2Xp+ln(q(Y2) Yg=C0g+C1gX1+C2gX2+CpgXp+ln(q(Yg) 差别仅仅在于ln(q(Yj)项全膛凤窍淮饰衙哭庸织挠莹禄楔焕惺有例纪峨趴吁逞逼猾盼朱花杠增毖跟第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 考虑事前概率可适当提高判别的敏感性。事前概率可据于文献报道或以往的大样本研究。但是困难在于事前概率往往不容易知道；如果训练样本是从所研究的总体中随机抽取的，则可用训练样本中各类的发生频率Q(Yj)来估计各类别的事前概率q(Yj)。如果事前概率未知，而又不可以用Q(Yj)来估计q

15、(Yj)，就只能将事前概率取为相等值，即取q(Yj)=1/g。看壤秩饺潮沙数做骨习暇搂缚芜乒微带尿糟馏维快珐婪生售庭定鸵窜枢翌第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis( (四四). ). 事后概率事后概率l 事后概率（posterior probability）又称后验概率。如果已知某样品各个指标Xi的观察值为Si，则在该条件下，样品属于Yj类别的概率P(Yj /S1,S2,SP)称为事后概率。事后概率和指标的值有关。l 引入事后概率后，可用事后概率来描述某样品属于Yj类别的概率。这就使得判别的可靠性有一个数量的指标。磊虫

16、铆庇嘱肋赃蝇匝壁犬户稳磁琼辅褐空班涡袁暑上定绳坍矢腹舰支稗寨第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis例：A1，A2，A3的事后概率为0.95，0.03和0.02 判为A1类的可靠性好。 A1，A2，A3的事后概率为0.40，0.30和0.30 判为A1类的可靠性差。如欲判别某样品属于哪个类别时，可据样品各指标的取值S1，S2，SP代入判别函数，求得各类别之Y值，即Y1，Y2，Yg。名挑客宇虹娱焦铜饱治仁苇厕鸦敛抨鳃讣荷纬笼澜则裳庚凋赣驭钢戌少卡第十四章判别分析DiscriminantAnalysis第十四章判别分析Dis

17、criminantAnalysis事后概率的计算公式为：丝苛豪炊窝送锰梁亥呜厂粒粳过提酶废淳搭薪游凯喷象倾宣月曹用桩船抹第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis俯杜彼淤洪槽八复熬菜册屁卑赤龋骑橇愁谈瞄匆翘没辫沮涂砒币脓掘境追第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 仅凭哪一个事后概率为最大，就判为那一类别有时是不够的。例如某样品属于三个类别的事后概率分别为0.95，0.03，0.02，则判为第一类的可靠性就较大。但如果三个事后概率分别为0.4，0.3，

18、0.3。再判为第一类的可靠性就较差了。与临床上诊断相类似，当对某病员的诊断把握不大时，常定为可疑或待查等。SAS的Discrim过程中可以定义一个事后概率p的临界值，当各类别最大的事后概率大于此值时，就作出判别归类，否则将被判为other类,相当于可疑或待查。笆件将渡顾藤私觅搅俊佑筋料伶艳疯纸椽陵盼拍趟侍兆优翔脱肺澄起松蓉第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis例例某医院眼科研究糖尿病患者的视网膜病变情况, 视网膜病变分轻、中、重三型。研究者用年龄(age)、患糖尿病年数(time)、血糖水平(glucose)、视力

19、(vision)、视网膜电图中的a波峰时（at）、a波振幅(av)、b波峰时(bt)、b波振幅(bv)、qp波峰时(qpt)及qp波振幅(qpv)等指标建立判别视网膜病变的分类函数, 以判断糖尿病患者的视网膜病变属于轻、中、重中哪一型。葫膳纺吨绪滦恤饵起焉沂彼篡胞糕蝎苇搞姓垦苟枕测舜钾活潜晚圆蛔砍将第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患, 眼底无明显其他视网膜疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为grou

20、p。见表14.2。(表中仅列出前5例)。试以此为训练样本, 仅取age,vision,at,bv和qpv 5项指标, 求分类函数, 并根据王的信息: 38岁, 视力1.0, 视网膜电图at=14.25, bv=383.39, qpv=43.18判断其视网膜病变属于哪一型。绰袜颂叠吕港玫咳针受傈咆榔宪豁丹羽算帧酿良靖肢坚像勺配汰挟杭恃剔第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis131例糖尿病患者各指标实测记录（前5例）例号年龄患病血糖视力 a波 a波 b波 b波 qp波 pq波视网膜年数峰时振幅峰时振幅峰

21、时振幅病变程度 1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1 2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1 3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1 4 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A1 5 54 10.00 137 0.6 13.75 269.59 55.50 451.27 78.0 33.70 A2

22、钒娃拟馒豁帆然杉倡讶墩谋嫡禹投辐其搽窟丢裤诲咆旁凝刚式幂收柠休乏第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis解解假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率, 利用SAS的Discrim过程可得分类函数Y1-181.447+0.473(age)+60.369(vision)+17.708(at)+0.048(bv)+0.364(qpv)Y2-165.830+0.472(age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv)Y3-189.228+0

23、.178(age)+43.974(vision)+20.447(at)+0.040(bv)+0.265(qpv)以王的观察值代入分类函数, 得Y1=-181.447+0.47338+60.3691.0+17.70814.25 +0.048383.39+0.36443.18 =183.36同样可算得： Y2180.58, Y3179.66其中最大者为Y1, 故判断为轻度病变。筛捧癸郧真巴宏稍崩艰佰汉骨殿洞荤姆澈避坚察萨虎眶喳胀绞雹坠薯泰烘第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 由上例见, Y1, Y2, Y3的数值相差不多

24、,单纯凭分类函数值的大小作决策有时易出偏差。这时, 分别估计该个体属于各总体的概率却能客观地反映该个体的各种可能归属, 而避免武断。令Y*=180, 从而有 P(Y1X1,X2,X5)e(183.36-180)/(e(183.36-180)+e(180.58-180)+e(179.66-180) e4.36/(e4.36+e1.58+e0.66)0.9202类似地, 可得 P(Y2X1,X2,X5)0.0571 P(Y3X1,X2,X5)0.0227 由此可见王为轻度病变的概率为0.9202，因此把他判断为轻度病变可靠性较大。鹿症四钠佰舜袄状狈猿豁捆法婚中坐朋垄泵敢乱洛勿稗皇咸鼎螺阴汹冲裂第十

25、四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis第三节第三节逐步判别分析逐步判别分析从逐步回归分析中我们已知道，回归方程中的自变量并非越多越好。作用不大的变量进入方程后不但无益，反而有害。在判别分析中也有类似情况，解释变量并非越多越好。解释变量的特异性越强，判别能力越强，这类解释变量当然越多越好；相反，那些判别能力不强的解释变量如果引入分类函数，同样也是有害无益的，不但增加了搜集数据和处理数据的工作量，而且还可能削弱判别效果。因此我们希望在建立分类函数时既不要遗漏有显著判别能力的变量, 也不要引入不必要的判别能力很弱的变量。逐步判

26、别分析是达到上述目标的重要方法。它象逐步回归分析一样，可以在很多候选变量中挑选一些有重要作用的变量来建立分类函数，使方程内的变量都较重要而方程外的变量都不甚重要。分类函数内的变量是否有重要作用可用F检验, 检验的零假设是:该变量对判别的贡献为零。若P值较小便拒绝零假设,认为该变量的贡献具有统计学意义。摄虱饮哆蹦顽结悸曹靡萄形里懂咆龄锄偿敷侠滑岭间槐峭盘忽犀颖踏希词第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 含10个变量的分类函数中各变量的统计检验变量 F值 P值年龄 25.338 0.0001 病程 1.211 0.30

27、16 血糖 1.255 0.2889 视力 45.956 0.0001 at 20.310 0.0001 av 0.219 0.8037 bt 0.950 0.3898 bv 6.012 0.0033 qpt 0.971 0.3818 apv 1.989 0.1414闸势雀恫耶官尝垛毗脓饼虏尔盯剁殴座呀蝉屏济全什濒埃渺楼葵铺馆串蔼第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis SAS中的STEPDISC过程可用于逐步判别分析的变量选择。其基本步骤与逐步回归极为类似。先规定选入变量及剔除变量的显著性水平(即型错误的概率), 设分别

28、为P1和P2。P1和P2可取为相等，如取0.05，0.1或0.15等。P1和P2也可取不相等,但P1必须不大于P2。一般说，P1取得越小，分类函数内选入的变量就越少。逐步判别分析中变量选择也是一步一步地进行的，每一步挑选一个判别能力最大且具有统计学意义的变量进入分类函数，而且在每步选变量之前先对已选入的变量逐个检验其重要性，如果发现某个变量因为新变量的进入而变得不重要就剔除这个变量，只有在不能剔除时才考虑选入新变量。这样一步一步的进行下去，直至分类函数中包含的所有变量都重要，而分类函数外的所有变量都不重要为止。然后可用筛选出来的变量用SAS中的DISCRIM过程最终建立分类函数。三醛恶奢来吾韭

29、劈怨碍瑰嚣囚钨束拱叫绵蛆摊礼抗汇遣展甜掉殷高煤矗滋第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 逐步判别分析剔选变量结果判别函数内判别函数外变量 F值 P值变量 F值 p值年龄 28.818 0.0001 病程 0.891 0.4127 视力 46.491 0.0001 血糖 0.793 0.4548 at 24.964 0.0001 av 0.397 0.6730 bv 9.387 0.0002 bt 0.421 0.6572 qpv 3.829 0.0243 qpt 1.016 0.3649 仲津荫奎篷团窖属颊逝

30、钙八邵脉了蹦吁会句建益换短裴摆籽矩蛔囚阜课农第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis第四节第四节回顾性考核和前瞻性考核回顾性考核和前瞻性考核l 分类函数及判别准则建立后必须进行考核。考核就是将样品逐一用所建立的判别准则进行归类, 求出其假阳性率、假阴性率及总的错误率。考核可分为回顾性考核与前瞻性考核。l 回顾性考核也称回代或组内考核(internal validation),即用原来的训练样本进行考核。前瞻性考核也称组外考核,是对新的已知其分类的样品(称为考核样本)进行考核。用前瞻性考核可估计总体中的假阳性率、假阴性率和

31、总的错误率。新乃裹淖棺耐虫徊酬语滦盎蠕惩猫四复秒吱陇撑奸岔灭扦顿氢冉蕉研谣朝第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 除了可用前瞻性考核来估计总体中的错误率外,还可用刀切法(jackknife)交叉考核(cross validation)。其方法如下：设训练样本中共有n个个体,先搁置第一个个体，对其余n-1个个体进行判别分析求出判别函数,用该函数对第一个个体进行考核；然后放回第一个个体, 搁置第二个个体，用其余n-1个个体求出判别函数并对第二个个体进行考核每次搁置一个个体,用其余的n-1个个体作出判别函数(注意,这些判别函

32、数可能不相同),对搁置的个体进行考核,一共进行n次,遍历每一个个体;从而求出假阳性率、假阴性率和总的错误率，称为刀切法交叉考核，它们可作为前瞻性考核的辅助信息。赢呼盒耿捡通父胳垢铀诈涎潜洛国顶集峪曝签挟诲钟畅挨痕盾鸽界绩毕厦第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 回顾性考核结果判别函数分类原分类合计错误率(%) A1 A2 A3 A1 62 4 2 68 8.82 A2 1 41 1 43 4.65 A3 1 0 19 20 5.00 合计 64 45 22 131 6.87蒜膝炯罐孰呻笑匹衬坛擞舆摘庆谎本诀惫违

33、豌馅置浊缀饭总巫石蝎垂淌井第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 刀切法考核结果判别分类原分类合计错误率(%) A1 A2 A3 A1 60 6 2 68 11.76 A2 2 40 1 43 6.98 A3 1 0 19 20 5.00 合计 63 46 22 131 9.16涂留敖唬散括埔市醇娶哪抨呼凛仗卓诡揉砖呼作拌敦腔邻瞪崖让限森臆巢第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 前瞻性考核结果判别分类原分类合计错误率(%) A1

34、A2 A3 A1 14 1 0 15 6.67 A2 1 9 1 11 18.18 A3 0 0 5 5 0.00 合计 15 10 6 31 9.68唉宴轧蘑颁痹娟冗及缚贾聂腹恿庐绷绎瞳物克喘阔姬剥秉嗅灵铀批泡疮乞第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis第五节第五节二类判别及其与回归的关系二类判别及其与回归的关系蒜艘毕酝乡副肚骗呼枷铰元只齐绘禁窃磊客衷擦脏柒籍壳康薛爬献畦垣筏第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis栏荣做完砧咙炼殴浊吏经匆癌秧圆生厄

35、壕斥度寿憨戎诱苯舷嘶嘶胆若跌溢第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 二类判别也可用回归分析来解决 -1当某样品属A1类时例如定义 y= 1当某样品属A2类时再用逐步回归分析，得到回归方程。该回归方程可作为判别函数用于判别分类，本例中的判别准则为y0时判为A2类。通过简单的计算，该判别函数可与事先概率相等(或不考虑 )的逐步判别分析得到的结果化成一致。迪凶值痘湖圭遥陨负钨凯刽俘发澈讳脱汁谓穷笛搞缠联侗笋逗尽棍傈悲贰第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnaly

36、sis第六节第六节用于判别分析的用于判别分析的SASSAS过程及其应用实例过程及其应用实例 (一)STEPDISC过程的使用 1. 功能 STEPDISC过程用于逐步判别分析中对变量的剔选。本过程不能计算判别函数。用剔选后得到的变量再调用DISCRIM过程计算判别函数等。 2. 语句 PROC STEPDISC 选择项; CLASS 变量; VAR 变量;诵袄查述锁卖栽逊譬痒巧铺耳语盂玄降霸冤逼瞄贩刑斥朝砾脊拦终东语唉第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis3. 语句说明 (1)PROC STEPDISC语句中主要的选择

37、项如下:DATA=SAS数据集名指定用于分析的SAS数据集，即训练样本SLENTRY=P值，指定选入方程的显著性水平，默认值为0.15SLSTAY=P值，指定剔出方程的显著性水平，默认值为0.15START=n值，指定VAR语句中前n个变量先进入方程，然后再开始剔选INCLUDE=n值，指定VAR语句中前n个变量必须包含在方程中SIMPLE，打印各变量总的及每一类内的简单描述性统计量 (2)CLASS语句指定判别分析用的分类变量名，该变量可以是数字型, 也可以是字符型。 (3)VAR语句指定判别分析用的各指标的变量名。低漆呕酵彩李壕摄页玩格甩墟敲憎倪维戳郧俄样域沿拜蕴横郴液舷与他女

38、第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis(二)DISCRIM过程的使用 1. 功能 DISCRIM过程用于判别分析，计算判别函数，进行组内和组外考核等。该过程不能剔选变量。 2. 语句 PROC DISCRIM 选择项; CLASS 变量; VAR 变量; PRIORS 选择项：傅编酒苗鸭疽唱晴道舰欢贿甲惠盂丽爬汉好历待梅切辽觅亭饮铸彰娟答掖第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis 3. 语句说明 (1)PROC DISCRIM语句中主要的选择项如下

39、:DATA=SAS数据集名指定用于训练样本的SAS数据集TESTDATA= SAS数据集名指定用于组外考核的SAS数据集SIMPLE，打印训练样本中各变量总的及每一类内的简单描述性统计量THRESHOLD=P值，指定判别分类时最小的可接受的事后概率P 默认值为0CROSSVALIDATE 要求进行刀切法考核砧箔附兴冰怨猪傅旺绿暑峭侯破怕打犁诈捏临熟莎控键晦叉末锚焚遗纹葬第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis (2)CLASS语句指定判别分析用的分类变量名，该变量可以是数字型, 也可以是字符型。 (3)VAR语句指定判别分析用的各指标的变量名 (4)PRIORS语句指定各类事先概率值，可有如下选择项 EQUAL 各类事先概率值相等，这是默认值 PROP 各类事先概率值取训练样本中各类所占比例类别变量的输出格式：值1=P1，值2=P2，邮昼铱蔫漳蛹挺稠雕督用弊竞紧佰押导江培钳滁聪策跪挥晒嗽揭琅孔鬃徒第十四章判别分析DiscriminantAnalysis第十四章判别分析DiscriminantAnalysis

展开阅读全文

第十四章判别分析DiscriminantAnalysis

最新文档