生物医学研究的统计方法之十七判别分析

上传人:夏** 文档编号:570204452 上传时间:2024-08-02 格式:PPT 页数:67 大小:1.84MB
返回 下载 相关 举报
生物医学研究的统计方法之十七判别分析_第1页
第1页 / 共67页
生物医学研究的统计方法之十七判别分析_第2页
第2页 / 共67页
生物医学研究的统计方法之十七判别分析_第3页
第3页 / 共67页
生物医学研究的统计方法之十七判别分析_第4页
第4页 / 共67页
生物医学研究的统计方法之十七判别分析_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《生物医学研究的统计方法之十七判别分析》由会员分享,可在线阅读,更多相关《生物医学研究的统计方法之十七判别分析(67页珍藏版)》请在金锄头文库上搜索。

1、 生物医学研究的统计方法生物医学研究的统计方法生物医学研究的统计方生物医学研究的统计方生物医学研究的统计方生物医学研究的统计方法之十七法之十七法之十七法之十七判别分析判别分析判别分析判别分析Discriminant AnalysisDiscriminant AnalysisDiscriminant AnalysisDiscriminant Analysis8/2/20241生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法判别分析的基本概念F 什么是判别分析什么是判别分析F判别分析是根据观测到的某些指标对所研究的判别分析是根据观测到的某些指标对所研究的对象进行对

2、象进行分类分类的一种多元统计分析方法。的一种多元统计分析方法。F在医学研究中经常遇到这类问题;例如在医学研究中经常遇到这类问题;例如, , 临床临床上常需根据就诊者的各项症状、上常需根据就诊者的各项症状、 体征、实验体征、实验室检查、病理学检查及医学影像学资料等对其室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断,有时已初步诊断为某种的疾病进行鉴别诊断,有时已初步诊断为某种疾病,还需进一步作出属该类疾病中哪一种或疾病,还需进一步作出属该类疾病中哪一种或哪一型的判断。哪一型的判断。8/2/20242生物医学

3、研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法(1)有无某种疾病例:计算机用于胃癌普查,用于中风预报。(2)疾病的鉴别诊断例:计算机用于对肺癌,肺结核和肺炎进行鉴别诊断。(3)患有某疾病中的哪一种或哪一型例:鉴别诊断单纯性或绞窄性肠梗阻。 鉴别诊断阑尾炎中的卡他性,蜂窝织炎, 坏疽性和腹膜炎。8/2/20243生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 用一个实例来说明判别分析的基本思想 2. 判别分析步骤 欲用显微分光光度计对病人细胞进行检查以判断病人是否患有癌症。(1)根据研究目的确定研究对象(样本)及所用指标例:110例

4、癌症病人和190例正常人。 指标:X1,X2和X3。 X1: 三倍体的得分,X2: 八倍体的得分,X3: 非整倍体的得分。(0-10分)8/2/20244生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法(2)收集数据,得到训练样本 对于若干已明确诊断为癌症的110个病人和无癌症的190个正常人均用显微分光光度计对细胞进行检测,得到X1,X2和X3的值。这就是训练样本。 例号 X1 X2 X3 Y(类别) 1 1 2 2 0 2 2 5 6 1 。 300 3 3 3 0 8/2/20245生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究

5、的统计方法(3)用判别分析方法得到判别函数 根据实测资料(训练样本)用判别分析方法可建立判别函数,本例用Fisher判别分析方法得到:Y=a1X1+a2X2+a3X3,找到界线C,YC为是Y=X1+10X2+10X3 并确定判别准则为: 如有某病人的X1,X2,X3实测值,代入上述判别函数可得Y值,Y100则判断为癌症,Y100则判断为癌症,Y100则判断为非癌症。8/2/20248生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法判别分析的一般步骤判别分析的一般步骤8/2/20249生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计

6、方法 判别分析通常都要建立一个判别函数,然后利用此判别函数来进行判别。 为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习, 学出判断类别的规则, 并作多方考核。 训练样本的质量与数量至为重要。每一个体所属类别必须用“金标准”予以确认; 解释变量(简称为变量或指标)X1,X2, Xp必须确实与分类有关; 个体的观察值必须准确;个体的数目必须足够多。8/2/202410生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 训练样本的数据内容与符号 解释变量个体号 类别变量(Y) X1 X2 Xj XP 1 X11 X12 X1j X1P y1 2

7、 X22 X22 X2j X2P y2 i Xi1 Xi2 Xij XiP y3 n Xn1 Xn2 Xnj XnP yP 8/2/202411生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法判别分析常用方法判别分析常用方法F(1 1)最大似然法)最大似然法 该法是建立在概率该法是建立在概率论中独立事件乘法定律的基础上,论中独立事件乘法定律的基础上, 适用适用于各指标是定性的或半定量的情况。于各指标是定性的或半定量的情况。F(2 2)FisherFisher判别分析判别分析 用于两类或两类用于两类或两类以上间判别,但常用于两类间判别,上以上间判别,但常用于两类

8、间判别,上例中应用的就是例中应用的就是FisherFisher判别分析方法。判别分析方法。F(3 3)BayesBayes判别分析判别分析 用于两类或两类用于两类或两类以上间判别,要求各类内指标服从多元以上间判别,要求各类内指标服从多元正态分布。正态分布。8/2/202412生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法(4 4)逐步判别分析)逐步判别分析 建立在建立在BayesBayes判别分析基判别分析基础上,它象逐步回归分析一样础上,它象逐步回归分析一样, ,可以在众多指标中可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数挑选一些有显著作用的

9、指标来建立一个判别函数, , 使方程内的指标都有显著的判别作用而方程外的使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。指标作用都不显著。(5 5)logisticlogistic判别判别 常用于两类间判别。它不常用于两类间判别。它不要求多元正态分布的假设,故可用于各指标为两要求多元正态分布的假设,故可用于各指标为两值变量或半定量的情况。值变量或半定量的情况。8/2/202413生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法判别分析建模的方法根据自变量(根据自变量(x)资料性质:)资料性质:p自变量(自变量(x)为计量数据:)为计量数据: Fis

10、her判别、判别、Bayes判别(判别(SPSS、SAS统计软件统计软件可实现)。可实现)。p自变量(自变量(x)为定性数据:)为定性数据: 最大似然判别法、最大似然判别法、Bayes公式判别。公式判别。8/2/202414生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 Fisher判别两类判别1.Fisher判别判别(典则判别典则判别 canonical discriminant) 用已知类别用已知类别(A或或B)研究对象的研究对象的x1, x2 xm指标指标,建立建立判别方程判别方程(z): 方程中系数方程中系数c为判别系数为判别系数,c1, c2 cm

11、,8/2/202415生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法Fisher判别的原理正常人正常人冠心病人冠心病人z1z2Z8/2/202416生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 Fisher方差分析的思想 准则:寻找组间变异准则:寻找组间变异(类间均数类间均数)/ 组内组内变异的比值最大化变异的比值最大化. 英国统计学家英国统计学家FisherR A 爵士爵士(18901962)8/2/202417生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 通过解下列距阵得到判别系

12、数(c)Sij为第为第i指标和第指标和第j个指标的合并协方差个指标的合并协方差类间类间均数均数差值差值8/2/202418生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法2.建立判别规则和判别值(Zc)判为判为A类类判为判为B类类判为任意一类判为任意一类8/2/202419生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法两类疾病 22例患者三项指标观察结果编号编号 类别类别(y) x1 x2 x31 A 23 8 0 2 A -1 9 -2 3 A -10 5 013 B 9 -5 114 B 2 -1 - 1 15 B 17

13、 -6 - 18/2/202420生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法计算步骤计算步骤:1.计算各类均数和合并计算各类均数和合并(A、B)的协方的协方差距阵差距阵(S)8/2/202421生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法变量的合并方差和协方差8/2/202422生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法2.解正规方程得出判别系数C类间类间均数均数差值差值8/2/202423生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法3.计

14、算判别界值Zc 将各类每个个体的变量值代入判别方程,将各类每个个体的变量值代入判别方程,得到得到zi,得到得到zA和和zB的均数的均数.预测预测: 某病人测定了某病人测定了x1、x2、x3值,代值,代入方程入方程z,计算的,计算的z-0.004,为,为A类。类。8/2/202424生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法例:表18-1两类疾病 22例患者三项指标预测结果类别类别 x1 x2 x3 z值值 判别结果判别结果A 23 8 0 0.19 AA -1 9 -2 2.73 AA -10 5 0 1.83 AB 9 -5 1 -2.07 B B 2

15、 -1 -1 -0.05 AB 17 -6 -1 -2.22 Bz-0.004,为,为A类类8/2/202425生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法二、判别效果的评价用误判率评价用误判率评价:8/2/202426生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法资料回顾性判别效果评价原分类原分类 判别分类判别分类 A B 合计合计A 10 2 12B 2 8 10合计合计 12 10 22第第A类误判率类误判率=2/12=16.6%第第B类误判率类误判率=2/10=20.0%方程总误判率方程总误判率=4/22=18.

16、2%8/2/202427生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法目前判别分析效果评价方法1.回顾性评价回顾性评价: 将原始数据带入判别方程得误判率评价将原始数据带入判别方程得误判率评价.2.前瞻性前瞻性: 将原始数据分为将原始数据分为0.85(训练样本训练样本)建立判别建立判别方程和方程和0.15(验证样本验证样本).计算误判率计算误判率(要求要求例数较多例数较多)。3.误判率误判率总误判率低于总误判率低于0.2,认为判别函数可用认为判别函数可用.8/2/202428生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 例

17、:世界经济统计研究(1995年)人文指数 反映国家综合水平国家国家类别类别期望寿命期望寿命识字率识字率GDP美国美国1.0076.0099.005374.00日本日本1.0079.5099.005359.00训练样本训练样本瑞士瑞士1.0078.0099.005372.00阿根廷阿根廷1.0072.1095.905242.00阿联酋阿联酋1.0073.8077.705370.00保加利亚保加利亚2.0071.2093.004250.00古巴古巴2.0075.3094.903412.00巴拉圭巴拉圭2.0070.0091.203390.00格鲁吉亚格鲁吉亚2.0072.8099.002300.0

18、0南非南非2.0062.9080.603799.00中国中国2.0068.5079.301950.00待判样本待判样本罗马尼亚罗马尼亚2.0069.9096.902840.00希腊希腊1.0077.6093.805233.00哥伦比亚哥伦比亚1.0069.3090.305158.008/2/202429生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法BayesBayes判别分析判别分析F(一). Bayes准则 F 设有定义明确的设有定义明确的g g个总体个总体1 1,2 2, ,g g, , 分别为分别为X X1 1,X,X2 2, ,X,Xp p的多元正态

19、分布的多元正态分布。对于任何一。对于任何一个个体个个体, , 若已知若已知p p个变量的观察值个变量的观察值, ,要求判断该个要求判断该个体最可能属于哪一个总体。体最可能属于哪一个总体。F 如果我们制订了一个判别分类规则如果我们制订了一个判别分类规则, , 难免难免会发生错分现象。会发生错分现象。把实属第把实属第i i类的个体错分到第类的个体错分到第j j类的概率记为类的概率记为P(jP(ji),i),这种错分造成的损失记为这种错分造成的损失记为C C(j(ji)i)。 Bayes Bayes判别准则就是判别准则就是平均损失平均损失最小的准最小的准则。按照这个准则去找一种判别分类的规则则。按照

20、这个准则去找一种判别分类的规则, ,就就是是BayesBayes判别。判别。8/2/202430生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法( (二二). ). 分类函数分类函数 (g g个类别,个类别,p p个指标)个指标)Bayes准则下判别分析的分类函数形式如下: Y1=C01+C11X1+C21X2+Cp1Xp Y2=C02+C12X1+C22X2+Cp2Xp Yg=C0g+C1gX1+C2gX2+CpgXp 8/2/202431生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法F即即g g个线性函数的联立方程,每个

21、线性函数对个线性函数的联立方程,每个线性函数对应于某一类别。其中应于某一类别。其中C C0j0j,C C1j1j,C Cpjpj,(j=1,2,j=1,2,g,g)为需估计的参数。)为需估计的参数。F判别函数建立后通常的判别准则为:如欲判断判别函数建立后通常的判别准则为:如欲判断某样品属于上述某样品属于上述g g类中的哪一类,可将该样品类中的哪一类,可将该样品的各的各X Xi i值代上式中的各个方程,分别算出值代上式中的各个方程,分别算出Y Y1 1,Y Y2 2,Y Yg g等值。其中如等值。其中如Y Yf f为最大则意味着该为最大则意味着该样品属第样品属第f f类的概率最大,故判它属于第类

22、的概率最大,故判它属于第f f类。类。8/2/202432生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法F 事前概率(事前概率(prior probabilityprior probability)又称先)又称先验概率。如在所研究的总体中任取一个样品,验概率。如在所研究的总体中任取一个样品,该样品属于第该样品属于第f f类别的概率为类别的概率为q(yq(yf f) ),则称它为,则称它为类别类别f f的事前概率。的事前概率。F例如,例如, 阑尾炎病人总体中卡他性占阑尾炎病人总体中卡他性占5050,蜂,蜂窝织炎占窝织炎占3030,坏疽性占,坏疽性占1010,腹

23、膜炎占,腹膜炎占1010; ; 则在该总体中任取一个阑尾炎病人,该病人则在该总体中任取一个阑尾炎病人,该病人属于以上四型的概率分别为属于以上四型的概率分别为0.50.5,0.30.3,0.10.1和和0.1, 0.1, 它们也分别是这四类的事前概率。它们也分别是这四类的事前概率。( (三三).). 事前概率8/2/202433生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法考虑事前概率时,判别函数如下式考虑事前概率时,判别函数如下式: : Y1=C01+C11X1+C21X2+Cp1Xp+ln(q(Y1) Y2=C02+C12X1+C22X2+Cp2Xp+ln

24、(q(Y2) Yg=C0g+C1gX1+C2gX2+CpgXp+ln(q(Yg) 差别仅仅在于ln(q(Yj)项8/2/202434生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 考虑事前概率可适当提高判别的敏感性。事前概率可据于文献报道或以往的大样本研究。但是困难在于事前概率往往不容易知道;如果训练样本是从所研究的总体中随机抽取的,则可用训练样本中各类的发生频率Q(Yj)来估计各类别的事前概率q(Yj)。如果事前概率未知,而又不可以用Q(Yj)来估计q(Yj),就只能将事前概率取为相等值,即取q(Yj)=1/g。8/2/202435生物医学研究的统计方法之

25、十七判别分析 生物医学研究的统计方法生物医学研究的统计方法(四). 事后概率F 事后概率(事后概率(posterior probabilityposterior probability)又称后验概率。如果已知某样品各个指又称后验概率。如果已知某样品各个指标标X Xi i的观察值为的观察值为S Si i,则在该条件下,样品,则在该条件下,样品属于属于Y Yj j类别的概率类别的概率P(YP(Yj j /S /S1 1,S,S2 2, ,S,SP P) )称称为事后概率。为事后概率。事后概率和指标的值有关事后概率和指标的值有关。F 引入事后概率后,可用事后概率来描引入事后概率后,可用事后概率来描述

26、某样品属于述某样品属于Y Yj j类别的概率。这就使得判类别的概率。这就使得判别的可靠性有一个数量的指标。别的可靠性有一个数量的指标。8/2/202436生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法例:A1,A2,A3的事后概率为0.95,0.03和0.02 判为A1类的可靠性好。 A1,A2,A3的事后概率为0.40,0.30和0.30 判为A1类的可靠性差。 如欲判别某样品属于哪个类别时,可据样品各指标的取值S1,S2,SP代入判别函数,求得各类别之Y值,即Y1,Y2,Yg。8/2/202437生物医学研究的统计方法之十七判别分析 生物医学研究的统计方

27、法生物医学研究的统计方法事后概率的计算公式为:事后概率的计算公式为:8/2/202438生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法8/2/202439生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 仅凭哪一个事后概率为最大,就判为那一类别有时是不够的。例如某样品属于三个类别的事后概率分别为0.95,0.03,0.02,则判为第一类的可靠性就较大。但如果三个事后概率分别为0.4,0.3,0.3。再判为第一类的可靠性就较差了。 与临床上诊断相类似,当对某病员的诊断把握不大时,常定为可疑或待查等。8/2/202440生物医学

28、研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法例例 某医院眼科研究糖尿病患者的视网膜病变情况, 视网膜病变分轻、中、重三型。研究者用年龄(age)、患糖尿病年数(time)、血糖水平(glucose)、视力(vision)、视网膜电图中的a波峰时(at)、a波振幅(av)、b波峰时(bt)、b波振幅(bv)、qp波峰时(qpt)及qp波振幅(qpv)等指标建立判别视网膜病变的分类函数, 以判断糖尿病患者的视网膜病变属于轻、中、重中哪一型。8/2/202441生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 观察131例糖尿病患者,要

29、求其患眼无其他明显眼前段疾患, 眼底无明显其他视网膜 疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group。见表。(表中仅列出前5例)。试以此为训练样本, 仅取age,vision,at,bv和qpv 5项指标, 求分类函数, 并根据王的信息: 38岁, 视力1.0, 视网膜电图at=14.25, bv=383.39, qpv=43.18判断其视网膜病变属于哪一型。8/2/202442生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法131例糖尿病患者各指标实测记录(前5例)例号 年龄 患病 血糖 视力 a

30、波 a波 b波 b波 qp波 pq波 视网膜 年数 峰时 振幅 峰时 振幅 峰时 振幅 病变程度 1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1 2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1 3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1 4 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A1 5 54 10.00 137 0.6

31、13.75 269.59 55.50 451.27 78.0 33.70 A28/2/202443生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法解解 假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率, 可得分类函数Y1-181.447+0.473(age)+60.369(vision)+17.708(at)+0.048(bv)+0.364(qpv)Y2-165.830+0.472(age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv)Y3-189.228+0.178(age)+43.

32、974(vision)+20.447(at)+0.040(bv)+0.265(qpv)以王的观察值代入分类函数, 得Y1=-181.447+0.47338+60.3691.0+17.70814.25 +0.048383.39+0.36443.18 =183.36同样可算得: Y2180.58, Y3179.66其中最大者为Y1, 故判断为轻度病变。8/2/202444生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 由上例见, Y1, Y2, Y3的数值相差不多,单纯凭分类函数值的大小作决策有时易出偏差。这时, 分别估计该个体属于各总体的概率却能客观地反映该个

33、体的各种可能归属, 而避免武断。令Y*=180, 从而有 P(Y1X1,X2,X5)e(183.36-180)/(e(183.36-180)+e(180.58-180)+e(179.66-180) e4.36/(e4.36+e1.58+e0.66)0.9202类似地, 可得 P(Y2X1,X2,X5)0.0571 P(Y3X1,X2,X5)0.0227 由此可见王为轻度病变的概率为0.9202,因此把他判断为轻度病变可靠性较大。8/2/202445生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法逐步判别分析 从逐步回归分析中我们已知道,回归方程中的自变量并非越

34、多越好。作用不大的变量进入方程后不但无益,反而有害。在判别分析中也有类似情况,解释变量并非越多越好。解释变量的特异性越强,判别能力越强,这类解释变量当然越多越好;相反,那些判别能力不强的解释变量如果引入分类函数,同样也是有害无益的,不但增加了搜集数据和处理数据的工作量,而且还可能削弱判别效果。因此我们希望在建立分类函数时既不要遗漏有显著判别能力的变量, 也不要引入不必要的判别能力很弱的变量。逐步判别分析是达到上述目标的重要方法。它象逐步回归分析一样,可以在很多候选变量中挑选一些有重要作用的变量来建立分类函数,使方程内的变量都较重要而方程外的变量都不甚重要。分类函数内的变量是否有重要作用可用F检

35、验, 检验的零假设是:该变量对判别的贡献为零。若P值较小便拒绝零假设,认为该变量的贡献具有统计学意义。8/2/202446生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 含10个变量的分类函数中各变量的统计检验 变量 F值 P值 年龄 25.338 0.0001 病程 1.211 0.3016 血糖 1.255 0.2889 视力 45.956 0.0001 at 20.310 0.0001 av 0.219 0.8037 bt 0.950 0.3898 bv 6.012 0.0033 qpt 0.971 0.3818 apv 1.989 0.14148/2

36、/202447生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 逐步判别分析剔选变量结果 判别函数内 判别函数外 变量 F值 P值 变量 F值 p值 年龄 28.818 0.0001 病程 0.891 0.4127 视力 46.491 0.0001 血糖 0.793 0.4548 at 24.964 0.0001 av 0.397 0.6730 bv 9.387 0.0002 bt 0.421 0.6572 qpv 3.829 0.0243 qpt 1.016 0.3649 8/2/202448生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医

37、学研究的统计方法回顾性考核和前瞻性考核F 分类函数及判别准则建立后必须进行考核。分类函数及判别准则建立后必须进行考核。考核就是将样品逐一用所建立的判别准则进行考核就是将样品逐一用所建立的判别准则进行归类归类, , 求出其假阳性率、假阴性率及总的错误求出其假阳性率、假阴性率及总的错误率。考核可分为回顾性考核与前瞻性考核。率。考核可分为回顾性考核与前瞻性考核。F 回顾性考核也称回代或组内考核回顾性考核也称回代或组内考核(internal validation),(internal validation),即用原来的训练样本即用原来的训练样本进行考核。前瞻性考核也称组外考核进行考核。前瞻性考核也称组

38、外考核, ,是对新是对新的已知其分类的样品的已知其分类的样品( (称为考核样本称为考核样本) )进行考核。进行考核。用前瞻性考核可估计总体中的假阳性率、假阴用前瞻性考核可估计总体中的假阳性率、假阴性率和总的错误率。性率和总的错误率。8/2/202449生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 除了可用前瞻性考核来估计总体中的错误率外,还可用刀切法(jackknife)交叉考核(cross validation)。其方法如下:设训练样本中共有n个个体,先搁置第一个个体,对其余n-1个个体进行判别分析求出判别函数,用该函数对第一个个体进行考核;然后放回第一

39、个个体, 搁置第二个个体,用其余n-1个个体求出判别函数并对第二个个体进行考核每次搁置一个个体,用其余的n-1个个体作出判别函数(注意,这些判别函数可能不相同),对搁置的个体进行考核,一共进行n次,遍历每一个个体;从而求出假阳性率、假阴性率和总的错误率,称为刀切法交叉考核,它们可作为前瞻性考核的辅助信息。8/2/202450生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 回顾性考核结果 判别函数分类 原分类 合计 错误率(%) A1 A2 A3 A1 62 4 2 68 8.82 A2 1 41 1 43 4.65 A3 1 0 19 20 5.00 合计

40、64 45 22 131 6.878/2/202451生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 刀切法考核结果 判别分类 原分类 合计 错误率(%) A1 A2 A3 A1 60 6 2 68 11.76 A2 2 40 1 43 6.98 A3 1 0 19 20 5.00 合计 63 46 22 131 9.168/2/202452生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 前瞻性考核结果 判别分类 原分类 合计 错误率(%) A1 A2 A3 A1 14 1 0 15 6.67 A2 1 9 1 11 18

41、.18 A3 0 0 5 5 0.00 合计 15 10 6 31 9.688/2/202453生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法最大似然法判别适用于定性指标的两类和多类判别适用于定性指标的两类和多类判别.似然函数方程似然函数方程: Xm: x1,x2.m个判别变量个判别变量.Yk: y1,y2 .k个类型例数个类型例数. S :个体为某种状态个体为某种状态(条件条件).P=P=个体在某状态的条件概率个体在某状态的条件概率个体在某状态的条件概率个体在某状态的条件概率8/2/202454生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生

42、物医学研究的统计方法2.判别规则判别规则:原理原理: 根据独立事件概率乘法原理进行判别。根据独立事件概率乘法原理进行判别。 在计算个体在计算个体k个似然函数个似然函数,其中概率最大的其中概率最大的p, 判个体为第判个体为第k类。类。有人用有人用7个指标对个指标对4种类型阑尾炎的鉴别诊断种类型阑尾炎的鉴别诊断,收集收集5668例确诊的病史数据:例确诊的病史数据:8/2/202455生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法5668例不同型阑尾炎症状发生频率%变量变量 症状症状 卡他性卡他性 蜂窝炎蜂窝炎 坏疽坏疽 腹膜炎腹膜炎 Sl Y1 Y2 Y3 Y4

43、X1 右下右下 57 34 35 21腹痛腹痛 下腹下腹 15 13 12 27部位部位 上上 腹腹 12 35 35 34 脐周脐周 12 10 9 6 全腹全腹 4 8 9 12X2 恶心恶心 (-)(-) 73 33 8 13呕吐呕吐 (+)(-) 16 30 37 22 (+) 11 37 55 651 10 00 0%8/2/202456生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法例:对某个新个体做判别(讲义388页)症状与体征症状与体征 变量变量 某病例的症状某病例的症状腹疼部位腹疼部位 x1 右下腹右下腹呕吐呕吐 x2 有有排便排便 x3 正

44、常正常腹部压痛腹部压痛 x4 右下部右下部腹部肌防御腹部肌防御 x5 有有体温体温 x6 36.6白细胞白细胞 x7 23.7(单位单位)8/2/202457生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法某病例根据最大似然法和判别规则该病例预测为第该病例预测为第3类类 - 坏疽型坏疽型该法主要得到该法主要得到 表表18-3条件概率条件概率,要求例数较多要求例数较多.8/2/202458生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法二类判别及其与回归的关系8/2/202459生物医学研究的统计方法之十七判别分析 生物医学研究

45、的统计方法生物医学研究的统计方法8/2/202460生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 二类判别也可用回归分析来解决 -1当某样品属A1类时例如定义 y= 1当某样品属A2类时再用逐步回归分析,得到回归方程。 该回归方程可作为判别函数用于判别分类,本例中的判别准则为y0时判为A2类。通过简单的计算,该判别函数可与事先概率相等(或不考虑 )的逐步判别分析得到的结果化成一致。8/2/202461生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法用于判别分析的用于判别分析的SASSAS过程及其应用实例过程及其应用实例 (

46、一)STEPDISC过程的使用 1. 功能 STEPDISC过程用于逐步判别分析中对变量的剔选。本过程不能计算判别函数。用剔选后得到的变量再调用DISCRIM过程计算判别函数等。 2. 语句 PROC STEPDISC 选择项; CLASS 变量; VAR 变量;8/2/202462生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法3. 语句说明 (1)PROC STEPDISC语句中主要的选择项如下:DATA=SAS数据集名 指定用于分析的SAS数据集,即训练样本SLENTRY=P值,指定选入方程的显著性水平,默认值为0.15SLSTAY=P值, 指定剔出方程

47、的显著性水平,默认值为0.15START=n值, 指定VAR语句中前n个变量先进入方程,然后 再开始剔选INCLUDE=n值,指定VAR语句中前n个变量必须包含在方程中SIMPLE, 打印各变量总的及每一类内的简单描述性统计量 (2)CLASS语句指定判别分析用的分类变量名,该变量可以是数字型, 也可以是字符型。 (3)VAR语句指定判别分析用的各指标的变量名。 8/2/202463生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法(二)DISCRIM过程的使用 1. 功能 DISCRIM过程用于判别分析,计算判别函数,进行组内和组外考核等。该过程不能剔选变量。

48、 2. 语句 PROC DISCRIM 选择项; CLASS 变量; VAR 变量; PRIORS 选择项: 8/2/202464生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 3. 语句说明 (1)PROC DISCRIM语句中主要的选择项如下:DATA=SAS数据集名 指定用于训练样本的SAS数据集TESTDATA= SAS数据集名 指定用于组外考核的SAS数据集SIMPLE, 打印训练样本中各变量总的及每一类内的简单 描述性统计量THRESHOLD=P值,指定判别分类时最小的可接受的事后概率P 默认值为0CROSSVALIDATE 要求进行刀切法考核

49、8/2/202465生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法 (2)CLASS语句指定判别分析用的分类变量名,该变量可以是数字型, 也可以是字符型。 (3)VAR语句指定判别分析用的各指标的变量名 (4)PRIORS语句指定各类事先概率值,可有如下选择项 EQUAL 各类事先概率值相等,这是默认值 PROP 各类事先概率值取训练样本中各类所占比例 类别变量的输出格式:值1=P1,值2=P2,8/2/202466生物医学研究的统计方法之十七判别分析 生物医学研究的统计方法生物医学研究的统计方法Thank you!8/2/202467生物医学研究的统计方法之十七判别分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 药学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号