Logistic回归分析的判别预测功能及其应用

资源描述

《Logistic回归分析的判别预测功能及其应用》由会员分享，可在线阅读，更多相关《Logistic回归分析的判别预测功能及其应用（9页珍藏版）》请在金锄头文库上搜索。

1、1Logistic 回归分析的判别预测功能及其应用【摘要】目的：介绍 Logistic 回归模型在判别分析中的应用。方法：结合实例介绍 Logistic 回归的判别功能的思想、原理、条件和步骤及其在医学领域的应用前景。结果：Logistic 回归应用于判别分析时，显示出了较高的准确性和较好的预测效果。结论：Logistic 回归在定性和半定量资料的判别和预测方面有一定的优势，结合计算机网络技术的发展在医学领域有较好的应用前景。【关键词】 Logistic 回归；判别分析；预测；医学应用Logistic 回归分析在医学研究中应用广泛。目前主要是用于流行病学研究中危险因素的筛选，但它

2、同时具有良好的判别和预测功能，尤其是在资料类型不能满足 Fisher 判别和 Bayes 判别的条件时，更显示出 Logistic 回归判别的优势和效能。本研究对 Logistic回归方程的判别分析进行了探讨，并用一实例介绍其应用。1 多元 Logistic 回归模型介绍在多元线性回归模型中，因变量 y 的取值范围是（-,+ ），具体取值取决于自变量的取值范围，而在疾病的危险度分析中，因变2量是二分类变量，又称 0-1 变量，如发病（y=1）与不发病（y=0）。用率 P 作为因变量，则 P 的取值范围为（0，1），此时要用自变量的线性组合进行变量的筛选、作用大小的比较和自变量交互作用的研

3、究，就必须通过一个函数关系将因变量 P 和自变量的线性组合联系起来，这个函数关系便是 Logit 变换，具体如下：设 P 为暴露因素为 x 时个体发病的概率，则发病的概率 P 与未发病的概率 1-P 之比称为优势比，LogitP 定义为优势比的对数：LogitP=ln(p1-p)，此时 LogitP 的取值范围为（-,+）, 多元Logistic 回归模型定义为： LogitP=+1x1+2x2+ +mxm （m 为自变量个数）(1)将 LogitP 看成因变量，Logistic 回归就与多元线性回归的形式是一样的1，2 。2 Logistic 回归的判别预测功能及用法在 Bayes 判别分析

4、中，其后验概率的计算公式为: P(D=1|x)=exp(0+1x1+ +pxp)1+exp(0+1x1+ +pxp)(2)此公式和 Logistic 模型的表达式是完全相同的，其区别在于Bayes 判别分析是在各类内指标服从多元正态分布的前提下用判别3函数法估计参数，并且需要知道先验概率，而 Logistic 回归估计参数却没有这一要求。它是直接根据指标情况通过回归模型求出某一事件发生的估计概率。因此，Logistic 回归不仅具有判别和预测功能，而且限制条件少，资料要求相对低，适用于定性的或半定量的指标，估计各种自变量组合条件下应变量各级别的发生概率，在临床判别诊断和危险人群筛检中，应用前景

5、广阔。在 Logistic 回归中，对两类判别问题，记第一类 y=0，第二类y=1，则根据指标可以建立 LogitP 关于自变量 x1,x2 xm 的Logistic 回归方程：LogitP=b0+b1x1+b2x2+ +bmxm(3)得概率估计公式：=eb0+b1x1+b2x2+ +bmxm1+eb0+b1x1+b2x2+ +bmxm(4)根据估计概率进行判别归类，如果估计概率小于 0.5，则判为第一类；如果估计概率大于 0.5，则判为第二类；如果等于 0.5，暂不归类。对于多分类（类别 k2）判别问题，需先建立多分类结果的 Logistic 回归方程： LogitPk=lnP(y=k|x)

6、P(y=0|x)=bk+bk1x1+bk2x2+bk3x3 + +bkpxp=gk(x)(5) k=1,2,k-1各类结果的条件概率为：Pk=Py=k|x=egk(x)k-1i=0egk(x), k=1,2,k-1(6)4分别计算各样品属于各类之概率，并根据概率大小判别归类，即属于哪一类的概率最大就判别为哪一类2，3 ，7 。3 Logistic 回归判别法的应用条件应用 Logistic 回归做判别预测时，应当注意资料的分布类型、资料的收集方法，在正确选择模型和了解模型中参数的意义的基础上做出判别预测。(1) 非条件 Logistic 回归适合于队列研究、病例对照研究，同样也适合于现况调查

7、中的病因学研究。按 3 种不同抽样方式作Logistic 回归，除病例对照研究资料的常数项与另外两种不同外，回归系数的意义相同。因此，队列研究和现况调查的非条件Logistic 回归可直接计算预测概率；而病例对照研究的非条件Logistic 回归得不到的估计值，在得到模型估计参数后，需要对常数项进行校正，即：=-lnn1q0n0q1(7)其中 n1 和 n0 分别为病例和对照的样本含量， q1 和 q0 为特定人群中发病和不发病的先验概率，可以根据经验作出估计。然后再用调整后的作为 Logistic 回归方程的常数项就可以计算预测概率。5(2) 条件 Logistic 回归适用于配比

8、资料的 Logistic 分析。在条件Logistic 回归模型中，常数项 i 是配比组特有的，它的意义是该配比组的各自变量均为 0 时的基线风险，不同的配比组 i 可以各不相同。在模型建立的过程中，i 因为同一层病例和对照的基线患病率相同被抵消了，因此条件 Logistic 回归只估计了表示危险因素作用的 m 值，即 LogitP=1x1+2x2+ +mxm(8)因为没有常数项，条件 Logistic 回归不能直接作概率预测，但可以通过估计比数比 OR 起到预测的作用。在 Logistic 回归中，回归系数 m 与衡量危险因素作用大小的重要指标 OR 有一个对应的关系，如比较某一危险因素的两

9、组不同暴露水平 xm （暴露组）和xm （对照组）的发病情况，则该因素的比数比为OR=exp bm(xm-xm) （9 ）特殊的，如果取暴露组水平 xm =1，对照组水平 xm =0，则暴露组与对照组发病的比数比 OR=exp(bm) ，多变量联合比数比为各变量比数比的乘积。对于某一个体，可以先确定各个危险因素的暴露等级，明确其所属暴露组，然后求该暴露组与对照组的多变量联合比数比。根据多变量联合比数比的大小可以估计该个体所属暴露组与对照组相比可能的发病情况4 。4 应用举例6在研究医院抢救急性心肌梗死（AMI）病人能否成功的危险因素的调查中，某医院收集了 5 年中该院所有的 AMI 病人的抢救

10、病史，共 200 例，其中 P=0 表示抢救成功，P=1 表示抢救未能成功而死亡；x1=1 表示抢救前已发生休克，x1=0 表示抢救前未发生休克；x2=1 表示抢救前发生心力衰竭，x2=0 表示抢救前未发生心力衰竭；x3=1 表示病人从开始 AMI 症状到抢救已超过 12 小时；x3=0 表示病人从开始 AMI 症状到抢救未超过 12 小时。本例将医院所有 AMI病人看作是 AMI 总体中的一个随机样本，属于横断面研究，同时考虑 3 个变量 x1,x2,x3 的 Logistic 回归，资料经统计软件计算，得到相应的 Logistic 回归表达式为： Logit(P)=-2.0858+1.10

11、98x1+0.7028x2+0.9751x3(10)用似然比检验对模型进行拟合优度检验，经检验 P=0.09，无统计学意义，说明该模型拟合资料较好，可以用作预测。如某AMI 病人在有 AMI 症状后 5 小时送到医院时，未发生休克但已有心衰症状，用上述模型计算得到抢救失败的概率是 0.2001，抢救成功的概率为 1-0.2001=0.7999，因此预测该病人抢救成功；另一病人在有 AMI 症状后 18 小时送到医院，已发生休克和心衰症状，用上述模型计算抢救失败的概率为 0.669，抢救成功的概率为 1-0.669=0.331，因此预测该病人抢救可能失败 3 。75 Logistic 回归的判别

12、效能在判别预测问题上，我们不能说哪一种判别方法最好。无论用哪种判别方法去判断样品的归属问题，均不会永远作出正确的判断。因为任何一种判别方法，所采用的训练样本总是有局限性的，不能完全准确地反映总体信息，所以依据训练样本得出的判别规则有缺陷是难以避免的。因此，判别效能的提高是一个综合的过程。首先要保证训练样本的代表性，训练样本应最大限度的代表总体情况，才能保证判别的效果；其次是指标的选择，应通过筛选挑出较好的指标来建立方程，增加判别函数的稳定性，从而提高判别效果；最后是根据资料的类型选择合适的判别方法。如果方法选择不对，则会大大降低判别的准确率。Logistic 回归在定性和半定量资料的判别和预测

13、方面有一定的优势。在应用 Logistic 回归判别时，应注意不同 Logistic 回归模型的应用条件，在保证训练样本代表性的基础上，用逐步回归过程对指标进行筛选，挑选出对应变量作用最大的指标建立回归方程，通过组内回代、组外考核和拟和优度检验等方法检验判别效果。由上述讨论可知，判别分析在临床判别诊断和危险人群筛检中，方便快捷、准确性高。随着计算机的普及、动态交互网络技术和数据库技术的飞速发展以及人们获取数据手段的多样化，各种判别方8法在计算机辅助诊断和网上咨询中会有广泛的应用前景和发展空间，并发挥不可估量的作用6 。【参考文献】1 陈景武.卫生管理多因素分析. 山东大学出版社，1994.2 陈锋. 医用多元统计分析方法 .中国卫生统计出版社， 2001. 3 方积乾.医学统计学与电脑试验. 第 2 版. 上海科学技术出版社，2001.4 柳青, 等.中国医学统计百科全书多元统计分册.人民卫生出版社，2004. 5 张文彤.SPSS 统计分析教程.北京希望电子出版社，2002.6 李丽霞,等.BP 神经网络与 logistic 回归的比较研究. 中国卫生统计,2005,22(3):138140.7 李晓毅. Bayes 判别分析及其在疾病诊断中的应用.中国卫生统计,2004,21(6):356357.

展开阅读全文