logistic回归分析（研究材料）

资源描述

《logistic回归分析（研究材料）》由会员分享，可在线阅读，更多相关《logistic回归分析（研究材料）（49页珍藏版）》请在金锄头文库上搜索。

1、第十六章 logistic回归分析,logistic回归为概率型非线性回归模型，是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法,1,调研学习,问题提出：医学研究中常研究某因素存在条件下某结果是否发生？以及之间的关系如何？因素（X）疾病结果（Y） x1，x2，x3XK 发生 Y=1 不发生 Y=0 例：暴露因素冠心病结果高血压史(x1)：有或无有或无高血脂史(x2)：有或无吸烟(x3)：有或无,2,调研学习,研究问题可否用多元线性回归方法,1.多元线性回归方法要求 Y 的取值为计量的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线

2、性关系。 3.多元线性回归结果不能回答“发生与否” logistic回归方法补充多元线性回归的不足,3,调研学习,Logistic回归方法,该法研究是当 y 取某值（如y=1）发生的概率（p）与某暴露因素（x）的关系。 P（概率）的取值波动01范围。基本原理：用一组观察数据拟合Logistic模型，揭示若干个x与一个因变量取值的关系，反映y 对x的依存关系,4,调研学习,第一节 logistic回归一、基本概念,1.变量的取值 logistic回归要求应变量（Y）取值为分类变量（两分类或多个分类）自变量（Xi）称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X

3、1， X2， Xm,5,调研学习,2.两值因变量的logistic回归模型方程,一个自变量与Y关系的回归模型如：y：发生=1,未发生=0 x ：有=1，无=0，记为p（y=1/x）表示某暴露因素状态下，结果y=1的概率（P）模型,或,模型描述了应变量p与x的关系,6,调研学习,P概率,1,0.5,Z值,0,1,2,3,1,2,3,图16-1 Logistic回归函数的几何图形,为正值，x越大，结果y=1发生的可能性（p）越大,7,调研学习,几个logistic回归模型方程,8,调研学习,logistic回归模型方程的线性表达,对logistic回归模型的概率（p）做logit变换,截距（

4、常数,回归系数,Y（-至,线形关系,方程如下,9,调研学习,在有多个危险因素（Xi）时,多个变量的logistic回归模型方程的线性表达,或,公式16-2,10,调研学习,2.模型中参数的意义,0（常数项）：暴露因素Xi=0时，个体发病概率与不发病概率之比的自然对数比值,11,调研学习,的含义：某危险因素，暴露水平变化时，即Xi=1与Xi=0相比，发生某结果（如发病）优势比的对数值,P1（y=1/x=1）的概率,P0（y=1/x=0）的概率,12,调研学习,危险因素 Y x= 1 x= 0 发病=1 30（a） 10（ b）不发病=0 70（c） 90（d） a+c b+d 危险因素 Y x

5、= 1 x= 0 发病=1 p1 p0 不发病=0 1-p1 1-p0,有暴露因素人群中发病的比例,13,调研学习,反映了在其他变量固定后，X=1与x=0相比发生Y事件的对数优势比。回归系数与OR X与Y的关联 =0，OR=1，无关 1，OR1 ，有关，危险因素 1，OR1，有关，保护因子事件发生率很小，ORRR,多元回归模型的的概念,14,调研学习,二、logistic回归模型的参数估计,1. 模型中的参数（i）估计通常用最大似然函数 (maximum likelihood estimate， MLE)估计，由统计软件包完成。(讲义259页,15,调研学习,2. 优势比(OR

6、)及可信区间的估计,如X=1，0两分类，则OR的1-可信区间估计公式,为回归系数的标准误,公式16-10,16,调研学习,例：讲义表16-1资料,一个研究吸烟、饮酒与食道癌关系的病例对照资料（886例），试作logistic回归分析。变量的赋值,17,调研学习,经logistic回归计算后得 b0 =-0.9099， b1 =0.8856， b2 =0.5261,方程表达,控制饮酒因素后，吸烟与不吸烟相比患食管癌的优势比为2.4倍,18,调研学习,OR的可信区间估计,吸烟与不吸烟患食管癌OR的95%可信区间,饮酒与不饮酒OR的95%可信区间,19,调研学习,三、Logistic 回归模型的假

7、设检验,1.检验一：对建立的整个模型做检验。说明自变量对Y的作用是否有统计意义。检验方法（讲义260-261页） 1）似然比检验 (likelihood ratio test) 2）Wald检验 3）计分检验(score test,20,调研学习,例表16-1吸烟、饮酒与食管癌资料（SAS软件计算,1.对建立的整个模型做检验。 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr 似然比 68.5457 2 .0001 计分检验 67.0712 2 .0001 Wald检验 64.2784 2 .0001,21,调研学习,

8、2.检验二,检验模型中某是否对Y有作用。检验假设：检验统计量：主要为Wald检验（SAS软件）例；在大样本时，三方法结果一致,公式16-13,1的2,22,调研学习,例表16-1资料，对各x的做检验（wald检验,参数估计值标准误 Chi-Squa Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008,Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits 吸烟x

9、1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303,23,调研学习,似然比检验（讲义,对某个做检验，检验统计量（G,包括p个自变量的对数似然函数,包括 l 个自变量的对数似然函数,G服从自由度（d）=p-l的2分布,24,调研学习,似然比检验对做检验,例：X1为吸烟，X2为饮酒，检验饮酒与食管癌关系，H0：2=0，H1：20,G 3.84，p0.05，说明调整吸烟因素后，饮酒与食管癌有关系,25,调研学习,四、变量筛选,目的；将回归系数有显著意义的自变量选入模型中，作用不显著的自变量则排除在外。变量筛选算法有：前进法、后退法和逐步法（stepwise）。

10、例：讲义例16-2，用逐步法选入变量的显著水准为0.10，变量保留在方程的水准为0.15 例：16-2讲义261-263页,26,调研学习,表16-4 进入方程的自变量及参数估计,变量 Sb Wald2 P 标准 OR 常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.06 X8 1.947 0.847 5.29 0.0215 0.523 7.01 标准回归系数（b）

11、比较各自变量对Y 的相对贡献,27,调研学习,第二节条件Logistic回归,概念：用配对设计获得病例对照研究资料，计算的Logistic回归模型为条件Logistic回归。成组（未配对）设计的病例对照研究资料，计算的Logistic回归模型为非条件Logistic回归。例：见265页区别：条件Logistic回归的参数估计无常数项（0），主要用于危险因素的分析,28,调研学习,第三节 logistic回归的应用及注意事项,一、logistic回归的应用 1.疾病（某结果）的危险因素分析和筛选用回归模型中的回归系数（i）和OR说明危险因素与疾病的关系。例：讲义例16-1，16-

12、2，16-3 适用的资料：前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。三类研究计算的logistic 回归模型的意义是一致。仅常数项不同。（证明略,29,调研学习,Logistic回归的应用,2.校正混杂因素，对疗效做评价在临床研究和疗效的评价，组间某些因素构成不一致干扰疗效分析，通过该法可控制非处理因素，正确评价疗效。 3.预测与判别预测个体在某因素存在条件下，发生某事件（发病）的概率，为进一步治疗提供依据,30,调研学习,表5-4甲乙两疗法某病治愈率%比较,病型甲疗法乙疗法病人治愈治愈病人治愈治愈数数率数数率普通型 300 180 60.

13、0 100 65 65.0 重型 100 35 35.0 300 125 41.7 合计 400 215 53.8 400 190 47.5,例,例1,31,调研学习,表5-5直接法计算标准化治愈率,病型标准甲疗法乙疗法治疗原治预期原治预期人数愈率治愈数愈率治愈数普通型 400 60.0 240 65.0 260 重型 400 35.0 140 41.7 167 合计 800 380 427 调整率（标准化率,32,调研学习,X1疗法（甲=0，乙=1）X2病情（轻=1，重=0）Y疗效（Y=1有效，Y=0无效,LOGISTIC回归计算 Standard Wald Pa

14、rameter Estimate Error Chi-Squa Pr Intercept -0.6453 0.1653 15.24 .0001 疗法 0.2482 0.1699 2.13 0.1442 病情 0.9900 0.1699 33.93 .0001 Odds Ratio Estimate Point 95% Wald Effect Estimate Confidence Limits 疗法 1.282 0.919 1.788 病情 2.691 1.929 3.755,33,调研学习,例2 性别、两种药物对某病疗效的研究,不考虑性别的影响，疗效与药物的logistic回归2=10.23

15、，p=0.0014，OR=4.46,34,调研学习,考虑性别、药物对疗效的作用,Standard Wald Parame Estimate Error Chi-Square Pr 常数 -1.9037 0.5982 10.127 0.0015 性别 1.4685 0.575 6.508 0.0107 药物 1.7816 0.518 11.794 0.0006 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits x1 性别 4.343 1.405 13.421 x2 药物 5.939 2.149 16.417

16、,35,调研学习,结论：性别和药物的回归系数都均有统计意义。说明女性或用新药的疗效较优。用Logistic模型方程对个体的疗效做预测,设如女性病人，x1=1，用新药x2=1，有效的概率p=0.79 如男性病人x1=0，用新药x2=1，有效的概率p=0.4695,36,调研学习,二、Logistic回归应用的注意事项,1.模型中自变量的取值自变量（X）可为计量数据、分类数据和等级数据。计量数据常重新划为有序组段，OR的实际意义较大。例：年龄（岁，x1,37,调研学习,数据的几种赋值形式,1）两分类变量，赋值为：有=1，无=0 2）有序变量，赋值；无=0，少=1，中=2，多=3 例；年龄 45=1 45-54=2 55-64=3 65=4 3.）多分类无序变量：赋值为：哑变量（dummy variable）形式见例：注：变量取值不同，方程的系数和符号将发生变化,38,调研学习,表16-2 冠心病8个可能的危险因素与赋值（讲义262页,39,调研学习,表16-9 年龄（X）化为哑变量的赋值,方程1：有序变量方程,含义：x每增加1个单位（10岁），发病的lnOR平均增加1,40

展开阅读全文

logistic回归分析（研究材料）

最新文档