Logistic回归分析分析课件

资源描述

《Logistic回归分析分析课件》由会员分享，可在线阅读，更多相关《Logistic回归分析分析课件（40页珍藏版）》请在金锄头文库上搜索。

1、391第十六章第十六章logistic回归分析回归分析(Logistic Regression)392Content?Logistic regression ?Conditional logistic regression ?Application393讲述内容讲述内容: :第一节 logistic回归第二节条件logistic回归第三节 logistic回归的应用及其注意事项394目的：作出以多个自变量（危险因素）估计应变量（结果因素）的logistic回归方程。属于概率型非线性回归。资料：1. 应变量为反映某现象发生与不发生的二值变量；2. 自变量宜全部或大部分为分类变量，可有少数数值变

2、量。分类变量要数量化。395用途：研究某种疾病或现象发生和多个危险因素（或保护因子）的数量关系。用检验（或u检验）的局限性：1.只能研究1个危险因素；2.只能得出定性结论。2?396种类:1. 成组（非条件）logistic回归方程。2. 配对（条件）logistic回归方程。397第一节第一节logistic回归回归（非条件logistic 回归）398一、基本概念1 0 Y?发生应变量未发生12,mX XXL自变量，在m个自变量的作用下阳性结果发生的概率记作 :),| 1(21mXXXYPP?1P?039911ZPe?若令:mmXXXZ?2211001122ln=1mmPXXXP?L01

3、12211 exp ()mmPXXX?L回归模型其中0?为常数项， m?,21?为回归系数。概率P：01，logitP：。取值范围logitP3910图图16-1logistic函数的图形00.51-4-3-2-1012340.5PZ:, 0, : 0, 0.5, 1PZ?3911模型参数的意义01122ln=logit1mmPXXXPP?L常数项表示暴露剂量为0时个体发病与不发病概率之比的自然对数。回归系数表示自变量改变一个单位时logitP 的改变量。0?), 2, 1(mjj?jX3912流行病学衡量危险因素作用大小的比数比例指标。指标。计算公式为：计算公式为：1100/(1)/(1

4、)jPPORPP?优势比优势比OR(odds ratio)式中1P和0P分别表示在jX取值为1c及0c时的发病概率，jOR称作多变量调整后的优势比，表示扣除了其他自变量影响后危险因素的作用。 3913111000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc?对比某一危险因素两个不同暴露水平1cXj?与0cXj?的发病情况（假定其它因素的水平相同），其优势比的自然对数为: 与与 logistic P 的关系的关系：39140, 1 exp, 0, 1 0, 1 jjjjjjOROROROR?无作用危险因保子护因子则

5、有101 , 1, 0 jccX?暴非若暴露露由于jOR值与模型中的常数项0?无关，0?在危险因素分析中通常视其为无效参数。 1100/(1) 1, /(1)PPPORRRPP?当则有10 exp()jjORcc?即3915 11(1)iinYYiiiLPP? 1lnln(1) ln(1)niiiiiLYPYP? mbbbb,210? 二、logistic回归模型的参数估计回归模型的参数估计1. 参数估计参数估计原理：最大似然原理：最大似然( likelihood )估计3916 )(exp?01ccbROjj?若自变量jX只有暴露和非暴露两个水平，则优势比jOR的?1可信区间估计公式为 )

6、exp(2/jbjSub?2. 优势比估计可反映某一因素两个不同水平（c1，c0）的优势比。3917例16-1 表16-1是一个研究吸烟、饮酒与食道癌关系的病例对照资料，试作 logistic回归分析。121 0 1 0 1 0 XXY?吸烟不吸烟饮酒不饮酒病例对照确定各变量编码3918分层吸烟饮酒观察例数阳性数阴性数 g X1 X2 ng dg ng? dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表16-1 吸烟与食道癌关系的病例对照调查资料3919logistic 回归计算后得 0

7、b=-0.9099，0bS=0.1358；1b=0.8856， 1bS=0.1500；2b=0.5261，2bS=0.1572 吸烟与不吸烟的优势比：11?expexp0.8856=2.42ORb? 1OR的 95? 可信区间 : 110.05 / 2expexp(0.88561.960.1500)(1.81,3.25)bbuS? 饮酒与不饮酒的优势比: 22?expexp0.52611.69ORb? 2OR的 95? 可信区间 : 22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS? 经logistic回归计算后得:经 logistic 回归计算后得

8、 0b=-0.9099 ，0bS=0.1358 ；1b=0.8856 ， 1bS=0.1500 ；2b=0.5261 ，2bS=0.1572 吸烟与不吸烟的优势比：11?expexp 0.8856=2.42ORb? 1OR的 95? 可信区间: 110.05 / 2expexp(0.88561.960.1500)(1.81,3.25)bbuS? 饮酒与不饮酒的优势比: 22?expexp 0.52611.69ORb? 2OR的 95? 可信区间: 22exp(1.96)exp(0.52611.960.1572)(1.24, 2.30)bbS? logistic 回归计算后得 0b=-0.909

9、9，0bS=0.1358；1b=0.8856， 1bS=0.1500；2b=0.5261，2bS=0.1572 吸烟与不吸烟的优势比：11?expexp0.8856=2.42ORb? 1OR的 95? 可信区间 : 110.05 / 2expexp(0.88561.960.1500)(1.81,3.25)bbuS? 饮酒与不饮酒的优势比: 22?expexp0.52611.69ORb? 2OR的 95? 可信区间 : 22exp(1.96)exp(0.52611.960.1572)(1.24, 2.30)bbS? logistic 回归计算后得 0b=-0.9099，0bS=0.1358；1b

10、=0.8856， 1bS=0.1500；2b=0.5261，2bS=0.1572 吸烟与不吸烟的优势比：11?expexp0.8856=2.42ORb? 1OR的 95? 可信区间 : 110.05 / 2expexp(0.88561.960.1500)(1.81,3.25)bbuS? 饮酒与不饮酒的优势比: 22?expexp0.52611.69ORb? 2OR的 95? 可信区间 : 22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS? logistic 回归计算后得 0b=-0.9099，0bS=0.1358；1b=0.8851bS=0.1500

11、；2b=0.5261，2bS=0.15吸烟与不吸烟的优势比：1?expOR ?1OR的 95? 可信区间 : 110.05 /2expexp(0.88561.960bbuS?饮酒与不饮酒的优势比: 22?expexp0.52611.69ORb? 2OR的 95? 可信区间 : 22exp(1.96)exp(0.52611.960bbS?22exp(1.96)exp(0.5261 1.96 0.1572)(1.24,2.30)bbS?2OR的95? 可信区间:3920三、logistic回归模型的假设检验Wald 检验将各参数的估计值jb与 0 比较，而用它的标准误jbS作为参照，检验统计量为

12、 2, 1jjjjbbbbuSS?2 或 221220111022120.8856 34.860.15000.5261 11.200 :0, :0, 0.05,:0, :0,.157 005,2.HHHH? ?2值均大于 3.84,说明食道癌与吸烟、饮酒有关系，结论同前。2.1.似然比检验3921方法：前进法、后退法和逐步法。检验统计量：不是 F 统计量，而是似然比统计量、Wald 统计量和计分统计量之一。四、变量筛选例16-2为了探讨冠心病发生的有关危险因素，对 26例冠心病病人和28例对照者进行病例?对照研究，各因素的说明及资料见表 16-2和表16-3。试用logistic 逐步回归分析

13、方法筛选危险因素。)15. 0,10. 0(?出入?3922因素变量名赋值说明年龄(岁) X1 45=1, 45?54=2, 55 ?64=3, 65 ?=4 高血压史 X2 无=0, 有=1 高血压家族史 X3 无=0, 有=1 吸烟 X4 不吸=0, 吸=1 高血脂史 X5 无=0, 有=1 动物脂肪摄入 X6 低=0, 高=1 体重指数 (BMI) X7 24=1, 24?26=2, 26?=3 A型性格 X8 否=0, 是=1 冠心病 Y 对照=0，病例 =1 表16-2 冠心病8个可能的危险因素与赋值3923序号 X1 X2 X3 X4 X5 X6 X7 X8 Y 1 3 1

14、0 1 0 0 1 1 0 2 2 0 1 1 0 0 1 0 0 3 2 1 0 1 0 0 1 0 0 4 2 0 0 1 0 0 1 0 0 5 3 0 0 1 0 1 1 1 0 6 3 0 1 1 0 0 2 1 0 7 2 0 1 0 0 0 1 0 0 8 3 0 1 1 1 0 1 0 0 9 2 0 0 0 0 0 1 1 0 10 1 0 0 1 0 0 1 0 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2 0 1 1 0 1 2 1 1 52 2 1 1 1 0 0 2 1 1 53

15、2 1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1 表表16-3 冠心病危险因素的病例?对照调查资料3924表16-4 例16-2进入方程中的自变量及有关参数的估计值选入变量回归系数 b 标准误 bS Wald 2? P 值标准回归系数 b ?OR 常数项 -4.705 1.543 9.30 0.0023 - - X1 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.00 X8 1.947

16、0.847 5.29 0.0215 0.523 7.01 学会看结果！学会看结果！3925 最终进入 logistic 回归模型的危险因素有4 个，它们分别是年龄增高)(1X、高血脂史)(5X、动物脂肪摄入量)(6X和 A 型性格)(8X。标准回归系数?3/?jjjSbb?可以用来比较各因素的相对重要性，jS为变量jX的标准差，?=3.1416。 3926配对资料。最常用的是每组中有一个病例和若干个对照，即 1: M 配对研究（一般) 3?M。一、原理第二节条件logistic回归3927匹配组组内编号* 应变量危险因素 i t Y X1 X2 Xm 1 0 1 X101 X 10

17、2 X 10m 1 0 X 111 X 112 X 11m 2 0 X 121 X 122 X 12m M M M M M M 0 X 1M1 X 1M2 X 1Mm M M M M M n 0 1 Xn01 X n02 X n0m 1 0 X n11 X n12 X n1m 2 0 X n21 X n22 X n2m M M M M M M 0 X nM1 X nM2 X nMm 表16-5 1: M 条件logistic回归数据的格式* t = 0 为病例，其他为对照3928条件 logistic模型0112211exp(.)iimmPXXX? 1,2, , in?LiP 表示第 i 层在

18、一组危险因素作用下发病的概率 , i0? 表示各层的效应，m?,21? 为待估计的参数。与非条件 logistic 回归模型不同之处在常数项上，不同匹配组的i 0?可以各不相同，但内在假定了每个危险因素的致病能力在不同匹配组中相同。 3929二、应用实例例16-3 某北方城市研究喉癌发病的危险因素，用1:2配对的病例 ?对照研究方法进行了调查。现选取了6个可能的危险因素并节录 25对数据，各因素的赋值说明见表 16-6 ，资料列于表16-7 。试作条件logistic逐步回归分析。表 16-6 喉癌的危险因素与赋值说明因素变量名赋值说明咽炎 X1 无=1, 偶尔=2, 经常=3

19、吸烟量(支/日) X2 0=1, 1 ?4=2, 5 ?9=3, 10 ?20=4, 20 ?=5 声嘶史 X3 无=1, 偶尔=2, 经常=3 摄食新鲜蔬菜 X4 少=1, 经常=2, 每天=3 摄食水果 X5 很少=1, 少量=2, 经常=3 癌症家族史 X6 无=0, 有=1 是否患喉癌 Y 病例=1, 对照=0 )15. 0,10. 0(?出入?3930表16-7 喉癌1:2配对病例?对照调查资料整理表P344:3931表16-8 例16-3进入方程中的自变量及有关参数的估计值选入的 4 个危险因素分别为吸烟量)(2X、有声嘶史)(3X、是否经常摄食新鲜蔬菜)(4X及癌症家族史)

20、(6X，其中摄食新鲜蔬菜为保护因素)0(4?b。采用逐步法6个危险因素变量筛选4个进方程，结果见表16-9。选入变量回归系数 b 标准误 Sb Wald2? RO? P 值 X2 1.4869 0.5506 7.29 4.42 0.0069 X3 1.9166 0.9444 4.12 6.80 0.0424 X4 3.7641 1.8251 4.25 0.02 0.0392 X6 3.6321 1.8657 3.79 37.79 0.0516 3932一、logistic回归的应用1流行病学危险因素分析logistic回归分析的特点之一是参数意义清楚，即得到某一因素的回归系数后，可以很快估

21、计出这一因素在不同水平下的优势比或近似相对危险度，因此非常适合于流行病学研究。 logistic回归既适合于队列研究(cohort study) ，也适合于病例-对照研究(case-control study), 同样还可以用于断面研究 (cross-sectional study)第三节 logistic回归的应用及其注意事项39332临床试验数据分析临床试验的目的大多是为了评价某种药物或治疗方法的效果，如果有其他影响效果的非处理因素(如年龄、病情等)在试验组和对照组中分布不均衡，就有可能夸大或掩盖试验组的治疗效果。尽管在分组时要求按随机化原则分配，但由于样本含量有限，非处理因素在试验组和对

22、照组内的分布仍有可能不均衡，需要在分析阶段对构成混杂的非处理因素进行调整。当评价指标为二值变量时(如有效和无效)，可以利用logistic回归分析得到调整后的药物评价结果。对于按分层设计的临床试验可以用相同的方法对分层因素进行调整和分析。39343分析药物或毒物的剂量反应在一些药物或毒物效价的剂量-反应实验研究中，每一只动物药物耐受量可能有很大的不同，不同剂量使动物发生“阳性反应”的概率分布常呈正偏态，将剂量取对数后则概率分布接近正态分布。由于正态分布函数与 logistic分布函数十分接近，如果用P表示在剂量为X时的阳性率，可用下述模型表示它们之间的关系)ln(exp110XP?用这一模型可

23、以求出任一剂量的阳性反应率传统的一些方法往往对实验设计有严格的要求，如剂量按等比级传统的一些方法往往对实验设计有严格的要求，如剂量按等比级数排列，各剂量组的例数必须相同等, 采用logistic 回归的方法则没有这些限制。39354预测与判别logistic回归是一个概率型模型，因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标，判断患某种疾病的概率有多大。关于判别问题见第十八章。3936二、logistic回归应用的注意事项1变量的取值形式 (同15章) 2样本含量 pn20?（自变量个数） 3模型评价 4多分类logistic 回归 ?对模型中自变量对模型中自变量对

24、回归方程拟合优度检验对回归方程拟合优度检验3937本章小结：目的：作出以多个自变量（危险因素）估计应变量（结果因素）的logistic回归方程。属于概率型非线性回归。资料：1. 应变量为反映某现象发生与不发生的二值变量；2. 自变量宜全部或大部分为分类变量，可有少数数值变量。分类变量要数量化。用途：研究某种疾病或现象发生和多个危险因素（或保护因子）的数量关系。种类: 1. 成组（非条件）logistic回归方程。2. 配对（条件）logistic回归方程。3938课后应用思考题：为了分析影响医院抢救急性心肌梗死（AMI）患者能否成功的因素，某医院收集了5年中所有的AMI患者的抢救病史（有关因

25、素很多，由于篇幅有限，本例仅列出3个），共200例见下表。其中P=0表示抢救成功，P=1表示抢救未成功而死亡；X1=1表示抢救前已发生休克， X1=0表示抢救前未发生休克； X2=1表示抢救前已发生心衰， X2=0表示抢救前未发生心衰； X3=1表示患者从开始AMI症状到抢救时已超过12小时，X3=0表示患者从开始AMI症状到抢救时未超过12小时。请问最好采用哪种分析方法？为什么？分析结果有哪些？3939AMI患者的抢救危险因素资料P=0(在医院抢救成功)P=1(在医院抢救未成功而死亡)X1X2X3NX1X2X3N00035000400134001100101701040111901115100171006101610191106110611161116

展开阅读全文

Logistic回归分析分析课件

最新文档