logistic 回归模型

上传人:ji****en 文档编号:110749256 上传时间:2019-10-31 格式:PPT 页数:81 大小:1,007.01KB
返回 下载 相关 举报
logistic 回归模型_第1页
第1页 / 共81页
logistic 回归模型_第2页
第2页 / 共81页
logistic 回归模型_第3页
第3页 / 共81页
logistic 回归模型_第4页
第4页 / 共81页
logistic 回归模型_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《logistic 回归模型》由会员分享,可在线阅读,更多相关《logistic 回归模型(81页珍藏版)》请在金锄头文库上搜索。

1、1,Logistic 回归模型,赵耐青 复旦大学公共卫生学院,2,数据分析的背景,计量资料单因素统计分析 对于两组计量资料的比较,一般采用t检验或秩和检验。 对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析 考虑多因素的影响,对于应变量(反应变量)为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。,3,数据分析的背景,单因素的分类资料统计分析,一般采用Pearson 2进行统计检验,用Odds Ratio及其95%可信区间评价关联程度。 考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型P=a+bx就不合适了,应选用Logistic回归模型进行统计分

2、析。,4,Logistic回归模型,按研究设计分类 非配对设计:非条件Logistic回归模型 配对的病例对照:条件Logistic回归模型 按反应变量分类 二分类Logistic回归模型(常用) 多分类无序Logistic回归模型 多分类有序Logistic回归模型,5,基础知识,通过下例引入和复习相关概念 例如:研究患某疾病与饮酒的关联性 患病率 P1=a/m1 P2=b/m2,6,基础知识,Odds(优势),P越大,则Odds越大;P越小,则Odds越小 并且 0Odds+,7,基础知识,P与Odds一一对应 对于两个Odds的比较,一般用它们的Ratio,并称为Odds Ratio(O

3、R),其定义如下: 其样本估计统计量为,8,基础知识,故比较两个率 比较OR =1? OR1 ? OR1?,9,(二分类)Logistic回归模型,因为0Odds+ 所以 - ln(Odds) + 对ln(Odds)引入类似多重线性回归的表达式,10,Logistic回归模型,记: 故可以写为 也可以写为,11,回归系数的意义,以x1的回归系数1为例 固定其它自变量,比较x1与x1 +1的ln(Odds)变化。 对于x1, 对于x1 +1, 反对数变换得到,12,研究急性心肌梗塞(AMI)患病与饮酒的关系, 采用横断面调查。,实例1,13,实例1,饮酒的患病率和Odds分别为,不饮酒的患病率和

4、Odds分别为,14,实例1的Logistic回归模型,患病(Y=1)的概率为 x=1 表示饮酒,x=0表示不饮酒 回归系数0,1是未知参数,通常用最大似然估计的方法。,15,实例1:患病与未患病的概率,饮酒(x=1),患病概率和未患病概率分别 为 不饮酒(x=0),患病概率和未患病概率分别为,16,实例1:最大似然估计,本例的似然函数 选择0和1使似然函数L达到最大,即最大似然估计。,17,实例1:用Logistic模型进行统计分析,以上述实例资料用Stata统计软件对回归系数进行最大似然估计,得到回归系数估计为 即:,18,Logistic模型的单个回归系数检验,关键是如果0,意味自变量X

5、与Y无关联性。由于的估计存在抽样误差,即使=0,其估计值b一般不为0,故需检验0? H0: 0 H1: 0 0.05 检验统计量 可以证明: H0:0 为真时,z近似服从标准正态分布,即:|z|1.96,P0.05,拒绝H0,19,实例1:用Logistic模型进行统计分析,实例1的回归系数估计为 se(b)=0.1780719, z=b/se=2.31 ,P=0.0210.05 拒绝H0,差异有统计学意义,可认为0。 饮酒与患AMI的关联性为 OR的95%可信区间为(1.06,2.14),20,应用Logistic模型校正混杂作用,实例2:上例没有考虑吸烟情况,故将吸烟作为分层加入,资料如下

6、:,21,实例2:应用Logistic模型 校正混杂作用,从分层的资料表述可知:由于吸烟的混杂作用以致饮酒与AMI患病伴随有关联。 用x1=1和0分别表示饮酒和不饮酒,用x2=1和0分别表示吸烟和不吸烟,Logistic模型表示如下,22,Logistic模型的似然比检验,在多个自变量回归模型中,回归系数检验分为单个回归系数检验和多个回归系数检验。 单个回归系数检验表示其它变量均在模型中的情况下,检验某个回归系数i=0,一般用Wald检验(如实例1)。 多个回归系数检验要用似然比方法(likelihood ratio test),23,Logistic模型的似然比检验,多个回归系数的检验(以实

7、例2为例) H0:1=2=0 H1:1,2不全为0 =0.05 H0为真时,模型为 用最大似然法进行估计,其对数最大似然函数值(似然函数的最大值取对数)记为ln(L0),24,Logistic模型的似然比检验,H1为真时,实例2的模型为 用最大似然法进行估计,其对数最大似然函数值记为ln(L1) 记似然比检验统计量为2ln(L)=2(ln(L1)-ln(L0),25,Logistic模型的似然比检验,可以证明:H0为真时, 2ln(L)近似服从2分布,自由度为需检验的自变量个数,如在实例2中,自由度为2。 如果似然比检验统计量2ln(L) 则拒绝H0。 如果对模型中所有的自变量进行检验,则称为

8、模型检验。如实例2,对两个自变量进行检验,故这是模型检验。,26,实例2应用Logistic模型 校正混杂作用,应用Stata软件进行最大似然估计,得到模型拟合的主要结果如下 似然函数比为2ln(L)76.32,df=2,P0.001,因此拒绝H0 :1=2=0 ,可以认为1和2不全为0。,27,实例2应用Logistic模型 校正混杂作用,应用Stata软件进行最大似然估计,得到回归系数估计的主要结果如下 饮酒:,28,多自变量Logistic模型的OR解释,在本例中,对于同为吸烟或不吸烟的对象而言(x2相对固定不变), 饮酒(x1=1)的对数Odds为 不饮酒(x1=0)的对数Odds为,

9、29,多自变量Logistic模型的OR解释,则饮酒的对数Odds Ratio为 即:饮酒的 意义:对于同为吸烟的对象或者同为不吸烟的对象,其饮酒的 故称校正吸烟后OR,而前者未考虑吸烟的单因素OR称为crude OR,30,实例2应用Logistic模型 校正混杂作用,饮酒: P=1 校正了吸烟因素的情况下,没有足够的证据推断饮酒与AMI患病有关联性。 吸烟: P0.001,校正了饮酒的情况下,可以认为吸烟与患AMI的关联性有统计学意义,并且可以认为吸烟者患AMI的风险更大。,31,Logistic模型中的交互作用,实例3:采用病例对照设计研究吸烟和家属史与患肺癌的关联性。 用x1=1,0分

10、别表示吸烟和不吸烟;x2=1,0分别表示有无家属史;用y=1,0分别表示患肺癌和未患肺癌。,32,实例3:Logistic模型的交互作用,一般而言,吸烟和家属史均是肺癌的重要相关因素,很有可能这两个因素对患肺癌有交互作用,因此采用下列含有交互作用项的Logistic模型。 其中x1和x2的乘积项x1x2称为交互作用项,33,应用Logistic模型分析实例3,用Stata软件对实例3的资料拟合上述模型,得到下列结果: 3=0.955825,P0.04,差别有统计学意义,可以认为吸烟和家属史对患肺癌有交互作用。,34,实例3:Logistic模型的交互作用,由于本例模型为 对于无家属史,x2=0

11、代入模型,得到 由回归系数与OR的关系,得到吸烟的:,P0.001,35,实例3:Logistic模型的交互作用,由于本例模型为 对于有家属史,x2=1代入模型,得到 有家属史的吸烟OR为,36,实例3:Logistic模型的交互作用,H0:1+3=0 H1:1+30 =0.05 (应用Stata软件可进行下列计算) 当H0为真时,检验统计量2服从自由度为1的2分布,由于本例检验统计量2=40.58 =3.84,故拒绝H0,可以认为1+30 ,差别有统计学意义,可以认为吸烟者患肺癌的风险更大。,37,实例3:Logistic模型的交互作用,同理,为了评价家属史与肺癌的关联性, 根据下列Logi

12、stic模型 对于不吸烟x1=0,则上述Logistic模型为 家属史的 P=0.认为0260.05,差别有统计学意义,可以认为有家属史的患者患肺癌的风险更大。,38,实例3:Logistic模型的交互作用,同理,为了评价家属史与肺癌的关联性, 根据下列Logistic模型 对于吸烟x1=1,则上述Logistic模型为 同理可用Stata软件得到相应P=0.0077,39,Logistic模型中的交互作用,实例3小结: 吸烟与肺癌患病有关联性,并且对于有家属史的情况下,吸烟与肺癌患病的关联性被进一步加强,且差异有统计学意义。 家属史与患肺癌有关联性,并且吸烟会导致家属史与肺癌之间的关联性进一

13、步加强,且差异有统计学意义。,40,病例对照研究与Logistic模型,在病例对照研究中,由于分组采样是按病例和对照分别采样的,病例组的人数和对照组的人数均是研究者自己决定的,病例数人与对照人数之比不是人群的比,故不能估计患病率,但可以估计OR。 对于病例对照研究的资料,可以用Logistic模型评估各个因素对应变量的OR,但不能估计和预测相应的患病概率。,41,Logistic模型中的交互作用,例4 评价两个药治疗某疾病的疗效,资料如下: 定义y=1,0分别为有效和无效,x1=1,0分别为A药和B药,x2=1,0分别为病情重和轻。,42,Logistic模型中的交互作用,由于研究设计中考虑了

14、病情重和病情轻的情况,所以应考虑病情轻重和不同药物治疗对疗效的交互作用。 用Stata统计软件进行回归模型的拟合,得到下列结果(见下一张幻灯)。,43,Logistic模型中的交互作用,对于病情轻x2=0代入模型,得到,44,Logistic模型中的交互作用,药物因素变量x1的回归系数为 ,P 0.652 0.05,两个药的疗效差异无统计学意义。 模型 病情重x2=1代入模型,得到,45,Logistic模型中的交互作用,即:病情重时的药物变量x1的回归系数为 对于在病情重的情况下,两个药的疗效是否有差异需检验1+3=0,用Stata软件计算得: 检验统计量242.16, df=1,P0.00

15、1,说明A药组(x1=1)的疗效大于B药组(x1=0),差异有统计学意义。,46,实例4小结,在病情轻的情况下,两个药的疗效差异无统计学意义。 在病情重的情况下,可以认为A药的疗效优于B药。 即:不能简单地称A药优于B药或两个药的疗效差异无统计学意义。 请注意:在有交互作用的模型中,其主效应(本例x1)解释应谨慎。,47,交互作用的小结,交互作用的意义就是不同层(某因素的不同水平)另一个研究因素与应变量的之间的关联程度是不同的。 在回归分析和方差分析中,经统计检验得到交互作用项有统计学意义只是统计分析的中间结果,不要简单归结为协同作用或拮抗作用,一般要做进一步分析。,48,交互作用的小结,在有

16、交互作用的Logistic模型中,对交互作用项要根据研究目的进行解释,一般应进行分层作简单效应检验,特别很可能某个层有统计学意义而另一个层没有统计学意义。主效应的解释要特别注意,要结合回归模型和变量定义进行谨慎地解释。 应用交互作用模型可以比较多个OR。,49,多分类无序自变量的处理,例5:用横断面调查设计,分析职业与患糖尿病的关联性。 职业:用x1=1,2,3分别表示农民,工人和干部(含知识分子)。 用x2表示年龄。 由于x1是分类无序变量,必须用亚元变量表示。,50,多分类无序自变量的处理,职业变量x1直接引入Logistic模型是不合适的,因为模型中引入x1后,模型为 若10,导致x1越大,患病概率相对越大;若10,则导致x1越大,患病概率相对越小。而x1属于无序多分类变量, x1数值大小是没有背景意义的,仅是指示作用,应引入亚元变量处理。,51,多分类无序自变量的处理,亚元变量x12和x13的定义如下: 相应的Logisti

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号