《Logistic回归模型》PPT课件.ppt

资源描述

《《Logistic回归模型》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《Logistic回归模型》PPT课件.ppt（81页珍藏版）》请在金锄头文库上搜索。

1、Logistic 回归模型回归模型赵耐青赵耐青复旦大学公共卫生学院复旦大学公共卫生学院1数据分析的背景数据分析的背景计量资料单因素统计分析计量资料单因素统计分析对于两组计量资料的比较，一般采用对于两组计量资料的比较，一般采用t检检验或秩和检验。验或秩和检验。对于两个变量的相关分析采用对于两个变量的相关分析采用Pearson相相关分析或关分析或Spearman相关分析相关分析考虑多因素的影响，对于应变量考虑多因素的影响，对于应变量(反应变反应变量量)为计量资料，一般可以考虑应用多重为计量资料，一般可以考虑应用多重线性回归模型进行多因素分析。线性回归模型进行多因素分析。2数据分析的背景数据分析的背

2、景单因素的分类资料统计分析，一般采用单因素的分类资料统计分析，一般采用Pearson 2进行统计检验，用进行统计检验，用Odds Ratio及其及其95%可信区间评价关联程度。可信区间评价关联程度。考虑多因素的影响，对于反应变量为分考虑多因素的影响，对于反应变量为分类变量时，用线性回归模型类变量时，用线性回归模型P=a+bx就不就不合适了，应选用合适了，应选用Logistic回归模型进行统回归模型进行统计分析。计分析。3Logistic回归模型回归模型按研究设计分类按研究设计分类非配对设计：非条件非配对设计：非条件Logistic回归模型回归模型配对的病例对照：条件配对的病例对照：条件Logi

3、stic回归模型回归模型按反应变量分类按反应变量分类二分类二分类Logistic回归模型回归模型(常用常用)多分类无序多分类无序Logistic回归模型回归模型多分类有序多分类有序Logistic回归模型回归模型4基础知识基础知识通过下例引入和复习相关概念通过下例引入和复习相关概念例如：研究患某疾病与饮酒的关联性例如：研究患某疾病与饮酒的关联性患病率患病率 P1=a/m1 P2=b/m25基础知识基础知识Odds（优势）优势）P越大越大,则则Odds越大；越大；P越小越小,则则Odds越小越小并且并且 0Odds+6基础知识基础知识 P与与Odds一一对应一一对应对于两个对于两个Odds的比

4、较，一般用它们的的比较，一般用它们的Ratio，并称为并称为Odds Ratio(OR)，其定义其定义如下：如下：其样本估计统计量为其样本估计统计量为7基础知识基础知识故比较两个率故比较两个率比较比较OR =1? OR1 ? OR1?8(二分类二分类)Logistic回归模型回归模型因为因为0Odds+所以所以 - ln(Odds) 1.96，P0.05,拒绝拒绝H018实例实例1:用用Logistic模型进行统计分析模型进行统计分析实例实例1的回归系数估计为的回归系数估计为se(b)=0.1780719, z=b/se=2.31 ,P=0.021 则拒绝则拒绝H0。如果对模型中所有的自变量

5、进行检验，如果对模型中所有的自变量进行检验，则称为模型检验。如实例则称为模型检验。如实例2，对两个自变，对两个自变量进行检验，故这是模型检验。量进行检验，故这是模型检验。25实例实例2应用应用Logistic模型模型校正混杂作用校正混杂作用应用应用Stata软件进行最大似然估计，得到软件进行最大似然估计，得到模型拟合的主要结果如下模型拟合的主要结果如下似然函数比为似然函数比为2ln(L)76.32，df=2，P0.001，因此拒绝因此拒绝H0 ： 1= 2=0 ，可以可以认为认为 1和和 2不全为不全为0。26实例实例2应用应用Logistic模型模型校正混杂作用校正混杂作用应用应用Stata

6、软件进行最大似然估计，得到软件进行最大似然估计，得到回归系数估计的主要结果如下回归系数估计的主要结果如下饮酒饮酒：27多自变量多自变量Logistic模型的模型的OR解释解释在本例中，对于同为吸烟或不吸烟的对象在本例中，对于同为吸烟或不吸烟的对象而言而言(x2相对固定不变相对固定不变)，饮酒饮酒(x1=1)的对数的对数Odds为为不饮酒不饮酒(x1=0)的对数的对数Odds为为28多自变量多自变量Logistic模型的模型的OR解释解释则饮酒的对数则饮酒的对数Odds Ratio为为即：饮酒的即：饮酒的意义：对于同为吸烟的对象或者同意义：对于同为吸烟的对象或者同为不吸烟的对象，其饮酒的为不吸烟

7、的对象，其饮酒的故称校正吸烟后故称校正吸烟后OR，而前者未考虑而前者未考虑吸烟的单因素吸烟的单因素OR称为称为crude OR29实例实例2应用应用Logistic模型模型校正混杂作用校正混杂作用饮酒饮酒：P=1校正了吸烟因素的情况下，没有足够的校正了吸烟因素的情况下，没有足够的证据推断饮酒与证据推断饮酒与AMI患病有关联性。患病有关联性。吸烟：吸烟：P0.001，校正了饮酒的情况下，可以认校正了饮酒的情况下，可以认为吸烟与患为吸烟与患AMI的关联性有统计学意义，的关联性有统计学意义，并且可以认为吸烟者患并且可以认为吸烟者患AMI的风险更大。的风险更大。30Logistic模型中的交互作用模型

8、中的交互作用实例实例3：采用病例对照设计研究吸烟和家：采用病例对照设计研究吸烟和家属史与患肺癌的关联性。属史与患肺癌的关联性。用用x1=1,0分别表示吸烟和不吸烟；分别表示吸烟和不吸烟；x2=1,0分别表示有无家属史；用分别表示有无家属史；用y=1,0分别表示分别表示患肺癌和未患肺癌。患肺癌和未患肺癌。31实例实例3：Logistic模型的交互作用模型的交互作用一般而言，吸烟和家属史均是肺癌的重要一般而言，吸烟和家属史均是肺癌的重要相关因素，很有可能这两个因素对患肺癌相关因素，很有可能这两个因素对患肺癌有交互作用，因此采用下列含有交互作用有交互作用，因此采用下列含有交互作用项的项的Logist

9、ic模型。模型。其中其中x1和和x2的乘积项的乘积项x1x2称为交互作用项称为交互作用项32应用应用Logistic模型分析实例模型分析实例3用用Stata软件对实例软件对实例3的资料拟合上述模型，得的资料拟合上述模型，得到下列结果：到下列结果： 3=0.955825，P0.04，差别有统计学意义，差别有统计学意义，可以认为吸烟和家属史对患肺癌有交互作用。可以认为吸烟和家属史对患肺癌有交互作用。33实例实例3：Logistic模型的交互作用模型的交互作用由于本例模型为由于本例模型为对于无家属史对于无家属史，x2=0代入模型，得到代入模型，得到由回归系数与由回归系数与OR的关系，得到吸烟的：的关

10、系，得到吸烟的：P =3.84，故拒绝，故拒绝H0，可可以认为以认为 1+ 3 0 ，差别有统计学意义，差别有统计学意义，可以认为吸烟者患肺癌的风险更大。可以认为吸烟者患肺癌的风险更大。36实例实例3：Logistic模型的交互作用模型的交互作用同理，为了评价家属史与肺癌的关联性，同理，为了评价家属史与肺癌的关联性，根据下列根据下列Logistic模型模型对于不吸烟对于不吸烟x1=0，则，则上述上述Logistic模型为模型为家属史的家属史的P=0.认为认为0260.05，两个药的疗效差异无统计学意义。两个药的疗效差异无统计学意义。模型模型病情重病情重x2=1代入模型，得到代入模型，得到44L

11、ogistic模型中的交互作用模型中的交互作用即：病情重时的药物变量即：病情重时的药物变量x1的回归系数为的回归系数为对于在病情重的情况下，两个药的疗效是否对于在病情重的情况下，两个药的疗效是否有差异需检验有差异需检验 1+ 3=0，用，用Stata软件计算得：软件计算得：检验统计量检验统计量 242.16, df=1，P0，导致，导致x1越大，患病概率相对越大；越大，患病概率相对越大；若若 10.05，即：对于即：对于职业为工人与农民而言，其与患病之间的职业为工人与农民而言，其与患病之间的关联性无统计学意义。关联性无统计学意义。52多分类无序自变量的处理多分类无序自变量的处理x13的回归系数

12、P0.0030.05，说明干部与农民的职业与患糖尿病有关联，其干部与工人比较，用Stata软件检验12=13，P=0.0230.05，差异有统计学意义。X2的回归系数P0.001,说明年龄与患病也有关联，其OR=1.04。53引用亚元变量应注意的问题引用亚元变量应注意的问题在在Logistic模型中，二分类变量是不区分有序模型中，二分类变量是不区分有序和无序的，因为回归系数的正负号能处理两和无序的，因为回归系数的正负号能处理两分类变量所对应的概率大小问题。分类变量所对应的概率大小问题。在在Logistic模型中，用亚元处理多分类自变量模型中，用亚元处理多分类自变量时，对同一个因素的一组亚元而言

13、，必须同时，对同一个因素的一组亚元而言，必须同时引入模型或同时不引入模型，不能若干个时引入模型或同时不引入模型，不能若干个亚元在模型中，其它亚元不在模型中，这样亚元在模型中，其它亚元不在模型中，这样会导致模型的参数意义发生改变以致错误解会导致模型的参数意义发生改变以致错误解释参数意义。释参数意义。54多多分类有序自变量的处理分类有序自变量的处理例例6：用横断面调查设计，分析肥胖与患：用横断面调查设计，分析肥胖与患糖尿病的关联性。糖尿病的关联性。职业：用职业：用x1=0,1,2分别表示体重正常，超分别表示体重正常，超重和肥胖。重和肥胖。用用x2表示年龄。表示年龄。x1是有序的分类变量是有序的分类

14、变量(等级变量等级变量)Y=1表示患糖尿病，表示患糖尿病，Y=0表示未患糖尿病。表示未患糖尿病。55多分类有序自变量的处理多分类有序自变量的处理有序分类变量可以直接引入有序分类变量可以直接引入Logistic模型，也模型，也可以按无序分类变量方式采用亚元变量引入可以按无序分类变量方式采用亚元变量引入模型，一般视资料而决定。模型，一般视资料而决定。有序分类变量直接引入模型：有序分类变量直接引入模型：体重正常体重正常x1=0，体重超重体重超重x1=1,体重超重与正常的对数体重超重与正常的对数OR为为56多分类有序自变量的处理多分类有序自变量的处理由由体重正常体重正常x1=0体重超重体重超重x1=1

15、,体重超重与正常的对数体重超重与正常的对数OR为为作对数反变换，得到体重超重与正常的作对数反变换，得到体重超重与正常的57多分类有序自变量的处理多分类有序自变量的处理由由体重超重体重超重x1=1，体重肥胖体重肥胖x1=2,体重肥胖与超重的对数体重肥胖与超重的对数OR为为作对数反变换，得到体重肥胖与超重的作对数反变换，得到体重肥胖与超重的58多分类有序自变量的处理多分类有序自变量的处理由此可见，如果直接将有序多分类变量由此可见，如果直接将有序多分类变量引入模型，就是假定相邻两个等级的总引入模型，就是假定相邻两个等级的总体体OR相同，并且不难验证：体重肥胖与相同，并且不难验证：体重肥胖与体重正常的

16、体重正常的。综合上述，若满足相邻两个等级的总体综合上述，若满足相邻两个等级的总体OR相同的条件下可以直接将有序多分类相同的条件下可以直接将有序多分类变量引入模型，对于不满足这个条件，变量引入模型，对于不满足这个条件，则应采用亚元变量引入模型。则应采用亚元变量引入模型。59多分类有序自变量的处理多分类有序自变量的处理对于多分类有序自变量，可以用似然比检对于多分类有序自变量，可以用似然比检验的方法检验相邻两个等级的总体验的方法检验相邻两个等级的总体OR是是否相同。否相同。在模型在模型1中引入亚元变量，其定义如下中引入亚元变量，其定义如下：体重正常体重正常体重超重体重超重体重肥胖体重肥胖x1012

17、X11010x1200160多分类有序自变量的处理多分类有序自变量的处理模型模型1用最大似然法得到的似然函数值为用最大似然法得到的似然函数值为L1模型模型2：用最大似然法得到的似然函数值为用最大似然法得到的似然函数值为L2显然两个模型等价意味显然两个模型等价意味 1= 11且且2 1= 12似然比检验统计量为似然比检验统计量为2ln(L)=2(ln(L1)-ln(L2)61多分类有序自变量的处理多分类有序自变量的处理H0：模型模型1等价于模型等价于模型2 H1：模型模型1不等价不等价模型模型2 =0.05H0为真时，为真时， 2ln(L)近似服从自由度为近似服从自由度为1(自自变量的分类数变量

18、的分类数2)的的 2分布，即：分布，即：检验统检验统计量计量，则拒绝，则拒绝H0，选用引选用引入亚元的模型入亚元的模型1。62逐步回归分析逐步回归分析在在多因素统计分析中，多个自变量之间存多因素统计分析中，多个自变量之间存在相关性，往往相互影响，研究者希望寻在相关性，往往相互影响，研究者希望寻找主要影响应变量找主要影响应变量Y的的因素。因素。理论上，只要把各种因素组合都试一遍，理论上，只要把各种因素组合都试一遍，寻找变量个数最多，每个变量均有统计学寻找变量个数最多，每个变量均有统计学意义，并且模型拟合程度最好的模型，这意义，并且模型拟合程度最好的模型，这种模型称为最佳预测模型，这种方法称为

19、种模型称为最佳预测模型，这种方法称为寻找最优子集，当变量较多时很难实现。寻找最优子集，当变量较多时很难实现。63逐步回归逐步回归为了比较方便地找到最佳预测回归模型，为了比较方便地找到最佳预测回归模型，一般采用逐步回归的分析策略建立拟最一般采用逐步回归的分析策略建立拟最佳预测回归模型。佳预测回归模型。逐步回归采用逐个增加最佳变量的方式逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或或逐个减少最差的变量方式找到最佳或拟最佳回归模型。拟最佳回归模型。64逐步回归逐步回归逐步回归有逐步回归有4种方式：种方式：1.前进法前进法: 最开始时，模型中无任何自变量，然后逐最开始时，模型中无

20、任何自变量，然后逐个引入变量进入模型，每次在未进入模型个引入变量进入模型，每次在未进入模型的所有变量中挑选一个变量，其的所有变量中挑选一个变量，其P是最小是最小且且P值值，每引入一个变量，重新拟合，每引入一个变量，重新拟合一次模型，逐步引入变量直至没有满足上一次模型，逐步引入变量直至没有满足上述条件的变量可以引入模型为止。述条件的变量可以引入模型为止。65逐步回归逐步回归2.后退法：最开始时，把所有的变量引入后退法：最开始时，把所有的变量引入模型，然后逐次把模型，然后逐次把P值值最大并且最大并且P 的的变量剔除出模型，每次只剔除一个变量，变量剔除出模型，每次只剔除一个变量，每次剔除一个变量后

21、重新拟合模型，按每次剔除一个变量后重新拟合模型，按照上述剔除标准继续剔除变量，直至模照上述剔除标准继续剔除变量，直至模型中的所有变量的型中的所有变量的P 为止。为止。66逐步回归逐步回归3.前进逐步回归法前进逐步回归法最开始时，模型中无任何自变量，然后逐个最开始时，模型中无任何自变量，然后逐个引入变量进入模型，每次在未进入模型的所引入变量进入模型，每次在未进入模型的所有变量中挑选一个变量，其有变量中挑选一个变量，其P是最小且是最小且P值值的变量，若有将其剔出模型，然后的变量，若有将其剔出模型，然后重新拟合一次模型，逐步引入变量直至没有重新拟合一次模型，逐步引入变量直至没有满足上述条件的变量

22、可以引入模型为止。满足上述条件的变量可以引入模型为止。67逐步回归逐步回归4.后退逐步回归法后退逐步回归法最开始时，把所有的变量引入模型，然后逐最开始时，把所有的变量引入模型，然后逐次把次把P值最大并且值最大并且P 的变量剔除出模型，的变量剔除出模型，每次只剔除一个变量，每次剔除一个变量后每次只剔除一个变量，每次剔除一个变量后考察未在模型中的变量中是否存在考察未在模型中的变量中是否存在P 的变的变量，若有重新引入模型，然后量，若有重新引入模型，然后重新拟合模型，重新拟合模型，按照上述剔除标准继续剔除变量，直至模型按照上述剔除标准继续剔除变量，直至模型中的所有变量的中的所有变量的P0.05 ，

23、故剔除故剔除X171实例实例6：逐步回归：逐步回归X6的的P值最大并且值最大并且P0.05 ，故剔除故剔除X672实例实例6：逐步回归：逐步回归X3的的P值最大并且值最大并且P0.05，故剔除故剔除X373实例实例6：逐步回归：逐步回归X7的的P值最大并且值最大并且0.05，故剔除，故剔除X774实例实例6：逐步回归：逐步回归所有变量的所有变量的P值均值均= 0.0510 removing x13.p = 0.7183 = 0.0510 removing x64.p = 0.3873 = 0.0510 removing x35.p = 0.4013 = 0.0510 removing x776

24、实例实例6：逐步回归：逐步回归得到下列回归系数的估计得到下列回归系数的估计由上述结果可知与糖尿病患病的主要影响由上述结果可知与糖尿病患病的主要影响因素是年龄因素是年龄x2，家属史家属史x4和总胆固醇和总胆固醇x5。77逐步回归小结逐步回归小结逐步回归是寻找主要影响因素的一种回逐步回归是寻找主要影响因素的一种回归策略，又称建立最佳预测模型。归策略，又称建立最佳预测模型。进入回归模型的变量可以推断这些变量进入回归模型的变量可以推断这些变量与应变量与应变量Y有关联，但是没有进入回归模有关联，但是没有进入回归模型的变量不能称这些变量与应变量型的变量不能称这些变量与应变量Y没有没有关联性。关联性。一般设

25、定变量进入模型的一般设定变量进入模型的 0.05，剔除，剔除变量的变量的 0.05。78Logistic回归模型小结回归模型小结对于应变量为二分类，可以用对于应变量为二分类，可以用Logistic回归回归模型进行统计分析。模型进行统计分析。在在Logistic模型中，自变量可以是二分类的，模型中，自变量可以是二分类的，也可以是连续型变量和有序多分类变量，也可以是连续型变量和有序多分类变量，但无序多分类变量应用一组亚元变量取代。但无序多分类变量应用一组亚元变量取代。逐步回归是寻找主要影响因素的回归策略，逐步回归是寻找主要影响因素的回归策略，没有进入模型的变量不能作推断。没有进入模型的变量不能作推

26、断。79Logistic回归模型小结回归模型小结模型中出现有交互作用，不是统计模型中出现有交互作用，不是统计分析的最终结果，只是中间结果，分析的最终结果，只是中间结果，一般要根据研究目的进行简单效应一般要根据研究目的进行简单效应分析。分析。条件条件Logistic模型只适用于配对病例模型只适用于配对病例对照研究，其回归系数解释与非条对照研究，其回归系数解释与非条件的件的Logistic模型相同。模型相同。80Logistic回归模型小结回归模型小结病例对照研究的资料可以用病例对照研究的资料可以用Logistic回归模型回归模型分析暴露因素与应变量之间的关联性，但不分析暴露因素与应变量之间的关联性，但不可以直接应用可以直接应用Logistic模型进行预测或估计患模型进行预测或估计患病率。病率。Logistic回归模型在拟合的过程中经常会提到回归模型在拟合的过程中经常会提到拟合优度拟合优度(goodness of fiting)的问题的问题,拟合优拟合优度没有统计学意义，只说明当前在模型中的度没有统计学意义，只说明当前在模型中的变量情况下，该模型与最优模型无统计学差变量情况下，该模型与最优模型无统计学差异，但不能说明模型中再增加变量的情况。异，但不能说明模型中再增加变量的情况。81

展开阅读全文

《Logistic回归模型》PPT课件.ppt

最新文档