十三、logistic回归模型讲解

资源描述

《十三、logistic回归模型讲解》由会员分享，可在线阅读，更多相关《十三、logistic回归模型讲解（82页珍藏版）》请在金锄头文库上搜索。

1、,二分类logistic回归模型,内容提要,非条件logistic回归模型简介简单分析实例哑变量设置自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型的诊断与修正条件logistic回归,对分类变量的分析，当考察的影响因素较少，且也为分类变量时，常用列联表（Contingency Table）进行整理，并用2检验或分层2检验进行分析，但存在以下局限性：无法描述其作用大小和方向，更不能考察各因素间是否有交互作用；当控制的分层因素较多时，将导致检验结果不可靠； 2检验无法对连续性自变量进行分析（致命缺陷）。,模型简介,logistic回归模型适合于应变量为二项分类的资料，在

2、医学研究领域中的应用广泛。如流行病病因学研究（包括队列研究、病例对照研究、横断面研究等）、临床疗效研究（如疗效与治疗方法、患病轻中重等因素关系）、卫生服务研究（如是否就诊与性别、年龄、文化程度的关系）等等。,模型简介,一、问题的提出,举例：分析 “新生儿出生体重”的影响影响, 如果以新生儿出生时的体重为因变量，采用线性回归分析的方法。线性回归分析：因变量Y是连续性随机变量,并且呈正态分布，理论上因变量必须能够在到+ 之间自由取值,问题的提出（续）,但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等；分析“母亲怀孕期间体重增加”对“新生儿出生低体重”的影响,二、概念的引入,

3、如按线性回归思想建立模型： P= +X P的意义是发生出生低体重的概率在线性回归模型中,X的取值是任意的,P值可能大于1或小于0,无法从医学意义进行解释, 显然不适宜用线性回归建立预测模型。,为避免P值大于1或小于0, 我们对P进行logit（即logistic）变换, 把logit（P）作为因变量，即： Logit（P）=ln p/(1-p) = + x logit（P）可以从到+ 之间取任何值如：计算logit（0.1），logit（0.95） logit（0.1）=ln（0.1/0.9）=-2.20 logit（0.95）=ln（0.95/0.05）=2.94,1如果以logitP

4、为因变量，暴露因素X为自变量，建立直线回归方程： Logit P = + x 由 Logit P = ln p/(1-p) 可导出: ln p/(1-p) = + x (1) 即单因素线性LOGISTIC 回归模型公式； “p=在暴露变量E下有病D的概率 ” 解(1)式中以p为反应变量的方程，得： (2) 即单因素曲线LOGISTIC 回归模型公式。,单因素LOGISTIC模型参数的解释 ln p/(1-p) = + x ：与变量 x 无关的因素的影响：自变量 x 的回归系数，大小由因素 x 决定。 = 0 表明 P与 x 无关，发病不由因素 x 决定； 0 表明 P与 x 有关，变量

5、x 是疾病发生的危险因素； 0 表明 P与 x 有关，变量 x 是疾病发生的保护因素。,Logit P 与Odds Ratio (OR),Odds Ratio (OR)：即两个Odds 的比值，是描述因素与疾病之间联系强度的指标，可以用来确定定群研究(队列研究)和病例对照研究中暴露研究因素与疾病发生之间关联的性质和强弱。 OR = 1 表明疾病D与因素 x 无关，发病不由因素 x 决定； OR 1 表明疾病D与因素 x 有关，变量x是疾病发生的危险因素； OR 1 表明疾病D与因素 x 有关，变量 x 是疾病发生的保护因素。,对于队列研究，假设研究一个二值暴露变量X与某一疾病之间的关联: 设

6、暴露组(E+)发病的概率为P1,则其发病与不发病的概率比为: Odds= P1 /(1- P1) (3) 设非暴露组(E-)发病的概率为P0,则其发病与不发病的概率比为: Odds= P0 /(1- P0) (4),根据OR定义，得： OR= P1 / (1-P1 ) / P0 / (1-P0) (5) 两边取自然对数，得： ln OR=ln P1 / (1-P1 ) - lnP0 / (1-P0) (6) 用Logit P的值带入，得： ln OR=Logit P1-Logit P0=(1+1x1)-(0+0x0) 队列研究中假定暴露人群和非暴露人群影响疾病发生的其他因素均相同，则可认为：

7、 1 = 0 ; 在非暴露人群中不暴露研究因素，可知：x0 = 0, 带入，得： lnOR = (1 + 1x1) - (0 + 0x0 ) = 1x1 则: OR=Exp(1 + 1x1) - (0 + 0x0 )=Exp(1x1) (7) 即: OR=e1,3. 多因素LOGISTIC 回归模型与混杂因素的控制线性LOGISTIC 回归模型公式: (8) 或: 曲线LOGISTIC 回归模型公式: (9),多因素LOGISTIC模型参数的解释：与变量 xi 无关的因素的影响; i : 自变量 xi 的回归系数，大小由因素 xi 决定，是控制了其他因素的混杂效应后的 i值。 i = 0

8、: 表明 P与 xi 无关，发病不由因素 xi 决定； i 0: 表明 P与 xi 有关，变量 xi是疾病发生的危险因素； i 0: 表明 P 与 xi 有关，变量 xi 是疾病发生的保护因素。,反应变量为二分类变量或某事件的发生率；自变量与logit（P）之间为线性关系；残差合计为0，且服从二项分布；各观测间相互独立。,模型简介适用条件,logistic回归模型应该使用最大似然法来解决方程的估计和检验问题，不应当使用以前的最小二乘法进行参数估计。,举例,1. 定群研究资料分析弗明汉心脏研究 742名居住在弗明汉年龄为40-49岁的男性，在各自暴露不同水平的影响因素(详见下表中的

9、7种因素)，经12年追踪观察CHD发病情况。根据此742名受试者每人暴露各项因素的水平和CHD发病与否的资料，采用多因素LOGISTIC回归模型进行分析，结果见表1。,表1. CHD危险因素定群研究(12年追踪观察结果）,根据表1结果，可建立的CHD影响因素的Logistic回归模型，公式如下: p=1/1+exp-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x1)该多因素LOGISTIC回归分析模型的用途: (1) 确定研究因素的性质: 根据值的正和负，确定所分析因素是危险因素还是保护因素。表中7种因素中，除血红蛋白为保护因素外，其他均为危险因素。

10、 (2) 计算描述因素与疾病间联系强度指标OR值的大小: (A) 由于胆固醇的值为0.0070，根据估计OR值的公式计算CHD与胆固醇的联系强度为： OR = e3 e0.0070 = 1.007 表明胆固醇上升1mg/dl时，CHD发病是原胆固醇水平的1.007倍。,(B) 当ECG的值为0.7206时，根据估计OR值的公式计算CHD与ECG异常的联系强度为： OR = e7 = e7 X 1 / e7 X 0 = e7 X (1-0) = e0.7206 = 2.056 表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小，确定各因素对

11、CHD发病影响的大小。在此项研究中，危险因素中吸烟对方程贡献最大，其他依次为相对体重、年龄、胆固醇、ECG和BP。,4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下CHD的发病率。如某受试者A暴露于因素xi的情况为： X(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因素的条件下，12年间CHD的发病率为： PA1 = 1/1+exp-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0) = 1/1+exp(-2.9813) = 0.048,(5) 预测发病风险: 例

12、1: 如上述受试者A暴露于因素 xi 的情况变为： X(45, 210, 130, 100, 120, 3, 0) 即其由不吸烟变为每日吸烟1包以上(x6=3)，可利用该模型估计受试者A在其他各种研究因素暴露不变的条件下，其因改变吸烟行为而在12年间CHD的发病率上升为： PA2 =1/1+exp-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.42223 x 3 + 0.7206 x 0) = 1/1+exp(1.7144) = 0.1526 则受试者A因改变吸烟行为，其在12年间发生CHD风险将上升为原来的3.16倍。可用相对危险度RR公式进行计算，

13、即： RR PA2 / PA1 = 0.1526 / 0.048 = 3.16,应用多变量logistic回归注意事项,（1）因变量必须是二分变量，或任何取值为0或1的属性数据。（2）logistic回归分析对自变量的正态性、方差齐性不作要求，对自变量类型也不作要求。但应注意自变量与logit y之间应符合线性关系。如自变量为连续变量，且与logit y之间不存在线性关系，应作适当变量转换，否则参数估计会发生偏倚，结论不可靠。,如果自变量为定量指标：（1）同时自变量与logit y之间为线性关系，则可以直接以原变量的形式进入分析；（2）如果自变量与logit y之间为非线性关系，则需做

14、适当转换，如x2，log（x），ex等。也就是说，如果自变量是定量指标的话，在进行回归分析之前一定要首先判断此变量是否与结局变量logit y之间呈线性关系；定性或等级指标则不用考虑这个问题。,如果自变量为定性指标：（1）如果自变量为二分类变量，常用0，1或1，2表示。如x为性别指标，0代表女性，1代表男性(如何解释结果？）。（2）如果自变量为多分类指标，需要用亚（哑）变量（dummy）表示，又称指示变量（indicator variables）,（3）如果自变量为等级资料，可以用两种方法处理：一是将等级数量化后直接进入分析，如果y的改变在每个等级上是近似相等的，则该法效果很好；二是

15、视为定性指标，用亚变量表示，一般用于y在每个等级上的变化不相等时。,样本量,用logistic回归模型，样本含量要求较大。小样本不适宜。样本含量至少是变量数的10倍以上，否则方程不稳定，系数估计或标准误估计常出现异常，结果无法解释。,Logistic回归采用最大似然比估计法来对模型进行估计，最大似然估计在大样本或中等样本（如n=100）的条件下能保持较好的有效性。Long（1997）提到，在样本规模小于100时使用最大似然估计风险较大。样本量的大小依赖于模型和数据的特点。参数越多所需样本量越大，一般认为一个参数至少需要10个案例，但要注意的是，并不是说如果只有几个参数就不需要样本量大于100

16、了。,如果自变量之间存在高度共线性或因变量的变化太小（如有太多的研究对象的反应值都相同）等问题存在就需要较大的样本；,（4）许多人进行多变量回归分析时，往往先作单变量分析，将单变量分析中有显著性意义的变量再进入多变量分析，这样做法不妥。因为，单变量分析没有意义的变量在多变量分析时不一定也没有意义。因此，应将所有变量都一起进入多变量分析，进行筛选。,（5）与多变量线性回归一样，如果各个自变量之间存在自相关，呈多元共线性，bj的误差可能较大，可使偏回归系数估计发生很大的偏倚，甚至使偏回归系数的符号反常、偏回归系数的假设检验呈无显著性。这时，可将自相关的变量其中之一剔除。或增加样本含量以减少标准误，抵消共线性的影响。或用逐步回归方法，寻找最佳方

展开阅读全文