logistic回归模型.ppt－金锄头文库

资源描述

《logistic回归模型.ppt》由会员分享，可在线阅读，更多相关《logistic回归模型.ppt（82页珍藏版）》请在金锄头文库上搜索。

1、二分类二分类logistic回归模型回归模型v内内容容提提要要非条件非条件logistic回归回归模型简介模型简介简单分析实例简单分析实例哑变量设置哑变量设置自变量的筛选方法与逐步回归自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型拟合效果与拟合优度检验模型的诊断与修正模型的诊断与修正条件条件logistic回归回归对对分分类类变变量量的的分分析析，当当考考察察的的影影响响因因素素较较少少，且且也也为为分分类类变变量量时时，常常用用列列联联表表（ContingencyTable）进进行行整整理理，并用并用 2检验或分层检验或分层 2检验进行分析，但存在以下局限性：检验进行分析，但存在以

2、下局限性：无无法法描描述述其其作作用用大大小小和和方方向向，更更不不能能考考察察各各因因素素间间是是否否有交互作用；有交互作用；当控制的分层因素较多时，将导致检验结果不可靠；当控制的分层因素较多时，将导致检验结果不可靠； 2检验无法对连续性自变量进行分析检验无法对连续性自变量进行分析（致命缺陷）（致命缺陷）。模型简介模型简介logistic回回归归模模型型适适合合于于应应变变量量为为二二项项分分类类的的资资料料，在在医医学学研研究究领领域域中中的的应应用用广广泛泛。如如流流行行病病病病因因学学研研究究（包包括括队队列列研研究究、病病例例对对照照研研究究、横横断断面面研研究究等等）、临临床床疗疗

3、效效研研究究（如如疗疗效效与与治治疗疗方方法法、患患病病轻轻中中重重等等因因素素关关系系）、卫卫生生服服务务研研究究（如如是是否否就就诊诊与与性性别别、年年龄龄、文化程度的关系）等等。文化程度的关系）等等。模型简介模型简介一、问题的提出一、问题的提出举例：举例：分析分析 “ “新生儿出生体重新生儿出生体重”的影响影的影响影响响, , 如果以新生儿出生时的体重为因变量，如果以新生儿出生时的体重为因变量，采用线性回归分析的方法。采用线性回归分析的方法。线性回归分析线性回归分析：因变量因变量Y是连续性随机变量是连续性随机变量,并并且且呈正态分布呈正态分布，理论上因变量必须能够，理论上因变量必须能够在

4、在到到+之间自由取值之间自由取值问题的提出（续）问题的提出（续）但在医学研究中常碰到因变量的取值仅有但在医学研究中常碰到因变量的取值仅有两个两个,如是否发病、死亡或痊愈等如是否发病、死亡或痊愈等；分析分析“母亲怀孕期间体重增加母亲怀孕期间体重增加”对对“新生新生儿出生低体重儿出生低体重”的影响的影响二、概念的引入二、概念的引入如按线性回归思想建立模型如按线性回归思想建立模型： P P= += +XXP P的意义是的意义是发生出生低体重的发生出生低体重的概率概率在线性回归模型中在线性回归模型中,X,X的取值是任意的的取值是任意的,P,P值值可能大于可能大于1 1或小于或小于0,0,无法从医学意义

5、进行解无法从医学意义进行解释释, , 显然不适宜用线性回归建立预测模型。显然不适宜用线性回归建立预测模型。为避免为避免P值大于值大于1或小于或小于0,我们我们对对P进行进行logit（即（即logistic）变换）变换,把把logit（P）作为因变量，）作为因变量，即即：Logit（P）=lnp/(1-p)= + xlogit（P）可以从）可以从到到+之间取任何值之间取任何值如：计算如：计算logit（0.1），），logit（0.95）logit（0.1）=ln（0.1/0.9）=-2.20logit（0.95）=ln（0.95/0.05）=2.941如果以如果以logitP为因变量，暴露因

6、素为因变量，暴露因素X为自变量，建立直线回归方为自变量，建立直线回归方程：程：LogitP= + x由由LogitP=lnp/(1-p)可导出可导出:lnp/(1-p)= + x(1)即单因素线性即单因素线性LOGISTIC回归模型公式；回归模型公式；“p=在暴露变量在暴露变量E下有病下有病D的概率的概率”解解(1)式中以式中以p为反应变量的方程，得：为反应变量的方程，得：(2)即单因素曲线即单因素曲线LOGISTIC回归模型公式。回归模型公式。单因素单因素LOGISTIC模型参数的解释模型参数的解释lnp/(1-p)= + x ：与变量：与变量 x x 无关的因素的影响无关的因素的影响：自

7、变量：自变量 x x 的回归系数，大小由因素的回归系数，大小由因素 x x 决定。决定。 = 0 = 0 表明表明 P P与与 x x 无关，无关，发病不由因素发病不由因素 x x 决定；决定； 0 0 表明表明 P P与与 x x 有关，有关，变量变量 x x 是疾病发生的危险因素；是疾病发生的危险因素； 0 1 1 表表明明疾疾病病D D与与因因素素 x x 有有关关，变变量量x x是是疾疾病病发发生生的的危危险险因素；因素；OR OR 0:表明表明P与与xi有关，有关，变量变量xi是疾病发生的危险因素；是疾病发生的危险因素； i0:表明表明P与与xi有关，有关，变量变量xi是疾病发生

8、是疾病发生的保护因素。的保护因素。反应变量为二分类变量或某事件的发生率；反应变量为二分类变量或某事件的发生率；自变量与自变量与logit（P）之间为线性关系；）之间为线性关系；残差合计为残差合计为0，且服从二项分布；，且服从二项分布；各观测间相互独立。各观测间相互独立。模型简介模型简介适用条件适用条件v logisticlogistic回归模型应该使用最大似然法来解决方程的估回归模型应该使用最大似然法来解决方程的估计和检验问题，不应当使用以前的最小二乘法进行参数估计和检验问题，不应当使用以前的最小二乘法进行参数估计。计。举例举例1.定群研究资料分析定群研究资料分析弗明汉心脏研究弗明汉心脏研究7

9、42名居住在弗明汉年龄为名居住在弗明汉年龄为40-49岁的男岁的男性，在各自暴露不同水平的影响因素性，在各自暴露不同水平的影响因素(详见详见下表中的下表中的7种因素种因素)，经，经12年追踪观察年追踪观察CHD发病情况。根据此发病情况。根据此742名受试者每人暴露各名受试者每人暴露各项因素的水平和项因素的水平和CHD发病与否的资料，采发病与否的资料，采用多因素用多因素LOGISTIC回归模型进行分析，结回归模型进行分析，结果见表果见表1。表表1.CHD危险因素定群研究危险因素定群研究(12年追踪观察结果）年追踪观察结果）变量变量参数参数 i i估计值估计值 i标准误标准误标化标化 i截距截距

10、0-13.2573年龄年龄(岁岁) 10.12160.04370.3370胆固醇胆固醇(mg/dl) 20.00700.00250.3034BP(mmHg) 30.00680.00600.1320相对体重相对体重(W/H) 40.02570.00910.3458血红蛋白血红蛋白(mg%) 5-0.00100.0098-0.0012吸烟吸烟(0,1,2,3) 60.42230.10310.4952ECG(0,1) 70.72060.40090.1750根根据据表表1结结果果，可可建建立立的的CHD影影响响因因素素的的Logistic回回归归模模型型，公式如下公式如下:p=1/1+exp-(-13

11、.2573+0.1216x1+0.0070x2+ +0.7206x1)该多因素该多因素LOGISTIC回归分析模型的用途回归分析模型的用途:(1)确定研究因素的性质确定研究因素的性质:根根据据值值的的正正和和负负，确确定定所所分分析析因因素素是是危危险险因因素素还还是是保保护护因因素素。表表中中7种种因因素素中中，除除血血红红蛋蛋白白为为保保护护因因素素外外，其其他他均均为为危危险险因因素。素。(2)计算描述因素与疾病间联系强度指标计算描述因素与疾病间联系强度指标OR值的大小值的大小:(A) 由由于于胆胆固固醇醇的的值值为为0.0070，根根据据估估计计OR值值的的公公式式计计算算CHD与

12、胆固醇的联系强度为：与胆固醇的联系强度为：OR=e 3e0.0070=1.007表明胆固醇上升表明胆固醇上升1mg/dl时，时，CHD发病是原胆固醇水平的发病是原胆固醇水平的1.007倍。倍。(B)当当ECG的的值值为为0.7206时时，根根据据估估计计OR值值的的公公式计算式计算CHD与与ECG异常的联系强度为：异常的联系强度为： OR = e 7 = e 7 X 1 / e 7 X 0 = e 7 X (1-0) = e0.7206 = 2.056 表明表明ECG异常者异常者CHD发病是正常者的发病是正常者的2.056倍。倍。(3)比较各变量对方程贡献的大小比较各变量对方程贡献的大小:根

13、根据据标标化化的的值值大大小小，确确定定各各因因素素对对CHD发发病病影影响响的的大大小小。在在此此项项研研究究中中，危危险险因因素素中中吸吸烟烟对对方方程程贡贡献献最最大大，其他依次为相对体重、年龄、其他依次为相对体重、年龄、胆固醇、胆固醇、ECG和和BP。4)用于预测发病率用于预测发病率:可根据该公式预测某人在不同因素暴露条可根据该公式预测某人在不同因素暴露条件下件下CHD的发病率。如某受试者的发病率。如某受试者A暴露于因暴露于因素素xi的情况为：的情况为：X(45,210,130,100,120,0,0)利用该模型计算利用该模型计算该受试者该受试者A在暴露上述各种研在暴露上述各种研究因

14、素的条件下，究因素的条件下，12年间年间CHD的发病率为：的发病率为：PA1=1/1+exp-(-13.2573+0.1216x45+0.0070x210+ +0.7206x0)=1/1+exp(-2.9813)=0.048(5)预测发病风险预测发病风险:例例1:如上述受试者如上述受试者A暴露于因素暴露于因素xi的情况变为：的情况变为：X(45,210,130,100,120,3,0)即其由不吸烟变为每日吸烟即其由不吸烟变为每日吸烟1包以上包以上(x6=3)，可利用可利用该模型估计受试者该模型估计受试者A在其他各种研究因素暴露不变的在其他各种研究因素暴露不变的条件下，其因改变吸烟行为而在条件下

15、，其因改变吸烟行为而在12年间年间CHD的发病的发病率上升为：率上升为：PA2=1/1+exp-(-13.2573+0.1216x45+0.0070x210+ +0.42223x3+0.7206x0)=1/1+exp(1.7144)=0.1526则受试者则受试者A因改变吸烟行为，其在因改变吸烟行为，其在12年间发生年间发生CHD风险将上升为原来的风险将上升为原来的3.16倍。可用相对危险倍。可用相对危险度度RR公公式进行计算，即：式进行计算，即：RRPA2/PA1=0.1526/0.048=3.16应用多变量应用多变量logistic回归注意事项回归注意事项（1）因变量必须是二分变量，或任何取

16、值为）因变量必须是二分变量，或任何取值为0或或1的属性数据。的属性数据。（2）logistic回归分析对自变量的正态性、方差回归分析对自变量的正态性、方差齐性不作要求，对自变量类型也不作要求。齐性不作要求，对自变量类型也不作要求。但应注意自变量但应注意自变量与与logity之间应符合线性关系。之间应符合线性关系。如自变量为连续变量，且如自变量为连续变量，且与与logity之间不存在之间不存在线性关系，应作适当变量转换，否则参数估计线性关系，应作适当变量转换，否则参数估计会发生偏倚，结论不可靠。会发生偏倚，结论不可靠。如果自变量为定量指标：如果自变量为定量指标：（1）同时自变量与）同时自变量与

17、logity之间为线性关系，之间为线性关系，则可以直接以原变量的形式进入分析；则可以直接以原变量的形式进入分析；（2）如果自变量与）如果自变量与logity之间为非线性关系，之间为非线性关系，则需做适当转换，如则需做适当转换，如x2，log（x），），ex等。等。也就是说，如果自变量是定量指标的话，在进行回归也就是说，如果自变量是定量指标的话，在进行回归分析之前一定要首先判断此变量是否与结局变量分析之前一定要首先判断此变量是否与结局变量logity之间呈线性关系；定性或等级指标则不用考虑这个问之间呈线性关系；定性或等级指标则不用考虑这个问题。题。如果自变量为定性指标：如果自变量为定性指标：（

18、1）如果自变量为二分类变量，常用）如果自变量为二分类变量，常用0，1或或1，2表示。如表示。如x为性别指标，为性别指标，0代表代表女性，女性，1代表男性代表男性(如何解释结果？）如何解释结果？）。（2）如果自变量为多分类指标，需要如果自变量为多分类指标，需要用亚（哑）变量（用亚（哑）变量（dummy）表示，又称表示，又称指示变量（指示变量（indicatorvariables）（3）如果自变量为等级资料，可以用两种）如果自变量为等级资料，可以用两种方法处理：方法处理：一是将等级数量化后直接进入分析，如果一是将等级数量化后直接进入分析，如果y的改变在每个等级上是近似相等的，则该的改变在每个等级

19、上是近似相等的，则该法效果很好；法效果很好；二是视为定性指标，用亚变量表示，一般二是视为定性指标，用亚变量表示，一般用于用于y在每个等级上的变化不相等时。在每个等级上的变化不相等时。样本量样本量用用logistic回归模型，样本含量要求较大。回归模型，样本含量要求较大。小样本不适宜。样本含量至少是变量数的小样本不适宜。样本含量至少是变量数的10倍以上，否则方程不稳定，系数估计或倍以上，否则方程不稳定，系数估计或标准误估计常出现异常，结果无法解释。标准误估计常出现异常，结果无法解释。Logistic回归采用最大似然比估计法来对模型回归采用最大似然比估计法来对模型进行估计，最大似然估计在大样本或

20、中等样本进行估计，最大似然估计在大样本或中等样本（如（如n=100）的条件下能保持较好的有效性。的条件下能保持较好的有效性。Long（1997）提到，在样本规模小于提到，在样本规模小于100时使时使用最大似然估计风险较大。用最大似然估计风险较大。样本量的大小依赖于模型和数据的特点。参数样本量的大小依赖于模型和数据的特点。参数越多所需样本量越大，一般认为一个参数至少越多所需样本量越大，一般认为一个参数至少需要需要10个案例，但要注意的是，并不是说如果个案例，但要注意的是，并不是说如果只有几个参数就不需要样本量大于只有几个参数就不需要样本量大于100了。了。如果自变量之间存在高度共线性或因变量如果

21、自变量之间存在高度共线性或因变量的变化太小（如有太多的研究对象的反应的变化太小（如有太多的研究对象的反应值都相同）等问题存在就需要较大的样本；值都相同）等问题存在就需要较大的样本；（4）许许多多人人进进行行多多变变量量回回归归分分析析时时，往往往往先先作作单单变变量量分分析析，将将单单变变量量分分析析中中有有显显著著性性意意义义的的变变量量再再进进入入多多变变量量分分析析，这这样样做做法法不不妥妥。因因为为，单单变变量量分分析析没没有有意意义义的的变变量量在在多多变变量量分分析析时时不不一一定定也也没没有有意意义义。因因此此，应应将将所所有有变变量量都都一一起起进进入入多多变变量量分析，进行筛

22、选。分析，进行筛选。（5）与多变量线性回归一样，如果各个自变）与多变量线性回归一样，如果各个自变量之间存在自相关，呈多元共线性，量之间存在自相关，呈多元共线性，bj的误的误差可能较大，可使偏回归系数估计发生很差可能较大，可使偏回归系数估计发生很大的偏倚，甚至使偏回归系数的符号反常、大的偏倚，甚至使偏回归系数的符号反常、偏回归系数的假设检验呈无显著性。偏回归系数的假设检验呈无显著性。这时，可将自相关的变量其中之一剔除。这时，可将自相关的变量其中之一剔除。或增加样本含量以减少标准误，抵消共线或增加样本含量以减少标准误，抵消共线性的影响。或用逐步回归方法，寻找最佳性的影响。或用逐步回归方法，寻找最佳

23、方程。或将几个高度相关的变量综合，形方程。或将几个高度相关的变量综合，形成一个新变量（主成分）进入回归。成一个新变量（主成分）进入回归。（6）自变量的记录中可能出现极端值）自变量的记录中可能出现极端值（outlier）。）。其残差较其它各点大得多，其残差较其它各点大得多，或出现或出现highleveragepoint（高杠杆点），高杠杆点），其距其它各点较远，或出现强影响点其距其它各点较远，或出现强影响点（influentialpoint），），对模型有较大影响。对模型有较大影响。遇到这种情况，首先应检查是否录入错误，遇到这种情况，首先应检查是否录入错误，是否忽略了重要的协变量、是否需要增设是

24、否忽略了重要的协变量、是否需要增设交互项、样本是否足够多？交互项、样本是否足够多？然后，检查是否是异常值？然后，检查是否是异常值？例例1某某医医师师希希望望研研究究病病人人的的年年龄龄age、性性别别sex（0为为女女性性、1为为男男性性）、心心电电图图检检验验是是否否异异常常ecg（ST段段压压低低、0为为正正常常、1为为轻轻度度异异常常、2为为重重度度异异常常）与与冠冠心心病病ca是是否否有有关关，数数据据见见logistic_binary.sav。简单分析实例简单分析实例简单分析实例简单分析实例选入应变量选入应变量选入自选入自变量变量简单分析实例简单分析实例简单分析实例简单分析实例结果分

25、析结果分析v 此表为应变量取值水平编码，此表为应变量取值水平编码，SPSSSPSS默认取值水平高默认取值水平高的为阳性结果。的为阳性结果。简单分析实例简单分析实例结果分析结果分析v 本本表表输输出出当当前前模模型型的的-2log-2log（似似然然值值）和和两两个个伪伪决决定定系系数数，但但对对于于logisticlogistic回回归归而而言言，通通常常看看见见的的伪伪决决定系数不像线性回归模型中的决定系数那么大。定系数不像线性回归模型中的决定系数那么大。简单分析实例简单分析实例结果分析结果分析v 此此表表输输出出模模型型中中的的各各自自变变量量的的偏偏回回归归系系数数及及其其标标准准误、误

26、、WaldWald 2 2、自由度、自由度、P P 值、值、OROR值（即值（即expexp（B B）。）。哑变量设置哑变量设置在在回回归归模模型型中中，回回归归系系数数b b表表示示其其他他自自变变量量不不变变，x x每每改改变变一一个个单单位位时时，所所预预测测的的y y的的平平均均变变化化量量，当当x x为为连连续续性性变变量量时时，这这样样解解释释没没有有问问题题，二二分分类类变变量量由由于于只只存存在在两两个个类类别别间间的的比比较较，也也可可以以对对系系数数得得到到很很好好的的解解释释。但但是是当当x x为为多多分分类类变变量量时时，仅仅拟拟合合一一个个回回归归系系数数就就不不太太

27、合合适适了了，此此时时需需要要使使用用哑哑变变量量（dummy variabledummy variable）方式对模型进行定义。）方式对模型进行定义。例例2Hosmer和和Lemeshow于于1989年研究了低出生体年研究了低出生体重婴儿的影响因素，结果变量为是否娩出低出生体重重婴儿的影响因素，结果变量为是否娩出低出生体重儿（变量名为儿（变量名为LOW，1表示低出生体重儿，表示低出生体重儿，0表示非表示非低出生体重儿），考虑的自变量有产妇妊娠前体重、低出生体重儿），考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。

28、（数据文件见：压等。（数据文件见：logistic_step.sav。）。）哑变量设置哑变量设置哑变量设置哑变量设置哑变量设置哑变量设置选入无序多选入无序多分类变量分类变量设置参照水设置参照水平平哑变量设置哑变量设置哑变量设置哑变量设置结果分析结果分析v 哑变量（种族）的设置情况哑变量（种族）的设置情况哑变量设置哑变量设置v 白人低出生体重的风险较低，而黑人风险较高。白人低出生体重的风险较低，而黑人风险较高。结果分析结果分析参照水平最好要有实际意义，不推荐使用其他作为参照；参照水平最好要有实际意义，不推荐使用其他作为参照；参照水平组要有一定的频数作保证，应不少于参照水平组要有一定的频数作保证，

29、应不少于30或或50例；例；对有序自变量的分析：对有序自变量的分析：从专业出发确定；从专业出发确定；分别以哑变量和连续性变量的方式引入模型进行比较后分别以哑变量和连续性变量的方式引入模型进行比较后确定。确定。哑变量设置哑变量设置v 哑变量设置应该注意的问题哑变量设置应该注意的问题Forward：Conditional（最可靠）（最可靠）Forward：LRForward：Wald（应当慎用）（应当慎用）Backward：Conditional（最可靠）（最可靠）Backward：LRBackward：Wald（应当慎用）（应当慎用）v 6 6 种筛选自变量的方法种筛选自变量的方法逐步回归逐步回

30、归例例3仍仍以以例例2的的数数据据为为例例，演演示示如如何何在在SPSS中中实实现现逐逐步步logistic回归分析。回归分析。逐步回归逐步回归选择其中一选择其中一种逐步法种逐步法逐步回归逐步回归逐步回归逐步回归v 给出了模型拟合过程中每一步的给出了模型拟合过程中每一步的-2log-2log（L L）及两）及两个伪决定系数。个伪决定系数。结果分析结果分析逐步回归逐步回归结果分析结果分析逐步回归逐步回归结果分析结果分析v 输出了尚不在模型中的自变量是否能被引入的输出了尚不在模型中的自变量是否能被引入的ScoreScore检验结果，这里只给出第一步的结果。检验结果，这里只给出第一步的结果。

31、对数似然值与伪决定系数对数似然值与伪决定系数模型预测正确率模型预测正确率ROCROC曲线曲线模型拟合效果检验模型拟合效果检验v 拟合效果判断指标：拟合效果判断指标：对数似然值与伪决定系数：对数似然值与伪决定系数：对数似然值与伪决定系数：对数似然值与伪决定系数：-2倍对数似然值表示模型的拟合效果，其值越小，越接近于倍对数似然值表示模型的拟合效果，其值越小，越接近于0，说明模型拟合效果越好。，说明模型拟合效果越好。但是，当自变量中存在缺失值时，因为一般统计软件在进行但是，当自变量中存在缺失值时，因为一般统计软件在进行计算时会把含有缺失值的记录予以剔除，不参与统计分析，计算时会把含有缺失值的记录予以

32、剔除，不参与统计分析，此时不能用此时不能用-2loglikelihood对不同模型的拟合效果进行比对不同模型的拟合效果进行比较。较。模型拟合效果检验模型拟合效果检验模型预测正确率：模型预测正确率：模型预测正确率：模型预测正确率：例例3进行逐步回归的第三步（进行逐步回归的第三步（step3）输出以上结果，预测）输出以上结果，预测正确的记录占正确的记录占71.4。模型拟合效果检验模型拟合效果检验ROCROC曲线：曲线：曲线：曲线：Save子对话框子对话框模型拟合效果检验模型拟合效果检验v先先保保存存研研究究对对象的预测概率。象的预测概率。模型拟合效果检验模型拟合效果检验模型拟合效果检验模型拟合效果

33、检验模型拟合效果检验模型拟合效果检验v 这就是这就是ROCROC曲线，曲线，预测效果最佳时，曲预测效果最佳时，曲线应该从左下角垂直线应该从左下角垂直上升至顶，然后水平上升至顶，然后水平向右延伸到右上角。向右延伸到右上角。结果分析结果分析模型拟合效果检验模型拟合效果检验结果分析结果分析v 本表是对本表是对ROCROC曲线下面积计算的结果，可见曲线下面曲线下面积计算的结果，可见曲线下面积为积为0.7080.708，9595可信区间为可信区间为0.6240.624 0.7920.792。模型拟合优度检验（模型拟合优度检验（TestofGoodnessFit）：）：考察当前模型是否可以进一步改善，检验

34、当前模型与饱考察当前模型是否可以进一步改善，检验当前模型与饱和模型的预测效果之差是否有统计学意义。和模型的预测效果之差是否有统计学意义。拟合优度检验拟合优度检验Pearson和和Deviance拟合优度检验：拟合优度检验：当自变量很多，或包含连续性自变量时，不可以用这两种方法。当自变量很多，或包含连续性自变量时，不可以用这两种方法。似然比检验：似然比检验：主要用于考察饱和模型是否可以进一步简化。主要用于考察饱和模型是否可以进一步简化。HosmerLemeshow检验检验：通常用于自变量很多，或包含连续性自变量的情况。通常用于自变量很多，或包含连续性自变量的情况。拟合优度检验拟合优度检验v 模型

35、拟合优度检验的常用方法：模型拟合优度检验的常用方法：点击主对话框中的点击主对话框中的options按钮，出现如下所示的对话框：按钮，出现如下所示的对话框：拟合优度检验拟合优度检验拟合优度检验拟合优度检验结果分析结果分析用用save子对子对话框可以保存各话框可以保存各种残差；种残差；如果残差的绝如果残差的绝对值大于对值大于2，提，提示该记录可能是示该记录可能是异常点。异常点。Save子对话框子对话框模型的诊断与修正模型的诊断与修正v 残差分析残差分析多重共线性的对偏回归系数的影响与线性回归模型中的表现多重共线性的对偏回归系数的影响与线性回归模型中的表现一致，如增加或删除一条记录，模型中偏回归系数

36、值发生较一致，如增加或删除一条记录，模型中偏回归系数值发生较大变化，专业上认为有意义的因素无统计学意义等等。大变化，专业上认为有意义的因素无统计学意义等等。如果在进行如果在进行logisticlogistic模型分析中，尤其是在向模型中引入交模型分析中，尤其是在向模型中引入交互作用项时出现了回归结果反常现象，则自变量之间的多重互作用项时出现了回归结果反常现象，则自变量之间的多重共线性是需要排除的一种可能。共线性是需要排除的一种可能。模型的诊断与修正模型的诊断与修正v 多重共线性的识别：多重共线性的识别：目前目前SPSSSPSS的的logisticlogistic过程中尚没有关于多重共线性过程中

37、尚没有关于多重共线性诊断的结果输出，代替方法之一是运用相同的反应诊断的结果输出，代替方法之一是运用相同的反应变量与自变量，拟合线性回归模型，并进行相应的变量与自变量，拟合线性回归模型，并进行相应的共线性诊断。共线性诊断。模型的诊断与修正模型的诊断与修正v 多重共线性的识别：多重共线性的识别：匹匹配配设设计计（matcheddesign）是是在在设设计计阶阶段段控控制制混混杂杂因因素素的的一一种种方方法法。当当得得到到一一名名研研究究病病例例后后，选选择择一一名名或或多多名名非非病病例例作作为为对对照照，选选择择相相应应对对照照的的条条件件是是：某某些些需需要要控控制制的的混混杂杂因因素素与与该

38、该病病例例之之间间相相同同或或相相似似，从从而而形形成成一一个个匹匹配配的的对对子子。一一个个匹匹配配的的对对子子可可以以只只有有1个个病病例例和和1个个对对照照，称称1：1匹匹配配；当当病病例例很很罕罕见见时时，常常采采用用1个个病病例例，多多个个对对照照，此此时时称称为为1：m匹匹配配，常常用用的的m一一般般小小于于等等于于4，不不同同的的对对子子，m可可以以不不同同；还还可可设设计计m：n匹匹配配，即即不不同同对对子子的的病病例例与与对对照照个个数数均均可可不不同同，这样的设计增加了收集资料的灵活性。这样的设计增加了收集资料的灵活性。条件条件logistic回归回归简介简介对于这类匹配设

39、计资料，如果采用以上介绍的非条件对于这类匹配设计资料，如果采用以上介绍的非条件 logisticlogistic回归方法，将会降低检验效能。而应当采用回归方法，将会降低检验效能。而应当采用条件条件logisticlogistic回归模型回归模型（conditional logistic conditional logistic regression modelregression model）又称配对又称配对logisticlogistic回归模型进行回归模型进行分析。分析。条件条件logistic回归回归简介简介用变量差值拟合：用变量差值拟合：只适用于只适用于1：1配对的情况，用配对的情况，

40、用Multinomial logistic过程实现；过程实现；用分层用分层Cox模型拟合：适用范围非常广。模型拟合：适用范围非常广。条件条件logistic回归回归v SPSSSPSS中的拟合方法：中的拟合方法：例例4Mack等人预考察服用雌激素与患子宫内膜癌的关等人预考察服用雌激素与患子宫内膜癌的关系，对退休居住在社区的妇女进行病例对照研究。除服系，对退休居住在社区的妇女进行病例对照研究。除服用雌激素以外，研究的自变量还包括肥胖、胆囊病史、用雌激素以外，研究的自变量还包括肥胖、胆囊病史、服用其他非雌激素药物。数据见服用其他非雌激素药物。数据见1_1_logistic.sav。条件条件logi

41、stic回归回归实例分析实例分析computecase=case1-puteage=age1-puteest=est1-putegall=gall1-putenonest=nonest1-nonest2.execute.由于本例是由于本例是1：1配对，可以使用变量差值方式加以拟合。配对，可以使用变量差值方式加以拟合。首先运用首先运用compute过程产生配对过程产生配对logistic回归的分析变量，回归的分析变量，或用以下程序予以实现：或用以下程序予以实现：条件条件logistic回归回归实例分析实例分析条件条件logistic回归回归实例分析实例分析条件条件logistic回归回归实例分析

42、实例分析v 把自变量全部把自变量全部选入选入CovariateCovariate框，框，不能选入不能选入factorfactor框！框！默认情况下该复默认情况下该复选框选中，应该选框选中，应该去除该复选框去除该复选框条件条件logistic回归回归实例分析实例分析条件条件logistic回归回归结果分析结果分析v 这这是是系系统统给给出出的的警警告告，说说明明由由于于反反应应变变量量只只有有一一个个水水平平，因因此此S SP PS SS S将将拟拟合合条条件件l lo og gi is st ti ic c回回归归模模型型。结果分析结果分析条件条件logistic回归回

43、归v 对模型中所有对模型中所有偏回归系数是否均为偏回归系数是否均为0进行似然比检进行似然比检验，结果说明他们不全为验，结果说明他们不全为0。结果分析结果分析条件条件logistic回归回归v 输出了输出了三种三种伪决定系数，本伪决定系数，本例的伪决定系数例的伪决定系数还比较大。还比较大。结果分析结果分析条件条件logistic回归回归v 输输出出从从模模型型中中分分别别剔剔除除每每一一自自变变量量后后拟拟合合新新的的条条件件l lo og gi is st ti ic c回回归归模模型型的的- -2 2倍倍似似然然对对数数值值，用用于于考考察察是是否否可可以以从从当当前前模模型型中中剔剔除除该

44、该自自变变量量，提提示示可可以以进进一一步步采采用用逐逐步步回回归归对对当当前前模模型型中中自自变变量量进进行行筛筛选选。结果分析结果分析条件条件logistic回归回归v 可见，服用雌激素者患子宫内膜癌的概率是未服用雌激素可见，服用雌激素者患子宫内膜癌的概率是未服用雌激素者的者的14.85114.851倍，有胆囊病史者患子宫内膜癌的概率是没有胆倍，有胆囊病史者患子宫内膜癌的概率是没有胆囊病史者的囊病史者的6.2706.270倍，但倍，但P P =0.042=0.042，下结论要小心，可以扩，下结论要小心，可以扩大样本含量再对这一因素进行研究。大样本含量再对这一因素进行研究。在在SPSS中用中用MultinomialLogistic过程处理配对过程处理配对logistic回归模型时，回归模型时，注意注意注意注意：数据库结构与运用数据库结构与运用Cox过程不同。数据库中每一条记录过程不同。数据库中每一条记录包括一个对子中的两个观察对象。包括一个对子中的两个观察对象。所拟合的模型不能包含常数项！所拟合的模型不能包含常数项！条件条件logistic回归回归

展开阅读全文

logistic回归模型.ppt

最新文档