Ch10 Logistic回归分析

上传人:飞*** 文档编号:48603415 上传时间:2018-07-18 格式:PPT 页数:22 大小:255KB
返回 下载 相关 举报
Ch10 Logistic回归分析_第1页
第1页 / 共22页
Ch10 Logistic回归分析_第2页
第2页 / 共22页
Ch10 Logistic回归分析_第3页
第3页 / 共22页
Ch10 Logistic回归分析_第4页
第4页 / 共22页
Ch10 Logistic回归分析_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《Ch10 Logistic回归分析》由会员分享,可在线阅读,更多相关《Ch10 Logistic回归分析(22页珍藏版)》请在金锄头文库上搜索。

1、Slide 1彭斌Logistic回归分析Logistic Regression Slide 2彭斌一、概述前面介绍的线性回归模型(一元和多元)均要求 应变量Y连续型随机变量,并呈正态分布。医学上常常碰到应变量是分类变量的情况,如 发病与未发病、死亡与未死亡等。如果需要分 析多个自变量对此类应变量的影响情况,则不 能建立自变量与应变量的一般回归分析模型。Slide 3彭斌Logit变换对于应变量Y是二值的情况,始终可以用“阳性 ”与“阴性”来表达。如果令应变量Y=“阳性”的 概率为,则其对立面Y=“阴性”的概率为1-。 很显然,及1-的取值范围均在01之间,二 者经过下面的变换,变换后的取值范

2、围均在(- ,+)之间。的这种变换称为Logit变换,记为Logit()Slide 4彭斌Logistic回归模型既然Logit()的取值是(-,+),因此可以将 Logit()当作“应变量”,从而建立该“应变量”与 相应自变量的线性回归模型,如下:这种“阳性”概率与自变量之间的回归关系就 是Logistic回归模型。非条件Logistic回归:用于成组资料;条件Logistic回归:用于配对资料。Slide 5彭斌二、Logistic回归过程 SAS中可以实现Logistic回归分析的过程有:LOGISTIC过 程、CATMOD过程以及PHREG过程。本节重点介绍 LOGISTIC过程的用法

3、,通过实例说明如何实现简单的 Logistic回归分析。 Slide 6彭斌Logistic常用语句PROC LOGISTIC ; BY variables ; FREQ variable ; MODEL response = ; STRATA effects ; 其中,下划线部分是必需的,其它都是可选的。Slide 7彭斌1、PROC LOGISTIC ;过程选项options: OUTEST=数据集名 将结果存储到指定的数据集中 。 NOPRINT 不显示统计结果。 ORDER=DATA|FORMATTED|INTERNAL 规定模型中反应变量的水平顺序DATA :应变量的顺序与数据集中出

4、现的顺序一致 FORMATTED:按照格式化值的顺序,相当于应变 量所赋值的大小顺序,从小到大的顺序,默认值 。INTERNAL:按照非格式化值的顺序Slide 8彭斌DESCENDING | DES 应变量按从大到小顺序排列注意,如果应变量的赋值为:未转移=0,转移=1要考查危险因素 中转移相对于未转移的风险: Logit(P(转移),应选择DES选项(即要求从大到小排列),否则得到的结果是未转移相对于转移的风险: Logit(P(未转移) (默认按从小到大顺序)。Slide 9彭斌2、MODEL语句 MODEL response = ; MODEL语句指定模型的反应变量(response)

5、、考查因素 (effects)及有关建立模型的选项、控制结果输出的选项。 Model语句中模型的指定与多元线性回归中模型的指定 是相似的。Slide 10彭斌常用的选项有: SELECTION = FORWARD(或F)| BACKWARD(或B)| STEPWISE|SCORE 规定变量筛选的方法,分别为向前: FORWARD 向后: BACKWARD逐步: STEPWISE最优子集法: SCORE 缺省时为NONE,拟合全回归模型。 如:Model y=x1 x2 x3 x4;Model y=x1 x2 x3 x4/selection=stepwise;Model y=x1 x2 x3 x

6、4/selection=forward; SLE=概率值,指定变量进入模型的显著水平,缺省为0.05 SLS=概率值,指定变量保留在模型的显著水平,缺省为0.05 Slide 11彭斌 STRATA id-variable; 用于指定分层或者匹配变量,进行条件Logistic回归分 析。用于二值反应变量数据资料。 id-variable可以是数值型也可以是字符型。3、STRATA语句Slide 12彭斌实例例9-1 前列腺癌细胞是否扩散到邻近的淋巴 结,是选择治疗方案的重要依据。为了了解淋 巴组织中有无癌转移,通常的做法是对病人实 施剖腹探查。为了不手术而又能弄清淋巴结的 转移情况,Brown

7、(1980)在术前检查了53例前 列腺癌患者,分别记录了年龄、酸性磷酸酯酶 、X射线、术前探针活检病理分级、直肠指检 肿瘤大小位置等五个变量,还有手术探查淋巴 结转移结果变量,资料见下表。(医学统计 学余松林主编,人民卫生出版社,p204)Slide 13彭斌变量赋值变量 名含义赋值X_rayX射线0=未做1=已做 Grade活检病理分级0=0级(较轻)1=1级(较重) Stage直肠指检结果0=0级(较轻)1=1级(较重) Age年龄 Acid酸性磷酸酯酶 Nodes淋巴结转移结 果0=未转移1=转移注意赋值的一般规则是:1、按危险因素取值危险性的大小从低到高进行,危险性 小的赋值小,危险性

8、大的赋值大。2、结果变量的赋值阴性结果赋较小的值,阳性结果赋较 大的值。如,对照=0,病例=1;未转移=0,转移=1等。Slide 14彭斌原始数据Slide 15彭斌建立SAS数据集data ex91;input no x_ray grade stage age acid nodes;cards;10116440020016340052 11168126153 100611361;Run;Slide 16彭斌调用Logistic过程1)全模型PROC LOGISTIC DATA=ex91 DES;MODEL nodes=x_ray grade stage age acid;RUN;2)逐步筛

9、选模型PROC LOGISTIC DATA=ex91 DES;MODEL nodes=x_ray grade stage age acid /selection=stepwise;RUN;如果去掉上面程序中的“DES”选项,有什么变化?Slide 17彭斌Logistic过程输出结果The LOGISTIC ProcedureModel InformationData Set 分析所用的数据集WORK.EX91Response Variable 反应变量nodesNumber of Response Levels 反应变量的水平数2Number of Observations 观察例数53Li

10、nk Function 联系函数LogitOptimization Technique 优化措施Fishers scoringModel Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.这里对结果的判读很重要! 根据过程选项ORDER和DES对反应变量进行排序,给出排 序后的值,并给出每个水平的例数。 注意:Logistic过程拟合排序值(Ordered Value)为 “1”所对应的反应变量水平的概率,这里, Ordered Value1所对应的水平是1,因此,拟合的模型是:模型收敛的水平Response Prof

11、ileOrdered ValuenodesTotal Frequency11202033Slide 18彭斌Model Fit StatisticsCriterionIntercept Only Intercept and CovariatesAIC72.25260.126SC74.22271.948-2 Log L70.25248.126Testing Global Null Hypothesis: BETA=0TestChi-SquareDFPr ChiS qLikelihood Ratio22.126450.0005Score19.451450.0016Wald13.140650.022

12、1Analysis of Maximum Likelihood EstimatesParameter 参数(因素)DF 自由度Estimate 回归系数Standard Error 标准误Chi-Square 卡方值Pr ChiSq P值Intercept10.06183.45990.00030.9857x_ray12.04530.80726.42080.0113grade10.76140.77080.97590.3232stage11.56410.77404.08350.0433age1-0.06930.05791.43200.2314acid10.02430.01323.42300.064

13、3模型拟合的统计量对模型的总的检验,无效假设为总体的=0 经检验p ChiS qEnteredRemoved1x_ray1111.2831.0.00082stage125.6394.0.0176Analysis of Maximum Likelihood EstimatesParameterDFEstimateStandard ErrorChi-SquarePr ChiS qIntercept1-2.04460.610011.23600.0008x_ray12.11940.74688.05370.0045stage11.58830.70005.14790.0233Odds Ratio Esti

14、matesEffectPoint Estimate95% Wald Confidence Limitsx_ray8.3261.92635.989stage4.8951.24119.304逐步回归概要 变量筛选过程参数估计及检验OR值Slide 21彭斌结果简单解释根据参数估计结果:在a=0.05水平上,只有x_ray和stage两个查考因素具 有统计学意义,对应的p值分别是0.0113,0.0433,所 对应的OR值分别为7.732,4.778。结合赋值表及拟合 模型的方向(是Logit(p(0)还是Logit(p(1) )可以对结 果作出评价。 首先,这里拟合的是Logit(p(1) 模型,即“有淋巴结转移 ”相对于“无淋巴结转移”的模型。因此,x_ray的 OR=7.732就说明“做X线检查”的患者被发现“有淋巴结 转移”的机率是“未做X线检查”患者的7.732倍,故X线 检查有助于发现淋巴结转移。其余类推。 根据逐步回归的结果写出Logistic回归方程:Slide 22彭斌SAS命令框中输入:Help Logistic 寻求帮助

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号