应用统计学logistic回归模型课件

上传人:我*** 文档编号:147891620 上传时间:2020-10-14 格式:PPT 页数:54 大小:341KB
返回 下载 相关 举报
应用统计学logistic回归模型课件_第1页
第1页 / 共54页
应用统计学logistic回归模型课件_第2页
第2页 / 共54页
应用统计学logistic回归模型课件_第3页
第3页 / 共54页
应用统计学logistic回归模型课件_第4页
第4页 / 共54页
应用统计学logistic回归模型课件_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《应用统计学logistic回归模型课件》由会员分享,可在线阅读,更多相关《应用统计学logistic回归模型课件(54页珍藏版)》请在金锄头文库上搜索。

1、内容提要,非条件logistic回归 模型简介 简单分析实例 哑变量设置 自变量的筛选方法与逐步回归 模型拟合效果与拟合优度检验 模型的诊断与修正 条件logistic回归,对分类变量的分析,当考察的影响因素较少,且也为分类变量时,常用列联表(Contingency Table)进行整理,并用2检验或分层2检验进行分析,但存在以下局限性: 无法描述其作用大小和方向,更不能考察各因素间是否有交互作用; 当控制的分层因素较多时,将导致检验结果不可靠; 2检验无法对连续性自变量进行分析(致命缺陷)。,模型简介,logistic回归模型适合于应变量为二项分类的资料,在医学研究领域中的应用广泛。如流行病

2、病因学研究(包括队列研究、病例对照研究、横断面研究等)、临床疗效研究(如疗效与治疗方法、患病轻中重等因素关系)、卫生服务研究(如是否就诊与性别、年龄、文化程度的关系)等等。,模型简介,模型简介,logistic回归模型:,反应变量为二分类变量或某事件的发生率; 自变量与logit(P)之间为线性关系; 残差合计为0,且服从二项分布; 各观测间相互独立。,模型简介适用条件,logistic回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。,例1 某医师希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为

3、正常、1为轻度异常、2为重度异常)与冠心病ca是否有关,数据见logistic_binary.sav。,简单分析实例,简单分析实例,选入应变量,选入自变量,简单分析实例,简单分析实例,结果分析,此表为应变量取值水平编码,SPSS默认取值水平高的为阳性结果。,简单分析实例,结果分析,本表输出当前模型的-2log(似然值)和两个伪决定系数,但对于logistic回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。,简单分析实例,结果分析,此表输出模型中的各自变量的偏回归系数及其标准误、Wald 2、自由度、P 值、OR值(即exp(B)。,哑变量设置,在回归模型中,回归系数b表示其他

4、自变量不变,x每改变一个单位时,所预测的y的平均变化量,当x为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当x为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用哑变量(dummy variable)方式对模型进行定义。,例2 Hosmer 和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为LOW,1表示低出生体重儿,0表示非低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。),哑

5、变量设置,哑变量设置,哑变量设置,选入无序多分类变量,设置参照水平,哑变量设置,哑变量设置,结果分析,哑变量(种族)的设置情况,哑变量设置,白人低出生体重的风险较低,而黑人风险较高。,结果分析,参照水平最好要有实际意义,不推荐使用其他作为参照; 参照水平组要有一定的频数作保证,应不少于30或50例; 对有序自变量的分析: 从专业出发确定; 分别以哑变量和连续性变量的方式引入模型进行比较后确定。,哑变量设置,哑变量设置应该注意的问题,Forward:Conditional (最可靠) Forward:LR Forward:Wald (应当慎用) Backward: Conditional (最可

6、靠) Backward:LR Backward:Wald(应当慎用),6 种筛选自变量的方法,逐步回归,例3 仍以例2的数据为例,演示如何在SPSS中实现逐步logistic回归分析。,逐步回归,选择其中一种逐步法,逐步回归,逐步回归,给出了模型拟合过程中每一步的-2log(L)及两个伪决定系数。,结果分析,逐步回归,结果分析,逐步回归,结果分析,输出了尚不在模型中的自变量是否能被引入的Score检验结果,这里只给出第一步的结果。,对数似然值与伪决定系数 模型预测正确率 ROC曲线,模型拟合效果检验,拟合效果判断指标:,对数似然值与伪决定系数: -2 倍对数似然值表示模型的拟合效果,其值越小,

7、越接近于0,说明模型拟合效果越好。 但是,当自变量中存在缺失值时,因为一般统计软件在进行计算时会把含有缺失值的记录予以剔除,不参与统计分析,此时不能用-2log likelihood 对不同模型的拟合效果进行比较。,模型拟合效果检验,模型预测正确率:,例3进行逐步回归的第三步(step3)输出以上结果,预测正确的记录占71.4。,模型拟合效果检验,ROC曲线:,Save子对话框,模型拟合效果检验,先保存研究对象的预测概率。,模型拟合效果检验,模型拟合效果检验,模型拟合效果检验,这就是ROC曲线,预测效果最佳时,曲线应该从左下角垂直上升至顶,然后水平向右延伸到右上角。,结果分析,模型拟合效果检验

8、,结果分析,本表是对ROC曲线下面积计算的结果,可见曲线下面积为0.708,95可信区间为0.6240.792。,模型拟合优度检验(Test of Goodness Fit ): 考察当前模型是否可以进一步改善,检验当前模型与饱和模型的预测效果之差是否有统计学意义。,拟合优度检验,Pearson 和Deviance 拟合优度检验: 当自变量很多,或包含连续性自变量时,不可以用这两种方法。 似然比检验: 主要用于考察饱和模型是否可以进一步简化。 HosmerLemeshow检验: 通常用于自变量很多,或包含连续性自变量的情况。,拟合优度检验,模型拟合优度检验的常用方法:,点击主对话框中的opti

9、ons按钮,出现如下所示的对话框:,拟合优度检验,拟合优度检验,结果分析,用save子对话框可以保存各种残差; 如果残差的绝对值大于2,提示该记录可能是异常点。,Save子对话框,模型的诊断与修正,残差分析,多重共线性的对偏回归系数的影响与线性回归模型中的表现一致,如增加或删除一条记录,模型中偏回归系数值发生较大变化,专业上认为有意义的因素无统计学意义等等。 如果在进行logistic模型分析中,尤其是在向模型中引入交互作用项时出现了回归结果反常现象,则自变量之间的多重共线性是需要排除的一种可能。,模型的诊断与修正,多重共线性的识别:,目前SPSS的logistic过程中尚没有关于多重共线性诊

10、断的结果输出,代替方法之一是运用相同的反应变量与自变量,拟合线性回归模型,并进行相应的共线性诊断。,模型的诊断与修正,多重共线性的识别:,匹配设计(matched design)是在设计阶段控制混杂因素的一种方法。当得到一名研究病例后,选择一名或多名非病例作为对照,选择相应对照的条件是:某些需要控制的混杂因素与该病例之间相同或相似,从而形成一个匹配的对子。一个匹配的对子可以只有 1个病例和1个对照,称1:1匹配;当病例很罕见时,常采用 1个病例,多个对照,此时称为1:m匹配,常用的 m一般小于等于4,不同的对子,m可以不同;还可设计m:n匹配,即不同对子的病例与对照个数均可不同,这样的设计增加

11、了收集资料的灵活性。,条件logistic回归简介,对于这类匹配设计资料,如果采用以上介绍的非条件 logistic回归方法,将会降低检验效能。而应当采用条件logistic回归模型(conditional logistic regression model)又称配对logistic回归模型进行分析。,条件logistic回归简介,用变量差值拟合:只适用于1:1配对的情况,用Multinomial logistic 过程实现; 用分层Cox模型拟合:适用范围非常广。,条件logistic回归,SPSS中的拟合方法:,例4 Mack等人预考察服用雌激素与患子宫内膜癌的关系,对退休居住在社区的妇女

12、进行病例对照研究。除服用雌激素以外,研究的自变量还包括肥胖、胆囊病史、服用其他非雌激素药物。数据见1_1_logistic.sav。,条件logistic回归实例分析,compute case = case1 - case2. compute age = age1 - age2. compute est = est1 - est2. compute gall = gall1 - gall2. compute nonest = nonest1 -nonest2. execute.,由于本例是1:1配对,可以使用变量差值方式加以拟合。 首先运用compute过程产生配对logistic回归的分析变

13、量,或用以下程序予以实现:,条件logistic回归实例分析,条件logistic回归实例分析,条件logistic回归实例分析,把自变量全部选入Covariate框,不能选入factor框!,默认情况下该复选框选中,应该去除该复选框,条件logistic回归实例分析,条件logistic回归,结果分析,这是系统给出的警告,说明由于反应变量只有一个水平,因此SPSS将拟合条件logistic回归模型。,结果分析,条件logistic回归,对模型中所有偏回归系数是否均为0进行似然比检验,结果说明他们不全为0。,结果分析,条件logistic回归,输出了三种伪决定系数,本例的伪决定系数还比较大。,

14、结果分析,条件logistic回归,输出从模型中分别剔除每一自变量后拟合新的条件logistic回归模型的-2倍似然对数值,用于考察是否可以从当前模型中剔除该自变量,提示可以进一步采用逐步回归对当前模型中自变量进行筛选。,结果分析,条件logistic回归,可见,服用雌激素者患子宫内膜癌的概率是未服用雌激素者的14.851倍,有胆囊病史者患子宫内膜癌的概率是没有胆囊病史者的6.270倍,但P =0.042,下结论要小心,可以扩大样本含量再对这一因素进行研究。,在SPSS中用Multinomial Logistic 过程处理配对logistic回归模型时,注意:,数据库结构与运用Cox过程不同。数据库中每一条记录包括一个对子中的两个观察对象。 所拟合的模型不能包含常数项!,条件logistic回归,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号