SPSS学习系列元Logistic回归

上传人:豆浆 文档编号:37551421 上传时间:2018-04-18 格式:DOCX 页数:17 大小:549.24KB
返回 下载 相关 举报
SPSS学习系列元Logistic回归_第1页
第1页 / 共17页
SPSS学习系列元Logistic回归_第2页
第2页 / 共17页
SPSS学习系列元Logistic回归_第3页
第3页 / 共17页
SPSS学习系列元Logistic回归_第4页
第4页 / 共17页
SPSS学习系列元Logistic回归_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《SPSS学习系列元Logistic回归》由会员分享,可在线阅读,更多相关《SPSS学习系列元Logistic回归(17页珍藏版)》请在金锄头文库上搜索。

1、28. 二元二元 Logistic 回归回归二元或多元线性回归的因变量都是连续型变量,若因变量是分类变量(例如:患病与不患病;不重要、重要、非常重要) ,就需要用 Logistic 回归。Logistic 回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。Logistic 回归模型有“条件”与“非条件”之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非配对的病例-对照研究成组资料的分析。对于二分类因变量,y=1 表示事件发生;y=0 表示事件不发生。事件发生的条件概率 P y=1 | xi 与 xi 之间是非线性关系,通常是

2、单调的,即随着 xi 的增加/减少,P y=1 | xi 也增加/减少。Logistic 函数 F(x)=,图形如下图所示:11 + 该函数值域在(0,1)之间,x 趋于-时,F(x)趋于 0;x 趋于+时,F(x)趋于 1. 正好适合描述概率 P y=1 | xi . 例如,某因素 x 导致患病与否:x 在某一水平段内变化时,对患病概率的影响较大;而在 x 较低或较高时对患病概率影响都不大。记事件发生的条件概率 P y=1 | xi = pi,则pi = =11 + ( + ) + 1 + + 记事件不发生的条件概率为1- pi = 11 + + 则在条件 xi下,事件发生概率与事件不发生概

3、率之比为= 1 - + 称为事件的发生比,简记为 odds. 对 odds 取自然对数得到ln(1 - )= + 上式左边(对数发生比)记为 Logit(y), 称为 y 的 Logit 变换。可见变换之后的 Logit(y)就可以用线性回归,计算出回归系数 和 值。若分类因变量 y 与多个自变量 xi有关,则变换后 Logit(y)可由多元线性回归:1 1logit( )ln()1kkppxxpL或 1 11()1(1|,)1kkkxxp yxxe LK一、简单的二元一、简单的二元 Logistic 回归回归出现某种结果的概率与不出现的概率之比,称为优势比 OR.问题问题 1:研究“低体重出

4、生儿”与“孕妇是否吸烟”之间的关系有数据文件:因变量 low:是否“低体重出生儿” (0=正常,1=低体重) ;自变量 smoke:是否吸烟(0=不吸烟,1=吸烟)【分析】【回归】【二元 Logistic】 ,打开“Logistic 回归”窗口,将变量“low”选入【因变量】框,变量“smoke”选入【协变量】框;点【确定】 ,得到因变量编码因变量编码初始值内部值正常0低出生体重1 块块 0:0: 起始块起始块分类表分类表a,ba,b已预测低出生体重儿已观测正常低出生体重百分比校正正常1300100.0 低出生体重儿 低出生体重590.0步骤 0总计百分比68.8a. 模型中包括常量。b. 切

5、割值为 .500若模型只含常数项,预测正确率为68.8%(=130/189);方程中的变量方程中的变量BS.E,WalsdfSig.Exp (B)步骤 0常量-.790.15725.3271.000.454B=-0.79为模型常数项估计值,S.E为B的标准误;Wals为Wald卡方检验,原假设H0:回归系数=0;Exp(B)=0.454(表示患病率与未患病率之比:(1-68.8%)/68.8%);不在方程中的变量不在方程中的变量得分dfSig.变量smoke4.9241.026 步骤 0 总统计量4.9241.026引入变量后的得分,以及该变量的回归系数是否为0的检验,原假设H0:回归系数=0

6、;(主要针对逐步引进多个变量时的变量筛选)块块 1:1: 方法方法 = = 输入输入模型系数的综合检验模型系数的综合检验卡方dfSig.步骤4.8671.027块4.8671.027步骤 1模型4.8671.027似然比卡方值,上一模型(常数项模型)与当前模型似然比值之差,检验两个模型有无差异,原假设H0:无差异。模型汇总模型汇总步骤-2 对数似然值Cox race(2)=“是否为黑人:1=是,0=不是”其它种族作为参照水平(race(1)、race(2)都取 0). 从而白人、黑人、其它种族分别编码如下:分类变量编码分类变量编码参数编码频率(1)(2)白人961.000.000黑人26.00

7、01.000种族其他种族67.000.000在“Logistic 回归窗口”将变量“race”选入【协变量】框,点【分类】 ,打开“定义分类变量”子窗口,将变量“race”选入【分类协变量】框,点【继续】 ;注:【更改对比】框,可选择“对比方式”:指示:指定某一分类水平作为参照水平,可选第一或最后一个水平值;简单:可计算该分类变量的各水平与参照水平相比的 i值;差值:用于有序分类变量,分类变量某个水平与其前面的所有水平平均值进行比较;Helmert:与“差值”相反,用于有序分类变量,分类变量某个水平与其后面的所有水平平均值进行比较;重复:分类变量的各水平与其前面相邻的水平相比较;多项式:仅用于

8、数值型分类变量,各水平值和 logit P 间可能是多项式关系,则依次用一个哑变量代表一个“次方”项,并分别给出检验结果(原假设 H0:各水平是等距离的) ;偏差:除所规定的参照水平外,其余每个水平均与总体水平相比,此时每个水平的回归系数都是相对于总体水平而言的改变量(参照水平可以用其它水平回归系数计算) 。注:这里的方式选择与【方差分析】的“contrast”选择是相同的。下面以“race”为例计算出的各种方式的系数转化关系如下:注意注意:(1)参照水平最好有实际意义,否则就失去比较的目标,不建议用“其它”作为参照水平;参照水平组应有一定的频数做保证(不少于 30 或 50) ;(2)对有序

9、自变量,若从专业来看:不同等级对因变量的影响程度是一致的,可将该变量作为连续型变量处理;否则,需要分别以哑变量和连续型变量方式引入模型,观察各哑变量的回归系数间是欧服存在等级关系,以及对两个模型进行似然比检验,若无统计学意义,且各哑变量的回归系数间存在等级关系,可以将该自变量作为连续型变量,否则最好是用哑变量方式,引入模型。三、自变量的筛选与逐步回归三、自变量的筛选与逐步回归回归模型应该尽量引入对因变量有影响作用的变量,将没有影响或影响较小的变量排除。用到的假设检验方法有:Walds 检验(最差,未考虑各因素的综合作用) 、似然比检验(最可靠,基于整个模型的拟合情况) 、比分检验(最常用于筛选

10、变量,一般与似然比检验结果一致) 。SPSS 提供了 6 种筛选变量的方法(选入自变量时均采用比分检验,剔除自变量的标准不同):向前(条件) 、向前(LR) 、向前(Wald) 、向后(条件) 、向后(LR) 、向后(Wald) 。问题问题 2:用逐步回归法对“低体重出生儿”做二元 Logistic 分析。1. 【分析】【回归】【二元 Logistic】 ,打开“Logistic回归”窗口,将变量“low”选入【因变量】框,变量“age, lwt, race, smoke, ptl, ht, ui, ftv”选入【协变量】框;2. 点【分类】 ,打开“定义分类变量”子窗口,将变量“race”选

11、入【分类协变量】框, 【更改对比】选“指示符” ,勾选“第一个” ,点【更改】 ,点【继续】 ;3. 原窗口【方法】框选择“向前 LR” ,表示向前似然比法,点【确定】得到因变量编码因变量编码初始值内部值正常0低出生体重1分类变量编码分类变量编码参数编码频率(1)(2)白人96.000.000黑人261.000.000种族其他种族67.0001.000块块 0:0: 起始块起始块(模型(模型0 0,只有常数项),只有常数项)分类表分类表a,ba,b已预测低出生体重儿已观测正常低出生体重百分比校正正常1300100.0 低出生体重儿 低出生体重590.0步骤 0总计百分比68.8a. 模型中包括

12、常量。b. 切割值为 .500方程中的变量方程中的变量BS.E,WalsdfSig.Exp (B)步骤 0常量-.790.15725.3271.000.454不在方程中的变量不在方程中的变量得分dfSig.age2.4071.121lwt4.6161.032race5.0052.082race(1)1.7271.189race(2)1.7971.180smoke4.9241.026步骤 0变量ptl7.2671.007ht4.3881.036ui4.2051.040ftv.9341.334总统计量29.1409.001所有变量的比分检验结果,race产生2个哑变量,故自由度为2;变量“ptl妊

13、娠前早产次数”的得分最大为7.267,其P值=0.0070.05) 。四、模型拟合效果与拟合优度检验四、模型拟合效果与拟合优度检验1. 模型效果的判断标准(1)-2log(对数似然值) 越接近 0,表明模型拟合效果越好。或进一步计算 Cox&Snell R 方、Ngelkerke R 方,来判断。(2)模型预测正确率(3)ROC 曲线使用模型预测概率绘制 ROC 曲线,可以帮助确定合理的预测概率分类点(预测概率大于多少时,判定为阳性结果) 。操作步骤:用“保存”将预测概率存为新变量,再利用其绘制出 ROC 曲线;考察图形特征,检验 ROC 曲线下面积是否为 0.5;输出时选中“ROC曲线的坐标

14、点” ,输出各种预测概率界值时相应的灵敏度、1 为特异度以便选择最优判断界值。2. 拟合优度检验(1)简约模型与饱和模型之前差别的似然比检验简约模型:y = 0 +1x1 + 2x2饱和模型:y =0 +1x1 + 2x2 + 3 x1 x2(2)Hosmer-Lemeshow 检验按模型预测概率的大小将所有样本 10 等分,再根据每一组中因变量各种取值的实测值与理论值计算 Pearson 卡方。通常用于自变量很多或自变量中包含连续型变量的情况。【选项】窗口勾选“Hosmer-Lemeshow 拟合度”即可计算该值。注:注:(1)残差分析, 【选项】窗口可以生成几种残差,常用的有:Standardized 残差、Deviance 残差。若残差绝对值大于 2,提示该条记录可能是异常值。(2)Logistic 回归也要注意多重共线性问题。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号