回归分析教材

上传人:206****923 文档编号:37522017 上传时间:2018-04-17 格式:DOCX 页数:14 大小:626.32KB
返回 下载 相关 举报
回归分析教材_第1页
第1页 / 共14页
回归分析教材_第2页
第2页 / 共14页
回归分析教材_第3页
第3页 / 共14页
回归分析教材_第4页
第4页 / 共14页
回归分析教材_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《回归分析教材》由会员分享,可在线阅读,更多相关《回归分析教材(14页珍藏版)》请在金锄头文库上搜索。

1、SPSSSPSS 10.010.0 高级教程十三:分类资料的高级教程十三:分类资料的 LogisticLogistic 回回归分析归分析(2009-02-05 15:32:54) 电脑电脑 spssspss 肾细胞癌回归分析卡方杂谈肾细胞癌回归分析卡方杂谈所谓 Logistic 模型,或者说 Logistic 回归模型,就是人们想为两分类的应变 量作一个回归方程出来,可概率的取值在 01 之间,回归方程的应变量取值可 是在实数集中,直接做会出现 01 范围之外的不可能结果,因此就有人耍小聪 明,将率做了一个 Logit 变换,这样取值区间就变成了整个实数集,作出来的 结果就不会有问题了,从而该

2、方法就被叫做了 Logistic 回归。随着模型的发展,Logistic 家族也变得人丁兴旺起来,除了最早的两分类 Logistic 外,还有配对 Logistic 模型,多分类 Logistic 模型、随机效应的 Logistic 模型等。由于 SPSS 的能力所限,对话框只能完成其中的两分类和多 分类模型,下面我们就介绍一下最重要和最基本的两分类模型。10.3.110.3.1 界面详解与实例界面详解与实例例 11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了 一批行根治性肾切除术患者的肾癌标本资料,现从中抽取 26 例资料作为示例进 行 logistic 回归分析(本例

3、来自卫生统计学第四版第 11 章)。i:标本序号x1:确诊时患者的年龄(岁)x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共 3 个等 级 x3:肾细胞癌组织内微血管数(MVC) x4:肾癌细胞核组织学分级,由低到高共 4 级 x5:肾细胞癌分期,由低到高共 4 期 y:肾细胞癌转移情况(有转移 y=1; 无转移 y=0)。i i x1x1 x2x2 x3x3 x4x4 x5x5 y y1 1 5959 2 2 43.443.4 2 2 1 1 0 02 2 3636 1 1 57.257.2 1 1 1 1 0 03 3 6161 2 2 190190 2 2 1 1 0 0

4、4 4 5858 3 3 128128 4 4 3 3 1 15 5 5555 3 3 8080 3 3 4 4 1 16 6 6161 1 1 94.494.4 2 2 1 1 0 07 7 3838 1 1 7676 1 1 1 1 0 08 8 4242 1 1 240240 3 3 2 2 0 09 9 5050 1 1 7474 1 1 1 1 0 01010 5858 3 3 68.668.6 2 2 2 2 0 01111 6868 3 3 132.8132.8 4 4 2 2 0 01212 2525 2 2 94.694.6 4 4 3 3 1 11313 5252 1 1

5、5656 1 1 1 1 0 01414 3131 1 1 47.847.8 2 2 1 1 0 01515 3636 3 3 31.631.6 3 3 1 1 1 11616 4242 1 1 66.266.2 2 2 1 1 0 01717 1414 3 3 138.6138.6 3 3 3 3 1 11818 3232 1 1 114114 2 2 3 3 0 01919 3535 1 1 40.240.2 2 2 1 1 0 02020 7070 3 3 177.2177.2 4 4 3 3 1 12121 6565 2 2 51.651.6 4 4 4 4 1 12222 4545

6、2 2 124124 2 2 4 4 0 02323 6868 3 3 127.2127.2 3 3 3 3 1 12424 3131 2 2 124.8124.8 2 2 3 3 0 02525 5858 1 1 128128 4 4 3 3 0 02626 6060 3 3 149.8149.8 4 4 3 3 1 1在菜单上选择 Analyze=Regression=Binary Logistic.,系统弹出 Logistic 回归对话框如下:左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下方的 Covariates 框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。

7、 两框中间的是 BLOCK 系列按扭,我在上一课已经讲过了,不再重复。中下部的 a*b框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什么 SPSS 偏在这里做得不同),下方的 Method 列表框用于选择变量进入方法,有 进入法、前进法和后退法三大类,三类之下又有细分。最下面的四个按钮比较 重要,请大家听我慢慢道来:oSelect钮:用于限定一个筛选条件,只有满足该条件的记录才会 被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得 该功能纯属多余,和专门的 Select 对话框的功能重复了。oCategorical 钮:如果你的自变量是多分类的(如血型等),你必须要将

8、它用哑变量的方式来分析,那么就要用该按钮将该变量指定 为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以 哪个取值作为基础水平,各水平间比较的方法是什么等。当然,如果你 弄不明白,不改也可以,默认的是以最大取值为基础水平,用 Deviance 做比较。oSave 钮:将中间结果存储起来供以后分析,共有预测值、影响强度 因子和残差三大类。oOptions 钮:这一部分非常重要,但又常常被忽视,在这里我们可 以对模型作精确定义,还可以选择模型预测情况的描述方式,如 Statistics and Plots 中的 Classification plots 就是非常重要的模 型预测工具,C

9、orrelations of estimates 则是重要的模型诊断工具, Iteration history 可以看到迭代的具体情况,从而得知你的模型是否 在迭代时存在病态,下方则可以确定进入和排除的概率标准,这在逐步 回归中是非常有用的。好,根据我们的目的,应变量为 Y,而 X1X5 为自变量,具体的分析操作如下:1. Analyze=Regression=Binary Logistic. 2. Dependent 框:选入 Y 3. Covariates 框:选入 x1x5 4. OK 钮:单击10.3.210.3.2 结果解释结果解释LogisticLogistic Regressio

10、nRegression上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处因 不存在缺失值,26 条记录均纳入了分析。上表为应变量分类情况列表,没什么好解释的。BlockBlock 0:0: BeginningBeginning BlockBlock此处已经开始了拟合,Block 0 拟合的是只有常数的无效模型,上表为分类预 测表,可见在 17 例观察值为 0 的记录中,共有 17 例被预测为 0,9 例 1 也都被 预测为 0,总预测准确率为 65.4%,这是不纳入任何解释变量时的预测准确率, 相当于比较基线。上表为 Block 0 时的变量系数,可见常数的系数值为-0.636

11、。上表为在 Block 0 处尚未纳入分析方程的侯选变量,所作的检验表示如果分别 将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同, 可能是拟合优度,Deviance 值等)。可见如果将 X2 系列的哑变量纳入方程, 则方程的改变是有显著意义的,X4 和 X5 也是如此,由于 Stepwise 方法是一个 一个的进入变量,下一步将会先纳入 P 值最小的变量 X2,然后再重新计算该表, 再做选择。BlockBlock 1:1: MethodMethod = = ForwardForward StepwiseStepwise (Conditional)(Conditional)此

12、处开始了 Block 1 的拟合,根据我们的设定,采用的方法为 Forward(我们 只设定了一个 Block,所以后面不会再有 Block 2 了)。上表为全局检验,对 每一步都作了 Step、Block 和 Model 的检验,可见 6 个检验都是有意义的。此处为模型概况汇总,可见从 STEP1 到 STEP2,DEVINCE 从 18 降到 11,两种决 定系数也都有上升。此处为每一步的预测情况汇总,可见准确率由 Block 0 的 65%上升到了 84%,最 后达到 96%,效果不错,最终只出现了一例错判。上表为方程中变量检验情况列表,分别给出了 Step 1 和 Step 2 的拟合

13、情况。 注意 X4 的 P 值略大于 0.05,但仍然是可以接受的,因为这里用到的是排除标 准(默认为 0.1),该变量可以留在方程中。以 Step 2 中的 X2 为例,可见其 系数为 2.413,OR 值为 11。上表为假设将这些变量单独移出方程,则方程的改变有无统计学意义,可见都 是有统计学意义的,因此他们应当保留在方程中。最后这个表格说明的是在每一步中,尚未进入方程的变量如果再进入现有方程, 则方程的改变有无统计学意义。可见在 Step 1 时,X4 还应该引入,而在 Step 2 时,其它变量是否引入都无关了。10.3.310.3.3 模型的进一步优化与简单诊断模型的进一步优化与简单

14、诊断10.3.3.1 模型的进一步优化前面我们将 X1X5 直接引入了方程,实际上,其中 X2、X4、X5 这三个自变量为 多分类变量,我们并无证据认为它们之间个各等级的 OR 值是成倍上升的,严格 来说,这里应当采用哑变量来分析,即需要用 Categorical 钮将他们定义为分 类变量。但本次分析不能这样做,原因是这里总例数只有 26 例,如果引入哑变 量模型会使得每个等级的记录数非常少,从而分析结果将极为奇怪,无法正常 解释,但为了说明哑变量模型的用法,下面我将演示它是如何做的,毕竟不是 每个例子都只有 26 例。默认情况下定义分类变量非常容易,做到如上图所示就可以了,此时分析结果 中的

15、改变如下:上表为自变量中多分类变量的哑变量取值情况代码表。左侧为原变量名及取值, 右侧为相应的哑变量名及编码情况:以 X5 为例,表中可见 X5=4 时,即取值最 高的情况被作为了基线水平,这是多分类变量生成哑变量的默认情况。而 X5(1)代 表的是 X5=1 的情况(X5 为 1 时取 1,否则取 0),X5(2)代表的是 X5=2 的情况, 依此类推。同时注意到许多等级值有几个记录,显然后面的分析结果不会太好。相应的,分析结果中也以哑变量在进行分析,如下所示:上表出现了非常有趣的现象:所有的检验 P 值均远远大于 0.05,但是所有的变 量均没有被移出方程,这是怎么回事?再看看下面的这个表格吧。这个表格为方程的似然值改变情况的检验,可见在最后 Step 2 生成的方程中, 无论移出 X2 还是 X4 都会引起方程的显著性改变。也就是说,似然比检验的结 果和上面的 Walds 检验结果冲突,以谁为准?此处应以似然比检验为准,因为 它是全局性的检验,且 Walds 检验本身就不太准,这一点大家记住就行了,实 在要弄明白请去查阅相关文献。请注意:上面的哑变量均是以最高水平为基线水平,这不符合我们的目的,我 们希望将最低水平作为基线水平。比如以肾细胞癌第一期为基线水平,需要这 样做只要在 Categoriacl 框中选中相应的变量,在 Reference Category

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号