回归分析教材－金锄头文库

资源描述

《回归分析教材》由会员分享，可在线阅读，更多相关《回归分析教材（14页珍藏版）》请在金锄头文库上搜索。

1、SPSSSPSS 10.010.0 高级教程十三：分类资料的高级教程十三：分类资料的 LogisticLogistic 回回归分析归分析(2009-02-05 15:32:54) 电脑电脑 spssspss 肾细胞癌回归分析卡方杂谈肾细胞癌回归分析卡方杂谈所谓 Logistic 模型，或者说 Logistic 回归模型，就是人们想为两分类的应变量作一个回归方程出来，可概率的取值在 01 之间，回归方程的应变量取值可是在实数集中，直接做会出现 01 范围之外的不可能结果，因此就有人耍小聪明，将率做了一个 Logit 变换，这样取值区间就变成了整个实数集，作出来的结果就不会有问题了，从而该

2、方法就被叫做了 Logistic 回归。随着模型的发展，Logistic 家族也变得人丁兴旺起来，除了最早的两分类 Logistic 外，还有配对 Logistic 模型，多分类 Logistic 模型、随机效应的 Logistic 模型等。由于 SPSS 的能力所限，对话框只能完成其中的两分类和多分类模型，下面我们就介绍一下最重要和最基本的两分类模型。10.3.110.3.1 界面详解与实例界面详解与实例例 11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中，收集了一批行根治性肾切除术患者的肾癌标本资料，现从中抽取 26 例资料作为示例进行 logistic 回归分析（本例

3、来自卫生统计学第四版第 11 章）。i：标本序号x1：确诊时患者的年龄(岁)x2：肾细胞癌血管内皮生长因子(VEGF)，其阳性表述由低到高共 3 个等级 x3：肾细胞癌组织内微血管数(MVC) x4：肾癌细胞核组织学分级，由低到高共 4 级 x5：肾细胞癌分期，由低到高共 4 期 y：肾细胞癌转移情况(有转移 y=1; 无转移 y=0)。i i x1x1 x2x2 x3x3 x4x4 x5x5 y y1 1 5959 2 2 43.443.4 2 2 1 1 0 02 2 3636 1 1 57.257.2 1 1 1 1 0 03 3 6161 2 2 190190 2 2 1 1 0 0

4、4 4 5858 3 3 128128 4 4 3 3 1 15 5 5555 3 3 8080 3 3 4 4 1 16 6 6161 1 1 94.494.4 2 2 1 1 0 07 7 3838 1 1 7676 1 1 1 1 0 08 8 4242 1 1 240240 3 3 2 2 0 09 9 5050 1 1 7474 1 1 1 1 0 01010 5858 3 3 68.668.6 2 2 2 2 0 01111 6868 3 3 132.8132.8 4 4 2 2 0 01212 2525 2 2 94.694.6 4 4 3 3 1 11313 5252 1 1

5、5656 1 1 1 1 0 01414 3131 1 1 47.847.8 2 2 1 1 0 01515 3636 3 3 31.631.6 3 3 1 1 1 11616 4242 1 1 66.266.2 2 2 1 1 0 01717 1414 3 3 138.6138.6 3 3 3 3 1 11818 3232 1 1 114114 2 2 3 3 0 01919 3535 1 1 40.240.2 2 2 1 1 0 02020 7070 3 3 177.2177.2 4 4 3 3 1 12121 6565 2 2 51.651.6 4 4 4 4 1 12222 4545

6、2 2 124124 2 2 4 4 0 02323 6868 3 3 127.2127.2 3 3 3 3 1 12424 3131 2 2 124.8124.8 2 2 3 3 0 02525 5858 1 1 128128 4 4 3 3 0 02626 6060 3 3 149.8149.8 4 4 3 3 1 1在菜单上选择 Analyze=Regression=Binary Logistic.，系统弹出 Logistic 回归对话框如下：左侧是候选变量框，右上角是应变量框，选入二分类的应变量，下方的 Covariates 框是用于选入自变量的，只不过这里按国外的习惯被称为了协变量。

7、两框中间的是 BLOCK 系列按扭，我在上一课已经讲过了，不再重复。中下部的 a*b框是用于选入交互作用的，和其他的对话框不太相同（我也不知道为什么 SPSS 偏在这里做得不同），下方的 Method 列表框用于选择变量进入方法，有进入法、前进法和后退法三大类，三类之下又有细分。最下面的四个按钮比较重要，请大家听我慢慢道来：oSelect钮：用于限定一个筛选条件，只有满足该条件的记录才会被纳入分析，单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余，和专门的 Select 对话框的功能重复了。oCategorical 钮：如果你的自变量是多分类的（如血型等），你必须要将

8、它用哑变量的方式来分析，那么就要用该按钮将该变量指定为分类变量，如果有必要，可用里面的选择按钮进行详细的定义，如以哪个取值作为基础水平，各水平间比较的方法是什么等。当然，如果你弄不明白，不改也可以，默认的是以最大取值为基础水平，用 Deviance 做比较。oSave 钮：将中间结果存储起来供以后分析，共有预测值、影响强度因子和残差三大类。oOptions 钮：这一部分非常重要，但又常常被忽视，在这里我们可以对模型作精确定义，还可以选择模型预测情况的描述方式，如 Statistics and Plots 中的 Classification plots 就是非常重要的模型预测工具，C

9、orrelations of estimates 则是重要的模型诊断工具， Iteration history 可以看到迭代的具体情况，从而得知你的模型是否在迭代时存在病态，下方则可以确定进入和排除的概率标准，这在逐步回归中是非常有用的。好，根据我们的目的，应变量为 Y，而 X1X5 为自变量，具体的分析操作如下：1. Analyze=Regression=Binary Logistic. 2. Dependent 框：选入 Y 3. Covariates 框：选入 x1x5 4. OK 钮：单击10.3.210.3.2 结果解释结果解释LogisticLogistic Regressio

10、nRegression上表为记录处理情况汇总，即有多少例记录被纳入了下面的分析，可见此处因不存在缺失值，26 条记录均纳入了分析。上表为应变量分类情况列表，没什么好解释的。BlockBlock 0:0: BeginningBeginning BlockBlock此处已经开始了拟合，Block 0 拟合的是只有常数的无效模型，上表为分类预测表，可见在 17 例观察值为 0 的记录中，共有 17 例被预测为 0，9 例 1 也都被预测为 0，总预测准确率为 65.4%，这是不纳入任何解释变量时的预测准确率，相当于比较基线。上表为 Block 0 时的变量系数，可见常数的系数值为-0.636

11、。上表为在 Block 0 处尚未纳入分析方程的侯选变量，所作的检验表示如果分别将他们纳入方程，则方程的改变是否会有显著意义（根据所用统计量的不同，可能是拟合优度，Deviance 值等）。可见如果将 X2 系列的哑变量纳入方程，则方程的改变是有显著意义的，X4 和 X5 也是如此，由于 Stepwise 方法是一个一个的进入变量，下一步将会先纳入 P 值最小的变量 X2，然后再重新计算该表，再做选择。BlockBlock 1:1: MethodMethod = = ForwardForward StepwiseStepwise (Conditional)(Conditional)此

12、处开始了 Block 1 的拟合，根据我们的设定，采用的方法为 Forward（我们只设定了一个 Block，所以后面不会再有 Block 2 了）。上表为全局检验，对每一步都作了 Step、Block 和 Model 的检验，可见 6 个检验都是有意义的。此处为模型概况汇总，可见从 STEP1 到 STEP2，DEVINCE 从 18 降到 11，两种决定系数也都有上升。此处为每一步的预测情况汇总，可见准确率由 Block 0 的 65%上升到了 84%，最后达到 96%，效果不错，最终只出现了一例错判。上表为方程中变量检验情况列表，分别给出了 Step 1 和 Step 2 的拟合

13、情况。注意 X4 的 P 值略大于 0.05，但仍然是可以接受的，因为这里用到的是排除标准（默认为 0.1），该变量可以留在方程中。以 Step 2 中的 X2 为例，可见其系数为 2.413，OR 值为 11。上表为假设将这些变量单独移出方程，则方程的改变有无统计学意义，可见都是有统计学意义的，因此他们应当保留在方程中。最后这个表格说明的是在每一步中，尚未进入方程的变量如果再进入现有方程，则方程的改变有无统计学意义。可见在 Step 1 时，X4 还应该引入，而在 Step 2 时，其它变量是否引入都无关了。10.3.310.3.3 模型的进一步优化与简单诊断模型的进一步优化与简单

14、诊断10.3.3.1 模型的进一步优化前面我们将 X1X5 直接引入了方程，实际上，其中 X2、X4、X5 这三个自变量为多分类变量，我们并无证据认为它们之间个各等级的 OR 值是成倍上升的，严格来说，这里应当采用哑变量来分析，即需要用 Categorical 钮将他们定义为分类变量。但本次分析不能这样做，原因是这里总例数只有 26 例，如果引入哑变量模型会使得每个等级的记录数非常少，从而分析结果将极为奇怪，无法正常解释，但为了说明哑变量模型的用法，下面我将演示它是如何做的，毕竟不是每个例子都只有 26 例。默认情况下定义分类变量非常容易，做到如上图所示就可以了，此时分析结果中的

15、改变如下：上表为自变量中多分类变量的哑变量取值情况代码表。左侧为原变量名及取值，右侧为相应的哑变量名及编码情况：以 X5 为例，表中可见 X5=4 时，即取值最高的情况被作为了基线水平，这是多分类变量生成哑变量的默认情况。而 X5(1)代表的是 X5=1 的情况（X5 为 1 时取 1，否则取 0），X5(2)代表的是 X5=2 的情况，依此类推。同时注意到许多等级值有几个记录，显然后面的分析结果不会太好。相应的，分析结果中也以哑变量在进行分析，如下所示：上表出现了非常有趣的现象：所有的检验 P 值均远远大于 0.05，但是所有的变量均没有被移出方程，这是怎么回事？再看看下面的这个表格吧。这个表格为方程的似然值改变情况的检验，可见在最后 Step 2 生成的方程中，无论移出 X2 还是 X4 都会引起方程的显著性改变。也就是说，似然比检验的结果和上面的 Walds 检验结果冲突，以谁为准？此处应以似然比检验为准，因为它是全局性的检验，且 Walds 检验本身就不太准，这一点大家记住就行了，实在要弄明白请去查阅相关文献。请注意：上面的哑变量均是以最高水平为基线水平，这不符合我们的目的，我们希望将最低水平作为基线水平。比如以肾细胞癌第一期为基线水平，需要这样做只要在 Categoriacl 框中选中相应的变量，在 Reference Category

展开阅读全文