对数线性模型及SPSS操作

上传人:n**** 文档编号:50612577 上传时间:2018-08-09 格式:PPTX 页数:49 大小:4.71MB
返回 下载 相关 举报
对数线性模型及SPSS操作_第1页
第1页 / 共49页
对数线性模型及SPSS操作_第2页
第2页 / 共49页
对数线性模型及SPSS操作_第3页
第3页 / 共49页
对数线性模型及SPSS操作_第4页
第4页 / 共49页
对数线性模型及SPSS操作_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《对数线性模型及SPSS操作》由会员分享,可在线阅读,更多相关《对数线性模型及SPSS操作(49页珍藏版)》请在金锄头文库上搜索。

1、对数线性模型多项分布对数线性模型 Poisson对数线性模型 2高维列联表和多项分布对数线性模型 前面例子原始数据是个三维列联表,对三维列联 表的检验也类似。 但高维列联表在计算机软件的选项可有所不同, 而且可以构造一个所谓(多项分布)对数线性模型 (loglinear model)来进行分析。 利用对数线性模型的好处是不仅可以直接进行预 测,而且可以增加定量变量作为模型的一部分。3多项分布对数线性模型 现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表 第一个变量的不同水平,而不同的列代表第二个变量的不同水平。用mij 代表二维列联表第i行,第j列的频数。人们常假定这个频数可以用

2、下面的 公式来确定:这就是所谓的多项分布对数线性模型。这里i为行变量的第i个水平对 ln(mij)的影响,而j为列变量的第j个水平对ln(mij)的影响,这两个影响称 为主效应(main effect);ij代表随机误差。 4多项分布对数线性模型 这个模型看上去和回归模型很象,但由于对于分布的假设不同 ,不能简单地用线性回归的方法来套用(和Logistic回归类似); 计算过程也很不一样。当然我们把这个留给计算机去操心了。 只要利用数据来拟合这个模型就可以得到对于参数m的估计( 没有意义),以及ai和bj的“估计”。 有了估计的参数,就可以预测出任何i,j水平组合的频数mij了 (通过其对数)

3、。 注意,这里的估计之所以打引号是因为一个变量的各个水平的 影响是相对的,因此,只有事先固定一个参数值(比如a1=0),或者 设定类似于Sai=0这样的约束,才可能估计出各个的值。没有 约束,则这些参数是估计不出来的。 5多项分布对数线性模型 二维列联表的更完全的对数线性模型为 这里的()ij代表第一个变量的第i个水平和第二个变量 的第j个水平对ln(mij)的共同影响(交叉效应)。即当单独 作用时,每个变量的一个水平对ln(mij)的影响只有i(或 j)大,但如果这两个变量一同影响就不仅是i + j ,而 且还多出一项。 这里的交叉项的诸参数的大小也是相对的,也需要约束 条件来得到其“估计”

4、;涉及的变量和水平越多,约束也 越多。6注意,无论你对模型假定了多少种效应,并 不见得都有意义;有些可能是多余的。本来 没有交叉影响,但如果写入,也没有关系, 在分析过程中一般可以知道哪些影响是显著 的,而那些是不显著的。 Poisson分布简介在某些固定的条件下, 人们认为某些事件出现 的次数服从Poisson分布, 比如在某一个时间段内某 种疾病的发生病数, 显微镜下的微生物数, 血球数, 门诊病人数, 投保数, 商店的顾客数, 公共汽车到达 数, 电话接通数等等. 然而, 条件是不断变化的. 因 此, 所涉及的Poisson分布的参数也随着变化.8Poisson对数线性模型 假定哮喘发生

5、服从Poisson分布;但是由于条件不同, Poisson分布的参数也应该随着条件的变化而改变。这里 的条件就是给出的性别、空气污染程度与年龄。当然, 如何影响以及这些条件影响是否显著则是我们所关心 的。这个模型可以写成 这里为常数项,i为性别(i=1,2分别代表女性和男性 两个水平),j为空气污染程度(j=1,2,3代表低、中高 三个污染水平),x为连续变量年龄,而为年龄前面 的系数,ij为残差项。 SPSS 中一共提供了对数线性模型的三个过程: General 过程、Logit 过程 和Model Selection 过程,三者都应用对数线性模型的基本原理,但在具体 的拟和方法和结果输出上

6、有些不同,分别用于不同的研究情况。 General 过程适用于研究人员只对某些特定效应项感兴趣的情况,属于证实 性研究。General 过程的另外一个特点是,分析中只考虑因素之间是否相关 ,不考虑谁是原因谁是结果,最后在结果解释时才由研究人员来做出判断。 如果因变量为两分类,就可以用Logit 过程提供的Logit 模型来分析。相比之 下,它比另两个模型更像方差分析,明确分出了应变量和自变量,直接服务 于分类变量之间的因果关系。 Model Selection 过程拟合的是分层对数线性模型(Hierarchical Mode)。如果 在探索性分析中研究人员只是设想若干分类变量之间可能有关系,但

7、是并无 明确假设,也没有具体分出哪个是因变量、哪个是自变量,此时比较适宜采 用分层对数线性模型分析。9对数线性模型- General模型 一般对数线性模型是对数线性模型中最简单的一种。 例:某医科大学附属医院用内科疗法治疗一般类型胃溃病患者80 例,治愈63 例,治疗特殊类型胃溃病患者99 例,治愈31 例,试 通过此资料比较用内科疗法治疗两种胃溃病病人所得的治愈率是 否相同。 影响格子中频数大小的因素有两个:组别和治疗结果,根据前面的 分析可知,要比较两种类型胃溃疡病的治愈率是否相同,就是分 析组别和治疗结果两个因素对单元格频数的作用是否存在交互作 用。10可以认为用内科疗法治疗两种胃溃疡病

8、人所得的治愈率是不同的。 一般类型病人的治愈率高于特殊类型,或者可以说,治愈率和组别与治疗结果两个因素 有关,对单元格频数的作用存在交互作用。11拟合Poisson回归模型 时使用首先应当使用Weight Cases 过程,将count 指定为频数变 量。结果分析:17模型迭代的基本情况:允许最大迭代 次数为20 次,用于判断收敛的相对 容忍度为0.001,本模型迭代4次后即 成功收敛。 表格下方的脚注给出了具体模型的信 息:单元格内频数服从多项分布,具 体的模型如下,即含交互作用项的饱 和模型。这里关心的是参数6 的估计值及 假设检验结果,即两个因素的交 互作用是否有意义。 其参数估计值为2

9、. 095 ,P0. 05 ,认为胃溃疡类型和治疗结果两 个因素之间存在交互作用,即不 同胃溃疡类型有不同的治疗率。 结合具体资料可以看出,一般类 型胃溃疡治愈率高于特殊类型。 输出的分别是4 个系数的协方 差矩阵和相关系数矩阵。作为 参照水平的参数(都赋值为0) 没有列出。 再次提醒:由于拟合的是饱和 模型,故所有的残差均为0 , 因此没有输出与残差有关的图 形。 如果选择Custom模型,分析group和result两个因素的Main effect,不包含两 者的交互效应,结果会怎样?22从模型的拟和优度检验可见,无论是似然比2 还是普通的Pearson 2 , P值都 是小于0.05 的

10、,从饱和模型中去除交互项后所用的这个模型在拟合优度上和 原饱和模型有统计学差异,即被去除的交互项实际上是存在的。也就是两变 量间有关系,即不同类型胃溃疡病人的治愈率不同。这与饱和模型的分析结 果是完全一致的。 4 个单元格的观察频数、期望频数和校 正残差的散点图矩阵。 上排中间的格子是指以期望频数横坐 标、实际频数为纵坐标的散点图; 第二排左边的散点图是以实际频数为 横坐标、期望频数为纵坐标。 如果把这两个图作一定的旋转,就会 发现它们是完全一样的。 从观察频数和校正残差的散点图可看 出, 4 个散点明显存在着一定的趋势 ,这说明残差不服从正态分布,所拟 合的模型尚不能完全解释4 个格子频数

11、的分布规律,可能还有有意义的变量 未被纳入(实际上就是交互项未被纳入) 。 校正残差的正态Q-Q 图和去势正态Q-Q图,可见虽然只有4 个格子的 残差,但明显存在着一定趋势,结论和前面相同。Poisson回归模型 SPSS 中一般对数线性模型主对话框右下侧的Distribution of Cell Counts 单选框组默认为Poisson ,即各单元格中频 数服从Poisson 分布。 在上文所讨论的模型中,单元格内频数都被假定成服从多 项分布,此时拟合的是标准的对数线性模型。 但是如果将频数分布设定为Poisson 分布,此时拟合的又 是什么模型呢?25 例:现收集了某一年代英国男性医生冠

12、心病死亡与抽烟关系的年龄分组数 据。请推断英国男医生冠心病死亡与抽烟、年龄是否有关?注意由于死亡与 追踪人数和追踪时间均有关,故对人数进行了校正,实际上是用经过校正的 观察人数作为观察单位。 由于冠心病并非传染病,且在人群中的病死率较低,因此可以认为死亡人数 服从Poisson 分布。 在清楚了模型的基本结构后,本例的操作就不再困难了,唯一比较特殊的是 由于各年龄组的观察人数不同,需要在Cell Structure 框中加以设定。2728首先对死亡数died进行加权。由模型的拟合优度可见,当前模型和饱和模型相比没有统计学差异, 说明不需要再纳入两个变量的交互项了。 模型的参数估计值,由于Poi

13、sson 回归模型都是对前瞻性研究数据进行 拟合,因此可以通过对事件发生率(此处为死亡率)的比较计算出相对危 险度。 本例的结果:和抽烟者相比,不抽烟者的死亡风险较低,其RR为exp (- 0.5) =0.6060 。而随着年龄的增加,死亡的风险也在逐渐上升,和35 岁 组(编码为1)相比,65 岁组(编码为4) 的RR值为exp (3.338) = 28.163。对数线性模型- Logit模型 一般线性模型己经可以完成许多分析了,它的特色是对所有的变量 不分因变量和自变量,一视同仁的分析。但有的时候,研究人员对 研究变量间的因果关系已经了解,研究目的是分析自变量与因变量 之间的关系,此时用一

14、般对数线性模型就无法利用该信息。 在这种情况下,可以用Logit 过程提供的Logit 模型来分析。该模型 明确分出因变量和自变量,分析因变量和自变量之间的因果关系。 模型中将自动引入自变量与因变量的交互项。在拟合结果上, Logit 模型实际上和我们熟悉的Logistic 模型等价。31 例:要研究两种手术后并发症的严重程度与手术类型是否有关, 在甲乙两个医院各观察70 、54 例子术病人。32本研究分析不同手术类型和不同医院对术后并发症的影响,显然是 否出现术后并发症是因变量,手术类型和医院是自变量。 这一问题可以用Logistic 回归来解决,也可以用对数线性模型来解决 ,二者是等价的。

15、首先应当使用Weight Cases 过程,将count 指定为频数变量。可见该不饱和模型的拟合优度与含所 有交互项的饱和模型相比并无统计学 差异,也就是说,用此模型己经可以 充分反映三个变量间的关系了。 SPSS12之后新增的输出,用于给出反应 模型的解释度,它类似于回归模型中的 决定系数,具体以熵(Entropy) 或集中度 (Concentration) 来计算。 以熵为例,可见数据的总熵为83.613 , 其中被模型解释掉了2.916 ,因此通过熵 测得的模型解释度为2.916/83.613 =0.035 。 但是,由于这里拟合的是分类数据的模 型,因此解释度指标只是近似的反映了 模型

16、的效果,就如同Logistic 模型中的伪 决定系数一样。模型中所有参数的估计值,对于自变量的任意组合分别估计了常数项。其余的11 个系数中3个 有效参数均给出了标准误、Z值以及参数95% 可信区间,从可信区间可见第11个参数有统计学 意义的,可以这样理解,在控制了hospital 这一变量的混杂作用后,因变量effect与自变量trt 之间存在交互作用。 结合具体数据可知,手术1 的术后并发症发生率低于手术2 。两所不同医院之间,术后并发症 发生情况无明显差别。对数线性模型-Model Selectio SPSS 中的LoglinearModel Selection 过程可以进行对数线性模型的选择。 该过程从饱和模型入手,从高阶交互项开始逐步排除无意义的参数,直到最 终形成一个最佳的简约模型。 但是分层模型只提供饱和模型的参数估计、不能输出简略模型的参数估计, 在用它得到最佳简约模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号