r软件-医学统计分析-有序logistic回归

上传人:第*** 文档编号:57183074 上传时间:2018-10-19 格式:PDF 页数:22 大小:442.31KB
返回 下载 相关 举报
r软件-医学统计分析-有序logistic回归_第1页
第1页 / 共22页
r软件-医学统计分析-有序logistic回归_第2页
第2页 / 共22页
r软件-医学统计分析-有序logistic回归_第3页
第3页 / 共22页
r软件-医学统计分析-有序logistic回归_第4页
第4页 / 共22页
r软件-医学统计分析-有序logistic回归_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《r软件-医学统计分析-有序logistic回归》由会员分享,可在线阅读,更多相关《r软件-医学统计分析-有序logistic回归(22页珍藏版)》请在金锄头文库上搜索。

1、统计学进展/累积 logisitic 回归模型/曾庆 1 累积 logisitic 回归模型 一、理论 (一)模型定义 假设结局变量 Y 有 J 个有序分类, 其自然结局顺序表示为 Y=1,2,., J, 每个分类 (结局) 的对应发生概率是 1, 2,., J,则其有序分类小于等于 j 的累积发生概率表示为 P(Yj)= 1+2+.+ j,因此可以通过指定累积概率 P(Yj)的阈值将整个结局变量 Y 的 J 个有序分 类从该指定阈值点截断, 使之成为二项结局分类。 另外有p个自变量记为 X=(x1, x2, , xp),表示相应的影响因素(定性、定量均可) 。由此定义累积 logit(Yj)

2、 函数: Jjjj xjyPxjyP xjyPxjyPjyPit+=+.ln)|()|(ln)|(1)|(ln)(log2121该累积 logit(Yj)函数是两个累积概率比的对数值,它测定了结局变量 Y 小于等于分类 j 或者大于分类 j 的可能性大小。因为有 J 个有序分类结局,所以实际上可以写出至多 J-1 个的累积 logit 函数。 +=+=+JJJjxJyPxJyP xJyPxJyPJyPitxyPxyP xyPxyPyPitJ12121.ln)| 1()| 1(ln)| 1(1)| 1(ln)1(log.ln)| 1()| 1(ln)| 1(1)| 1(ln)1(log1L个将每

3、个累积 logit 函数用线性函数的形式表示为 +=+=ppjjjppXXJyPitXXyPitJ, 111 , 10 , 1111110.)1(log.)1(log1 L个 该模型就是累积 logistic 回归模型(cumulative logit model)。对应的概率模型形式是 ).exp(1).exp()(110110pjpjjpjpjj XXXXjyP+= 为简化上述模型,进一步假定对于所有 J-1 个累积 logit 函数,各个自变量 Xi所对应的 回归系数 i都是相等的。即对每一个累积 logit 函数各有一个不同的截距 j0,然而对所有的 累积 logit 函数,自变量 X

4、i却有一个相同的 i。在此假设条件下,不同累积 logit 的回归线相 互平行,只是截距 j0不同,这称为成比例发生比假设或平行线假设。满足平行线假设的模 型简化后的是 =+=+=piiijppjXXXjyPit10110.)(log 写成系列模型则是 +=+=ppJppXXJyPitXXyPit.)1(log.)1(log110 , 11110 L 该简化后的模型就称为成比例比数比累积 logit 模型(proportional-odds cumulative logit 统计学进展/累积 logisitic 回归模型/曾庆 2 model)。 该模型有 J 1 截距, p 个回归系数, 共

5、 J + p 1 个回归系数。 一般认为累积 logistic 回归模型就是成比例比数比累积 logit 模型。对应的概率模型形式是 ).(exp11 ).exp(1).exp()(110110110ppjppjppj XXXXXXjyP +=+= 使用成比例比数比累积 logit 模型首先需要对平行线假设进行检验。如果平行假设被拒 绝,便说明自变量 Xi对不同的 logit 有不同的 i,因而说明成比例比数比累积 logit 模型不适 合,需要采用其他模型来进行资料的分析。 (二)似然函数和对数似然函数 对于有 n 个独立观察对象的样本, 第i个观察对象 Xi出现获得 Y=j 分类结局的概率

6、记作 Pj=P(Y=j|Xi),它是累积概率函数的差,即 Pj=P(Y=j|Xi)= P(Yj|Xi)P(Yj-1|Xi) 。由此构 造似然函数 L 为: =niJjiiniJjy ijniy iJy iy iijijiJiiXjYPXjYPPPPPL11y11121)| 1-(-)|()()(21L 式中 yij表示第i个观察对象自变量(探索变量)取值 Xi时已观察到结局变量 Y=j 等级时所对应的编码,它满足=Jjijy11,即只有一个 yij取值为 1(属于该类) ,其余均为 0。 相应的对数似然函数 LL 为 = =niJjjiijijniJjijijPitPityPyLL111, 1

7、1)(log)(lnlog)ln( 二、实例分析 【实例实例 1】 现有资料如表 1 所示, 试使用累积 Logistic 回归模型考察工作满意度与性别、 收入水平之间的关系。 表表 1 不同性别及收入水平人群不同性别及收入水平人群的的满意度情况满意度情况 满意度(人)(y) 性别 (gender) 收入水平 (income) 非常不满 稍微满意 比较满意 非常满意 女性 25000 0 2 4 2 男性 25000 0 1 9 6 在【实例 1】中,结果变量工作满意度 y 是多值有序变量,两个原因变量性别 gender定性变量和收入水平 income 是有序变量。传统的分析方法包含分层的列联

8、表2检验、高统计学进展/累积 logisitic 回归模型/曾庆 3 维列联(244 表)的 CMH 2检验,模型分析可以采用对数线性模型、累积 Logistic 回归模型、多项 logistic 回归模型进行分析。累积 Logistic 回归模型进行分析同时考察性别与 收入水平对工作满意度的影响。下面采用累积 Logistic 回归模型进行分析。 在进行分析计算时, 数据的输入形式可以采用原始数据和频数数据形式。 原始数据形式 采用一行一例,各个指标(因素)对应一个变量的格式输入,而频数表形式在在上述格式基 础上再增加一个频数变量。 本实例数据表是频数表形式, 所以输入时课采用频数表格式输入

9、。 其中的满意度 y 的结 果值是非常不满,稍微满意,比较满意,非常满意 4 个等级,而表内的数据值 1、3、11、2 等是各个等级对应的频数,因为表 1 是复合表的形式,它的 2 个因素变量(gender、income)、 1 个结果变量(y)的结果值具有规律性,适合程序生成,所以决定首先输入频数 f,然后再采 用程序分别完成其他各个因素的输入。 #输入所有的频数,输入完数据后,必须多一个空行 f25000), each=4), 2) #将数据合并为数据框(集)的形式 od 25000、500015000、1500025000,这不符合数据的实际等级 情况。 #显示数据结构 str(od)

10、数据框 od 数据结构共 32 例, 4 个变量, 其中变量 y 和 income 是数值型 (整型和实型) , gender 和 income 则是字符型。下面是数据框(集)的前 12 个数据,实际输入时也可以将数 据整理成下面的形式然后用 read.table()或者 scan()函数来输入。 #显示数据头 12 个 统计学进展/累积 logisitic 回归模型/曾庆 4 下面对输入数据进行整理,整理的结果保存在数据框 od2 中。函数 within()则指定整理 的数据框为 od。用 factor()函数将 gender 因子化;用 ordered()函数将 y、income 按正确的

11、等 级形式生成等级变量, 其中 levels 后面的向量指定了等级的由大到小的顺序; 函数 as.integer() 则将等级变量的编码值保存在数值变量 income2 中。 以上整理语句由于不止 1 条所以需要写 在复合语句标志符号 中。 #整理数据 od2 25000) ) income20) #显示头 12 个数据 head(od2,12) 数据整理好后,用 xtabs()函数进行列联表计算,可以将原来的数据表正确的显示出来。 xtabs(fincome+y+gender)。用 ftable()则可以用复合表的形式完全显示数据表 1。 统计学进展/累积 logisitic 回归模型/曾庆

12、 6 #显示频数表 with(od2, ftable(xtabs(fgender+income+y) ) R 有多个软件包都能进行累计 logistics 回归模型的计算,这里介绍两个包,分别是 VGAM 和 MASS。其中 VGAM 包能进行所有类型的 logistic 回归模型的计算,而 MASS 仅 能计算累计 logisitic 回归模型。在使用相应的软件包在计算前必须首先用 library()或者 require()函数加载相应的软件包,其中 MASS 包是默认的安装包,而其他的包还需要用 install.package()先进行安装。 VGAM 除了能进行累计 logistic 回

13、归模型的计算外还能进行累计 logistic 回归模型的平 行性假设的检验,而其他的软件包则不能;MASS 包虽然不能进行平行性检验,但是它可以 用 step()函数进行逐步的回归分析。 VGAM包使用vglm()函数来拟合广义线性模型, 通过family选项指定需要拟合的logistic 回归模型的类型。下面的模型语句中 y income2 指定 y 为结果变量,income2 为探索变量 (自变量) , weights=f 指定频数变量 f (如果为原始数据则频数为 1, 则不需要使用) , data=od2 指定所用数据框为 od2。模型中 family=cumulative(paral

14、lel=T) 指定拟合累计 logistic 回归模 型,而且 parallel=T 指定模型按平行性假定进行拟合。该选项可以简写为 family=propodds, 但是这样写的时候, 结果变量 y 的函数形式刚好与 family=cumulative(parallel=T)的形式相反。 所有计算结果保存在模型对象 om 中。 #加载 VGAM 包 library(VGAM) 统计学进展/累积 logisitic 回归模型/曾庆 7 #建立模型 om0.05,那么对应的自变量 没有统计学意义。上述结果中,income2 的回归系数 b 是-0.5134789,其标准误是 0.19186, w

15、ald Z检验的Z值是2.6763, 相应的wald 卡方检验值为7.162582, 对应p=|Z|=( 1-pnorm(abs(beta,3)*2, OR=exp(beta,1), OR95%CIL =exp(beta,1 - 1.96*beta,2), OR95%CIU=exp(beta,1 + 1.96*beta,2) beta 相似的,可以建立包含两个自变量 income2、gender 的累积 logistic 回归模型。其结果 如下: om625000 0 2 4 2 M 25000 0 1 9 6 ) od #显示结果 统计学进展/累积 logisitic 回归模型/曾庆 19 #数据输入后的结构 #开始数据整理 od25000) ) income2-as.integer(income) ) str(od) #加载 VGAM 进行计算 library(VGAM) #建立有序 logistics 模型的平行模型 om-vglm(cbind(f1,f2,f3,f4)income2, data=od, family=cumulative(par

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号