R软件-医学统计分析-有序logistic回归.pdf

上传人:飞****9 文档编号:134196819 上传时间:2020-06-03 格式:PDF 页数:22 大小:446.43KB
返回 下载 相关 举报
R软件-医学统计分析-有序logistic回归.pdf_第1页
第1页 / 共22页
R软件-医学统计分析-有序logistic回归.pdf_第2页
第2页 / 共22页
R软件-医学统计分析-有序logistic回归.pdf_第3页
第3页 / 共22页
R软件-医学统计分析-有序logistic回归.pdf_第4页
第4页 / 共22页
R软件-医学统计分析-有序logistic回归.pdf_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《R软件-医学统计分析-有序logistic回归.pdf》由会员分享,可在线阅读,更多相关《R软件-医学统计分析-有序logistic回归.pdf(22页珍藏版)》请在金锄头文库上搜索。

1、统计学进展 累积 logisitic 回归模型 曾庆 1 累积 logisitic 回归模型 一 理论 一 模型定义 假设结局变量 Y 有 J 个有序分类 其自然结局顺序表示为 Y 1 2 J 每个分类 结局 的对应发生概率是 1 2 J 则其有序分类小于等于 j 的累积发生概率表示为 P Y j 1 2 j 因此可以通过指定累积概率 P Y j 的阈值将整个结局变量 Y 的 J 个有序分 类从该指定阈值点截断 使之成为二项结局分类 另外有p个自变量记为 X x1 x2 xp 表示相应的影响因素 定性 定量均可 由此定义累积 logit Y j 函数 Jjj j xjyP xjyP xjyP

2、xjyP jyPit ln ln 1 ln log 21 21 该累积 logit Y j 函数是两个累积概率比的对数值 它测定了结局变量 Y 小于等于分类 j 或者大于分类 j 的可能性大小 因为有 J 个有序分类结局 所以实际上可以写出至多 J 1 个的累积 logit 函数 J J Jj xJyP xJyP xJyP xJyP JyPit xyP xyP xyP xyP yPit J 121 2 1 ln 1 1 ln 1 1 1 ln 1 log ln 1 1 ln 1 1 1 ln 1 log 1L个 将每个累积 logit 函数用线性函数的形式表示为 ppjjj pp XXJyPi

3、t XXyPit J 111 10 1 111110 1 log 1 log 1 L个 该模型就是累积 logistic 回归模型 cumulative logit model 对应的概率模型形式是 exp 1 exp 110 110 pjpjj pjpjj XX XX jyP 为简化上述模型 进一步假定对于所有 J 1 个累积 logit 函数 各个自变量 Xi所对应的 回归系数 i都是相等的 即对每一个累积 logit 函数各有一个不同的截距 j0 然而对所有的 累积 logit 函数 自变量 Xi却有一个相同的 i 在此假设条件下 不同累积 logit 的回归线相 互平行 只是截距 j0

4、不同 这称为成比例发生比假设或平行线假设 满足平行线假设的模 型简化后的是 p i iijppj XXXjyPit 1 0110 log 写成系列模型则是 ppJ pp XXJyPit XXyPit 1 log 1 log 110 1 1110 L 该简化后的模型就称为成比例比数比累积 logit 模型 proportional odds cumulative logit 统计学进展 累积 logisitic 回归模型 曾庆 2 model 该模型有 J 1 截距 p 个回归系数 共 J p 1 个回归系数 一般认为累积 logistic 回归模型就是成比例比数比累积 logit 模型 对应的

5、概率模型形式是 exp 1 1 exp 1 exp 110110 110 ppjppj ppj XXXX XX jyP 使用成比例比数比累积 logit 模型首先需要对平行线假设进行检验 如果平行假设被拒 绝 便说明自变量 Xi对不同的 logit 有不同的 i 因而说明成比例比数比累积 logit 模型不适 合 需要采用其他模型来进行资料的分析 二 似然函数和对数似然函数 对于有 n 个独立观察对象的样本 第i个观察对象 Xi出现获得 Y j 分类结局的概率记作 Pj P Y j Xi 它是累积概率函数的差 即 Pj P Y j Xi P Y j Xi P Y j 1 Xi 由此构 造似然函

6、数 L 为 n i J j ii n i J j y ij n i y iJ y i y i ijij iJii XjYPXjYPPPPPL 11 y 111 21 1 21 L 式中 yij表示第i个观察对象自变量 探索变量 取值 Xi时已观察到结局变量 Y j 等级 时所对应的编码 它满足 J j ij y 1 1 即只有一个 yij取值为 1 属于该类 其余均为 0 相应的对数似然函数 LL 为 n i J j jiijij n i J j ijij PitPityPyLL 11 1 11 log ln log ln 二 实例分析 实例实例 1 现有资料如表 1 所示 试使用累积 Log

7、istic 回归模型考察工作满意度与性别 收入水平之间的关系 表表 1 不同性别及收入水平人群不同性别及收入水平人群的的满意度情况满意度情况 满意度 人 y 性别 gender 收入水平 income 非常不满 稍微满意 比较满意 非常满意 女性 25000 0 2 4 2 男性 25000 0 1 9 6 在 实例 1 中 结果变量工作满意度 y 是多值有序变量 两个原因变量性别 gender 定性变量和收入水平 income 是有序变量 传统的分析方法包含分层的列联表 2 检验 高 统计学进展 累积 logisitic 回归模型 曾庆 3 维列联 2 4 4 表 的 CMH 2 检验 模型

8、分析可以采用对数线性模型 累积 Logistic 回 归模型 多项 logistic 回归模型进行分析 累积 Logistic 回归模型进行分析同时考察性别与 收入水平对工作满意度的影响 下面采用累积 Logistic 回归模型进行分析 在进行分析计算时 数据的输入形式可以采用原始数据和频数数据形式 原始数据形式 采用一行一例 各个指标 因素 对应一个变量的格式输入 而频数表形式在在上述格式基 础上再增加一个频数变量 本实例数据表是频数表形式 所以输入时课采用频数表格式输入 其中的满意度 y 的结 果值是非常不满 稍微满意 比较满意 非常满意 4 个等级 而表内的数据值 1 3 11 2 等是

9、各个等级对应的频数 因为表 1 是复合表的形式 它的 2 个因素变量 gender income 1 个结果变量 y 的结果值具有规律性 适合程序生成 所以决定首先输入频数 f 然后再采 用程序分别完成其他各个因素的输入 输入所有的频数 输入完数据后 必须多一个空行 f scan 1 3 11 2 2 3 17 3 0 1 8 5 0 2 4 2 1 1 2 1 0 3 5 1 0 0 7 3 0 1 9 6 数据因素变量 y rep 1 4 8 gender rep c F M c 4 4 4 4 income rep rep c 25000 each 4 2 将数据合并为数据框 集 的形式

10、 od data frame y gender income f stringsAsFactors F 上述程序中采用 scan 函数进行频数输入 生成向量 f 需要注意的是 scan 函数的数 据行最后以空行表示数据输入完成 然后采用 rep 函数生成规律的其他因素的值 满意度 结果值用 1 4 表示 每一行顺序分别是 1 2 3 4 取值 总共 8 行 gender 语句中 4 4 表 示前面的数据结果值 F M 每个都是 4 列 4 行共 16 个数据值 而 income 语句中 each 4 表示每个数据值 4 个 外面的 rep 函数表示数据值重复了 2 次 最后采用 data fr

11、ame 函数将所有向量组织成数据框 集 形式保存 形成数据整体 R 在转换为数据框的形式时 会自动将字符向量转换为因子变量 选项 stringsAsFactors F 则 取消这个自动转换功能 因为自动转换功能对 gender 和 income 都会进行转换 而且 income 的转换顺序是 25000 5000 15000 15000 25000 这不符合数据的实际等级 情况 显示数据结构 str od 数据框 od 数据结构共 32 例 4 个变量 其中变量 y 和 income 是数值型 整型和实型 gender 和 income 则是字符型 下面是数据框 集 的前 12 个数据 实际输

12、入时也可以将数 据整理成下面的形式然后用 read table 或者 scan 函数来输入 显示数据头 12 个 统计学进展 累积 logisitic 回归模型 曾庆 4 下面对输入数据进行整理 整理的结果保存在数据框 od2 中 函数 within 则指定整理 的数据框为 od 用 factor 函数将 gender 因子化 用 ordered 函数将 y income 按正确的等 级形式生成等级变量 其中 levels 后面的向量指定了等级的由大到小的顺序 函数 as integer 则将等级变量的编码值保存在数值变量 income2 中 以上整理语句由于不止 1 条所以需要写 在复合语句

13、标志符号 中 整理数据 od2 within od gender factor gender income ordered income levels c 25000 income2 as integer income yy ordered y 整理后的数据结构 整理后的数据框 od2 的结构显示共 32 例 6 个变量 除了原来的变量外新增 2 个变量 yy 和 income2 其中 yy 是有序等级变量 income2 是整型数值变量 显示的前 12 个数据值 可见 经过数据转化后 变量 gender income 的屏幕可视形式没有变化 income2 中的数值 是 income 变量的

14、对应等级编码 整理后的数据框 集 的头 12 个数据 统计学进展 累积 logisitic 回归模型 曾庆 5 上述数据框中 有频数为 0 的数据例 这对分析没有意义 必须删除 否则影响后续的 分析 可以采用子集函数 subset 也可以采用数据框的下标运算来进行删除数据行 操作 完毕后的数据结果显示 原来的数据行中频数为 0 的被删除了 例如原来的 9 行是 0 现在 是删除后没有编号 9 的数据行了 删除频数为 0 的数据 od20 显示头 12 个数据 head od2 12 数据整理好后 用 xtabs 函数进行列联表计算 可以将原来的数据表正确的显示出来 xtabs f income

15、 y gender 用 ftable 则可以用复合表的形式完全显示数据表 1 统计学进展 累积 logisitic 回归模型 曾庆 6 显示频数表 with od2 ftable xtabs f gender income y R 有多个软件包都能进行累计 logistics 回归模型的计算 这里介绍两个包 分别是 VGAM 和 MASS 其中 VGAM 包能进行所有类型的 logistic 回归模型的计算 而 MASS 仅 能计算累计 logisitic 回归模型 在使用相应的软件包在计算前必须首先用 library 或者 require 函数加载相应的软件包 其中 MASS 包是默认的安装

16、包 而其他的包还需要用 install package 先进行安装 VGAM 除了能进行累计 logistic 回归模型的计算外还能进行累计 logistic 回归模型的平 行性假设的检验 而其他的软件包则不能 MASS 包虽然不能进行平行性检验 但是它可以 用 step 函数进行逐步的回归分析 VGAM包使用vglm 函数来拟合广义线性模型 通过family选项指定需要拟合的logistic 回归模型的类型 下面的模型语句中 y income2 指定 y 为结果变量 income2 为探索变量 自变量 weights f 指定频数变量 f 如果为原始数据则频数为 1 则不需要使用 data od2 指定所用数据框为 od2 模型中 family cumulative parallel T 指定拟合累计 logistic 回归模 型 而且 parallel T 指定模型按平行性假定进行拟合 该选项可以简写为 family propodds 但是这样写的时候 结果变量 y 的函数形式刚好与 family cumulative parallel T 的形式相反 所有计算结果保存在模型对象

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号