《根据重复观察数据分析临床病人转归的统计学问题和实践》由会员分享,可在线阅读,更多相关《根据重复观察数据分析临床病人转归的统计学问题和实践(4页珍藏版)》请在金锄头文库上搜索。
1、应用研究 四川大学华西公共卫生学院() 四川省医学科学院四川省人民医院康复医学科 四川大学华西医院康复医学科 英国诺丁汉大学医学院 骆焕园刘慧芳为共同第一作者 通信作者:杨珉: . . 何成奇: . 根据重复观察数据分析临床病人转归的统计学问题和实践骆焕园 刘慧芳 吴艳乔 何成奇 杨 珉【提 要】 目的 探讨疾病转归中重复测量数据存在的数据、统计分析问题及策略 方法 以芦山震区伤员疾病转 归影响因素研究为例以 指数为病人结局测量值采用多水平多模型尝试法、直尺逼近法和生存分析模型等解决 疾病临床变化、转折平台期确定及影响因素等临床研究问题 结果 获得了克服天花板效应的不同伤员 指数随 时间变化的
2、多水平模型确定了疾病转归事件的时点探讨了疾病转归的影响因素 结论 分析疾病转归的重复测量数 据有一系列的统计问题和分析策略 需进一步发展处理天花板效应的随机效应模型 【关键词】 疾病转归 重复测量数据 多水平模型 统计学问题 天花板效应疾病的转归需通过重要指标的变化情况来表征从而了解病情变化调整治疗方案 比如在比较两种治疗老年股骨粗隆间骨折的方法疗效时需分别在术后随访 个月观察 髋关节功能评分等 这种重复测量数据具有以下特征:()初次测量时间、病情及基线资料存在差异()多次测量时间间隔和次数不一致()多次测量数据间存在相关性目前多水平或随机系数模型是处理这类数据的有效方法 而在数据处理及分析过
3、程中测量指标的“天花板”效应也需依据实际情况予以考虑但目前医学研究中少有探讨如何处理此问题本文通过临床实例探讨不平衡重复测量资料中涉及的数据问题(如天花板效应)和统计方法问题(如选择时间变量的形式)等为今后相关研究提供参考资 料资料来源于四川某教学医院一项地震伤员康复干预研究项目 研究对象为四川芦山震区 例伤员主要研究目的为分析康复干预在地震伤员转归中的作用及影响转归的因素 以 指数( )作为反映伤员转归情况的主要指标年龄、性别、主诊断类别、受伤被困时间、受伤至接受康复治疗时间、康复干预项目数、总住院时间为协变量 其中为目前临床常用的一种评定日常生活活动能力的指标以独立完成 项任务(如进食等)
4、程度来反映伤员身体状况最低 分最高 分 伤员在不同时间点入院均接受基线 评定根据评分情况开始干预后间隔不等时间评定其 直至出院前的末次评定 每位伤员评定次数从 次到 次不等 入院时评分高的伤员干预时间一般较短干预评估次数较少反之亦多本例关心三个问题:第一 随时间变化规律如何? 据此推测 变化是否有平台期? 若有则第二到达平台期需多少时间? 哪些协变量对此有影响? 第三可否预测不同伤员所需时间? 本文介绍我们回答这些问题时在统计方法选择上的一些尝试和思考图 例伤员个体的 随时间变化趋势图伤员数据特征见表 多数伤员测量次数在 之间测量次数少的伤员 基线值较高、病情较轻提示测量次数因伤员转归情况而异
5、 随时间推移(测量次数增加)每次测量的 均数逐渐增加增加速度不等伤员大致趋于康复 由图 可见 大致呈抛物线状随时间推移而增加增加速度先快后慢个体间基线值及增加速度有很大差异 部分个体 在入院后很短时间内快速上升并持续停留在最大值 分处统计分析方法 变化规律分析 为不平衡重复测量资料具有两个层次结构中国卫生统计 年 月第 卷第 期(两个水平)水平 是重复测量值用 指示水平 是个体用 指示 由于多水平模型能够接受模型中的截距及多个协变量的系数(斜率)估计可为随机变量的事实并设定特定统计量来估计截距及斜率估计值的随机效应及分布故采用两水平模型来反映不同伤员的 有不同的基线值和不同的变化速度的事实以
6、表示 测量时间首次测量时记为第 天则模型一般形式为 () () ()()是时间变量 的任意函数()是与 有关的水平 随机效应是水平 的模型残差因 值最大为 (即天花板效应)故 ()固定效应预测值不应大于 对于具有天花板效应的数据这是衡量最优模型时最关注的限制条件之一又根据图 显示的抛物线状变化规律故考虑拟合以下 种具有类似图像的函数() ()() / ()()() ()()() ()()表 伤员康复趋势的三角矩阵总测量 次数每次测量的 均数观察 例数 合计 水平 随机效应包含上述模型中截距估计值 的随机效应 和斜率估计值 的随机效应 假设它们是服从均数为 方差为 的联合正态分布的随机变量 ()
7、 个体 均数由 估计个体 随时间变化 的斜率由 估计另外假设水平 残差 的分布是 () 变化的平台期确定从式() ()中找出最优模型以估计 预测值均数变化曲线再从该曲线上找出变化速度开始减缓的时间点 定义为平台期 由于到达该点后多数伤员 增速变缓指示康复干预效果增速变缓故将该点作为康复干预的“转折事件”点 假设确定平台期 值为伤员 入院后 天 值达到则该伤员有观察到的干预转折事件和到达时间 治疗干预情况到达平台期时间和影响因素分析若 首次测量值大于平台期 则伤员到达平台期事件所需时间 视为缺失值若末次测量值小于平台期 则 为截尾数据若某次测量值等于平台期则 为该次测量时间(完全数据)否则采用内
8、插法计算 (完全数据) 用 比例风险回归模型分析协变量对 到达平台期所需时间的影响模型表达如下:() ()( )()其中()为第 例伤员在时刻 到达平台期的概率函数协变量 ()为可能影响 的 个因素 ()为回归系数()为所有协变量取值为 时到达平台期的概率函数数据 整 理 用 多 水 平 模 型 用 模型用 软件结 果测量次数太少的伤员 随时间变化规律不明显故本文只分析测量次数大于等于 的 例伤员数据 时间变化模型比较以实际测量开始时间和最长时间( 天天)为 值估计得到表 中固定效应(即不同时点的 均数)预测值范围 此范围不应该大于 这是当受到天花板效应的限制、选择最优模型时最重要的考量之一
9、可知只有式()的 最大预测值在实际取值范围内 另外拟合优度评价的常用 .指标可以作为选择模型的参考又由表 可知各个模型的 和 差异均不大故在此不着重考虑由图 可进一步看出式()预测效果与实际情况最为吻合 又式()标准化残差正态分数图显示水平 和水平 的随机效应均近似正态分布提示拟合式()模型合理 故采用式()作为拟合 变化趋势的模型表 两水平随机系数模型拟合优度模型()()()() 固定效应预测值范围()()()()图 模型() ()估计的 均数随时间变化曲线与实际均数散点图对比模型()各参数估计值如下: () () ( ) ( ) () ( ) ( ) ( ) (): ( )( ) ( )其中时间系数显示伤员 随时间推移而增加( )水平 上 ( )说明 基线值(截距)存在差异水平 上( )说明 随时间改变的幅度(斜率)也有差异水平 上 无统计学意义( )说明在具有不同 基线值的伤员间 随时间改变的幅度差异一致此例定义 平台期是随时间变化速度开始减缓的时间点我们用直尺逼近法确定此点 在图 中模型()拟合图加上网格背景用直尺逼近曲线变缓且重合较多的线段(图中线段标示)得伤员平台期 约为 (图中圆点标示)进而得各伤员到达平台期所需时间 剔除 缺失的数据后伤员为 例其中 例() 为完全数据 例()为截尾数据 影响伤员治疗干预情况到达平台期的因素 模型单因素分析