医学统计学生存分析

上传人:g**** 文档编号:49817626 上传时间:2018-08-03 格式:PPTX 页数:36 大小:259.01KB
返回 下载 相关 举报
医学统计学生存分析_第1页
第1页 / 共36页
医学统计学生存分析_第2页
第2页 / 共36页
医学统计学生存分析_第3页
第3页 / 共36页
医学统计学生存分析_第4页
第4页 / 共36页
医学统计学生存分析_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《医学统计学生存分析》由会员分享,可在线阅读,更多相关《医学统计学生存分析(36页珍藏版)》请在金锄头文库上搜索。

1、生存分析(2) 由于生存曲线只是对样本生存过程的统计 描述 样本生存率或生存曲线不同也可能是抽样 误差所致, 在生存分析中一个重要的问题是进一步对 总体的生存曲线进行假设检验log-rank检验 属于非参数方法 该法并不指定生存时间服从某种特定的分 布 所比较的是整个生存时间的分布,而不是 仅仅比较某个特定时间点的生存率 例23-3 就例23-1数据,比较甲乙两疗法组 脑瘤患者的生存率有无差别? 两种治疗方式的脑瘤患者生存曲线相同 两种治疗方式的脑瘤患者生存曲线不同 两组在不同时点的期初观察例数列于第3、 第7列,其合计列于第11列 不同时点两组的死亡人数,分列于第4、第 8列,其合计 列于第

2、12列 注意到不同时点期初观察例数等于上一时 点期初观察例数减去上一时点的死亡数与 删失数 之后按下式计算各组期望死亡人数并分列 于表中第5、第9列 由于假设成立时,两组的生存分布相同, 故可把两组的数据合并 计算合并的死亡概率,以此计算相应的期 望死亡人数,故将两组的完全生存时间混 合排序列在表23-5第2列 相同生存时间只列1次 k=1,2 表示在每个时点,当两组的死亡率相等且 均为该时点的总死亡数除以该时点的总观 察数时,按照各组期初例数计算的期望死 亡人数 分别将两组各时点期望死亡人数相加列在 第5、第9列合计处,而两组实际总死亡数 为第4、第8列合计 如果两组各时点生存率都相等,那么

3、两组 总的期望死亡数和总的实际死亡数相差不 大注意事项 (1)以上介绍的是log-rank检验的近似法,计 算简便,但其结果较精确法(一般统计软件中输出精确法计算结果)保守。log-rank检验精 确法 统计量计算公式为: wi为权 重,对log-rank检验,wi=1,即该检验 给任意时间点处两组间死亡的差别相同的权 重。当比较的两总体生存曲线呈比例时,检验效能最大;wi=ni 则对应Gehan检验(1965)或 Wilcoxon检验,该检验给两组间死亡的早期差 别更大的权重 (2)对于大样本频数表形式的生存曲线比较 ,基本方法与上述相同。 另外,该法很容易推广到多个组的比较,在此 不赘述。

4、 需要强调的是,生存曲线的比较也和前面均 数、率的比较一样,要求组间具有可比性,最 好是按照比较因素进行随机化分配之后再比 较。 如果是未经随机化分配的观察对比资料,要考 虑是否有混杂因素干扰,若存在混杂因素,可 进行分层分析或采用多因素分析方法(见本章 第四节)。 (3)当假设检验发现组间生存曲线有差别 时,可通过中位生存期、相对危险度RR( relative risk)等指标评价其差别。 相对危险度是两个对比组相对死亡比的比 值,而相对死亡比是实际死亡数与期望死 亡数之比,于是,第i组相对于第j组的相对 危险度为: (4)log-rank检验用于整条生存曲线的比较 ,若比较两组某时间点处的

5、生存率,则按 下式计算: 如比较多个时间点处生存率,检验水准可 取Bonferroni校正,以保证总的I型错误概率 不超过 趋势检验 多组生存率比较时,若分组变量是等级变 量,如肿瘤分期为期、期、期,或 连续变量等级化分组,如年龄(岁)30 、30、40、50,在log-rank检验组间 生存率差别有统计学意义后,还可作趋势 检验(trend test),分析危险率是否有随 分组等级变化而变化的趋势。即是否有肿 瘤分期越高,预后越差,或年龄越大(或 越小),预后越差的情况。 (1)按某种因素影响大小将病人分组 可 采用临床上该因素的自然分组,如疾病的 分期等,组数一般取奇数,如3组或5组。 (

6、2)计算每组的实际死亡数 与期望死亡数 。 (3)进行趋势检验。Cox比例风险回归模型 log-rank检验属于生存时间比较的单因素分析 方法,应该注意的是生存分析中的单因素比较 在实验设计方面和均数、率的比较一样,要求 对比组之间在非处理因素方面具有可比性。 一般而言,经过随机化分配处理的实验设计数 据在处理组之间可比性较好 在实际工作中多见的观察对比资料其可比性通 常不能满足 或者研究者关心的影响生存时间的因素不止一 个,此时应采用适当的多因素分析方法 由于生存分析问题中反应变量比较特殊,是事件结 局以及出现这一结局所经历的时间,普通的线性回 归和logistic回归通常并不适用。 如果仅

7、考虑生存时间作为反应变量进行线性回归, 由于生存时间通常并不是正态分布,不满足线性回 归的模型要求; 仅考虑某一时点事件结局作为反应变量进行logistic 回归,生存时间长短的信息又未能充分利用; 生存时间资料中还有删失数据的问题,上述两种模 型都不能够利用这种不完全数据提供的信息模型结构 式中x的 表示研究者认为可能影响生存的诸因素, 也称协变量(covariates),这些变量在随访期间的 取值不随时间变化而变化,例如根据研究目的可以 是随访对象的年龄、性别、接受的不同治疗方式 等。 t表示生存时间,好h(t,x) 称为具有协变量x 的个体在 t 时刻的风险函数(hazard funct

8、ion),表示生存时 间已达 的个体在 t时刻的瞬时风险率, h0(t)称为基线风险函数(baseline hazard function) ,表示所有 x都取值为0时的个体在t 时刻的瞬时风 险率或死亡率。 风险函数定义为具有协变量 x的个体在活过t 时刻以 后在 t到 t+t这一段很短时间内死亡概率与 t之 比的极限值 参数 为回归系数,其 估计值可以从样本计算得出。 由于模型右侧的基线风险函数不要求服从 特定分布形式,具有非参数的特点,而指 数部分的协变量效应具有参数模型的形式 ,故Cox回归属于半参数模型(semi- parametric model)。参数的统计学意义模型假定参数估计

9、与假设检验 模型中的回归系数可借助部分似然函数(partial likelihood function)用最大似然估计方法得到。 对回归模型的假设检验通常采用得分检验(score test)、wald检验和似然比检验(maximum likelihood ratio test),这些检验统计量均为卡方分 布,自由度为模型中待检验的协变量个数。 得分检验常用于模型外新变量的入选,wald检验常 用于模型中变量的剔除;似然比检验用于不同协变 量模型的比较,既可用于变量入选也可用于变量剔 除。 多因素分析时协变量的筛选策略与其他回归模型类 似,通常可采用逐步法。 注意到上面的表23-9中和表23-1

10、0上都出现了-2ln(L )的数值,其中的L就是现有模型的部分似然函数值 (L取值在0到1之间,其对数ln(L)称为对数似然 函数,取值在负无穷大到0之间)。 按照Cox模型的最大似然估计原则,当模型中增加 自变量时,L将增大而-2ln(L)将减小,在自变量个 数即模型的自由度一定时,-2ln(L)取值最小的模 型最好,这一点类似于前述多重线性回归中的剩余 平方和。 可以根据模型的-2ln(L)数值大小来考虑自变量的 筛选策略。 表达式右边指数部分取值越大,则风险函数 越大,预后相对越差,故称为预后指数(prognostic index,PI)。 本例预后指数 。例如,1号患者age66, d

11、time33,则预后指数 0.2338766 0.444603330.1072。 可按适当的预后指数分位数将观察对象分成若干组(25组),如低危组、中危组和高危组 ,以考察预后指数范围不同,其生存率的差异 ,对制定更合理的个体化治疗方案,正确指导 病人的治疗,提高长期生存率有着重要意义。Cox回归应用中的注意事项 Cox回归分析结论的正确性要以科学的设计、有代表性 的抽样为前提。 如果样本例数过少(多因素分析中死亡例数一般应在自变量个数的10倍以上),或者抽样不随机而使得某些变 量在其各个水平上分布极端,很难得到真正的结果。 有时回归分析得到的相对危险度与专业知识相悖,并非 是什么专业上的新发

12、现,而是设计上的缺陷造成。 通过计算机软件进行模型拟合只能保证计算上的准确, 由不合理的设计得到的数据计算出的结果只能是错得更 复杂。 另外,虽然它可以利用删失数据的信息,但过多的删失 数据很可能会带来分析结果的偏倚。数据的编码 可能会严重地影响结论的可解释性。 对于某些数值型协变量,根据专业上的考虑转 换为等级编码更恰当一些,否则会得到譬如红 细胞每减小一个,患者的死亡风险会增加若干 倍的夸大解释; 对于无序的多分类协变量,应设置哑变量进入 模型,例如4种血型可转换为3个0-1型变量拟 合模型,并且这3个变量应作为一个因素整体 进出模型,人为地将血型编码为1,2,3,4会 造成回归系数或相对

13、危险度解释上的困难。 本章介绍的Cox回归必须满足PH假定, 如果某个协变量不同水平的Kaplan-Meier曲 线有明显交叉, 协变量与时间的交互作用项在Cox回归模型 中有统计学意义,则不能使用本章介绍的 比例风险模型, 考虑拟合各种扩展Cox模型,如分层Cox模 型或时变协变量的Cox模型等。 自变量的筛选事实上是一个复杂的建模过程,除了考虑 以上问题,需要指出的是各种逐步方法只是一个计算手 段,并不能保证总是得到最好的模型。 变量筛选时首先要进行专业上的充分考虑,很重要的自 变量不能遗漏,专业上无关的变量不参与计算。待选变 量较多时可以首先进行单因素分析,将具有统计学意义 的变量再进行逐步筛选,以避免总的样本例数不够多而 使结果不稳定。 必要时可以更换筛选变量的方法并调整检验水准,多数 情况下总在方程中的变量可能是有意义的,最终备选的模型一定要结合专业知识来判断,有时甚至可提供1、2 个模型备选。 未选入模型的协变量并非不是影响因素,这一点在应用 中要引起注意。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号