医学统计:生存分析

上传人:pu****.1 文档编号:570084942 上传时间:2024-08-01 格式:PPT 页数:85 大小:1.55MB
返回 下载 相关 举报
医学统计:生存分析_第1页
第1页 / 共85页
医学统计:生存分析_第2页
第2页 / 共85页
医学统计:生存分析_第3页
第3页 / 共85页
医学统计:生存分析_第4页
第4页 / 共85页
医学统计:生存分析_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《医学统计:生存分析》由会员分享,可在线阅读,更多相关《医学统计:生存分析(85页珍藏版)》请在金锄头文库上搜索。

1、生存分析survival analysis 孙秀彬何为生存分析生存分析的历史与应用o17、18世纪:寿命表的提出及其应用。o1926年:Greenwood提出评价生存函数的误差的方法Greenwood公式。o1958年:生存函数的计算方法Kaplan-Meier法(乘积极限法product-limit)的提出。o1960年代中叶:生存时间的组间比较方法的开发广义Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-rank test)又称时序检验(Mantel,1966年)。o1970年:将协变量的影响模型化参数模型:假设生存时间服从Weibull分布、对数正态分布等;半参数

2、模型:比例风险模型(Cox,1972年),又称Cox回归模型。第一节 概述一、基本概念 (一)死亡事件(一)死亡事件 死亡事件又称失效事件,不单指通常意义下死亡事件又称失效事件,不单指通常意义下的生物体的死亡,而是泛指标志某种处理措的生物体的死亡,而是泛指标志某种处理措施失败或失效的特征事件。施失败或失效的特征事件。(二)生存时间(二)生存时间(survival time):):1定义:广义的生存时间是指从某个起始事件开定义:广义的生存时间是指从某个起始事件开始到某个终点事件的发生始到某个终点事件的发生(出现反应出现反应)所经历的所经历的时间。也称失效时间(时间。也称失效时间(failure

3、time)。)。2特点:特点:(1)分布类型不易确定。一般不服从正态分布,)分布类型不易确定。一般不服从正态分布, 有时近似服从指数分布、有时近似服从指数分布、Weibull分布、分布、 Gompertz分布等,多数情况下往往不服从分布等,多数情况下往往不服从任任 何规则的分布类型。何规则的分布类型。 (2)生存时间的影响因素多而复杂且不易控制。)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分两种类)根据研究对象的结局,生存时间数据可分两种类型:型: 完全数据完全数据(complete data):观察对象在观察期:观察对象在观察期内出现反应内出现反应(终点事

4、件终点事件),这时记录到的时间信息是,这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。完整的,这种生存时间数据称为完全数据。 截尾数据截尾数据(截尾值、删失数据,(截尾值、删失数据,censored data):尚未观察到研究对象出现反应尚未观察到研究对象出现反应(终点事件终点事件)时,即由时,即由于某种原因停止了随访,这时记录到的时间信息是于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截不完整的,这种生存时间数据称为不完全数据或截尾值。尾值。 截尾的原因截尾的原因主要有主要有3种:种: 失访:失访:失去联系失去联系 退出:退出:死于非研究因

5、素或其他非处理因死于非研究因素或其他非处理因 素、改变治疗方案等导致退出研究。素、改变治疗方案等导致退出研究。 终止:终止:指观察研究期限结束时仍未出现结指观察研究期限结束时仍未出现结局。局。关于截尾或删失删失的模式图随访开始事件失访失访研究截止时仍存活研究截止时点患者进入期间风险函数与生存函数的关系第二节 生存率估计的非参数法 第三节第三节 生存率的比较生存率的比较 生存率比较的假设检验方法有参数法、半参数法生存率比较的假设检验方法有参数法、半参数法和非参数法,和非参数法,因医学研究中的生存时间资料大多为不规则分布因医学研究中的生存时间资料大多为不规则分布或者分布未知,常采用非参数法进行假设

6、检验。或者分布未知,常采用非参数法进行假设检验。非参数法是将生存率曲线作为整体进行曲线与曲非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相线之间的比较,其零假设为各总体生存率曲线相同。同。常用的非参数检验方法有常用的非参数检验方法有log-rank 检验检验(时序检(时序检验)、验)、Gehan比分检验和比分检验和Breslow检验检验等。等。 续表续表对于大样本资料生存率的比较,可以将其整理成对于大样本资料生存率的比较,可以将其整理成频数表形式,采用寿命表法计算生存率然后进行频数表形式,采用寿命表法计算生存率然后进行比较,其基本原理与上述方法相同。比较,其

7、基本原理与上述方法相同。 第四节第四节 Cox比例风险回归模型比例风险回归模型 一、一、Cox比例风险回归模型的基本形式比例风险回归模型的基本形式 看下面例子看下面例子如果分析x1-x6这6个因素对生存时间t的影响,能否用线性回归分析建立时间t与影响因素间的线性回归方程?或建立生存函数S(t)与影响因素间的线性回归方程? t=b0+b1x1+b2x2+b6x6 ?S(t) =b0+b1x1+b2x2+b6x6 ?1、生存时间t一般不服从正态 分布;2、生存时间t中含有截尾值。利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出 较好的解决截尾值的问题 反映了协变量X与生存函数的关系 C

8、ox模型的基本形式 所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。 右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。 二、二、CoxCox回归分析的步骤:回归分析的步骤: 确定自变量和因变量参数估计,拟和模型对模型的假设检验模型的解释及应用对模型的拟和优度检验 模型的参数估计(一)参数估计-偏似然估计 代表ti时刻以后危险集R(ti)中对似然函数作贡献的个体 将n个病人死亡的 条件概率相乘 两边取自然

9、对数模型的假设检验 Cox模型的解释及应用模型的解释及应用 1探索结局事件发生的危险因素,分析各 因素的作用大小 。2计算个体预后指数(prognosis index, PI),对个体进行定性的预后评价。 3通过估计生存率,对群体定量地进行预 后评价。 影响因素影响因素Xi的标准差的标准差 标准正态离差标准正态离差 相应偏回归系数的标准误相应偏回归系数的标准误 ti时刻的基础时刻的基础生存率公式生存率公式 ti时刻的基时刻的基础累计风险础累计风险函数公式函数公式在在ti时刻的死亡人数时刻的死亡人数 ti时刻的生存时刻的生存率计算公式率计算公式 Cox模型的拟合优度模型的拟合优度 可将研究对象按

10、个体预后指数恰当地分组,用乘积极限法估计各组的生存率曲线,并与按Cox模型预后指数分类的生存率曲线在同一坐标系内进行比较,若两种曲线具有一致性,说明模型拟合较理想。 Cox回归分析的应用实例回归分析的应用实例 调用调用Cox模型分析模块模型分析模块 ,分析数据集为,分析数据集为cox建立生存时间为建立生存时间为t ,截尾指示变量,截尾指示变量为为d 的的Cox模型,模型,d 取值为取值为1时表时表示截尾示截尾 用逐步回归法筛选变量用逐步回归法筛选变量 选入和剔出水平均为选入和剔出水平均为计算筛选因素的相对危险度计算筛选因素的相对危险度及其及其95%的可信区间的可信区间 结果:结果:治疗方式(治

11、疗方式(x4):相对危险度为,说明传统的治疗方式和新:相对危险度为,说明传统的治疗方式和新的治疗方式相比,病人死亡的风险为倍,相对危险度的的治疗方式相比,病人死亡的风险为倍,相对危险度的95%的可信区间为;的可信区间为;淋巴结是否转移(淋巴结是否转移(x5)的)的RR值的含义与治疗方式相同。值的含义与治疗方式相同。四、四、Cox模型的适用范围模型的适用范围Cox模型适用于生存资料的统计分析,属半参数模模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优参数,并能做多因素的统计

12、分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。出个体的生存率。另外,另外,Cox模型能分析具有截尾数值的生存时间。模型能分析具有截尾数值的生存时间。Cox模型在临床流行病学分析中,使临床观察的定模型在临床流行病学分析中,使临床观察的定性指标又加上定量指标进行分析,提高了分析的效性指标又加上定量指标进行分析,提高了分析的效率。率。 五、五、CoxCox模型的适用范围及注意事项模型的适用范围及注意事项 1设计阶段应注意的问题设计阶

13、段应注意的问题 样本的代表性要好样本的代表性要好。要注意资料的代表性及可靠性;样。要注意资料的代表性及可靠性;样本含量不宜过小,一般在本含量不宜过小,一般在40例以上。随着协变量的增加观例以上。随着协变量的增加观察的样本应适当的增加,要求样本的含量为观察协变量的察的样本应适当的增加,要求样本的含量为观察协变量的5-20倍。倍。所有危险因素要在设计时考虑全面所有危险因素要在设计时考虑全面,避免漏掉重要因素和,避免漏掉重要因素和加入无关因素。加入无关因素。生存时间的定义要明确生存时间的定义要明确。起始事件和终点事件要有明确规。起始事件和终点事件要有明确规定定,时间尽可能精确测量。时间尽可能精确测量

14、。 1设计阶段应注意的问题(续)设计阶段应注意的问题(续)研究的协变量在研究对象中的分布要适中研究的协变量在研究对象中的分布要适中,否,否则会给参数的估计带来困难。则会给参数的估计带来困难。在设计时要注意影响时间的效应因素在设计时要注意影响时间的效应因素。如研究。如研究吸烟对肺癌患者生存率的影响,若本来吸烟的人吸烟对肺癌患者生存率的影响,若本来吸烟的人因患肺癌而戒烟,则一般模型不易分析吸烟的作因患肺癌而戒烟,则一般模型不易分析吸烟的作用,需考虑吸烟量随时间变化的趋势。如果研究用,需考虑吸烟量随时间变化的趋势。如果研究的因素随时间而发生变化,必要时可以采用伴时的因素随时间而发生变化,必要时可以采

15、用伴时协变量的协变量的Cox模型进行分析。模型进行分析。 2模型拟合时应注意的问题模型拟合时应注意的问题 多重共线性问题:多重共线性问题:医学研究中的许多变医学研究中的许多变量间并不是独立的,但通常不会影响分析量间并不是独立的,但通常不会影响分析的结果,如果变量间存在高度的相关,则的结果,如果变量间存在高度的相关,则会影响会影响Cox模型的参数估计,此时可采用主模型的参数估计,此时可采用主成分分析法或成分分析法或R 型聚类分析法消除多元共型聚类分析法消除多元共线性的影响。线性的影响。应注意应注意Cox模型要求病人的风险函数与基模型要求病人的风险函数与基础风险函数呈比例,础风险函数呈比例,如果这

16、一假定不成立,如果这一假定不成立,则不能用则不能用Cox模型进行分析。模型进行分析。 3模型应用时应注意的问题模型应用时应注意的问题 结果的解释应结合专业知识。结果的解释应结合专业知识。Cox模型与其他模型与其他回归分析一样,当进入模型中的因素有统计学意回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间不一定有因果关系,其义时,该因素与生存时间不一定有因果关系,其中有一部分因素与生存时间的关系为伴随关系。中有一部分因素与生存时间的关系为伴随关系。Cox回归的生存率一般不宜用于不同资料之间回归的生存率一般不宜用于不同资料之间的比较,的比较,因为基准危险率函数只在同一份资料内因为基准

17、危险率函数只在同一份资料内保持相同,不同资料的基准危险率往往不同;而保持相同,不同资料的基准危险率往往不同;而且在多因素分析的情况下,协变量组合也很难一且在多因素分析的情况下,协变量组合也很难一致,可比性难以保证。致,可比性难以保证。 (三)(三)Cox模型的局限性模型的局限性 Cox模型估计参数时,首先要假定偏似然函数具有模型估计参数时,首先要假定偏似然函数具有最大似然的性质,这个问题在理论上尚不完善;最大似然的性质,这个问题在理论上尚不完善;Cox模型对异常值较为敏感,所以在进行模型配合模型对异常值较为敏感,所以在进行模型配合时要注意时要注意Cox模型拟合优度的检验。模型拟合优度的检验。Cox模型的局限性模型的局限性Cox模型在估计参数时,不是利用精确的生存时模型在估计参数时,不是利用精确的生存时间,而是利用生存时间的顺序统计量,这损失了间,而是利用生存时间的顺序统计量,这损失了一定的样本信息。当引进的协变量随时间的变化一定的样本信息。当引进的协变量随时间的变化剧烈时,偏似然函数损失的信息也在增多。剧烈时,偏似然函数损失的信息也在增多。如果得到的生存时间重复较多,用偏似然函数估如果得到的生存时间重复较多,用偏似然函数估计偏回归系数有一定的困难,学者们提出了一些计偏回归系数有一定的困难,学者们提出了一些解决的办法,但仍需进一步完善。解决的办法,但仍需进一步完善。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号