163第十七章 随访资料的生存分析一、教学大纲要求(一)掌握内容1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率2.估计生存率的方法:Kaplan-Meier 法、寿命表法二)熟悉内容1.生存曲线、半数生存期2.生存资料的基本要求3.两生存曲线的比较的对数秩检验三)了解内容 Cox 回归模型二、教学内容精要(一)生存分析中的基本概念1.生存时间(survial time)指观察到的存活时间,如表 11-1 中 t 分别为360,990,1400,1800 天生存时间有两种类型:(1)完全数据(complete data)指从起点至死亡所经历的时间,即死者的存活时间,如表11-1 中 360,990,1800 天2)截尾数据(censored data)由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾从起点至截尾所经历的时间,称为截尾数据,如表 11-1 中 1400 天,习惯上记为 1400 天表 11-1 4 例鼻咽癌随访记录患者序号 性别(男=1) 处理组号 开始日期 终止日期 结局(死=1) 存活天数1 0 1 11/29/80 11/04/85 1 3602 1 1 06/13/82 06/08/83 1 9903 1 0 03/02/83 12/31/86 0 1400 4 0 0 08/04/83 04/10/86 1 18002.死亡概率与生存概率(1)死亡概率(mortality probability)指死于某时段内的可能性大小,记为 。
年死亡概q率的计算公式为 = ,若年内有截尾,则分母用校正人口数(校正人口数=年q某 年 年 初 观 察 例 数某 年 内 死 亡 数164初人口数- 截尾例数) 21这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平) ,而死亡概率则用年初人口,表示往后的一年中死亡机会大小2)生存概率(survival probability)与死亡概率相对应,记为 ,表示在某单位时段开p始时存活的个体到该时段结束时仍存活的机会大小年生存概率的计算公式为 q1,若年内有截尾,也要用校正人口数某 年 年 初 人 口 数某 年 活 满 一 年 人 数(二)生存率的 Kaplan-Meier 法与寿命表法估计1.生存率(1)生存率(survival rate) 指病人经历 个单位时间后仍存活的概率,记为 kt )(ktS若无截尾数据,则= (11-)(ktS)ktTP观 察 总 例 数时 刻 仍 存 活 的 例 数1)其中 为病人的存活时间如果含有截尾数据,分母就必须分时段校正,故此式一般不能直T接应用。
2) 生存率估计的概率乘法原理假定病人在各个时段生存的事件独立,生存概率为 ,则应用概率乘法得生kp,,21L存率估计的应用公式为= (11-2))(ktSkptTP)若式中 用校正人数估计,便可处理截尾数据kp,,21L生存概率与生存率在意义上差别很大,前者是单个时段的概率,后者是从 0 至 多个时kt段的累积结果3) 生存曲线(survival curve) 指将各个时点的生存率连接在一起的曲线图4) 半数生存期(median survival time) 表示恰好有 50%的个体可活这么长时间2.生存率的估计方法(1)乘积极限法(product-limit method) 直接用概率乘法原理估计生存率(不分组) ,由 Kaplan-Meier 于 1958 年提出,因而又称 Kaplan-Meier 法这是一种非参数法,主要用于小样本,也适用于大样本其生存曲线是左连续的阶梯形曲线2)寿命表法(life-table method) 当样本例数足够多时,乘积极限法可按时间分组计算,这就是寿命表法,实际上是乘积极限法的一种近似其生存曲线呈折线形。
三)两样本生存曲线的比较——对数秩检验对数秩检验(log-rank test)用于两样本生存曲线的比较,其零假设为两总体生存曲线相同,基本思想是如果零假设成立,根据不同日期两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数若零假设成立,则实际死亡数与理论死亡数不会相差太大,否则应认为零假设不可能成立,两条生存率曲线差异有统计学意义 对数秩检验统计量(近似法)为:, (11-3)mkkTA122)(1m其中 和 分别是第 组死亡的实际数和理论期望数在 成立的条件下,统计量 服kAT 0H2从自由度为 的 分布, 为组数,据 作出是否拒绝 的决定2 2165(四)Cox 回归模型Cox 回归是生存分析中最重要的方法之一,其优点是适用范围很广和便于做多因素分析Cox 回归假定病人的风险函数为(11-)exp()(210 pXbXbtht L4)其中 为风险函数,又称风险率或瞬间死亡率, 为基准风险函数,是与时间有关的)(th (0th任意函数, 分别是观察变量及其回归系数英国统计学家 Cox D R 提出了参数 的估bX, ib计和检验方法,故称为 Cox 回归。
三、典型试题分析(一)单项选择题1.生存分析的效应变量是 ( )A.正态的和方差齐性的 B.生存时间和结局变量C.生存时间 D.结局变量答案:B[评析] 本题考点:生存分析的概念生存分析是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,所以它的应变量有两个,即生存时间和结局2.随访资料做生存分析的条件为( )A.有一定的例数 B.有一定的死亡数C.死亡比例不能过小 D.自变量取值不随时间变化答案:B[评析] 本题考点:生存资料的基本要求生存资料的基本要求为:①样本由随机抽样方法获得,并有足够数量;②死亡例数不能太少(≧30) ;③截尾比例不能太大;④生存时间尽可能精确到天数;⑤缺项要尽量补齐所以最佳答案应选 B3.Cox 回归风险率( )A.等于一个常数 B.服从某种分布规律C.等于基准函数乘上一个比例因子 D.适用于任意肿瘤资料 答案:C[评析] 本题考点:Cox 回归模型的特点及应用首先,用于 Cox 回归模型分析的资料必须满足生存资料的基本要求,因此任意肿瘤资料不一定满足此要求,排除 D。
Cox 回归风险函数中因 未定义,所以不知道风险在病人与)(0th病人之间的差别和风险随时间变化的具体分布,排除 A, B所以正确答案为 C,从风险回归函数的定义式也可看出4.采用 log-rank 检验分析肺癌发病资料,其中吸烟、慢性支气管炎 2 个因素都有统计学意义,由此可认为( ):A.吸烟与肺癌有因果联系 B.慢性支气管炎与肺癌有因果联系 C.2 个因素与肺癌有因果联系 D.以上都不对166答案:D[评析] 本题考点:模型中的变量如何选择取舍选入模型的变量是统计学上的有关变量,不一定都与肺癌有因果关系,其中某些可能只有伴随关系而已;未选入模型的变量不一定全是无关变量,要考虑是否模型内的某些变量代替了它的作用,或因例数不够,或实验中对该因素进行了控制而引起的所以正确答案选D5.根据表 11-1 中的存活时间,试用 Kaplan-Meier 法估计生存曲线[评析] 本题是考察对乘积极限法的应用情况,此法应用普遍,应熟练掌握具体解法见表 11-2表 11-2 乘积极限法估计生存率计算表序号k存活时间(天)t时刻t期初例数 n时刻t死亡数 d死亡概率 ndq生存概率 qp1年k生存率 )(ktS生存率标准误SE( )(ktS⑴ ⑵ ⑶ ⑷ ⑸ ⑹ ⑺ ⑻1 360 4 1 443( )=0.75430.21652 990 3 1 2( )( )=0.5020.25003 1800 1 1 110( )( )( )=0.00100参照表 11-2,计算步骤为:1.列出序号: =1,2, . . . (第 1 列) ;k2.死亡时间排队:将存活时间 (完全数据)从小到大顺序排列,重复数据只列一次,t截尾数据(如 1400 不列入(第 2 列) ;)3.求出 时刻期初例数 :即存活时间大于或等于 的例数(含死者) (第 3 列) ;tnt4.列出 时刻的死亡数 :即死亡时间为 的例数(第 4 列) ;dt5.求出 时刻的死亡概率:(第 5 列) ;t6.求出 时刻的生存概率:(第 6 列) ;7.分别计算生存率及其标准误;(第 7、8 列) ;8.绘制生存曲线。
图 11.1 乘 积 极 限 法 生 存 曲 线 及 其 半 数 生 存 期t/d180012006000S(t)1.0.8.6.4.20.0Survival FunctionCensored167四、习 题(一)名词解释1.生存分析 2.生存时间 3.完全数据 4.截尾数据 5.死亡率6.死亡概率 7.生存概率 8.生存率(二)单项选择题1.Cox 回归的自变量( )A.必须服从正态分布和方差齐性 B.必须是计量资料C.可以是计量资料或分类资料 D.无任何条件2.生存分析中的生存时间为( )A.出院至失访的时间 B.手术至失访的时间C.观察开始至终止的时间 D.观察开始至失访的时间3.关于膀胱癌化疗的随访资料做生存分析,可当作截尾值处理的是( ):A.死于膀胱癌 B.死于意外死亡C.死于其它肿瘤 D.b,c 都是(三)简答题1.在肿瘤预后分析中,死于非肿瘤患者的数据怎样处理?2.生存分析可用于发病资料的分析吗?请举例说明。
3.生存时间能计算平均数、标准差吗?4.Cox 回归可估计参数,故属于参数方法?(四)计算题1.表 11-3 第 2-4 列是 296 例肝癌患者的生存数据,试作生存分析并绘图示之2.某院用甲、乙两疗法组治疗急性黄疸性肝炎,随访十年得资料如下:甲疗法组 12,25,50 ,68,70,79 ,83 ,91 ,114 ,114 ,乙疗法组 1,1,9,17,21,25,37,38,58,72 ,73比较两疗法的生存期(月)有无差别五、习题答题要点(一)名词解释1. 生存分析:生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,它不仅可以从事件结局的好坏,如疾病的治愈(成功)和死亡(失败) ,而且可以从事件的持续时间,如某病经治疗后存活的时间长短进行分析比较,因而能够更全面、更精确地反映该治疗的效果1682. 生存时间:生存时间(survival time)指观察到的存活时间3. 完全数据:完全数据(complete data)指从起点至死亡所经历的时间,即死者的存活时间4. 截尾数据:由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。
从起点至截尾所经历的时间,称为截尾数据(censored data) 5. 死亡率:某年内死亡例数与年中观察例数之比称为死亡率(mortality rate) 6. 死亡概率:死亡概率(mortality p。