《《生存分析讲》PPT课件》由会员分享,可在线阅读,更多相关《《生存分析讲》PPT课件(80页珍藏版)》请在金锄头文库上搜索。
1、生存分析生存分析Survival AnalysisSurvival Analysis 第四军医大学西京医院神经内科 刘学东第一节概述第一节概述第二节生存时间资料的特点第二节生存时间资料的特点第三节小样本生存率的第三节小样本生存率的Kaplan-MeierKaplan-Meier估计估计第四节第四节 大样本生存率的寿命表法估计大样本生存率的寿命表法估计第五节第五节 生存曲线比较的假设检验生存曲线比较的假设检验第六节第六节 CoxCox比例风险回归模型比例风险回归模型第七节第七节 实例分析实例分析 第一节概述第一节概述一一 基本概念基本概念 生存分析:是将事件的生存分析:是将事件的结果结果(终点事
2、件)和出现(终点事件)和出现这一结果所经历的这一结果所经历的时间时间结合起来分析的一种统计结合起来分析的一种统计分析方法。分析方法。二二 特点特点 含有截尾数据含有截尾数据 生存时间一般不呈正态分布生存时间一般不呈正态分布三三 历史历史最早可上溯至十九世纪的死亡寿命表最早可上溯至十九世纪的死亡寿命表现代的生存分析则开始于二十世纪三十年代工业科现代的生存分析则开始于二十世纪三十年代工业科学中的相关应用学中的相关应用二次世界大战:武器装备的可靠性研究,这一研究二次世界大战:武器装备的可靠性研究,这一研究兴趣延续到战后。此时生存分析都集中在参数模型兴趣延续到战后。此时生存分析都集中在参数模型。 二十
3、世纪六七十年代:医学研究中大量临床试验的出二十世纪六七十年代:医学研究中大量临床试验的出 现,要求方法学有新的突破,生存分析研究开始转向非现,要求方法学有新的突破,生存分析研究开始转向非参数方法。参数方法。 D.R. Cox在在72年提出的比例风险模型为此做出了划时年提出的比例风险模型为此做出了划时代的贡献。代的贡献。 现在,生存分析方法的在医学领域得到了广泛的应现在,生存分析方法的在医学领域得到了广泛的应 用,而通过医学研究要求的不断提高。用,而通过医学研究要求的不断提高。四四 主要研究内容主要研究内容 描述生存过程描述生存过程 比较生存时间比较生存时间 分析影响生存时间的因素分析影响生存时
4、间的因素五五 基本方法基本方法1 1 非参数法:不考虑资料的分布形式,只根据样本提供的非参数法:不考虑资料的分布形式,只根据样本提供的 顺序统计量对生存率进行估计,常用有顺序统计量对生存率进行估计,常用有K-MK-M 法、法、Life tableLife table法法2 2 参数法:参数法: 假定生存时间服从特定的参数分布,根据已假定生存时间服从特定的参数分布,根据已 知分布特点对影响生存时间的因素进行分析,知分布特点对影响生存时间的因素进行分析, 常用有:指数分布法、对数正态回归分析法常用有:指数分布法、对数正态回归分析法3 3 半参数法:兼有参数法和非参数法的特点,分析影响生半参数法:兼
5、有参数法和非参数法的特点,分析影响生 存时间和生存率的因素,常用有存时间和生存率的因素,常用有CoxCox比例风险比例风险 回归模型回归模型第二节第二节 生存时间资料的生存时间资料的特点及描述特点及描述一、起始事件与失效事件一、起始事件与失效事件 起始事件:研究对象生存过程的起始特征事件起始事件:研究对象生存过程的起始特征事件 失效事件失效事件(终点事件、死亡事件终点事件、死亡事件):研究者关心的特定结:研究者关心的特定结局局 相对而言的,都由研究目的决定,失效事件并非一定死相对而言的,都由研究目的决定,失效事件并非一定死 亡,死亡也并非一定发生了失效事件。亡,死亡也并非一定发生了失效事件。
6、分析的基石分析的基石二、生存时间(二、生存时间( survival timesurvival time) 任何两个有联系事件之间的时间间隔,用任何两个有联系事件之间的时间间隔,用t表示表示 狭义:发病至死亡的时间跨度狭义:发病至死亡的时间跨度 广义:起始事件到终点事件的时间间隔广义:起始事件到终点事件的时间间隔 起始事件起始事件 终点事件终点事件 服药服药 痊愈痊愈 手术切除手术切除 死亡死亡 出院出院 复发复发三、三、 完全数据与删失数据完全数据与删失数据 完全数据:可获得准确的生存时间,所提供信息完全完全数据:可获得准确的生存时间,所提供信息完全 删失数据删失数据(截尾值截尾值):随访中未
7、能观察到病人的:随访中未能观察到病人的 终点事件,右上角加终点事件,右上角加“+” 原因:失访原因:失访 死于其它疾病死于其它疾病 观察结束时病人尚存活观察结束时病人尚存活四、数据结构四、数据结构 生存信息生存信息 起始时间起始时间 终点时间终点时间 结局及原因结局及原因 失访失访 存活存活 死亡死亡 预后信息预后信息 一般信息一般信息 个人史及既往史个人史及既往史 临床资料临床资料 检验结果检验结果 组织病理组织病理 分子生物学分子生物学 影像学影像学 与 亚饭店 五、资料特点五、资料特点 1 含截尾数据含截尾数据 2 分布类型复杂分布类型复杂六、资料的基本要求六、资料的基本要求 1. 终点
8、事件例数不宜太少终点事件例数不宜太少 2. 截尾原因无偏性截尾原因无偏性 3. 生存时间尽可能记录精确生存时间尽可能记录精确七、统计描述指标七、统计描述指标 1. 死亡率、死亡概率、生存概率死亡率、死亡概率、生存概率 2. 生存率及其标准误生存率及其标准误 3. 生存曲线生存曲线 4. 中位生存时间及四分位数间距中位生存时间及四分位数间距1 . 死亡率、死亡概率、生存概率(1) 死亡率死亡率 (mortality rate,death rate) 表示某单位时间内的表示某单位时间内的死亡强度死亡强度。 年平均人口数年平均人口数=(年初人口数年初人口数+年末人口数年末人口数)2(2) 死亡概率死
9、亡概率 ( mortality probability ) 指死于某时段内的可能性大小。指死于某时段内的可能性大小。 d/n0 年内有删失,分母用校正人口数:年内有删失,分母用校正人口数: 校正人口数校正人口数= 年初人口数年初人口数删失删失例数例数 / 2 n0c/2(3) 生存概率生存概率 ( survival probability ) 指某单位时段开始时存活的个体到该时段结束时仍存指某单位时段开始时存活的个体到该时段结束时仍存活的可能性的大小。活的可能性的大小。 (n0-d)/n0 分子为年末尚存人数,分子为年末尚存人数, 若年内有删失,分母用校正人口数。若年内有删失,分母用校正人口数
10、。60例肺癌病人,术后每年死亡例肺癌病人,术后每年死亡10例,无删失。例,无删失。N=60术后术后 年内年内 年内年内 年初年初 年年 死亡 死亡 生存 (t+1)年 年年 死亡死亡 截尾截尾 观察观察 平均平均 率 概率 概率 生存率 数数 例数例数 例数例数 例数例数 例数例数 p=1-q t d c n0 n=no-d/2 m=d/n q=d/n0 (n0-d)/n0 (n0-d)/N (1) (2) (3) (4) (5) (6) (7) (8) (9) 0 10 0 60 55 . 185 . 167 . 833 . 833 1 10 0 50 45 . 222 . 200 . 80
11、0 . 667 2 10 0 40 35 . 286 . 250 . 750 . 500 3 10 0 30 25 . 400 . 333 . 667 . 333 4 10 0 20 15 . 667 . 500 . 500 . 167注意:注意:死亡率与死亡概率的分子相同,但分母不同;死亡率与死亡概率的分子相同,但分母不同; 生存概率与生存率的分子相同,但分母不同生存概率与生存率的分子相同,但分母不同2. 生存率生存率生存率 (survival rate) ( 累积生存概率累积生存概率 cumulative probability of survival ) 指病人经历指病人经历t个单位时间
12、后仍存活的概率。个单位时间后仍存活的概率。 生存概率指单个时段的概率,生存概率指单个时段的概率, 生存率指从生存率指从0t多个时段的积累概率。多个时段的积累概率。反映了病人的疾病严重程度、进展快慢或凶险程度等。反映了病人的疾病严重程度、进展快慢或凶险程度等。公式公式1 用于完全数据用于完全数据公式公式2用于删失数据以及完全数据用于删失数据以及完全数据S ( t ) = P (T tk ) = p1 p2 pk3 生存曲线(survival curve) 以观察(随访)时间为横轴,以生存率为纵轴,将各个以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。时间点
13、所对应的生存率连接在一起的曲线图。 描述生存过程描述生存过程 比较生存过程比较生存过程 中位生存期中位生存期 (月)4 中位生存时间(median survival time) 即生存时间中位数,表示即生存时间中位数,表示50%的个体可存活的时的个体可存活的时间间 (集中趋势集中趋势) 计算:图解法计算:图解法 线性内插法线性内插法 :找出两个生存率找出两个生存率S(ti-1)和和S(ti), 使使 S(ti-1) 0.5, S(ti) 8)=0.565, t=10, P(X10)=0.478 (8-10):(8-t)=(0.565-0.478):(0.565-0.5), t=9.494(月月
14、) 生存率的计算方法生存率的计算方法 第三节小样本生存率的第三节小样本生存率的 Kaplan-MeierKaplan-Meier估计估计Kaplan-MeierKaplan-Meier法法(K-M(K-M法、乘积极限法法、乘积极限法) ) Kaplan-Meier法由法由Kaplan和和Meier于于1958年提年提 出,直接用概率乘法定理估计生存率,故称乘出,直接用概率乘法定理估计生存率,故称乘 积极限法(积极限法(product-limit method),是一种),是一种 非参数法,适用于小样本和大样本。非参数法,适用于小样本和大样本。 基本思想基本思想:将生存时间由小到大依次排列,在每
15、个死亡点:将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率。和生存率。 本法只估计本法只估计死亡时点死亡时点的生存率的生存率 (a)研究终止在475天 (b) 研究终止在474天图12-3 乘积极限法生存曲线(阶梯形阶梯形)及其半数生存期(Md=158天) 第四节第四节 大样本生存率的大样本生存率的 寿命表法估计寿命表法估计寿命表法寿命表法 (Life Tables)(Life Tables)基本原理基本原理:是先求出病人在治疗后活过是先求出病人在治疗后活过n年后再活过下一年年后再活过下一年的可能性
16、,统计学上称为生存概率,根据概率论的乘法的可能性,统计学上称为生存概率,根据概率论的乘法定律将逐年生存概率相乘即可得出一定年限的生存率。定律将逐年生存概率相乘即可得出一定年限的生存率。 适用于大样本资料适用于大样本资料 K-MK-M法和法和Life tableLife table法比较法比较第五节第五节 生存曲线比较的生存曲线比较的 假设检验假设检验log-ranklog-rank检验(对数秩检验、时序检验)检验(对数秩检验、时序检验)基本原理基本原理:对每组生存数据根据其在各个时刻中尚存活的:对每组生存数据根据其在各个时刻中尚存活的对象数计算期望死亡数,然后将期望死亡总数与实际死对象数计算期
17、望死亡数,然后将期望死亡总数与实际死亡数进行比较亡数进行比较 将生存曲线作为整体对曲线与曲线间的差异进行比较,将生存曲线作为整体对曲线与曲线间的差异进行比较,偏重于远期疗效评价,属非参数检验偏重于远期疗效评价,属非参数检验 比较两组或多组生存曲线,实为一单因素分析比较两组或多组生存曲线,实为一单因素分析 要求各组生存曲线不能交叉,如交叉提示存在混杂因要求各组生存曲线不能交叉,如交叉提示存在混杂因 素,应采用分层分析方法或多因素方法来校正素,应采用分层分析方法或多因素方法来校正 当假设检验有统计意义时,可从以下几方面来评价各当假设检验有统计意义时,可从以下几方面来评价各 组效应大小:生存曲线图目
18、测判断、中位生存期比较组效应大小:生存曲线图目测判断、中位生存期比较 第六节第六节 CoxCox比例风险比例风险 回归模型回归模型一一 概述概述 简称简称Cox回归模型,是一种允许资料有回归模型,是一种允许资料有“删失(或截删失(或截 尾)尾)”数据存在的,可以同时分析众多因素对数据存在的,可以同时分析众多因素对生存生存 时间时间影响的影响的多变量多变量生存分析方法,是一种生存分析方法,是一种半参数半参数方法。方法。 该该模模型型由由英英国国统统计计学学家家D.R.Cox于于1972年年提提出出,主主要要用用于于肿肿瘤瘤和和其其它它慢慢性性病病的的预预后后分分析析,也也可可用用于于队队列列研研
19、究究的的病因探索。病因探索。 优点:优点: 多因素分析方法多因素分析方法 不考虑生存时间分布不考虑生存时间分布 利用截尾数据利用截尾数据二二 基本形式基本形式 h(t,X)t时刻风险函数、风险率或瞬时死亡率时刻风险函数、风险率或瞬时死亡率 h0(t)基基准准风风险险函函数数,即即所所有有协协变变量量都都取取0时时t时时刻刻风风险险函数。函数。 X1、X2、Xp协变量、影响因素、预后因素。协变量、影响因素、预后因素。 1、 2、 p回归系数。回归系数。 p : 在其它协变量不变的情况下,协变量在其它协变量不变的情况下,协变量Xp每改变一个测每改变一个测 定单位所引起相当危险度的自然对数的改变量定
20、单位所引起相当危险度的自然对数的改变量 RR: 相当危险度,两个分别具有协变量相当危险度,两个分别具有协变量Xi与与Xj的病人其风的病人其风 险函数(危险度)之比险函数(危险度)之比 RR=expj(xi-xj) 如协变量如协变量treat的的 = -1.617,RRtreat=0.199,表示表示treat变变量水平量水平2与与1比较,比较,treat=2的危险度是的危险度是treat=1的的0.199倍,倍,提示治疗方案提示治疗方案2优于治疗方案优于治疗方案1。而。而age的的 =0.119,RRage=1.127,表明年龄每增加一岁,死亡的可能性增,表明年龄每增加一岁,死亡的可能性增加加
21、1.127倍。倍。 0,RR1,说说明明变变量量X增增加加时时,危危险险率率增增加加,即即X是是危危险因素。险因素。0,RR1,说说明明变变量量X增增加加时时,危危险险率率下下降降,即即X是是保保护因素。护因素。=0,RR=1,说说明明变变量量X增增加加时时,危危险险率率不不变变,即即X是是危危险无关因素。险无关因素。三三 参数估计与假设检验参数估计与假设检验 参数估计参数估计 最大似然法最大似然法 假设检验假设检验(模型中变量的剔除和引入模型中变量的剔除和引入) 似然比检验似然比检验 得分检验得分检验 Wald检验检验四四 因素筛选与最优模型的建立因素筛选与最优模型的建立 因素初步筛选因素初
22、步筛选 2 检验检验 、log-rank检验等检验等 单变量单变量Cox模型分析(模型分析(P=0.10) 直接进行逐步直接进行逐步Cox模型分析模型分析最佳模型建立最佳模型建立 1、Enter2、Forward: Conditional3、Forward: LR4、Forward: Wald5、Backward: Conditional6、Backward: LR7、Backward: Wald五五 检验水准检验水准检检验验水水准准包包括括引引入入的的检检验验水水准准和和剔剔除除的的检检验验水水准准。一一般般地,剔除地,剔除引入引入初初步步的的、探探索索性性的的研研究究,或或变变量量数数较较
23、少少时时,可可取取0.10或或0.15。 设设计计严严谨谨的的、证证实实性性的的研研究究,或或变变量量数数较较多多时时,可可取取0.05。 六六 统计描述统计描述 1 回归系数和标准回归系数回归系数和标准回归系数 标准回归系数:观察值经过标准化变换后所求得。标准回归系数:观察值经过标准化变换后所求得。 相对值,比较自变量对模型贡献,反映因素对生存时间相对值,比较自变量对模型贡献,反映因素对生存时间 影响强度影响强度2 相对危险度及可信区间相对危险度及可信区间 无序分类变量,转换亚变量分析无序分类变量,转换亚变量分析 3 个体预后指数(个体预后指数(PI) PI= 预后指数越小,预后越好;预后指
24、数越小,预后越好; 预后指数越大,预后越差。预后指数越大,预后越差。 据据PI的大小可将病人分为不同的危险组,绘制分组的大小可将病人分为不同的危险组,绘制分组 的生存曲线,直观比较各危险组的生存情况。的生存曲线,直观比较各危险组的生存情况。例如:例如: 传统治疗方式,淋巴结转移,传统治疗方式,淋巴结转移,PI2.6929 传统治疗方式,淋巴结无转移,传统治疗方式,淋巴结无转移,PI1.7616 新治疗方式,淋巴结转移,新治疗方式,淋巴结转移,PI0.9313 新治疗方式,淋巴结无转移,新治疗方式,淋巴结无转移,PI0七七 分析结果(结果解释)分析结果(结果解释) 与生存相关的因素与生存相关的因
25、素 因因素素作作用用大大小小及及方方向向:保保护护因因素素还还是是危危险险因因素素、相相对对危危险度的大小。险度的大小。 因素作用大小排序:标准化回归系数的绝对值。因素作用大小排序:标准化回归系数的绝对值。八八 结果报告结果报告 1 起始时间与终止时间起始时间与终止时间 2 结局事件结局事件 3 删失数据的种类与原因删失数据的种类与原因 4 生存率估计值、置信区间及其统计学方法生存率估计值、置信区间及其统计学方法 5 生存率比较的统计学方法生存率比较的统计学方法 (如如log rank法法)及其及其p 值值 6 给出给出Cox回归模型,呈现解释变量与风险之间的联系回归模型,呈现解释变量与风险之
26、间的联系风险比(风险比(hazard ratio)及其置信区间)及其置信区间九九 应用范围应用范围 因素分析因素分析 具有具有logistic回归模型的所有优点回归模型的所有优点 同时考虑生存结局和生存时间,可处理截尾数据同时考虑生存结局和生存时间,可处理截尾数据 不考虑基准风险的分布不考虑基准风险的分布 生存预测生存预测 强调设计的重要性强调设计的重要性 专专业业知知识识角角度度:选选择择疾疾病病种种类类、终终点点事事件件、影影响响因因素素及结果的专业解释等。及结果的专业解释等。 统统计计学学角角度度:样样本本例例数数、因因素素的的赋赋值值、生生存存时时间间准准确确 、因素筛选方法、结果的统
27、计学解释等。、因素筛选方法、结果的统计学解释等。十十 注意事项注意事项 应用条件应用条件 除生存资料的基本要求外,还要求因素对生存时间的除生存资料的基本要求外,还要求因素对生存时间的 作用不随时间变化(比例风险假定)。作用不随时间变化(比例风险假定)。 设计阶段设计阶段 资料的代表性和可靠性资料的代表性和可靠性 将尽可能的因素都包括在调查分析中将尽可能的因素都包括在调查分析中 筛选变量筛选变量 容易收集容易收集 费用费用 明确规定生存时间明确规定生存时间 样本量为观察协变量的样本量为观察协变量的520倍倍 模型拟合模型拟合 多元共线性:自变量间不独立,相互间有一定线性依多元共线性:自变量间不独
28、立,相互间有一定线性依 存关系存关系 选入模型的变量是统计学上的有关变量,不一定都选入模型的变量是统计学上的有关变量,不一定都与生存时间有因果关系。其中某些变量可能只是伴与生存时间有因果关系。其中某些变量可能只是伴随关系而已,未选入模型的变量不一定全是无关变随关系而已,未选入模型的变量不一定全是无关变量,要考虑是否模型内的某些变量代替了它的作用,量,要考虑是否模型内的某些变量代替了它的作用,或因例数不够,或试验中对该变量进行了控制而引或因例数不够,或试验中对该变量进行了控制而引起。起。 模型拟合优度考察:据预后指数模型拟合优度考察:据预后指数PI分组,比较各组分组,比较各组 基基于于Cox模模
29、型型的的生生存存曲曲线线与与基基于于kaplan-Meier法法估估计计的的生生存存曲曲线线,如如两两组组曲曲线线吻吻合合较较好好,表表明明Cox模模型型拟合较好。拟合较好。 生生存存率率分分析析:生生存存曲曲线线不不能能随随意意延延长长,也也不不能能轻轻易易用用于于预预测测预预报报,经经过过大大量量研研究究所所得得的的生生存存曲曲线线才才有有可可能能推广应用。推广应用。十一十一 常见问题常见问题 1 生存时间的计算和选择生存时间的计算和选择 2 生存率计算方法使用不当生存率计算方法使用不当 3 忽略结局,采用忽略结局,采用t检验、线性回归分析生存时间检验、线性回归分析生存时间 4 忽略生存时
30、间,采用忽略生存时间,采用Logistic回归分析死亡率回归分析死亡率 5 采用平均生存时间表示生存时间的平均水平采用平均生存时间表示生存时间的平均水平 6 采用常规采用常规t检验或方差分析进行组间生存时间比较检验或方差分析进行组间生存时间比较 7 丢弃丢弃截尾截尾数据,只考虑确切数据数据,只考虑确切数据 8 将将截尾截尾数据当作确切数据处理数据当作确切数据处理例例 某研究者追踪某研究者追踪100名癌症患者,经治疗后的生存情况,名癌症患者,经治疗后的生存情况, 随访第随访第1年有年有30人死亡,随访第人死亡,随访第2年时,有年时,有20人死亡,人死亡, 有有40人无法联系失访。人无法联系失访。
31、 方法一:去掉截尾数据方法一:去掉截尾数据 方法二:不去掉截尾数据方法二:不去掉截尾数据 总例数总例数N=60 N=100 生存数生存数 生存率生存率 生存数生存数 生存率生存率 1年年 30 30/60=50% 70 70/100=70% 第七节第七节 实例分析实例分析1 1 研究设计研究设计 目的目的 专业:描述缺血性脑卒中患者病后生存状况,并分析专业:描述缺血性脑卒中患者病后生存状况,并分析 影响死亡的危险因素影响死亡的危险因素 统计学:统计学: 估计估计:如根据缺血性脑卒中患者治疗后的生存时间:如根据缺血性脑卒中患者治疗后的生存时间 资料,估计不同时间的生存率、生存曲线以资料,估计不同
32、时间的生存率、生存曲线以 及中位生存期等。及中位生存期等。 比较比较:对不同因素对生存率的影响进行比较:对不同因素对生存率的影响进行比较 影响因素分析影响因素分析:目的是为了探索和了解影响生存时间:目的是为了探索和了解影响生存时间 的因素,如病人的年龄、性别、病程、的因素,如病人的年龄、性别、病程、 严重程度等。严重程度等。 预测预测:具有不同因素水平的个体生存预测:具有不同因素水平的个体生存预测 方法:回顾性研究方法:回顾性研究 确定起始事件、终点事件、生存时间确定起始事件、终点事件、生存时间 起始事件:患者发病起始事件:患者发病 终点事件:因终点事件:因缺血性脑卒中缺血性脑卒中死亡死亡 生
33、存时间:患者发病至死亡、失访或最后一生存时间:患者发病至死亡、失访或最后一 次随访次随访 确定可能的影响因素、水平以及量化方法确定可能的影响因素、水平以及量化方法 设计调查表设计调查表 调查表中应包括调查表中应包括 可能的影响因素可能的影响因素 观察起点和终点(年、月、日)观察起点和终点(年、月、日) 生存时间生存时间 生存结局生存结局2 2 搜集资料搜集资料 可能的影响因素:病历可能的影响因素:病历 生存时间及结局:随访生存时间及结局:随访3 3 整理资料整理资料 检查、核对原始数据,包括影响因素、生存时间和生存检查、核对原始数据,包括影响因素、生存时间和生存 结局,尽量避免缺失值结局,尽量避免缺失值 建立数据库建立数据库4 4 资料分析资料分析 估计估计: Kaplan- Meier法法 比较比较: log-rank检验检验 影响因素分析影响因素分析:单因素分析采用单变量:单因素分析采用单变量 Cox回归模型,采用回归模型,采用P0.1作为有统计学作为有统计学 意义标准。多因素分析采用意义标准。多因素分析采用Cox回归模型回归模型 分析中分析中Forward:LR法法 预测预测: 建立预后指数建立预后指数5 5 结果结果2=9.311,P=0.002 谢谢!谢谢!