1699编号临床试验中样本量确定的统计学考虑专家共识

资源描述

《1699编号临床试验中样本量确定的统计学考虑专家共识》由会员分享，可在线阅读，更多相关《1699编号临床试验中样本量确定的统计学考虑专家共识（6页珍藏版）》请在金锄头文库上搜索。

1、中国临床试验生物统计学组成员( 按姓名拼音排序) : 陈峰、陈平雁、陈启光、贺佳、黄钦、金丕焕、李康、李宁、李卫、李晓松、凌莉、刘玉秀、苏炳华、孙高、王武保、王彤、魏朝晖、夏结来、姚晨、易东、尹平、于浩、张罗漫、赵耐青。专家共识临床试验中样本量确定的统计学考虑 CCTS 工作组陈平雁( 执笔) 样本量确定( sample size determination) ，又称样本量估计( sample size estimation) ，是指为满足统计的准确性和可靠性( I 类错误的控制和检验效能的保证) 计算出所需的样本量，它是临床

2、试验设计中一个极为重要的环节，直接关系到研究结论的可靠性、可重复性，以及研究效率的高低。样本量估计也是一个成本- 效果和检验效能的权衡过程。ICH E9 ( 1998)指出，临床试验的样本量必须足够大，以可靠地回答研究假设所提出的相关问题; 同时又不至于太大而造成浪费。样本量的估计方法应该在研究方案中详细阐述，包括计算样本量所依据的参数，如方差、均数、反应率、阳性事件发生率、差值等。本文适用于确证性试验。样本量估计需考虑的主要因素在确定临床研究的目的之后，首先考虑试验设计，包括对照的选择( 如标准对照、阳性对照、安慰剂对照、剂量对照等) 、

3、比较类型( 如优效性试验、非劣效性试验、等效性试验) 、设计类型( 如平行设计、交叉设计、析因设计、成组序贯设计等) 、主要指标( 定量、定性、生存时间) 等; 其次考虑统计分析方法，并提出效应量( effect size) 的假定; 然后根据试验特点定义统计特征，如统计分布、检验水准( significant level) 、检验效能( power) 、单双侧和分配比例等; 再应用正确的样本量估计方法计算出样本量; 最后根据协变量、试验中的脱落率、剔除率和依从性等具体情况进行适当调整。 1. 研究目的与试验设计 ( 1) 研究目的就临床试验而

4、言，在确证性研究中研究目的主要体现在有效性评价和安全性评价两个方面。样本量估计常用于有效性评价。 ( 2) 比较类型及其检验假设临床试验常用的比较类型有优效性试验( superi- ority trial) 、等效性试验( 包括生物等效性试验) ( equiv- alence trial) 、非劣效性试验( non- inferiority trial) 等。下面以两组效应量为均数的正向指标比较为例，设定优效、等效和非劣效的界值为，说明它们的检验假设与推断结论。优效性试验: 试验的目的是验证试验组效应是否优于对照组，如果研究不设定优效界值，其检验假设为: H

5、0 : T = C; H1 : TC。若 P，且珔XT珔XC，可推断试验组疗效优于对照组。这里， T和 C分别代表试验组和对照组的总体均数，珔XT和珔XC分别代表试验组和对照组的样本均数。如果研究设定优效界值为 ( 0，下同) ，即强优效，则检验假设为: H0 : T C; H1 : T C 。此时，若 P，则可推断试验组疗效优于对照组。等效性试验: 试验的目的是验证试验组效应是否与对照组相当。如果研究设定等效界值，其检验假设为: H0 : T C 或 T C; H1: T C 。这是上下限相同的情况。如果下限 1与上限 2 不同，则检验假设为: H0

6、: T C 1或 T C2; H1: 1 T C 2。此时，若 P，则可推断试验组疗效等效于对照组。非劣性试验: 试验的目的是验证试验组效应是否非劣于对照组。如果研究设定非劣效界值，其检验假设为: H0 : T C ; H1 : T C 。此时，若 P，则可推断试验组疗效非劣于对照组。 ( 3) 设计类型临床试验的设计模型相对比较简单，常用的有平行设计、交叉设计、析因设计、序贯设计、群随机设计和适应性设计等。有关这些设计的详细介绍可参考相关文献。 2. 主要指标 727中国卫生统计 2015 年 8 月第 32 卷第 4 期临床试验的样本量通常依据

7、对主要指标做出相应的假定后进行估计的。在 II、 III 期临床试验中主要指标一般是有效性评价指标，上市后的 IV 期临床试验主要指标可以是有效性评价指标，也可以是安全性评价指标，或兼而有之。如果样本量估计应同时依据主要有效性指标和主要安全性指标，在设计时应针对有效性和安全性分别提出统计假设，逐一计算样本量，最终样本量取其中最大者。主要指标应在研究方案中明确定义，通常需根据专业知识确定，应是专业领域具有共识的或认可程度较高的指标，一般源于某一标准或指南，或源于专业领域公开发表的权威论著或专家共识等。主要指标不宜太多，一般只有一个。当主要指标有多个时

8、，样本量估计要考虑假设检验的多重性问题。在定义主要指标过程中，不仅要说明指标的含义，其测量时点、测量手段以及计算方法都应注明。指标的类型要明确，这一点非常重要，因为样本量估计和数据分析都需要依此进行。例如，某些指标可以有定量、定性( 如有效和无效) 、等级( 如痊愈、显效、有效、无效) 、生存时间等不同类型。对应于指标的不同类型，样本量估计方法亦不相同。所以，方案中对主要指标的定义要具体到指标类型上。 3. 效应量效应量是样本量估计所需的最重要参数之一，根据不同的指标类型，常见的效应量有: 均数的组间差值或标准化差值，率的组间差值或比值( 、

9、 H) 、 O，或相关系数、回归系数等。效应量参数的确定主要基于下述三种途径: ( 1)本项目的任何既往研究结果。即源于同一项目的预试验、探索性试验( I 期或 II 期临床试验) 、单中心试验的结果等作为确定参数的依据。由于此类研究结果属于内部证据，因此是首选途径。 ( 2)基于他人的研究结果。当本项目的先前研究无法提供确切的参数数据，或尚未开展研究时，参数的确定可以以公开发表的研究结果作为依据。由于此类研究结果属外部证据，因此是次选途径。若公开发表的同类研究报道不止一个，最好是经 meta 分析所得合并效应量作为样本量估计的参数。 ( 3)基于本试验的

10、预期结果。如果本试验没有任何之前的研究结果可以借鉴( 无论是自己的还是他人的) ，或以往的研究数据不能得到本试验设计所需的参数( 如本试验采用交叉设计，而以往研究数据均来自两平行组设计的研究) ，可以用预期的形式进行预设，通常以广义效应量表达。若对试验药物或器械有充足信心，则预期效应量较大( 如设为 0. 8) ，此时所需样本量较小。若对试验药物或器械信心不足，则预期效应量较小( 如设为 0. 2) ，此时所需样本量较大。若对试验药物或器械的信心尚可，则预期效应量为中等水平( 如设为 0. 5) ，此时所需样本量也是中等大小。此外，对于单臂设计或配对

11、双臂设计，若涉及标准对照参数( 或目标值) 的确定，其途径的优先顺序大致为国际标准、国家标准、行业标准( 含指南等) 、被权威机构认可的企业标准、外部证据( 同类研究的综合结果，如 meta 分析结果) 。 4. 统计特征样本量估计需要考虑的统计特征主要有统计分布、检验水准、检验效能、单双侧和平衡与否等。统计分布: 样本量估计方法的选择与主要指标的统计分布假定密切相关，基于正态分布的假定会选择参数方法，基于非正态分布的假定会选择非参数方法。同样，生存分析的样本量估计方法会因 Weibull 分布族的假定有所不同。检验水准: 检验水准也就是 I

12、类错误概率，用表示，以双侧 0. 05 的水准最为常用。对于优效性检验设定单侧 =0. 025 的情形，以及等效性或非劣效性检验设定双单侧的 = 0. 025 的情形，其本质仍然是双侧 0. 05 的检验水准。但在某些情况下检验水准的设定会有所不同。例如，为控制整体 I 类错误概率，涉及多重检验时( 如定义多个主要指标) ，每次检验的名义检验水准 *将小于或等于 ; 涉及期中分析时，考虑消耗，每次检验的 *将小于。此外，对于生物等效性检验，习惯取双侧为 0. 1。检验效能: 用 1- 表示，代表 II 类错误概率。检验效能是指在设定的基础上

13、，原假设 H0为假且检验结果拒绝了 H0的概率。检验效能越高，发现差别的可能性越大，但同时所需样本量也越大。临床试验中，检验效能通常不得低于 80%。在样本量估计过程中，可通过对检验效能的敏感性分析提供不同的样本量方案，供研究人员选择。单侧和双侧检验: 单侧检验的样本量会明显小于双侧检验的样本量。一般而言，医学研究领域的统计检验约定俗成地使用双侧检验，如果采用单侧检验，需要给出充足的理由。需要指出，对于一般意义的检验水准 0. 05 而言，如果取单侧水准为 0. 025 的话，其实质仍然是双侧 0. 05 水平。平衡或非平衡设计: 所谓平衡设计，即

14、每组的样本量相同。在其他条件不变时，各组样本量相同时平衡设计效率最高，即试验所需总样本量最小。因此，研究设计应尽可能采用平衡设计。非平衡设计是指比较组间的样本量有明显差别，习惯上这种差别成倍数关系，例如，新药 III 期临床试验，因为安慰剂对照的疗效相对可以确定，同时出于伦理考虑，安慰剂对照组的样本量会安排的少一些，而试验组的样本量相对要大一些，比如是对照组的 2 倍或 3 倍。 827Chinese Journal of Health Statistics， Aug 2015， Vol32， No4 样本量估计原理和方法 1. 样本量估计原理样本量估计的方

15、法通常是从检验统计量计算公式反推而来。一般地，统计推断的效应量可认为是给定模型参数的函数 f( ) ，用 T 表示 f( ) 的一个无偏估计统计量，若数据来自正态分布，或根据中心极限定理，有 T f( ) Var( T 槡 ) N( 0， 1)( 1) 式中， Var( T) 为统计量 T 的方差。令检验水准为，检验效能为 1- ，并规定采用双侧检验。在 H0假设下， f( )=0，水平下的检验 H 0的界值为 |T/Var( T 槡 ) | Z1 /2( 2) 在 H1假设下， f( )= d，令 = d Var( T 槡 ) ，有 1 = P |N(

16、， 1) | Z1 /2 P N( ， 1) Z1 /2 = P N( 0， 1) Z1 /2 = ( Z1 /2) ( 3) 进一步求得 Z1 Var( T 槡 )= d Z1 /2Var( T 槡 ) Var( T)= d2/( Z1 + Z1 /2) 2 ( 4) 更为一般地， Var( T) 可以表示为关于样本量的函数，据此求得样本量。现以正态分布数据两组均值的比较为例，说明上述原理的应用。令两样本均数之差为 T =珔XE珔XC，两总体均数之差为 = E C，两总体方差相同，为 2 ，则 Var( T)= 2 nE + 2 nC = r +1 r 2 nC ( 5) 式中， r 为两组样本量的比值， nE= rnC。将公式 ( 5) 代入公式( 4) ，有 2 ( Z1 + Z1 /2) 2 = r +1 r 2 nC nC= r +1 r ( Z1 + Z1 /2) 22 2 ( 6

展开阅读全文

1699编号临床试验中样本量确定的统计学考虑 专家共识

1699编号临床试验中样本量确定的统计学考虑专家共识