1699编号临床试验中样本量确定的统计学考虑 专家共识

上传人:玩*** 文档编号:145837579 上传时间:2020-09-23 格式:PDF 页数:6 大小:256KB
返回 下载 相关 举报
1699编号临床试验中样本量确定的统计学考虑 专家共识_第1页
第1页 / 共6页
1699编号临床试验中样本量确定的统计学考虑 专家共识_第2页
第2页 / 共6页
1699编号临床试验中样本量确定的统计学考虑 专家共识_第3页
第3页 / 共6页
1699编号临床试验中样本量确定的统计学考虑 专家共识_第4页
第4页 / 共6页
1699编号临床试验中样本量确定的统计学考虑 专家共识_第5页
第5页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《1699编号临床试验中样本量确定的统计学考虑 专家共识》由会员分享,可在线阅读,更多相关《1699编号临床试验中样本量确定的统计学考虑 专家共识(6页珍藏版)》请在金锄头文库上搜索。

1、中国临床试验生物统计学组成员( 按姓名拼音排序) : 陈峰、 陈平雁、 陈 启光、 贺佳、 黄钦、 金丕焕、 李康、 李宁、 李卫、 李晓松、 凌莉、 刘玉秀、 苏炳 华、 孙高、 王武保、 王彤、 魏朝晖、 夏结来、 姚晨、 易东、 尹平、 于浩、 张罗 漫、 赵耐青。 专家共识 临床试验中样本量确定的统计学考虑 CCTS 工作组陈平雁( 执笔) 样本量确定( sample size determination) , 又称样本 量估计( sample size estimation) , 是指为满足统计的准 确性和可靠性( I 类错误的控制和检验效能的保证) 计 算出所需的样本量, 它是临床

2、试验设计中一个极为重 要的环节, 直接关系到研究结论的可靠性、 可重复性, 以及研究效率的高低。样本量估计也是一个成本- 效 果和检验效能的权衡过程。ICH E9 ( 1998)指出, 临 床试验的样本量必须足够大, 以可靠地回答研究假设 所提出的相关问题; 同时又不至于太大而造成浪费。 样本量的估计方法应该在研究方案中详细阐述, 包括 计算样本量所依据的参数, 如方差、 均数、 反应率、 阳性 事件发生率、 差值等。本文适用于确证性试验。 样本量估计需考虑的主要因素 在确定临床研究的目的之后, 首先考虑试验设计, 包括对照的选择( 如标准对照、 阳性对照、 安慰剂对 照、 剂量对照等) 、

3、比较类型( 如优效性试验、 非劣效性 试验、 等效性试验) 、 设计类型( 如平行设计、 交叉设 计、 析因设计、 成组序贯设计等) 、 主要指标( 定量、 定 性、 生存时间) 等; 其次考虑统计分析方法, 并提出效 应量( effect size) 的假定; 然后根据试验特点定义统计 特征, 如统计分布、 检验水准( significant level) 、 检验效 能( power) 、 单双侧和分配比例等; 再应用正确的样本 量估计方法计算出样本量; 最后根据协变量、 试验中的 脱落率、 剔除率和依从性等具体情况进行适当调整。 1. 研究目的与试验设计 ( 1) 研究目的 就临床试验而

4、言, 在确证性研究中研究目的主要 体现在有效性评价和安全性评价两个方面。样本量估 计常用于有效性评价。 ( 2) 比较类型及其检验假设 临床试验常用的比较类型有优效性试验( superi- ority trial) 、 等效性试验( 包括生物等效性试验) ( equiv- alence trial) 、 非劣效性试验( non- inferiority trial) 等。 下面以两组效应量为均数的正向指标比较为例, 设定 优效、 等效和非劣效的界值为 , 说明它们的检验假设 与推断结论。 优效性试验: 试验的目的是验证试验组效应是否 优于对照组, 如果研究不设定优效界值, 其检验假设 为: H

5、0 : T = C; H1 : TC。 若 P, 且珔XT珔XC, 可推断试验组疗效优于对照 组。这里, T和 C分别代表试验组和对照组的总体 均数,珔XT和珔XC分别代表试验组和对照组的样本均数。 如果研究设定优效界值为 ( 0, 下同) , 即强 优效, 则检验假设为: H0 : T C; H1 : T C 。 此时, 若 P, 则可推断试验组疗效优于对照组。 等效性试验: 试验的目的是验证试验组效应是否 与对照组相当。如果研究设定等效界值 , 其检验假 设为: H0 : T C 或 T C; H1: T C 。 这是上下限相同的情况。如果下限 1与上限 2 不同, 则检验假设为: H0

6、: T C 1或 T C2; H1: 1 T C 2。 此时, 若 P, 则可推断试验组疗效等效于对照 组。 非劣性试验: 试验的目的是验证试验组效应是否 非劣于对照组。如果研究设定非劣效界值 , 其检验 假设为: H0 : T C ; H1 : T C 。 此时, 若 P, 则可推断试验组疗效非劣于对照 组。 ( 3) 设计类型 临床试验的设计模型相对比较简单, 常用的有平 行设计、 交叉设计、 析因设计、 序贯设计、 群随机设计和 适应性设计等。有关这些设计的详细介绍可参考相关 文献。 2. 主要指标 727中国卫生统计 2015 年 8 月第 32 卷第 4 期 临床试验的样本量通常依据

7、对主要指标做出相应 的假定后进行估计的。在 II、 III 期临床试验中主要指 标一般是有效性评价指标, 上市后的 IV 期临床试验主 要指标可以是有效性评价指标, 也可以是安全性评价 指标, 或兼而有之。如果样本量估计应同时依据主要 有效性指标和主要安全性指标, 在设计时应针对有效 性和安全性分别提出统计假设, 逐一计算样本量, 最终 样本量取其中最大者。主要指标应在研究方案中明确 定义, 通常需根据专业知识确定, 应是专业领域具有共 识的或认可程度较高的指标, 一般源于某一标准或指 南, 或源于专业领域公开发表的权威论著或专家共识 等。主要指标不宜太多, 一般只有一个。当主要指标 有多个时

8、, 样本量估计要考虑假设检验的多重性问题。 在定义主要指标过程中, 不仅要说明指标的含义, 其测量时点、 测量手段以及计算方法都应注明。指标 的类型要明确, 这一点非常重要, 因为样本量估计和数 据分析都需要依此进行。例如, 某些指标可以有定量、 定性( 如有效和无效) 、 等级( 如痊愈、 显效、 有效、 无 效) 、 生存时间等不同类型。对应于指标的不同类型, 样本量估计方法亦不相同。所以, 方案中对主要指标 的定义要具体到指标类型上。 3. 效应量 效应量是样本量估计所需的最重要参数之一, 根 据不同的指标类型, 常见的效应量有: 均数的组间差值 或标准化差值, 率的组间差值或比值( 、

9、 H) 、 O, 或 相关系数、 回归系数等。 效应量参数的确定主要基于下述三种途径: ( 1)本项目的任何既往研究结果。即源于同一项 目的预试验、 探索性试验( I 期或 II 期临床试验) 、 单中 心试验的结果等作为确定参数的依据。由于此类研究 结果属于内部证据, 因此是首选途径。 ( 2)基于他人的研究结果。当本项目的先前研究 无法提供确切的参数数据, 或尚未开展研究时, 参数的 确定可以以公开发表的研究结果作为依据。由于此类 研究结果属外部证据, 因此是次选途径。若公开发表 的同类研究报道不止一个, 最好是经 meta 分析所得合 并效应量作为样本量估计的参数。 ( 3)基于本试验的

10、预期结果。如果本试验没有任 何之前的研究结果可以借鉴( 无论是自己的还是他人 的) , 或以往的研究数据不能得到本试验设计所需的 参数( 如本试验采用交叉设计, 而以往研究数据均来 自两平行组设计的研究) , 可以用预期的形式进行预 设, 通常以广义效应量表达。若对试验药物或器械有 充足信心, 则预期效应量较大( 如设为 0. 8) , 此时所需 样本量较小。若对试验药物或器械信心不足, 则预期 效应量较小( 如设为 0. 2) , 此时所需样本量较大。若 对试验药物或器械的信心尚可, 则预期效应量为中等 水平( 如设为 0. 5) , 此时所需样本量也是中等大小。 此外, 对于单臂设计或配对

11、双臂设计, 若涉及标准 对照参数( 或目标值) 的确定, 其途径的优先顺序大致 为国际标准、 国家标准、 行业标准( 含指南等) 、 被权威 机构认可的企业标准、 外部证据( 同类研究的综合结 果, 如 meta 分析结果) 。 4. 统计特征 样本量估计需要考虑的统计特征主要有统计分 布、 检验水准、 检验效能、 单双侧和平衡与否等。 统计分布: 样本量估计方法的选择与主要指标的 统计分布假定密切相关, 基于正态分布的假定会选择 参数方法, 基于非正态分布的假定会选择非参数方法。 同样, 生存分析的样本量估计方法会因 Weibull 分布 族的假定有所不同。 检验水准: 检验水准也就是 I

12、类错误概率, 用 表 示, 以双侧 0. 05 的水准最为常用。对于优效性检验设 定单侧 =0. 025 的情形, 以及等效性或非劣效性检验 设定双单侧的 = 0. 025 的情形, 其本质仍然是双侧 0. 05 的检验水准。但在某些情况下检验水准的设定 会有所不同。例如, 为控制整体 I 类错误概率 , 涉及 多重检验时( 如定义多个主要指标) , 每次检验的名义 检验水准 *将小于或等于 ; 涉及期中分析时, 考虑 消耗, 每次检验的 *将小于 。此外, 对于生物等 效性检验, 习惯取双侧 为 0. 1。 检验效能: 用 1- 表示, 代表 II 类错误概率。检 验效能是指在设定的 基础上

13、, 原假设 H0为假且检 验结果拒绝了 H0的概率。检验效能越高, 发现差别的 可能性越大, 但同时所需样本量也越大。临床试验中, 检验效能通常不得低于 80%。在样本量估计过程中, 可通过对检验效能的敏感性分析提供不同的样本量方 案, 供研究人员选择。 单侧和双侧检验: 单侧检验的样本量会明显小于 双侧检验的样本量。一般而言, 医学研究领域的统计 检验约定俗成地使用双侧检验, 如果采用单侧检验, 需 要给出充足的理由。需要指出, 对于一般意义的检验 水准 0. 05 而言, 如果取单侧水准为 0. 025 的话, 其实 质仍然是双侧 0. 05 水平。 平衡或非平衡设计: 所谓平衡设计, 即

14、每组的样本 量相同。在其他条件不变时, 各组样本量相同时平衡 设计效率最高, 即试验所需总样本量最小。因此, 研究 设计应尽可能采用平衡设计。非平衡设计是指比较组 间的样本量有明显差别, 习惯上这种差别成倍数关系, 例如, 新药 III 期临床试验, 因为安慰剂对照的疗效相 对可以确定, 同时出于伦理考虑, 安慰剂对照组的样本 量会安排的少一些, 而试验组的样本量相对要大一些, 比如是对照组的 2 倍或 3 倍。 827Chinese Journal of Health Statistics, Aug 2015, Vol32, No4 样本量估计原理和方法 1. 样本量估计原理 样本量估计的方

15、法通常是从检验统计量计算公式 反推而来。一般地, 统计推断的效应量可认为是给定 模型参数 的函数 f( ) , 用 T 表示 f( ) 的一个无偏估 计统计量, 若数据来自正态分布, 或根据中心极限定 理, 有 T f( ) Var( T 槡 ) N( 0, 1)( 1) 式中, Var( T) 为统计量 T 的方差。 令检验水准为 , 检验效能为 1- , 并规定采用双 侧检验。 在 H0假设下, f( )=0, 水平下的检验 H 0的界 值为 |T/Var( T 槡 ) | Z1 /2( 2) 在 H1假设下, f( )= d, 令 = d Var( T 槡 ) , 有 1 = P |N(

16、 , 1) | Z1 /2 P N( , 1) Z1 /2 = P N( 0, 1) Z1 /2 = ( Z1 /2) ( 3) 进一步求得 Z1 Var( T 槡 )= d Z1 /2Var( T 槡 ) Var( T)= d2/( Z1 + Z1 /2) 2 ( 4) 更为一般地, Var( T) 可以表示为关于样本量的函 数, 据此求得样本量。现以正态分布数据两组均值的 比较为例, 说明上述原理的应用。 令两样本均数之差为 T =珔XE珔XC, 两总体均数之 差为 = E C, 两总体方差相同, 为 2 , 则 Var( T)= 2 nE + 2 nC = r +1 r 2 nC ( 5) 式中, r 为两组样本量的比值, nE= rnC。将公式 ( 5) 代入公式( 4) , 有 2 ( Z1 + Z1 /2) 2 = r +1 r 2 nC nC= r +1 r ( Z1 + Z1 /2) 22 2 ( 6

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号