临床试验数据分析要点〔GCP〕临床试验数据分析要点5.3.1 分析对象的数据集5.3.1.1 全样本分析〔Fullanalysisset〕打算治疗原则〔 intention-to-treat〕是指主要分析应当包括全部进入随机化的遵循这一原则需要对全部随机受试者完成随访得到试验结果由于各种理由,这在实际上是难以到达的,因此,全样本分析是尽可能接近于包括全部随机受试者,在分析中保存最初的随机化对于防止偏差和供给安全的统计检验根底很重要在很多场合,它供给的对治疗效果的估算很可能反映了以后的实际观看结果从分析中剔除已随机受试者的状况不多:包括不符合重要入选标准,一次也没有用药,随机化后没有任何数据从分析中剔除不符合入选条件受试者必需不致引起偏差:入选标准的测定是在随机化之后;违反合格标准的检测是完全客观的;全部受试者都受到同样的合格性调查;各组实行同样的入选标准,凡违反者均被排解5.3.1.2 遵循争论设计对象〔PerProtocolSet〕 “PerProtocol“对象组,有时称之为“有效病例“、“有效样本“或“可评价受试者样本;定义为全局部析样本中较好遵循设计书的一个受试者亚组:·完成预先说明确实定治疗方案暴露。
·得到主要变量的测定数据·没有违反包括入选标准在内的重要试验设计从“有效受试者“组中剔除受试者的准确理由应当在揭盲前就充分限定并有文件记载为得到“有效受试者“而排解对象的缘由和其他一些违反争论设计的问题,包括对象安排错误、试验中使用了试验方案规定不能用的药物、依从性差、出组和数据缺失等,应当在不同治疗组之间对其类型、发生频率和发生时间进展评价5.3.1.3 不同的分析〔受试者〕组的作用在验证性试验中,通常进展全样本和 “有效受试者“两种分析这样可以对两者之间的任何差异进展明白的争论和解释有时候可能需要打算进一步探究结论对于选择分析受试者组的敏感程度两种分析得到根本全都的结论时,治疗结果的可信度增加但是要记住,需要?quot;有效受试者“中排解相当数量受试者会对试验的总有效性留下疑点在优越性〔 Superioritytrial,证明药比标准比照药物优越〕试验、等效性试验或不差于〔 non-inferioritytrial,确证产品与比照药物相当〕试验中,这两种分析有不同的作用在优越性试验中,全 样本分析用于主要的分析可以避开“有效受试者“分析对疗效的过于乐观的估算;全样本分析所包括的不依从受试者一般会缩小所估算的治疗作用。
但是,在等效性或不差于试验中使用全样本分析通常是不慎重的, 对其意义应当格外认真考虑5.3.2 缺失值和线外值〔包括特别值〕缺失值代表临床试验中一个潜在的偏差来源因此,在实施临床试验时应当尽最大努力符合试验方案对于数据收集和数据治理的要求对于缺失值并没有通用的处理方法,但只要处理方法合理,特别是假设处理缺失值方法在试验方案中预先写明,则不会影响试验的有效性当缺失值数目较大时,要考虑分析结果对于处理缺失值方法的敏感程度线外值〔包括特别值〕的统计学定义在某种程度上带有任凭性除了统计学推断之外加上医学推断以鉴别一个线外值〔包括特别值〕是最可信的方法同样,处理线外值〔包括特别值〕的程序应当在方案中列出,且不行事先就有利于某一个治疗组5.3.3 数据的类型、显著性检验和可信限在临床试验中,对每个受试者可收集 3 种数据:所承受的治疗、对治疗的反响〔Re-sponse〕和进入试验时影响预后因子的基线值承受同样治疗的受试者构成统计分疗组对治疗的反响根本上有 3 类①定性反响依据预定的评价标准将受试者分为假设干类别,如高血压治疗的“有效“无效“;淋巴细胞瘤化疗的“完全缓解“、“局部缓解“、“无变化“②定量反响。
当存在一种牢靠测定方法时,受试者的治疗结果最好承受实际数值,如舒张压但最好同时记录其基线值,以便评价治疗前后的变化量值③到某大事发生的时间如使用避孕药受试者从开头治疗到意外妊娠的时间5.3.3.1 数据的描述性统计 在开头分析之前,有必要先看一下各组受试者的每个变量观看值的分布频度,以对变量有一个感性了解;从最大值和最小值也可以觉察可能的错误和超范围的值;打算某些变量是否需要作某种转换某种特定分布作统计分析①定性数据需要记录各治疗组的受试者总数和在每个反响类别的 受试者数,然后转化为比率或百分率或直方图、 圆图等表示承受 c2 检验、Fisher 准确检验比较所观看到的组间率的差异的程度 ②定量数据计算每个治疗组的平均反响〔均数、几何均数〕和变化程度〔标 准差〕以均值、标准差、直方图、 累积频数分布图表示在受试者数较小时,可以用图表显示每个受试者反响组间比较承受 t 检验、F检验等 当样本值频数图呈偏态分布时,用均值描述定量反响不适宜, 可承受中位数、四分位数来描述数据的定量水平组间 比较可承受非参数方法 5.3.3.2 显著性检验 显著性检验的真正含义是应用概率理论计算假设两个治疗实际上同样有到所观测到的治疗差异的概率。
其 目的是评价一个治疗真正优于另一个治疗的证据有多强这种证据的强度用概率,即P 值来定量因此P 值越小, 治疗差异由于偶然发生的可能性越小在实践中,人们常用P <0.05.P <0.01、P <0.001 表示显著性检验的结果,这些水平的选择是完全任凭的,并没有数学或临床的理由 在解释显著性检验时要留意以下几点:一个小的 P 值如 P <0.05 并不是一种治疗优越确实定证明,每 20 个真 正阴性试验会消灭一个假阳性结果;P >0.05 也并不证明两治疗同样有效,差异可能实际上存在,只是现有数据不 足以证明它存在统计显著性并不等同于临床重要性,一个 10 万人的试验中,1%的反响率差异在 5%水平是显著的, 但在一个 20 人的试验中 40%的差异在统计上也是不显著的因此,临床的意义必需用差异的大小,即可信限来 评价 双侧检验和单侧检验:假设治疗差异可以发生在任时,为双侧检验双侧检验的零假设为 μa=μb ;备择 假设为 μa1μb 假设在试验之前就确定治疗 A 不行能差于治疗 B ,为单侧检验其零假设为μa=μb ;备择假设为 μa ≥μb 此时显著性检验评价 A 好于 B 或 A 相当于B 的证据。
假设结果是A 比B 差,便归于机遇,由于A 不行能差于B 结果 是单侧检验的P 值为双侧检验也就是说单侧检验比双侧绝零假设承受单侧检的依据假设试验设计中打算用单侧检验,在结果表示时要注件计 算的都是双侧检验的P 值 5.3.3.3 可信限的估算 显著性检验只告知我们一个治疗比另一个好的证据的强度,并没有告知我们好多少因 此,显著性检验并不是分 析的终结,还应运用统计估算方法,如可信限估算治疗改善的量计算可信限时应分析变量的统计分布;标 准误和可信限的计算方写明记住必需供给治疗效应大小的统计估算、显 著性水平和可信区间100〔1-α〕% 可信区间,正态分布估算值可表示为{估算值+N α/2×SE},估算值+〔N1-α/2×S 〕E};差值如呈 t 分布时,可表示为 {x1-x2-〔t1-α/2×SEd 〕if ,fx1-x2+〔t1-α/2×S i f E f d 〕}等 5.3.4 对象的基线水平的组间比较 对治疗组的疗效评价只有当各组受试者的基线特征具有可比是有效的通常,随机化可 以供给充分的可比 性但是,随机化并不能确定保证可比性有时候组间的基线水平可能会有差异这种差异对治疗比较的影响应当采 用其他程序消退。
5.3.5 调整显著性和可信限水平 很多状况都可能产生多重性:例如多个终点/主要变量〔如血压记录卧位或坐位的收缩压和舒张压;心肌梗死预 防试验中的各种缘由死亡率和心肌梗死发病 率〕,治疗的多重及不同时间点的屡次测定和中期分析等存在多重 性分析数据时可能有必要对五类行把握和调整首先,最好能避开或 削减多重性的产生,如从多个主要变量中鉴 别出关键的主要变量〔如血压记录用卧位舒张压为主要则承受一个综合标 “曲积“多重比较的常用统计方法有 Bonferroni 方法、 Holm 法和 Hochberg 方法Bonferroni 方法是一个保守的方法,对于成比照较,它调整P 值以把握总的 I 类误差率Hochberg 方法比另两种方 法更有效,它只需把握最大的P 值小于显著性水平多个终点的α 调整用 Bonferroni 方法和 Hochberg 方法 5.3.6 亚组、相互作用和协变量 除了治疗以外,主要变量常与其他影响系统相关主要变量可能与协变量如年龄 和性别有关;或在受试者亚组之间可能存在差异,如多中心试验中的一个必要局部要特别留意中心的影响和主要变量的基线测量值的作用不要在主分析中对随机化以后测定的协变量进展调整,由于这些测定可能受治疗的影响。
此外,治疗效果本身也可能随亚组或协变量转变疗效可能随年龄而下降,或在具有某一特别预后因子的受试者中增大这类相互作用在某些状况下是可以预见的,或具有特别的意义〔如老年病学〕,因此,一个亚组分析或包括相互作用项的统计模型是所打算的验证性分析的一个局部对于定量反响变量,多元回归是最常用的统计调整方法,有时也称协方差分析对于定性反响,可以应用多元 Lgistic 模型5.3.7 评价安全性和耐受性5.3.7.1 评价范围一个药物的有用性总是在风险和效益之间的平衡在全部临床试验中,安全性和耐受性评价是重要内容之一在临床争论早期阶段, 这类评价带有探究性,仅留意毒性的表达方式;在较后阶段,则是在大样本对象中更全面地确定药物的安全性和耐受性特征后期的比照临床试验是以一种无偏倚方式提示任何的不良反响的重要手段,尽管此类试验的把握度有限5.3.7.2 变量选择和数据收集在临床试验中,选择评价药物安全性和耐受性的方法和测定取决 于一系列因素:药物不良反响的学问,药物非临床争论和早期临床试 验以及重要的药效学/药代动力学特征资料,给药方案,被争论对象和争论持续时间安全性和耐受性的主要数据通常包括临床化学和血液学的试验室测试〔如WBC、SGPT〕,生命指征和体检〔如血压、ECG〕,临床不良大事〔疾病、体征和综合症〕。
发生严峻不良大事和因不良大事中断治疗对于注册是特别重要的数据临床试验中使用共同的不良大事编码词典特别重要这种词典的构造供给了在 3 个不同的水平总结不良大事数据的可能性:系统-器官分类,标准术语〔 preferredterm〕和包括术语〔includedterm〕通常,不良大事按标准术语分类总结,一样系统-器官分类的标准术语在数据的描述性报告中可以放在一起现在常用的有世界卫生组织的《疾病和有关安康问题的国际统计分类》ICD-10,和美国的 COSTART5.3.7.3 评价的受试者和数据报告安全性和耐受性评价中,所总结的受试者通常至少曾承受过一个 剂量争论药物要尽可能全面地从这些受试者中收集安全性和耐受性 变量,包括不良大事的种类、严峻程度、开头时间和持续时间,以及 处理方法和结果评价时要留意全部安全性和耐受性变量全部不良 大事,不管它们是否与治疗相关,都应当报告试验室测定值的单位 和 正 常 范 围 应 有 明 确 定 义 使 用 的 毒 性 分 级 标 度〔toxicitygradingscale〕应当预先说明通常一个特定不良大事的发生率表示为经受该大事受试者数相对 于处于危急的受试者数的率。
但是,依据需要,被暴露的受试者数或 暴露程度〔用人-年表示〕可以作为分母不管其目的是为了估算危急度还是在治疗组间进展比较,应当在方案中明确定义,这在打算长期 治疗并预期会有相当比例。