临床试验中的统计学分享

资源描述

《临床试验中的统计学分享》由会员分享，可在线阅读，更多相关《临床试验中的统计学分享（261页珍藏版）》请在金锄头文库上搜索。

1、真诚为您提供优质参考资料，若有不当之处，请指正。小胖说统计之一：认识, 要了解生物统计在临床试验中的应用，首先需从认识,开始，就是这两个不起眼的符号贯穿了临床试验生物统计的始终。和的定义是比较拗口的，特别是对于那些没学过统计的人来说，这两个东西是怎么也搞不明白具体是怎么回事。虽然比较拗口，但咱还得在这里重复一下和的科学定义：又称第I类错误或显著性水平，指拒绝了实际上成立的H0，又称第II类错误，指不拒绝实际上不成立的H0。对应的还有一个概念叫power，国内翻译为把握度，它等于1，指拒绝实际上不成立的H0的概率。说得通俗一点，临床试验中你会犯俩错误，一种错误就是两种药本来没啥区别，却说成您

2、的药优于人家的药，这就是；另一种错误就是你的药的确优于人家的药，却说成两种药没啥区别，这就是。那1呢，就是咱的优秀药物被发现的概率啊。不知道，上边的解释，您听明白了吗？如果听明白了，小胖要问您了，谁应该最关心啊，那又谁应该最关心啊？最关心的当然是我们伟大的SFDA以及诸如FDA之类的药品审批机构啊，为啥？他们当然不希望一种药明明和别的药没啥区别，却被药厂说成疗效更好，换言之，他们可不希望审批无效的药物进入市场。所以啊，它们要限定这种错误发生的概率，也就是我们的了，一般情况下，被限定为0.05。最关心的当然是我们的药厂了，为啥？为钱，哈哈！药厂当然不希望明明他的药优于别人的药，却被说成两种药没啥

3、区别吧，所以它们希望降低这种错误发生的概率，也就是降低了。换言之，他希望提高把握度（1），使自己的药能有更高的概率作出来优于别的药物，从而进入市场，赚取钞票。一般情况下，应小于0.2，甚至0.1，对应的把握度为80或90。当然药厂降低，也就是提高把握度，会提高你试验成功的概率，但这也同时意味着同等条件下样本量的增加，样本量的增加就意味着money的增加，这些都是矛盾的，没办法，谁让这世界本来就是一个矛盾的世界呢，你只好去权衡利弊，找个平衡点呗。今天就到这里吧，休息，休息。小胖说统计之二：怎样认识Nonpositive 试验在上一博认识完和后，我们继续深入探讨一下。在很多情况下，我们会经常遇到临

4、床试验的结果是Nonpositivie（P0.05）,此时你会怎么解释呢？有的同学比较干脆，看到p0.05，就立马认为两种药无差别，更有甚者，如果对照组是安慰剂的话，那这个药就被判定为无效，彻底over了。当然这些同学未免有点武断了，其实大多数情况下，这是由于underpowered造成的，下边小胖就给大家举个例子看看吧。咱保护人家的知识产权，先说明这个例子的referencnce为: Arch Pediatr Adolesc Med. 2006;160(11):1126-1129, 仅供咱参考学习之用。试验是这样的：本试验比较Duct Tape和placebo治疗小学儿童人乳头瘤病毒（疣）的

5、疗效，主要疗效指标是6周后的wart resolution，最后的试验结果是Duct Tape组16，placebo组6，p0.12。看到这个结果，你会得出啥结论？别，咱先别急，先看看它的最初的样本含量和把握度设计的叙述：根据以往综述，placebo治疗10周后约有30的wart resolution。假设双测检验0.05显著水平，每组需要39例病人才能有80的把握检验出Duct Tape和placebo组wart resolution30的的差异。考虑到失访，最终入组100例（每组50例）。看完这个叙述，你应该会发现点东西了吧，对！研究者过高地估计了placebo的wart resoluti

6、on，同时也过高地估计了两组之间的差别。研究者那个后悔啊，肠子都悔青了，后来经过反省，他发现了俩估计上的问题：（1）人家以前的综述，是说10周后的wart resolution是30，本试验主要指标是6周后的wart resolution，当然这个率应该低一些；（2）与placebo30的差别，也太过于自信了吧，人家临床上觉得你的药有15的提高就有临床意义了，你把标准提得这么高，不是自找麻烦吗。根据试验结果，我们可以推算出本试验的把握度只有26, 这么低的把握度就怪不得没做出啥来了。这样吧，小胖替研究者重新设计一下，咱假设plcebo组30wart resolution不变，把两组差异降为15

7、，这样算出来，每组做175例，总共350例。假设同样的wart resolution结果，Duct Tape组16，placebo组6，你猜咋得？把握度大于80，P0.05了！咱的Duct Tape有救了！说了这么半天，大家可能也闹胡涂了，算了，记住以下几点吧，随便锻炼一下英文，权当这次没白来看小胖的blog。1. Non-positive ONLY not conclusive2. Not be able to detect a difference does NOT mean there is no difference3. The predominant reason of Non-po

8、sitive trials is mostly “under-powered”, rather than ineffectiveness of the test therapy小胖说统计之三：优效、等效和非劣效试验（一）小胖在论坛上转悠了一阵子了，发现有很多同学对优效、等效和非劣效试验都做过一些讨论，小胖不才，在这里再给大家解释一下，权当班门弄斧，如有偏颇，大家尽管拍砖，就算小胖来找残吧，所谓小胖不入地狱，谁入地狱，小胖开博开讲了。先从优效性试验开讲吧。顾名思义，优效性试验的目的是显示试验药物的疗效优于对照药。优效性检验的第一步往往是对两组进行统计学检验，看看有没有显著性差异。当两组有显著性差

9、异后，下一步就得判断两组之间的差异是否有临床意义。这里小胖需要强调的是，统计学显著性差异并不意味着差异有临床意义。举个极端的例子，只要样本量足够大，10000甚至100000，哪怕是0.01的差异都能有统计学意义，但这个0.01的差异当然在临床上是不会被认可的。考虑到这一点，当计算优效性试验的样本量时，你假设的两组差异必须在临床上是有意义的。关于优效性试验还有一个大家常碰到的问题是，究竟是单侧检验还是双侧检验呢？其实这个问题统计学界本身存在着争议，至于具体争议，小胖就不在此赘述了，小胖想让大家知道的是，现在通常优效性试验取的都是双侧0.05显著水平。至于具体的统计检验，可通过双侧0.05显著水

10、平或双侧95可信区间两种方法来实现，当然了优效性试验要求p0.05，或两组疗效（治疗对照）之差的95可信区间的下限大于0。今天小胖就罗唆到此，下次继续。休息。小胖说统计之四：优效、等效和非劣效试验（二）在上篇博客中，小胖给大家简单地介绍了一下优效性试验，不知大家明白一点没有，如大家有何问题，尽可拍砖。今天继续讲一下等效/非劣效试验，首先小胖问大家一个问题，为啥要做等效/非劣效试验？其实说起来很简单，现在开发出一种疗效确实优于现有标准治疗的药那有那么容易啊，那你就要得从别的方面考虑了，就是首先保证你的药不差于人家的药的基础上，在别的方面有优势啊，不然人家为什么批准你上市。那这些别的方面的优势是啥

11、呢？（1）你的药便宜，这个就不用多说了（2）你的药副作用少，考察一个药可不只是疗效，现在安全性也越来越重要了（3）你的药服用方式方便，例如，你的是口服，人家的是静脉；你的每周一次，人家的每周三次，等等（4）你的药的依从性好，这个和服用方式也有较大的关系，当然也包括剂量疗程等方面的考虑（5）你的药能更好地改善生活质量，这年头病人生活质量改善是越来越时髦了还有别的很多很多，反正你必须找一个让人家审评机构认可的理由，不然谁批准你啊！关于这个非劣效检验的问题，小胖不得不先在这里发一下牢骚，可能大家也知道现在国内临床试验的现状，这几年还好，以前大家做临床试验基本上就是找个对照药，每组做个100

12、例，两者一比较，如果p0.05，ok！说俺的药和人家的药没啥区别，SFDA也就稀里糊涂地批了。现在吗，进步了，SFDA也学习人家，开始在试验设计和统计上有要求了，但在缺乏原创的中国，优效试验（当然安慰剂排除）是没啥把握的，只好非劣效试验了，但非劣效试验的样本量大家是知道的，一般情况下是优效试验的4倍以上，但咱的药厂就算是外资药厂，动不动就几百个病人的试验，在这个还是销售市场驱动的中国市场，何以承受！所以现在很多药厂频频打擦边球，SFDA呢，我也不知道他怎么办的，不好评述，反正不敢恭维。小胖这几年做下来的感觉，一句话SFDA和FDA的差距比中国和美国经济的差距还大，不过也没办法，人家FDA多少年

13、了，你SFDA才几年啊，况且你SFDA面对的是仿制药横行的中国，其实冷静下来想，最适合的就是最好的，也许这是最适合中国国情的，况且它也在不断进步中，对比这几年的变化，小胖也应该为他鼓掌。跑题了，跑题了，_。下次小胖一定言归正传，好了，下次继续。小胖说统计之五：优效、等效和非劣效试验（三）上篇博客中，小胖发了一通牢骚，还望众弟兄见谅，今天小胖给大家谈一下等效性试验。首先等效性试验的目的是显示试验药物的等同于对照药，这里大家要注意了，你的药要和人家的药疗效相同，既不能优于人家，也不能差于人家哦。等效性试验主要在生物等效性研究中使用，在中国还真不少用。为啥，咱仿制药多哦，和人家原创药怎么也得做个生物

14、等效吧。但是在生物等效性试验不可行的情况下，需做临床等效，比如说一些吸入的或局部给药的药物。生物等效性试验一般比较药代动力学参数的90可信区间，而临床等效呢，一般是95可信区间。等效性检验采用双侧可信区间，当可信区间完全落在等效界值之内，则推断为等效。至于界值咋确定，这个关键的问题小胖下次重点白话一下。今儿，周末了，少写点，小胖要早点休息了。祝大家周末愉快！小胖说统计之六：优效、等效和非劣效试验（四）经过一个周末的休息调整，小胖开博继续，今天着重给大家讨论一下非劣效试验界值的选择问题。首先看看非劣效试验的目的，显示试验药物的疗效在临床上不劣于阳性对照药，说白了就是证明您的药不差于人家的药。要做

15、非劣效试验有两点特别重要，啥呢？一是选择对照药，当然你选择的对照组必须是广泛应用的，已被证实疗效的标准用药，特别强调的是对照药以前必须在过往的优效性临床试验中证实疗效，这点不难理解，你选择了和安慰剂差不多的药做对照，还说自己的药非劣于它，这不找死吗。二是确定非劣效界值，这是重中之重。咋确定呢？小胖在这必须严正指出，非劣效界值的确定取决于临床实践，必须由临床医生作出，统计师只是在统计理论上加以考虑，那种把非劣效界值确定一股脑全部抛给统计师的做法是相当错误的，也是极端不负责任的，从这个角度，什么SFDA规定的必须在15%还有什么20或者其他数字之内的说法都是极不科学的。其实非劣效界值的确定，小胖总结了三原则：1 必须基于临床判断和统计理论的结合，上边已说，不再赘述2 必须小于对照药和安慰剂之间疗效的差异，很好理解，比如对照药和安慰剂之间应答率差异总共才10，你整个非劣效界值15，那你的药还有啥疗效，还成了负疗效不成。3 不能高于最小的临床有意义的差异值，比较拗口，啥意思呢，举个例子，比如临床上认为治疗某种疾病，在应答率方面如果有超过10的差异就算有临床意义了，那么我们确定的非劣效界值就不能高于10。这也很好理解，你

展开阅读全文