样本量估算的统计学方法 LC骆课件

资源描述

《样本量估算的统计学方法 LC骆课件》由会员分享，可在线阅读，更多相关《样本量估算的统计学方法 LC骆课件（49页珍藏版）》请在金锄头文库上搜索。

1、8、样本量估算的统计学方法,骆福添公共卫生学院参考教材：生物医学研究的统计方法主编：方积乾，2007，高等教育出版社,一、临床研究为什么需要估计样本含量,复习1：统计学三大任务与三大规则,任务：描述样本特征、估计总体参数、检验总体差别规则：（必须考虑）数据类型、分布类型、对比类型,1. 统计描述任务,例：某样本个体分布的集中趋势与离散趋势怎样？（1V点，2V线，3面.影子_线）数据：计数（%），定量（平均数），等级（平均Ridit值）分布：正态(Mean，SD，95%CR)，对数正态(G)，偏态(M, Q/R，P2.5P97.5) （双/多变量-相关回归）对比：变量=两组观察

2、值（各组均数与标准差），变量=差值（差值的均数与标准差）,2. 置信区间任务,例：某总体指标在哪一区间？（借鉴反推）数据：计数（直接法/正态近似），计量（正态法），等级（正态近似）分布：正态（正态法），对数正态(lg值置信区间)，偏态（百分位数法）对比：变量参数置信区间，差值参数置信区间（临床试验）,3. 假设检验任务,例：某2个总体指标相同？（直接应用概率分布）数据：计数（正态近似法u,卡方），计量（均数检验），等级（秩和检验）分布：正态（u,t），对数正态（lg值t检验），偏态（秩和检验）对比：组间比较（u, t, H），与总体比较（u, t, H）,统计推断中的误差估计

3、,最基本公式：误差=个体变异程度/n的平方根均数误差 = 标准差/sqrt(n) 率的误差 = sqrtp(1-p)/ n,n大小举例,1、n=3，三个克隆 2、女大学生33%自动退学？ n=？ 3、n1=20，n2=100，n=？ 4、1987年某产科医师为研究胎次与儿童智力的关系，收集病案资料（考上大学人数）：第一胎19人、第二胎18人、第三胎10人、第四胎7人、第五胎4人。由此得出结论：智力与胎次有关，胎次愈多智力愈差，第一胎智力最好。 n=？,可重复原则,样本含量（Sample）的估计是临床研究科学设计的重要内容。可重复性，是指任何科学研究必须遵守的原则，其目的是要排除偶然因素的

4、影响，得出科学的、真实的、规律性的结论。,样本含量的大小,在临床研究中，样本含量越小，其抽样误差越大。若样本含量不足，可重复性差，检验效能低，不能排除偶然因素的影响，其结论缺乏科学性、真实性。若样本含量过大，试验条件难以严格控制，容易造成人力、物力和时间上的浪费。,估计样本含量的目的,在保证某个临床试验/临床研究的结论具有一定科学性、真实性和可靠性前提下，确定某研究所需的最小观察例数。,二、估计样本含量的方法,两大类方法,1、公式法，可满足多种设计的要求，目前应用广泛。 2、查表法，简单、方便，但受条件限制，有时不一定完全适应。,三、估计样本含量的步骤,1、确定设计方法,任何临床试验，其设

5、计方案是首先需要确定的，而样本含量的估计也是在设计方案基础上的。不同的临床科研设计方法，其样本含量的估计方法不相同,2、确定资料类型,当临床试验的设计方案确定后，需要确定临床试验所得数据的类型，例如，计量（数值）、计数（无序分类）、等级（有序分类），因为样本含量估计方法与数据类型有关,3、考虑统计方法,样本含量的估计还要与以后将要使用的统计方法的条件相结合。如单因素分析、相关与回归、多因素分析等。目前样本含量估计的公式计算主要针对单因素分析，而多因素分析的例数估计请参考有关书籍,4、确定基本参数,在各种临床科研设计方法的样本含量估计中，需要研究者事先确定的条件有：第一类错误的概率，第二类错误

6、概率，容许误差。若终点指标为数值变量时，还需要研究者确定总体标准差。若终点指标为分类变量时，有时需要研究者确定总体率。,（1）确定第一类误差的概率,所有样本含量估计公式中，都需要u的值，研究者确定检验水准（）的大小后，查表得u值。有单侧与双侧之分，单侧的u小于双侧u值，所以按单侧计算的样本含量小于双侧。越小所需样本含量越大，反之越小，一般取 0.05,样本含量计算中，需要u的值，即研究者确定大小后，查表的u值。确定大小，主要是要确定检验效能（Power），用1-表示其概率的大小，检验效能是指总体间确有差别时，假设检验能发现这种差别的能力大小。为第二类误差的概率，值越小，检验效率越高

7、，所需样本量也就越大，通常=0.1或=0.2。一般认为检验效率不能小于0.7。,（2）确定第二类误差的概率,（3）确定容许限或插座,即有临床意义或研究意义的最小差值。若为数值变量时，可为有临床意义的均数差值、实验前后之差等。若为分类资料，可为有临床意义的有效率、患病率等率之差。,（4）确定总体标准差总体率,若研究的终点指标为数值变量时，总体标准差为估计样本含量所必须的条件。若研究的终点指标为分类变量时，有时，总体率为估计样本含量条件。若总体标准差和总体率，常常通过文献检索、预试验或对研究作出合理的假设来获得。,5、计算样本含量,用按设计方案、资料类型及可能涉及的统计分析方法来选择样本

8、含量的计算方法（查书），也可以利用统计软件帮助完成样本含量的计算。,6、校正样本含量,由于估算的样本含量是最少需要量，考虑到受试者可能有不合作者、中途失访、意外死亡等情况出现，而减少有效观察对象的例数（失访），因此，应该在估算的样本含量增加若干样本例数。通常，失访人数不得大于20%。,四、样本含量估计的注意事项,1.组间例数相等,成组设计的例数，应尽可能采用例数相等的设计，尤其是多组设计时，一般要求各组间的样本含量相等，只有在某些特殊情况下才考虑各组的样本含量不相等。,2.多指标估算,若某研究有多个效应指标，其样本含量估计应对每个效应指标进行样本量的估计，然后取样本数量最大者为其研究的样本量

9、。若某研究能区分主要指标和次要指标时，也可以只对主要指标进行样本含量估计，然后取量大者为其研究的样本含量。,3.多种估计条件,尽可能将多样本含量估计方法联合使用，并且在使用计算法估算时，可多做几种估算方案，以便选择。如：不同的、等条件组合下，估计其样本含量。,4.与研究目的结合,根据研究目的，严格选择估算样本含量的方法，如单、双侧不同，估计参数与假设检验不同，一般假设检验与等价检验不同，样本率超过与位于0.3-0.7（0.2-0.8）范围不同，t检验与u检验不同等。,5.估计的适用条件,目前，国内有关书籍提供的样本含量计算公式，主要适用于临床试验，而并非适用于其他医学实验，如动物实验。动

10、物实验的样本含量可以参考临床试验的样本含量，并在此基础上适当减少其数量。,五、数值变量的样本含量估计简介,两均数比较的估算,实例分析（例数相等),欲研究某新药降低高血脂患者的胆固醇疗效，研究者认为试验组与安慰剂组比较，其血清胆固醇值平均下降0.5mmol/L才有临床意义，查阅文献得血清胆固醇值的标准差为0.8mmol/L,且规定两组例数相等，且=0.05， =0.10（power=0.90），该研究所需的样本含量为多少？,计算结果,例数不相等,实例分析（例数不等）,某医院研究吲螨酰胺治疗原发性高血压的疗效，经预试验得治疗前后舒张压差值（kPa）资料如下，若=0.05， =0.10时需治疗多少例

11、？,计算结果,六、分类变量的样本含量估计简介,两个率比较的估算,实例分析（例数相等）,用旧的治疗方案治疗慢性肾炎的控制率为30%，现用新的治疗方案治疗慢性肾炎，其控制率应大于50%才有临床意义，若取两组例数相等，且=0.05、 =0.10（power=0.9），问每组需多少例数？,计算结果,例数不等,实例分析（例数不等）,某医师研究某药对产后宫缩痛、外阴创伤痛效果，预试验旧药镇痛率为55%，新药镇痛率为75%，当=0.05， =0.10时需观察多少例能说明新药镇痛效果优于旧药？,计算结果,样本含量与统计分析特例,1、分子、细胞、组织水平的研究：专业判定样本含量，不计算、不必假设检验。 2、药物临床试验：就高不就低。 3、特小样本：报告绝对数，如治疗5人，治愈4人 4、特大样本：专业上判定，不作假设检验（不适用）。 5、检验效能：要用调和均数,

展开阅读全文