《样本量估算的统计学方法研究》由会员分享,可在线阅读,更多相关《样本量估算的统计学方法研究(49页珍藏版)》请在金锄头文库上搜索。
1、样本量估算的统计学方法研究 一 临床研究为什么需要估计样本含量 复习1 统计学三大任务与三大规则 任务 描述样本特征 估计总体参数 检验总体差别规则 必须考虑 数据类型 分布类型 对比类型 1 统计描述任务 例 某样本个体分布的集中趋势与离散趋势怎样 1V点 2V线 3 面 影子 线 数据 计数 定量 平均数 等级 平均Ridit值 分布 正态 Mean SD 95 CR 对数正态 G 偏态 M Q R P2 5 P97 5 双 多变量 相关回归 对比 变量 两组观察值 各组均数与标准差 变量 差值 差值的均数与标准差 2 置信区间任务 例 某总体指标在哪一区间 借鉴反推 数据 计数 直接法
2、正态近似 计量 正态法 等级 正态近似 分布 正态 正态法 对数正态 lg值置信区间 偏态 百分位数法 对比 变量参数置信区间 差值参数置信区间 临床试验 3 假设检验任务 例 某2个总体指标相同 直接应用概率分布 数据 计数 正态近似法u 卡方 计量 均数检验 等级 秩和检验 分布 正态 u t 对数正态 lg值t检验 偏态 秩和检验 对比 组间比较 u t H 与总体比较 u t H 统计推断中的误差估计 最基本公式 误差 个体变异程度 n的平方根均数误差 标准差 sqrt n 率的误差 sqrt p 1 p n n大小举例 1 n 3 三个克隆2 女大学生33 自动退学 n 3 n1 2
3、0 n2 100 n 4 1987年某产科医师为研究胎次与儿童智力的关系 收集病案资料 考上大学人数 第一胎19人 第二胎18人 第三胎10人 第四胎7人 第五胎4人 由此得出结论 智力与胎次有关 胎次愈多智力愈差 第一胎智力最好 n 可重复原则 样本含量 Sample 的估计是临床研究科学设计的重要内容 可重复性 是指任何科学研究必须遵守的原则 其目的是要排除偶然因素的影响 得出科学的 真实的 规律性的结论 样本含量的大小 在临床研究中 样本含量越小 其抽样误差越大 若样本含量不足 可重复性差 检验效能低 不能排除偶然因素的影响 其结论缺乏科学性 真实性 若样本含量过大 试验条件难以严格控制
4、 容易造成人力 物力和时间上的浪费 估计样本含量的目的 在保证某个临床试验 临床研究的结论具有一定科学性 真实性和可靠性前提下 确定某研究所需的最小观察例数 二 估计样本含量的方法 两大类方法 1 公式法 可满足多种设计的要求 目前应用广泛 2 查表法 简单 方便 但受条件限制 有时不一定完全适应 三 估计样本含量的步骤 1 确定设计方法 任何临床试验 其设计方案是首先需要确定的 而样本含量的估计也是在设计方案基础上的 不同的临床科研设计方法 其样本含量的估计方法不相同 2 确定资料类型 当临床试验的设计方案确定后 需要确定临床试验所得数据的类型 例如 计量 数值 计数 无序分类 等级 有序分
5、类 因为样本含量估计方法与数据类型有关 3 考虑统计方法 样本含量的估计还要与以后将要使用的统计方法的条件相结合 如单因素分析 相关与回归 多因素分析等 目前样本含量估计的公式计算主要针对单因素分析 而多因素分析的例数估计请参考有关书籍 4 确定基本参数 在各种临床科研设计方法的样本含量估计中 需要研究者事先确定的条件有 第一类错误的概率 第二类错误概率 容许误差 若终点指标为数值变量时 还需要研究者确定总体标准差 若终点指标为分类变量时 有时需要研究者确定总体率 1 确定第一类误差的概率 所有样本含量估计公式中 都需要u 的值 研究者确定检验水准 的大小后 查表得u 值 有单侧与双侧之分 单
6、侧 的u 小于双侧u 值 所以按单侧计算的样本含量小于双侧 越小所需样本含量越大 反之越小 一般取 0 05 2 确定第二类误差的概率 样本含量计算中 需要u 的值 即研究者确定 大小后 查表的u 值 确定 大小 主要是要确定检验效能 Power 用1 表示其概率的大小 检验效能是指总体间确有差别时 假设检验能发现这种差别的能力大小 为第二类误差的概率 值越小 检验效率越高 所需样本量也就越大 通常 0 1或 0 2 一般认为检验效率不能小于0 7 3 确定容许限或插座 即有临床意义或研究意义的最小差值 若为数值变量时 可为有临床意义的均数差值 实验前后之差等 若为分类资料 可为有临床意义的有
7、效率 患病率等率之差 4 确定总体标准差 总体率 若研究的终点指标为数值变量时 总体标准差 为估计样本含量所必须的条件 若研究的终点指标为分类变量时 有时 总体率 为估计样本含量条件 若总体标准差 和总体率 常常通过文献检索 预试验或对研究作出合理的假设来获得 5 计算样本含量 用按设计方案 资料类型及可能涉及的统计分析方法来选择样本含量的计算方法 查书 也可以利用统计软件帮助完成样本含量的计算 6 校正样本含量 由于估算的样本含量是最少需要量 考虑到受试者可能有不合作者 中途失访 意外死亡等情况出现 而减少有效观察对象的例数 失访 因此 应该在估算的样本含量增加若干样本例数 通常 失访人数不
8、得大于20 四 样本含量估计的注意事项 1 组间例数相等 成组设计的例数 应尽可能采用例数相等的设计 尤其是多组设计时 一般要求各组间的样本含量相等 只有在某些特殊情况下才考虑各组的样本含量不相等 2 多指标估算 若某研究有多个效应指标 其样本含量估计应对每个效应指标进行样本量的估计 然后取样本数量最大者为其研究的样本量 若某研究能区分主要指标和次要指标时 也可以只对主要指标进行样本含量估计 然后取量大者为其研究的样本含量 3 多种估计条件 尽可能将多样本含量估计方法联合使用 并且在使用计算法估算时 可多做几种估算方案 以便选择 如 不同的 等条件组合下 估计其样本含量 4 与研究目的结合 根
9、据研究目的 严格选择估算样本含量的方法 如单 双侧不同 估计参数与假设检验不同 一般假设检验与等价检验不同 样本率超过与位于0 3 0 7 0 2 0 8 范围不同 t检验与u检验不同等 5 估计的适用条件 目前 国内有关书籍提供的样本含量计算公式 主要适用于临床试验 而并非适用于其他医学实验 如动物实验 动物实验的样本含量可以参考临床试验的样本含量 并在此基础上适当减少其数量 五 数值变量的样本含量估计简介 两均数比较的估算 实例分析 例数相等 欲研究某新药降低高血脂患者的胆固醇疗效 研究者认为试验组与安慰剂组比较 其血清胆固醇值平均下降0 5mmol L才有临床意义 查阅文献得血清胆固醇值
10、的标准差为0 8mmol L 且规定两组例数相等 且 0 05 0 10 power 0 90 该研究所需的样本含量为多少 计算结果 例数不相等 实例分析 例数不等 某医院研究吲螨酰胺治疗原发性高血压的疗效 经预试验得治疗前后舒张压差值 kPa 资料如下 若 0 05 0 10时需治疗多少例 计算结果 六 分类变量的样本含量估计简介 两个率比较的估算 实例分析 例数相等 用旧的治疗方案治疗慢性肾炎的控制率为30 现用新的治疗方案治疗慢性肾炎 其控制率应大于50 才有临床意义 若取两组例数相等 且 0 05 0 10 power 0 9 问每组需多少例数 计算结果 例数不等 实例分析 例数不等 某医师研究某药对产后宫缩痛 外阴创伤痛效果 预试验旧药镇痛率为55 新药镇痛率为75 当 0 05 0 10时需观察多少例能说明新药镇痛效果优于旧药 计算结果 样本含量与统计分析特例 1 分子 细胞 组织水平的研究 专业判定样本含量 不计算 不必假设检验 2 药物临床试验 就高不就低 3 特小样本 报告绝对数 如治疗5人 治愈4人4 特大样本 专业上判定 不作假设检验 不适用 5 检验效能 要用调和均数