两个非正态分布资料比较方法的选择

资源描述

《两个非正态分布资料比较方法的选择》由会员分享，可在线阅读，更多相关《两个非正态分布资料比较方法的选择（4页珍藏版）》请在金锄头文库上搜索。

1、#学术讨论#两个非正态分布资料比较方法的选择哈尔滨医科大学公共卫生学院(150001) 赵景波李洪源李康问题提出分析临床科研数据, 需要选择适宜的统计检验方法, 首先明确是参数检验还是非参数检验。不同的检验方法有不同的前提假设, 如果违反了假设, 统计分析就会得出错误的结论( P 值) 。假如被分析的数据与使用的方法前提假设不一致, 真正的显著性水准很可能与预先规定的名义水准( nominal level, 通常为 0105) 相差很大。因此, 为了保持预期的检验水准和检验效能, 选择一个恰当的检验方法是很重要的。在临床研究中, 经常比较两独立病人群体的均值。如果观察指标是连续变量,

2、则统计分析常用两样本的t 检验或 Wilcoxon -Mann -Whitney( WMW) 检验, 传统看法认为如果观察对象服从正态分布或每个样本病人数量很大, 则选择 t 检验; 当样本很小且分布是偏态的, 则选择 WMW 检验。但是, 实际临床研究数据的分析并非像传统选择方法那样简单。两样本的检验,无论是否参数检验, 都需做一个重要的假设: 即比较的两个分布形状相同及方差相等( homoscedasticity) 。如果两个分布的方差不齐或形状不同, 就违背了前提假设。对于方差不齐两个正态分布数据的检验早在 60多年前就发展完善112, 且表明 WMW 检验和 t 检验所得到的

3、显著性水准与方差齐时真实水准有明显的不同, 该研究已在统计杂志上发表12 7 2。但对于分布不同或方差不齐( heteroscedasticity) , 在医学研究领域并没有得到广泛重视, 在现在的统计教科书中也很少提及。这里主要介绍 Eva Skovlund 和 Grete U1Fenstad两位学者所作的研究182, 他们针对临床研究常见数据, 通过模拟试验对通常选择的统计方法的特性进行比较和论证并给出了适宜统计方法选择指南, 深受启发。故整理成文, 与同道共勉。临床实例对35 例患有恶性淋巴瘤的病人化疗后, 通过 MIME/ G -CSF192进行外周血原始细胞的移植治疗, 10名

4、病人患霍奇金氏病( Hodgkin. s disease) , 其余 25 人为非霍奇金氏病, 嗜中性白血球的恢复时间( 天) 作为观察指标。两组病人的恢复时间分布见图 1、 2。研究者采用 SPSS810 统计软件对本例使用三种统计方法得出了不同的 P 值( 表 1, 其中 Welch U test为对自由度校正的 t. 检验11 2) , 问题是应该选择那一种统计方法( 得出的结论) 是适宜的呢?图 1 霍奇金氏病嗜中性白血球的恢复时间图 2 非霍奇金氏病嗜中性白血球的恢复时间表 1 三种方法的统计检验 P 值方法P 值t test01080Welch U test01224Wilco

5、xon -Mann -Whitney( WMW)01418以上两组病人嗜中性白血球的恢复时间的分布明显不同, 且方差( 1913 和 312) 也不相等, 很明显, 违背了 t 检验和 WMW 检验的前提假设, 因此, 计算出的 P 值是不可靠的。常见的分布类型图3A 是两个正态分布, 有相同的方差, 但均数不同, 对于这种分布, 两样本的 t 检验是最好的检验方法。图 3B 是右长尾( heavy right tail) 分布( gamma 分布, 形状参数 a= 3) , 若样本含量很少, 数据间的检验采用 WMW 检验。图 3C 是具有相同均数但方差不等的两个正态分布, 其中一个方差

6、是另一个方差的 9 倍。#185# 中国卫生统计 2003 年 6 月第20 卷第 3 期图 3D 显示了两个具有相同的均数和形状参数的 gam -ma 分布, 一个分布的方差是另一个的 9 倍。研究者在两样本的各种分布类型中模拟研究了三种方法的适用性。在医学研究中, 图 3 列出的情况是很常见的, 当样本含量很小时, 很难判断出数据分布假设是否满足。图 3 常见分布类型模拟实验研究者通过模拟实验对三种方法的适用性进行了研究。在该实验中, 相互独立的样本来自具有相同形状和均数的两种分布, 但方差可能不等, 其比值在 1/ 9 和 9 间变动。模拟试验是在不同的分布范围上进行的, 包括正态、正

7、偏态分布, 涉及两个小样本的不同组合, 如 m= n= 10, m= 5, n= 15。为了估计每个试验的显著性水准, 共进行了 10000 次的模拟试验, 基本上可以保证估计水准的精确性。为了避免检验结果之间的模拟变异, 是在同一模拟试验中对上述三种检验方法进行比较。结果图 4 显示了观察对象从正态分布中抽样三种检验估计的显著性水准。当方差相等时, 三种检验都接近名义水准: 当方差不相等时( 标准差之比 HX 1) , WelchU 检验仍维持了名义水推, 而 t 检验和 WMW 检验的检验水准比预期偏高, 而 t 检验比 WMW 检验更接近于名义标准。当观察对象来自正偏态分布时,

8、WelchU 检验和 t 检验也比 WMW 检验好, 得到的结果也和从正态分布抽样所得到的结果一致。增加样本含量并不能改变上述结果, WMW 检验比名义水准偏高( 即0107 而不是 0105) 。当观察对象来自偏态分布, 方差相等时, WMW 检验给出了理想的水准; 当方差不等时, 这三种检验都不能维持名义水准( 图 5) , 此时, WMW 检验比其他两种更差, Welchl U 检验接近于名义水准, 应接受它。图 4 观察数据在正态分布情况下的模拟结果图 5 观察数据在 gamma 分布情况下的模拟结果11 样本含量相等( m= n= 10)分别设定数据为正态分布和 gamma 分布,

9、名义水准为 0105, 标准差之比H= 1, 2, 3。相应的估计水准见图 4 和图 5。21 样本含量不等( m= 5, n= 15)模拟方法同前。图 6 显示了观察值服从正态分布时显著性水平的估计值, Welth U 检验的显著性水准几乎等同于名义水谁, 而 t 检验和 WMW 检验的水准则实质上偏离了名义标准。当从方差很小的分布中抽取小样本时, 这些检验相对保守; 而从方差较大的分布中抽取小样本时, 检验水准偏高。当样本来自正偏态分布或偏态分布( 图 7) 时, 检验结果在很大程度上是相似的。同样, 增加样本含量不能使检验水准接近名义水准。值得注意的是无论什么样的分布, WMW

10、检验的水准都好于 t 检验, 只有当样本含量相等时 t 检验才更好。Welch U 检验的检验水准与名义水准偏离较小, 但当分布是偏态时不能维持理想的水准。这个问题可以通过在作 Welch U 检验前先进行数据转换( 如取对数或平方根等) 来解决。图 6 观察数据在正态分布情况下的模拟结果#186#Chinese Journal of Health Statistics, June 2003, Vol. 20, No. 3图 7 观察数据在 gamma 分布情况下的模拟结果对于不同形状的分布, 抽样模拟得到的结果和上述相似。甚至当一个或两个分布都是偏态( skew) 时,参数检验的适用性优

11、于 WMW 检验。总之, 当分布的形状不同时, Welch U 检验得到的检验水准更倾向接近于名义水准, 而 WMW 检验对于分布形状不同非常敏感。选择一个合适的检验方法表2 中, 研究者给出了如何选择适宜检验方法的指南。方差不同的影响要比分布类型不同更明显。表 2 方法选择指南方法分布样本tWMWWelch U相等正态相等*+不相等*+长尾相等+*+不相等+*+偏态相等-*-不相等-*-不相等正态相等+-*不相等-*长尾相等+-+不相等-+偏态相等-不相等-* : 最佳选择, + : 可以接受, - : 不能接受对于实例中两组病例嗜中性白血球恢复时间的比较, 研究者对于 P 值的选择给出了这

12、样的建议, 当两种分布的形状和方差都不同时, Welch U 检验要优于其他两种检验, 检验结果最恰当的数值是 P= 0122。如果接受 t 检验得到较小的P 值, 则此检验不具可信性。讨论研究者对不同分布类型都进行了模拟试验, 除了正态分布外, 还研究了长尾( heavy -tailed) 分布、均匀分布和双指数分布, 另外还对指数分布及不同参数的gamma 分布进行了模拟, 各种分布的模拟试验结果是相似的。由于正态分布和 gamma 分布常常与医学数据的分布相符, 因此常被选用说明一般的研究结果。对于有序数据结果也是相似。两种分布位置上的差异可通过均数或中位数的比较得知, 对于对称分

13、布, 无论方差如何, 这种差异都是相同的; 但对于偏态分布, 均数或中位数间的差异只有在方差齐情形下相同。如果检验分布的中位数相同, 则WMW 检验的估计水准相对而言比较接近理想中的水准, 但离名义水准仍很远。在临床试验中, 病人通常被随机分为相等或不等的组别, 如果组间方差不同, 则无论样本含量是否相等, t 检验与 WMW 检验方法都不能接近名义水准。在本例模拟试验中, 抽样样本含量少, 也许有人认为增加样本含量能够降低上述这种情况的发生, 但事实并不如此。当方差不同时, WMW 检验的水准要大于名义水准1102, 当样本含量增大时, 中心极限定理使得 t 检验更倾向于偏离正态; 当样本

14、含量和方差都不相等时, 样本含量增加四倍仍不能改善检验水准精确性。无论观察变量的真实分布如何, WMW 检验对模型的变化非常敏感, 当样本含量相等时, 两个参数检验都可接受。但当观察值来自偏态分布时, 除非方差相等, 否则, WMW 检验的适用性也不如其他两种检验好。但当变量的分布偏离正态时, 样本含量不等时, 只有Welch U 检验可以近似接近理想的显著性检验水准。本例, WMW 检验比 t 检验要好, 但它的检验水准远离名义水准, 无法接受, 采用 Welch 检验也是不适宜的, 在此情况下, 最好的方法是将数据进行转换( 如取对数或平方根) 接近正态, 如果方差仍然不同, 可采用

15、Welch 检验。参考文献11 孙振球主编. 医学统计学. 第 1 版. 北京: 人民卫生出版社, 2002, 30 -31.21Chand U. Distributions related to comparison of two means and two re -gression coefficients. Ann Math Stat, 1950, 21: 507 -22.31Wetherill GB. T he Wilcoxon test and non -null hypotheses. J Roy StatistSoc( Series B) , 1960, 22: 402 -

16、18.41Van der Vaart HR. On the robustness of Wilcoxon. s two - sample test. In:Jonge HD, editor. Quantiative methods in pharmacology. New York: In -terscience, 1961.51Pratt JW. Robustness of some procedures for the two -saple location prob -lem. JASA, 1964, 59: 665 - 80.61Lehmann, EL . Nonparametrics: statistical methods based on ranks. sanFrancisco: Holden -day, 1975.71Fenstad GU. A comparision between the U and V tests in the Behrens -fisher problem. Biometrika,1983, 70: 300 -2

展开阅读全文