《Grubbs检验法》由会员分享,可在线阅读,更多相关《Grubbs检验法(3页珍藏版)》请在金锄头文库上搜索。
1、概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。如果用统计方法例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。测量数据:例如测量 10 次( n10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就
2、是最大值。计算平均值 x-和标准差 s: x-7.89;标准差 s2.704。计算时,必须将所有 10 个数据全部包含在内。计算偏离值:平均值与最小值之差为 7.894.73.19;最大值与平均值之差为14.07.896.11。确定一个可疑值:比较起来,最大值与平均值之差 6.11 大于平均值与最小值之差3.19,因此认为最大值 14.0 是可疑值。计算 Gi值: Gi( xi x- )/s;其中 i 是可疑值的排列序号10 号;因此 G10( x10 x- )/s(14.07.89)/2.7042.260。由于 x10 x-是残差,而 s 是标准差,因而可认为 G10是残差与标准差的比值。下
3、面要把计算值 Gi与格拉布斯表给出的临界值 GP(n)比较,如果计算的 Gi值大于表中的临界值 GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值 GP(n)与两个参数有关:检出水平 (与置信概率 P 有关)和测量次数 n (与自由度 f 有关)。定检出水平 :如果要求严格,检出水平 可以定得小一些,例如定 0.01,那么置信概率 P1 0.99;如果要求不严格, 可以定得大一些,例如定 0.10,即P0.90;通常定 0.05, P0.95。查格拉布斯表获得临界值:根据选定的 P 值(此处为 0.95)和测量次数 n(此处为 10),查格拉布斯表,横竖相交得临界值 G95(
4、10)2.176。比较计算值 Gi和临界值 G95(10): Gi2.260, G95(10)2.176, Gi G95(10)。判断是否为异常值:因为 Gi G95(10),可以判断测量值 14.0 为异常值,将它从 10 个测量数据中剔除。余下数据考虑:剩余的 9 个数据再按以上步骤计算,如果计算的 Gi G95(9),仍然是异常值,剔除;如果 Gi G95(9),不是异常值,则不剔除。本例余下的 9 个数据中没有异常值。格拉布斯表临界值 GP(n)Pn0.95 0.99Pn0.95 0.993 1.135 1.155 17 2.475 2.7854 1.463 1.492 18 2.50
5、4 2.8215 1.672 1.749 19 2.532 2.8546 1.822 1.944 20 2.557 2.8847 1.938 2.097 21 2.580 2.9128 2.032 2.231 22 2.603 2.9399 2.110 2.323 23 2.624 2.96310 2.176 2.410 24 2.644 2.98711 2.234 2.485 25 2.663 3.00912 2.285 2.550 30 2.745 3.10313 2.331 2.607 35 2.811 3.17814 2.371 2.659 40 2.866 3.24015 2.409
6、 2.705 45 2.914 3.29216 2.443 2.747 50 2.956 3.336对异常值及统计检验法的解释测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无限大总体中随机抽取一个容量为 n(例如 n10)的样本。这种样本也可以有无数个,每个样本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目的是用样本的统计量来估计总体参量。总体一般假设为正态分布。异常值区分:样本中的
7、正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过 3 的数据,出现的概率很小。用统计判断方法就是将异常值找出来,舍去。犯错误 1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。犯错误 2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。格拉布斯法最佳:每种统计检验法都会犯犯错误 1 和错误 2。但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。多种方法结合使用:为了减少犯错误的概率,可以将 3 种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值。异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误。