偏度和峰度概念的认识误区1王学民上海财经大学统计系摘要:偏度和峰度的概念常常引起误解,甚至这种误解也常出现在概率统计的教科书中本 文对这两个概念的理解做了准确的阐述,并列举了两个例子来分别说明两个概念的认识误 区关键字:偏度;峰度;认识误区人们经常用偏度、峰度来描述随机变量或一组数据的分布形状,但在教学和实践中对 这两个概念的认识上常常存在着较大的误区,错误认识也常出现在统计学(包括概率论与数 理统计)方面的教科书中一、偏度概念的认识误区随机变量X的偏度定义为E [ x - E (x)] 3它度量了分布的偏斜程度及偏向,是一个无量纲的数值若鸟 >则称X的分布是正偏(或右偏)的;若鸟<0,则称X的分布是负偏(或左偏)的g 1越大,说明分布偏斜得越厉 害偏度常常习惯地被不太确切地认为是反映了随机变量分布在众数两边的对称偏斜性,国 内有许多统计教科书就是这样写的实际上,分布在众数两边的对称偏斜性对偏度值的影响 是比较有限的,对偏度值影响较大的倒是分布在其中一个方向上的尾部有拉长趋势的程度 因此,正(负)偏度往往更多反映的是分布在右(左)方向的尾部比在左(右)方向的尾部 有拉长的趋势设气,…,xn是来自总体X的一个样本,则总体X的偏度可估计为gi = (n-1)(:-2)s3 气.项3 ⑵其中X = 1 £ x是样本均值,s = J—切(x -X)2是样本标准差。
若n个数据X,…,X组ni=1n — 1 . 上海市重点学科建设项目资助,项目编号:B803 ni=1成一个有限总体,则该总体的偏度也按式(2)计算本文后面的计算结果及图形都是使用SAS9的INSIGHT菜单子系统得到的例1图1和图2是容量均为100的两组数据(数据请见本文附录)的频数直方图从 直观上看,图2的分布较图1在众数两边似乎更为偏斜,但根据式(2)的计算结果,图1 和图2分布的偏度分别为2.4572和0.7053,即图1分布的偏度明显大于图2分布的偏度, 其原因就在于图1的分布较图2在右方向的尾部有更明显的拉长趋势(相对于左尾,图1 分布的右尾较图2离均值更远)本例说明了将偏度描述为反映分布在众数两边的对称偏斜 性的一个量是欠妥当的峰度概念的认识误区峰度是另一个反映随机变量分布形状的量,Var (x )]2E x - Eg 2(3)它度量了分布尾部的厚度同偏度一样,峰度也是一个没有量纲的数值峰度g 2的取值范 围是[-2,8]正态分布的峰度为零人们以正态分布为标准,若82>0,则说明随机变量 X分布的尾部比正态分布的尾部粗,并且g2值越大,倾向认为尾部越粗;若g2 <0,则说 明x分布的尾部比正态分布的尾部细,且ig 21值越大,倾向认为尾部越细。
峰度g 2可用来 比较已标准化了的各随机变量分布的尾部厚度n (n +1)设气,,xn "组样本数据或一组有限总体数据,则其峰度的计算公式为(4).-尸 ( (〃 Il_2 (n - 1)(n - 2 )(n - 3)s 4 , (n - 2 )(n - 3)i=i其中X和s的含义同前在统计学(包括概率论与数理统计)教科书中经常看到将峰度描述为反映分布在众数附 近“峰”的尖峭程度的一个量事实上,这种说法是错误的,我们可以通过下面的例2看清 这一点例2图3是将150个数据(数据请见本文附录)经标准化后画出的密度直方图,并拟 合上了标准正态密度曲线从图中可以看出,分布在众数附近“峰”的尖峭程度要远高于正 态分布但由式(4)计算得到的峰度值却为g2 = -0.1996,小于正态分布的峰度值0图3(作者单位:上海财经大学统计系)参考文献[1]《应用概率统计》,王学民编著,上海财经大学出版社,2005年10月附录例1的数据:X:36.936.843.222.415.732.925.415.233.726.234.343.532736.932.325.427.419.321.332.145.215.234.439.532.79.740.632.433.237.547.922.713.529.732.435.938.626.642.73.736.133.247.333.338.738.832.141.82738.435.124.822.13737.840.426.438.842.845.33343.935.2247.917.122.5396029.640.617.934.834.630.74524.716.77034.237.228.214.251.53343.711.254.990y :41.324.945.49.332.436.139.540.835.113035724948921441826307146362337724016503519243517545040134830810109411766564753583610281330637917765510142252717296519153335271316536111337046455320353310624807577704460127253775449111120182121352884例2的数据:X :3.54.159.997.23.252.291.717.345.419.65047.946.946.846.62722.569.939.36.916.986.621.433.470.2505049.545.548.241.613.864.262.42.516.191.119.186.488.4505046.948.547.198.646.246.68.158.878.314.116.530.946.350505047.850.113.80.396.335.446.57.659.872.767.627.150505047.75048.13191.122.878.379.78995.888.334.15048.546.65046.659.396.634.928.480.9204037.97732.65049.248.15046.982.141.374.116.167.339.548.51153.112.1505047.150.246.870.347.135.472.623.943.152.494.227.957.84747.15051.34781.854.13768.840.713.284.440.57752.346.546.248.148.150作者:王学民工作单位:上海财经大学统计系。