10年统计建模大赛云南调查总队

资源描述

《10年统计建模大赛云南调查总队》由会员分享，可在线阅读，更多相关《10年统计建模大赛云南调查总队（14页珍藏版）》请在金锄头文库上搜索。

1、本福特定律在提高统计调查数据质量中的应用国家统计局云南调查总队余云波段倩李钦摘要：本福特定律揭示了自然形成的数据中，数字 19 出现的概率，近年来在国外被成功应用于异常数据的检测。在国内首次应用本福特定律，实现了一种利用多重交叉分组发现异常数据的具体方法，完成了对数据分析软件的优化设计工作，能够对海量数据进行快速、准确的分析检测，获得了符合实际的检测结果。以云南城镇住户调查的住户日记账为例，通过距离差和相关系数来发现统计调查中的异常数据。使用该软件准确定位了出现异常数据的地区，与实际数据质量检查中的结果非常吻合；首次发现城镇住户国家调查点和地方调查点的数据质量存在重大差异，

2、并分析了相关的原因；发现了导致异常数据的人群特征；揭示了存在数据异常时对应的设计不当的指标，发现了故意把数据压低（瞒报）的第一位数的特征。总结出基于本福特定律提高统计调查数据质量的方法和应用范围，并指出了本福特定律的局限性。该软件稍加修改即可成为通用软件，能应用于绝大部分统计和调查数据。关键词：本福特定律统计调查造假异常数据抽样调查检验一、引言统计监督被明确写进了我国的统计法，越来越多的统计调查数据以各种形式成为各级政府政绩的重要组成部分，统计监督的作用被不断强化。在这样的情况下，统计数据不断受到社会各界的质疑，人们怀疑统计调查数据是否受到了各级政府的干扰。在统计调查

3、系统内部，基层统计员、调查员是否亲自进行了调查？调查数据有没有受到基层政府的干扰？调查对象是否如实填报了调查内容？在城镇住户调查中，调查员普遍反映收入越高，配合程度越低，这对填报质量有影响吗？一份调查问卷，哪些问题由于设计的原因，不容易得到准确结果？等等，这些问题一直困扰着统计调查系统的工作人员。本文尝试用第一位数字的分布规律来解决这些问题。直至今天，大部分人都想当然地认为，对一个包含大量数据的数据集而言，数字 19 出现在每个数据的第一位的概率应该是大致相等的，但本福特定律完全颠覆了这个想法。Simon Newcomb (1881)发现，1 9出现在数字的第一位的概率是不相等

4、的，其概率密度可由下面的经验公式给出:F (d) = log “(1 + 丄)，d 为 1 9 的基数。10 dFrank Benford( 1938)对 Newcomb 的发现进行了实证分析，他收集了种类繁多的数据集，包括河流的流域面积、人口出生率、死亡率、物理和化学常数、美国棒球俱乐部的统计数据，甚至出现在读者文摘文章中的数字，以及其他很多数据集，统计分析后发现，这些数据都能很好地符合Newcomb提出的第一位数的分布规律。由于本福特的工作，第一位数的分布规律逐渐被越来越多的人了解，这个规律也被命名为本福特定律。随后本福特定律的许多奇异特性也被人们不断发现，首先是尺度不变性和基

5、数不变性(Raimi 1976， Pietronero et al. 2001)，这意味着乘以一个数，常见的如数量乘以价格，或者改变度量单位，新得到的数据仍然满足本福特定律。本福特定律还具有令人难以想象的“鲁棒”性(Hill1995, 1998),虽然不是所有的数据都符合本福特定律，但这些不符合本福特定律的数据的混合集，或者随机抽选这些数据构成的混合集，却能很好地符合本福特定律。近年来，本福特定律开始被大量应用于数据异常点的发现、伪造数据的检测。既然一个“正常的”数应该服从本福特定律，那么很自然地，对本福特定律的偏离就意味着某种不规则的现象,很可能是人为的造假Nigrini(199

6、9),Durtschi、 Hillison和Pacini (2004)用本福特定律简单有效地发现了财务数据中假账。 George和Laura(2007)用本福特定律发现抽样调查数据存在的问题，分析了指标设计缺陷导致的数据异常。本福特定律还被用于发现竞选经费中的营私舞弊和欺骗造假(Cho & Gaines，2007),等等。本福特定律具备：( 1)适用范围广，绝大部分统计调查数据都满足本福特定律；(2)自我报告数据的精确性。本福特定律的发现，揭示了自然形成的数据本身存在一种类似校验码的属性，使我们无需增加其他调查和使用外部数据，仅从数据本身就能获知数据正确与否，这使得基于本福特定律的异

7、常数据检测比其他检测方法更简单有效。另外，本福特定律虽然适用范围广，却不为大众熟知，而且造假者如果要在大量的数据中既要满足本福特定律，又要保持这些数据的内在逻辑和平衡关系，对许多造假者来说还很难做到，所以本福特定律是检测统计调查数据的一个非常难得的天然工具。本文的创新之处一是首次在国内把本福特定律用于用于统计调查中伪造数据的检测，准确定位了数据质量有问题的调查地区，为数据质量检查提供了一个客观公正的量化手段；二是首次根据调查结果确定了导致异常数据的人群特征，澄清了来自一线调查员反映的一些现象的真伪；三是首次采用异常数据检测发现了设计不当的指标；四是首次发现故意把数据压低(瞒报)

8、的第一位数的特征，并由此猜测出夸大(虚报)数据的第一位数特征。本文在第二节讨论判定数据是否符合本福特定律的几种检验方法，第三节用这些检验方法对云南省城镇住户国家调查点和地方调查点的数据进行分析，第四节对应用中存在的问题和取得的经验进行总结。二、本福特定律的检验方法如何检验一个数据集是否符合本福特定律，到现在为止，文献中普遍使用的有三种方法：拟合优度检验，距离测量和相关系数。拟合优度检验是目前用得最多的检验方法，有卡方检验、Kolmogorov-Smirnov (D )和Kuiper (V )检验。NN但正如Morrow (2009)所述，其临界值都过于保守，而且随观测样本的增大而迅

9、速增加，在很多情况下并不实用。基于距离来测度是否满足本福特定律的方法有下面两种：Leemis et al. (2000)提出了 m(max)统计量来测度观测样本与本福特分布的差异：F (d) |0max I F (d)-Nd 9)Cho 和 Gaines 使用了欧氏距离来分析观测样本与本福特分布的差异：d =阳 9 F (i) - F (i)2V i=1 N0为了让d值位于0,1区间以便比较，George和Laura(2007)用d除于d的最大可能值(当观测样本的所有数据的第一位数都是 9 时， d 最大)，我们把这个调整过的 d 值记为 d 。g最近，Morrow ( 2009 )给出了

10、 m *( m * = y N m)和 d *( d * = ： N - d )在大样本渐近近似情况下的临界值，见表 1。表 1. m * 和 d * 的检验临界值表检验统计量大样本渐近情况下的临界值d = 0.10d = 0.05d = 0.01m *0. 8510. 9671. 212d *1. 2121. 3301. 569三、应用本福特定律检查城镇住户抽样调查数据在下面的分析中，将使用相关系数r、m(max)统计量，距离d ， m *和d *，g对样本数据进行比较检验。由于m*和d*随观测样本的增大而迅速增加，在很多文献中，大样本的检验结果都远远超过了预设的临界值，因而并不能有效地检

11、验观测到的大样本是否满足本福特定律。不过在文中的部分结果中依然给出了统计量m *和d *，一是为方便读者与其他文献中的结果进行比较，二是在观测样本量相差不大时，这些统计量仍然是比较两个样本的数据质量的重要指标。考虑到这些检验统计量的不同特点，对样本量相差很大的两个数据集进行比较时，使用相关系数 r、 m(max) 统计量、距离 d ；对样本量相差不大的两个地区进行比较时， g使用全部的检验统计量。需要注意的是，对相关系数 r 来说， r 越大，观测数据第一位数的分布与本福特经验越吻合，数据质量越高，而其余指标则是越小越好。1.国家城镇住户调查点和地方城镇住户调查点的记账质量目前在

12、中国城镇住户调查分成国家和地方两块，国家调查点由国家调查队负责调查，对国家和省有代表性；地方调查点由地方统计局负责调查，主要是满足州市政府需要，不参加全国和全省的汇总。下面选取 2008 年 1 月2009 年 4 月云南省国家城镇住户调查和某市下辖的八个县的地方城镇住户调查数据，分别统计第一位数的出现频率，与本福特的经验分布作一比较。图 1 是部分国家调查点调查数据第一位数的分布情况，从图中可以看出，第一位数的分布情况与本福特的经验分布非常接近。其他国家调查点的分布情况也与本福特经验分布非常吻合，详见表一。国家城市住户调查点调查数据第一位数分布情况图1图 2 是某市地方住户调查点调

13、查数据第一位数的分布情况，除第 3 县与本福特分布比较接近外，其他都差距太大。地方城市住户调查点调查数据第一位数的分布情况图2进一步的比较检验见表 1。表 1 云南省国家城镇住户调查点调查数据第一位数是否服从本福特定律的检验结果m(max)数据量地区序号0.9940.9950.9960.0240.0240.0210.0270.0270.0277.927.997.289.17999.531077051111571206464591011120.9940.9990.9980.9990.9990.9990.9970.9950.9980.0230.0120.0160.0090.0070.0180.01

14、90.0330.0100.0270.0170.0260.0160.0130.0220.0260.0360.0197.542.832.25493.063307.782.608.924.106.273.982.613.954.718.785.161052535431952871593683983630323310655578965815国家调查点共 9 个，由于昆明分在四个区调查，表中一共有 12 个地区。从检验结果可以看出，国家调查点调查数据第一位数的出现概率与本福特经验概率的相关系数都大于0.99,除地区11夕卜，m统计量和调整距离d都在0.01g0.02之间。综合各项指标来看，地区 5、7

15、、8和 12显然是数据质量最好的四个地区，这与每年实地进行数据质量检查时掌握的情况一致。地区 11 在多年的检查中数据质量属于中上水平，但从各项指标来看，它几乎可以列入最差的地区。是否有可能存在少量记假账的调查户，由于调查员缺乏检查的方法或工作的疏忽，每年的例行检查无有效手段等等原因，使假账一直没有被发现？这需要进行实地入户检查才能确定。表2是某市下辖的8个县的地方住户调查点的检验结果，比较相关系数R、 m(max)统计量和距离d ，可以看出，除县3勉强可与国家调查点相比外，其余7g个县的数据质量与国家调查点差距很大。表 2 某市地方住户调查点调查数据第一位数是否服从本福特定律的检验结果地区序号RM(max)dgm *d *数据量10.96870.0620.0993.6165.994342920.98030.0370.0731.3772.826139730.99120.0230.03

展开阅读全文