抽样调查数据的清理与校验

资源描述

《抽样调查数据的清理与校验》由会员分享，可在线阅读，更多相关《抽样调查数据的清理与校验（17页珍藏版）》请在金锄头文库上搜索。

1、抽样调查数据的清理与校验抽样调查数据的清理与校验抽样调查数据的清理与校验王卫东、冯仕政、陆益龙、刘精明第一节研究问题与意义 Lessler 和 Kalsbeek 曾根据调查的不同阶段对误差来源进行过分类：在抽样框收集、抽样实施过程中会存在抽样误差，在调查实施中会出现无回答误差和计量误差。事实上，任何一次严格的随机抽样调查数据，一般都会存在两个层面的误差：（1）抽样过程中的误差；（2）存在于被访者那里的真实信息与研究人员在统计分析过程中实际可得信息之间的误差。这里，我们将前一种误差称为“抽样误差” ，将后一种误差称为“测量误差” 。本章所讨论的“数据清理与校验”问题，基本上针对“测量误差”而言

2、。我们认为，测量误差是指被访者的真实信息通过一系列的询问 -回答、调查员记述、编码、机读格式存储等转换过程后所产生的信息变异。大多数信息变异都可能是一种非随机误差，它涉及的范围大体包括如下几个方面：（1）录入误差，即将问卷记录信息转换为机读格式存储信息过程所产生的录入错误；（2）无回答误差，即在问卷的某个或某些问题上，由于被访拒答，或者由于调查员询问、记录出现遗漏等原因所产生的信息缺失；（3）回答偏差，产生这类偏差的原因可能是多方面的：一是调查员询问未能准确表达测量目标，致使被访者错误理解问题而产生回答信息与测量要求的不一致，或者相反，被访对询问问题的理解有偏误，因而做出与测量要求不一致的回答

3、；二是题器设计模糊，致使不同被访或调查员对问题产生歧义性理解，从而使收集的信息无法达到测量效果；三是问卷访谈过程受到第三方因素的干扰（比如他人在场、突发事件、访谈被中断等），致使回答产生偏差；四是被访有意报告虚假信息。（4）记录和编码的偏差，即在记录和编码被访者回答信息时，由于调查员的失误而产生的信息偏差。上述测量误差大多是所谓的非随机误差。抽样过程的随机误差一般可以通过抽样技术加以推断和控制，或者可以通过一定的估计手段加以有效估计（比如抽样误差），而非随机误差的控制却是一项复杂的工作，对它的估计也经常令研究者感到十分头痛，有时候它可能会一直潜藏在研究者的分析结果之中，很难为研究者所发现。

4、在大型入户问卷调查的实施过程中，研究者往往由于无法全面掌握抽样以及问卷访谈的具体细节，从而对问卷数据到底可能发生了什么样的信息变异无从知晓。隐藏在数据背后的那些问题，缠绕在可能准确的真实信息之中，有时候我们可能面对的是一堆“斩不断、理还乱”的数据符号，对耗费了巨大的人力、物力收集到手的数据信息往往只能是将信将疑地去使用和分析，这反过来也影响了研究者对社会现实作出判断的信心。正因为抽样调查数据可能存在的诸多数据谬误与偏差，使得我们有理由认为，根据抽样调查数据来分析和研究社会，以期反映真实的社会现象及其背后的社会生活的逻辑，其本身就是一项极其危险的事业。然而，在这些非随机误差面前，难道我们真的就束

5、手无策吗？其实，只要我们对不同类型的非随机误差稍加分析就不难看出，有些非随机误差也是可以完全加以控制的（比如录入误差）；有些误差可以根据一些较为严密的逻辑推理加以检验判断，并通过二次访谈的方式加以修正；此外，某些信息记录偏误的并非完全的杂乱和偶然，而是存在一定的系统性，比如一些特定被访、调查员的特征总是与某类特定的信息记录偏误相关联，某个特定的记录误差集中出现在某些特定地方区域中等等，归纳和总结这样的系统性的偏误模式，也是我们在分析处理过程中客观、准确地把握问题数据的有效方式。最大限度地减少那些“不可知”的误差对统计分析的影响，是每个利用数据来描述和分析社会现象与社会过程的研究人员都必须认真

6、对待的问题。因此，从这个角度来讲，任何一种减少数据误差的工作就具有了极为重要的意义。为了尽量了解和减少研究数据中的信息变异，目前大多数严格的实证研究都会对最后录入数据进行数据清理，即通过对特定变量的逻辑检验或数据模式分析，我们可以推断调查员在信息记录过程中可能产生的信息偏误，推断被访者所报告的信息之真伪程度，从而修正数据中的某些记录误差；同样，通过逻辑检验，我们还可以由此来检验测量工具的有效性；甚或在遇到与常规逻辑不相符合的真实现实时，还可以由此加深和扩展我们对社会现实的认知。本章的主要兴趣在于，如何通过有效方式，最大限度地降低数据中的非随机误差，通过分析清理 GSS 数据时遇到的实际情形，探

7、索一些常见的、具有典型意义的信息偏误模式，为将来实证调查过程和数据清理提供一种经验参考。第二节消除录入误差由于数据清理是依据电子存储格式的数据进行的，因此，在数据清理之前，我们首先就需要保证录入数据与问卷记录数据具有最大限度的一致性，为此数据清理的第一个步骤就是要基本上消除录入误差。数据录入主要是指将编码形式的被访者回答信息，从纸本记录格式转化为机读存储格式的数据形式的过程。一般来讲，有两种方式可以实现这一转化，即光电扫描和手工录入。光电扫描的优点是可以避免人为录入过程中的出错，缩短录入环节时间，但是光电扫描方式录入一般需要使用特殊符号来编码，而这种编码往往不是直观的，在编码过程中的出错不容易

8、被检查出来，同时，制作光电录入格式的编码页成本也较高。特别是，光电扫描录入质量有赖于编码符号的清晰可辨之质量，一旦某个编码符号出现质量问题并被错误辩识，事后也较难被查验出来。手工录入对事先的编码要求并不太高，只要字迹容易辨识就行（这是一般访员都能做到的），更主要的是，手工录入增强了录入数据的可查验特性。手工录入往往容易出错，但在数据的控制环节，有两种主要办法可用来降低出错概率。其一是采用专门的录入软件（比如 PCEDIT、EpiData），都有较强的值域控制和逻辑检验功能，一旦录入出错，都可以给出特定的错误提示，减少录入错误。其二是更为彻底的录入控制方式，即双录检验。采用双录检验，是基于两

9、个录入人员在同一份问卷中的同一个变量上录入出错的概率极小的假设。双录检验的方式是将同一份问卷交由两个不同的录入员分别录入，然后通过对两个录入数据集中的同一样本的相同变量加以一一对应地比较，以期查验两者录入不一致的情况，然后对不一致样本和变量查对问卷记录来加以判定和修正。这是一种重复录入的方式，通过一一对应地比较、检验两次录入数据之差异来消除录入误差。有的录入软件（如前述 PCEDIT 和 EpiData）本身都带有这样的功能，当然也可以通过在 SAS、SPSS 或 VisueBasic 等统计软件或数据库软件中编程来实现这一功能。本次 GSS 数据录入即采用 EpiData 软件手工录入，并进

10、行双录检验。采用这种方法后，我们又对双录检验后的数据进行逻辑检验和野值清理，在此过程中，我们最后所发现的问卷录入错误率不到十万分之一，从而最大限度地保证了录入数据与问卷记录信息的一致性。达到了基本上消除了录入错误的目标。第三节野值、极值的判别与处理对野值或极值的清理、判别，是数据清理工作的第二个基本步骤，对它们的判别从怀疑开始。野值或极值，并非都是错误的取值，在我们尚未确定之前，都只是值得怀疑的数据。野值（ wild card），又称非法值（ illegal value），是指那些既不在题器规定的取值范围之内的值，也非研究人员约定或了解的取值，比如，性别变量，男性取值为 1，女性取值为 2

11、，缺失值取值为 9，如果在 1，2，9 三个取值之外，出现了一个新值，如 5，这个新值就是野值。野值主要是针对类属变量或定序变量的取值范围而言的。极值（extrema），又称为奇异值（outliers），它针对某个连续变量而言，极个别样本的取值极大地超过（或低于）总体平均水平，或者在正态分布曲线中极远地偏离中心取值的值。举例来说，对于收入的测量就常常遇到这样的极值。GSS 调查中，城市月收入取值在 10000 元以下的样本占全部样本的 99.99，但是有四个样本的取值则超过了 20000 元，其中还有一个样本的取值为 60000 元，这样的样本取值就是极值，需要接受检查。怎样判断一个变量取

12、值为极值，不同的研究人员可能有不同的标准。显然，极值都是研究人员认为值得怀疑的数值，而研究人员的怀疑根据来源于以往的研究经验和对现实的感知，多大的值超过了研究者认可的标准，这个值以上的数值理应作为该研究者的极值来加以查对问卷、检验。而我们通常的做法是，将大样本数据中的某个连续变量的 1%5%的数值作为极值加以查验，一般可以发现极大多数可能存在于极值中的编码错误这种编码错误通常是由码位填写错误所致。查找野值和极值，最有效而又简单的办法就是查看频数表，从频数表中发现超出问卷变量规定取值范围的取值，然后一一比照问卷所记录的相应信息（原始信息）并加以分析、处理。出现野值和极值的原因极为相似。野值是该变

13、量中那些研究者未赋予意义的值，这些值的来源可能有两个，（1）录入错误或编码错误；（2）问题询问过程中，调查员记录了问卷设计时未曾预料到的取值情况。极值的出现同样可能存在两种情况，一是录入或编码错误，二是问卷访谈确实遇到了特殊个案，其取值可能远超过总体均值水平。就查找出来的野值和极值来说，对于录入或编码错误，显然正是需要更正的数据，这也是初始查错的基本任务。而对于那些未曾预料到的变量取值，则需要慎重对待，而且针对野值和极值，其处理方式也是很不相同的。对于野值，首先我们需要确定的是，这一取值是否是有意义的值，如果是无意义的取值，则很可能该问题的回答出现了缺失；如果是有意义的取值，就要判断它所代表

14、的意义能否涵括在原来的取值之中？如果能，就需要将其重编码到原来的类之中；如果不能，则以新值单独标记，并贴好值标签，以便将来在分析过程中加以进一步处理。对于极值，通过问卷加以判断并非编码或录入错误后，都需要将其保留在数据集中，并将这些极值存在的情况记录下来，为将来统计分析制定处理策略时提供依据。第四节客观变量的逻辑检验在对录入数据进行双录检验后，基本上可以确认进入分析软件数据集的数据与原问卷编码信息有了最大限度的一致性，但数据信息是否与存在于被访者那里的真实信息一致，尚需进一步的检测。录入校验和初始查错的基本目标是最大限度地确保机读存储格式数据与问卷记录信息的一致，但问卷信息是否与存在于被访者那

15、里的真实信息相一致，则需要通过进一步的逻辑检验和数据分析加以检测。而在数据清理过程中，我们会发现，不同类型的数据误差具有不同的解决方式。调查问卷中的所有问题在最后的分析框架中都以一个或多个变量的形式存在，从内容上来说，这些变量可以分为客观变量和主观变量。客观变量主要是分析单位的属性、状态和行为，如性别、年龄、职业、去过哪几个国家、用哪几种方式找工作等等。这些问题都有客观事实为依据，应该有准确的回答，不应该有模棱两可的地方，所以是确定性的变量；而主观变量主要是态度、意向性和主观的感受，如对生活的满意度、倾向于投谁的票、对自已社会地位的评定等等，这些问题主观性的成份太大，具有很大的不确定性，所以是

16、随机性的变量。由于客观变量之间有着密切的逻辑关系，所以可以通过数据的逻辑检验来找出数据的偏误；而主观变量之间是概率性的关系，对它们是不可以通过逻辑检验来寻找数据偏误码的。鉴于上述主观变量与客观变量的特性差异，我们将分别叙述客观变量数据误差的逻辑检验方式和主观变量的分析检验方式。事实上，在对录入数据进行双录检验清理后，数据清理工作的主要内容之一就是逻辑检验，它通过一定的逻辑关系来判断变量信息的可靠性。但我们始终需要明确的是，逻辑检验并不是根据研究者确认的某些规则或逻辑来武断地判断那些不符合规则、不符合逻辑的值就是错误的取值，从而对其加以修正或加以缺失处理。客观的研究态度也许应该是，社会现象是极为复杂的，研究者所确定的规则或逻辑，往往只是学理或常识所涵盖的一部分社会现象，一些特殊的社会事例是客观存在的，但它们可能不受研究者所规定的规则、逻辑的约束。因此，从这点上讲，数据清理就是从怀疑开始，到消除对数据的疑虑结束：对一切可疑的数据值一一检出，对照问卷记录中的原始信息加以比较、分析，判别信息记录的正误，以更正信息或消除怀疑。对于一些无法依据原始问卷信息加以判断的数据取值，甚至需要通过电

展开阅读全文