风笑天社会调查中的回无答与样本替换

资源描述

《风笑天社会调查中的回无答与样本替换》由会员分享，可在线阅读，更多相关《风笑天社会调查中的回无答与样本替换（11页珍藏版）》请在金锄头文库上搜索。

1、风笑天：社会调查中的无回答与样本替换(南京大学社会学院，南京 210093)摘要：社会调查中的无回答可以归为四类：即样本对象不适合、样本对象无接触、样本对象无能力、以及样本对象拒绝回答。根据调查方式的不同，无回答的处理方式也不一样。电话调查主要采用扩大备用样本规模的方式；邮寄调查主要采用催促信函和电话提醒的方式；面访调查则主要采用多次上门联系、耐心解释和说服以及替换样本的方式。由于样本替换存在着破坏随机抽样原则、促使访问员放弃减少无回答的各种努力、不能在实质上降低无回答误差、以及初期调查结果容易被掩盖等风险，因此，面访调查中最合适的处理方式是在转化和减少无回答上下工夫，而不是采用替换样本的方法

2、。关键词：社会调查；无回答；样本替换；方法论社会调查是“一种采用自填式问卷或结构式访问的方法，通过直接的询问，从一个取自总体的样本那里收集系统的、量化的资料，并通过对这些资料的统计分析来认识社会现象及其规律的社会研究方式”( 风笑天，2009：6) 。在这种应用非常广泛的社会研究方式中，存在一个十分常见的现象，这就是研究者所抽取的样本中的对象往往不可能百分之百地成功接受调查。“很少有抽样调查的回答率能达到 100%，这就是说，大多数调查或多或少都会抽到一些搜集不到数据的单元(如人或住户) 。如果那些被抽到但没有搜集到资料的单元系统地不同于那些被抽到且搜集到数据的单元，那么调查结论便会在一定程度

3、上存在无回答 1误差的影响”(拉弗拉卡斯， 2005：4) 。也就是说，在研究者所抽取的样本中，实际上包含着两个部分：回答者的部分和无回答者的部分。十分显然的是，样本中无回答者的部分越大，样本调查的结果对总体的代表性存在偏差的可能性也就越大。正如福勒教授明确指出的：“从被选择的样本中收集资料失败的比例过高是调查误差的主要来源”(福勒，2004：40) 。因此，如何解决调查中的无回答问题，也是社会调查方法面临的主要挑战之一。面对调查中不可避免的无回答现象，国内学术界最常见的处理方法就是通过样本替换 2来对其进行补救。例如，有研究者对国内社会学界一些调查项目执行过程的主持人进行了专门了解，结果发现

4、，“调查主持人均报告，各项调查在执行过程中均发生过样本替换”(郝大海，2007)。该研究者也认为， “从目前国内调查实践看，相当多的调查对无应答单位采用了替换处理”(郝大海，2008)。值得思考的是，对于提高调查的回答率，从而减少调查偏差的目的来说，样本替换是最好的选择吗? 除了进行样本替换，还有哪些无回答的处理方式值得注意? 在不同的调查方式中，无回答的表现形式以及最合适的处理方式是否有所不同? 无回答偏差在整个调查偏差中处于什么位置? 替换样本的使用可能存在怎样的风险? 什么样的情况适合使用替换样本，什么样的情况并不适合? 对这些与社会调查中的无回答、样本替换以及调查偏差密切相关，国内学术

5、界又很少关注的问题进行初步探讨，就是本文1无回答，即英文中的 nonresponse，也译为无应答。本文中二者含义相同。2样本替换，即英文中的 sample substitution，也译为样本替代。本文中二者含义相同。的主要目标。一、无回答的内涵及其表现形式为了更好地探讨上述问题，有必要首先对调查中的无回答概念及其在不同调查中的表现形式进行简要分析。由于调查具体方式以及无回答现象的多样性，学者们对无回答概念的界定和表述也存在一定的差别。在 Kendall 和 Buckland 主编的统计术语词典中，无回答指的是“在抽样调查中，由于某种原因(死亡、缺席、拒访等) 而无法从指定的个体处获得信息”

6、的情形(Kendall & Buckland，1960：200) 。显然，他们的无回答定义主要指的是单位无回答 1。亨利教授在实用抽样方法一书中认为，无回答指的是“未能从样本成员中得到有效的回答。在被调查人拒绝回答某一特定问题，拒绝参与调查，或无法与被调查人取得联系的时候就会发生无回答问题。”(亨利，2008 ：51) 按照他的这种界定，无回答实际上可分为三类：一类为项目无回答；一类为主观性的单位无回答；另一类为客观性的单位无回答。而莱斯勒、卡尔斯比克两位教授在调查中的非抽样误差一书中则指出，“调查中最明显的问题之一是不能从所有的样本单位及问卷中的所有问题获得有用的数据，我们称这类问题为(无回

7、答)”( 莱斯勒、卡尔斯比克，1997：113)。显然，他们的无回答定义同样包含了单位无回答和项目无回答两种类型。其中，单位无回答“是指被调查单位没有接受调查”，“这里谈及的单位指的是应用于抽样、数据采集或数据分析的单位”(莱斯勒、卡尔斯比克，1997：113) 。总结上述各种定义可以认为，被抽取到调查样本中的单位没有成功接受调查，就是本文所探讨的(单位) 无回答。对于上述含义十分明确的无回答概念，在实际社会调查中会由于调查方式的不同，而在具体表现形式上有所不同。比如，在入户面访调查中，无回答的表现形式就可能既包括所抽取的样本户地址不存在、样本户为空户(即无人居住户 )、样本户地址为非住户机构

8、等抽样框偏差造成的不适合，也包括调查期间因被调查对象外出、生病住院等造成的无接触，还包括由于有身体残疾或智力障碍等造成的被调查对象无能力，以及由于被调查对象拒绝参与调查所造成的拒访等；在邮寄调查中，其表现形式则相对简单，即所有的无回答都是以调查问卷没有寄回的形式表现出来的。但在实际上，这些无回答中同样可能有因地址错误而没收到问卷造成的、有因被调查者在调查期间不在家造成的、有因被调查者语言不通或文化程度太低而看不懂问卷造成的、还有因被调查者不愿接受调查造成的等多种情况。研究者虽然在邮寄调查中不能像入户面访调查那样可以明确区分哪些单位是不适合、哪些是无接触、哪些是无能力回答、哪些是拒绝回答，但实际

9、上其主要类型依然可归结为与上面相似的四类；在电话调查中，无回答的表现形式则主要包括电话号码为空号、电话号码为非住户号码等不合适情况，电话多次无人接听、电话为自动录音装置等无接触情况，接电话的对象语言不通、无法交流等无能力情况，以及对象接听后挂断电话等拒答现象等。上述分析表明，不同调查方式所表现出的具有不同特征的无回答现象，实际上都可以归结为四类：即由抽样框偏差造成的样本对象“不适合”、由特定调查方式和客观条件造1调查中的无回答现象一般分为“单位无回答”( unit nonresponse)和“项目无回答”(item nonresponse)。前者指样本中的调查单位(对象)无回答；后者则指的是调

10、查单位(对象)对问卷中的一部分问题( 即项目)无回答。本文主要探讨单位无回答问题。因此，若无特别说明，文中的无回答均指的是单位无回答。成的与样本对象“无接触”、由被调查对象的特定原因造成的“无能力”接受调查、以及由被调查对象主观上拒绝参与调查造成的“拒答”。上述四类的划分与 Groves 在其著作调查方法论中所总结的三类无回答十分相近。他的总结是：“(1)未能提出调查的请求(如未接触，没能找到样本单位，邮寄调查中邮件被退回) ；(2)被拒绝(如已经联系到的个体拒绝了调查请求) ；(3) 没有能力接受调查 (如已经联系到的个体不懂问卷使用的语言)。” (Groves，2004：170)本文的划分

11、与他的分类之间的唯一区别是，在他的分类中，将抽样框偏差造成的 “不合适”与调查方式造成的“无接触”合并为一类；但笔者认为，不适合与无接触两种情况所造成的无回答现象不仅从来源上有着明显的区别，在处理方式上也有所不同，故将二者分开可能更好。二、无回答现象与调查偏差当调查中遇到无回答现象时，研究者采取样本替换方法的主要动机是为了减少无回答者的比例，以提高调查的回答率，从而减少调查样本所带来的偏差。由于无回答包含了上述四类不同的形式，而它们对调查偏差的影响不尽相同。因此，为了更清楚地认识无回答与调查偏差之间的联系，有必要对调查的各种偏差及其来源有一个整体的了解。根据基什教授的看法，调查偏差的来源可分为

12、抽样偏差与非抽样偏差两大类。前者主要包括抽样框偏差；后者则包括观察偏差和非观察偏差(基什，1997：583) 。值得注意的是，抽样框偏差发生在抽样设计的阶段，它主要包含未覆盖和不合适两种 1。所谓“未覆盖”，即“遗漏”了本来应该属于抽样框的一部分个体；而“不合适”则正好相反，即包含了本来不应该属于抽样框的一部分个体；这两方面的偏差所反映的都是抽样总体(抽样框) 与目标总体之间的一致性问题。与抽样偏差相对应的非抽样偏差则发生在调查实施和资料处理的阶段，它指的是在调查数据的收集和处理过程中所出现的问题。这种非抽样偏差还可再分为观察偏差和非观察偏差两类。观察偏差是由于不正确地获得和记录观察值所引起的

13、，即“一类是在观察进行中引起的，包括访问、列举、计数或计量；这些是回答偏差。另一类是为数据处理偏差，它产生于办公室数据处理、编码、列表和计算中”(基什，1997：584) 。而非观察偏差则是由无回答引起的。这种无回答的主要来源包括无法接触、无能力回答和拒绝回答等。笔者在基什教授分类的基础上对调查中各种偏差进行了归纳整理，具体分类见下图 1。1基什教授的著作中将遗漏，即未覆盖，作为非观察偏差中的一类。笔者认为更合适的分类是将其放在抽样框偏差中。实际上，他在具体论述中也是将其与抽样框问题一起讨论(基什，1997：592 - 593)。图 1：调查中的偏差来源分类根据前面关于无回答概念的界定以及在不

14、同调查方式中表现形式的描述，可以看出，本文所讨论的无回答现象除了主要包括图 1 中作为非观察偏差的无回答的三种来源外，同时也包括了作为抽样框偏差来源的不合适(即图 1 中标有 1、2、3、4 的几个来源) 。因此，社会调查中实际上也存在着两种不同性质的样本替换。一种样本替换所针对的是那些在样本抽取后发现并不适合作为调查对象的个体(如入户调查中样本户为无人居住的空户、样本户地址为非住户机构等，以及电话调查中的空号、非住户号码等)；另一种样本替换则是针对调查实施阶段出现的那些无法接触、无能力回答、以及拒绝回答的个体。对于前一种情形，样本替换是可以采用的。但对于后一种情形，样本替换就有可能是不合适的

15、(这一点将在下文中详细讨论)。对不同替换目标的区分同时也提示我们，样本替换问题既与实地调查阶段相关，也在一定程度上与抽样设计阶段有关。三、无回答的处理方式莱斯勒和卡尔斯比克在其著作中讨论了解决无回答问题的一些方法，主要有：降低无回答数量；替代；估计潜在的偏差；对无回答进行补救(具体有外推法；在无回答单位中进行次级抽样；加权调整；直接替代；模型推断)等( 莱斯勒、卡尔斯比克， 1997：175)。由于笔者关于无回答来源的分类与现有研究者的看法有所不同，因此，在无回答处理方式上，也有一定的补充。概括地说，对于前述各种类型的无回答现象，研究者可以采用的处理方式通常有下列几种：第一种处理方式是放大样本

16、。即研究者在抽样设计阶段将无回答的因素考虑进去，根据以往调查的结果和经验，预先估计无回答的比例，并适当增加样本容量，以保证最终有回答的样本对总体有足够的代表性，从而保证样本调查的结果在推论总体时能达到预定的精确性和可靠性。例如，在一项大型调查的样本设计中，研究者确定样本规模时，先是以估计简单随机抽样的总体比例为 P 时的样本容量为基础。“在 95%的置信度下按抽样绝对误差不超过 3%的要求进行计算 ”，需要抽取的样本容量为 1 067。“由于采用多阶段的复杂抽样，设计效应 deff 一般会在 2 和 2.5 之间，我们把 deff 定为 2，这样需要的样本量就为 2000 个。综合考虑精确度、费用以及调查实施的可行性等因素，以及以往若干全国社会调查的经验；再加上考虑到在调查实施中通常会存在一部分户内找不到、或没有合格调查对象、以及各种原因造成的无回答等情况，根据对回答率的估计，需要将上述样本量适当扩大为 2 380 个。” (风笑天， 2007)这种处理方式的特点是不需要在调查过程中使用替换样本，而只是对所抽取的原始样

展开阅读全文

风笑天社会调查中的回无答与样本替换

最新文档