非抽样误差－金锄头文库

资源描述

《非抽样误差》由会员分享，可在线阅读，更多相关《非抽样误差（36页珍藏版）》请在金锄头文库上搜索。

1、本章要点,本章对非抽样误差的构成和各种非抽样误差的影响进行分析。具体要求：正确理解非抽样误差的涵义、来源和特点；对抽样框误差、无回答误差和计量误差的成因及其对抽样的影响有比较系统的理解；掌握控制非抽样误差的基本思想。,第一节非抽样误差构成,一、非抽样误差的来源,非抽样误差就是由抽样误差以外因素引起的，因样本观察数据非同质、或残缺、或不真实而产生的误差。为了使非抽样误差问题简单化，我们可以按照抽样调查的过程来考察其来源。抽样方案设计阶段数据收集阶段数据处理阶段,在抽样方案设计阶段，非抽样误差的来源:（1）抽样框的编制与准备不够充分完善；（2）问卷设计不够科学合理。在数据收集阶段，非

2、抽样误差的来源: （1）调查数据的残缺；（2）调查数据的错误。在数据处理阶段，非抽样误差存在于对调查资料的整理、分组、计算、编码和计算机录入等过程中，是一种工作上的差错。,把上述三个阶段的各种非抽样误差加以归纳，可以概括为抽样框误差、无回答误差和计量误差三类。,其中计量误差包括抽样方案设计阶段有缺陷的问卷设计、数据收集阶段有错误的调查数据和数据处理阶段工作上的差错所带来的误差，也就是调查性误差。,二、非抽样误差的特点,非特有性：为非抽样调查所特有；非一致性：使抽样估计结果产生偏差，并且样本越大产生偏差的可能性越大；难测定性：难以对其进行描述和测定，具有很强的隐蔽性；难评价性

3、：非抽样误差的存在使得对抽样效果的评价与衡量复杂化；全过程性：存在于抽样调查的所有阶段。,第二节抽样框误差分析,一、抽样框误差的成因,丢失目标总体中的单位：覆盖不足，丢失单位，使总体总值的估计值偏低；包含非目标总体单位：过涵盖，空名单，异质单位；如果在抽样框中同时出现“丢失单位”和“异质单位”，那么也许可能会相互抵消一部分，形成“净涵盖误差”。复合联接：目标总体中的一个调查单位与抽样框中的多个抽样单位相联接，或抽样框中的一个抽样单位与目标总体中的多个调查单位相联接；不够准确或不够完善的辅助信息；抽样框陈旧，即抽样框老化；,二、抽样框误差的影响,（一）丢失单位的影响在假定不存在

4、其他原因的抽样框误差时，丢失单位对抽样效果的影响主要取决于两个方面：丢失单位的分布特征和丢失单位数所占的比重。其中，对总体均值的估计只与前者有关，而对总体总值的估计则与两者都有关。,（1）丢失单位是目标总体中的一个随机样本，具有与目标总体相同的期望与方差，则其对总体均值的估计影响不大，但对总体总值的估计会低估。,(2)丢失的单位是特殊群体，不具有与目标总体相同的期望与方差，那么对目标总体总值、均值的估计会产生偏差。,偏差率为：,目标总体总值估计量的偏差为：,（二）包含异质单位的影响,（二）包含异质单位的影响,如果是目标总体总值的估计，则其估计量偏差和偏差率分别为：,很显然，这时的偏差或偏差率都

5、是正的，即若抽样框中包含了异质单位必定会使目标总体总值的估计偏高。,均值估计量方差会被高估或低估，总值估计量方差则一定是高估，即：,如果在调查中异质单位可以被识别并被予以剔除的，可以把目标总体看成抽样框中的一个子总体或域。异质单位的标志值就取0。,在调查中剔除异质单位会增加估计量的方差，原因在于它使实际的样本容量变小了。增加的量为：,（三）复合联接的影响,（三）复合联结的影响,三、抽样误差框的控制,重在预防积极补救心理准备,第三节无回答误差分析,一、无回答误差的成因,（一）无回答的含义无回答（Nonresponse）是指未能取得所要搜集资料的一种现象，它包括两种情况：个体无回答和答。

6、- 个体无回答也称全无回答，是指被调查者没有接受调查、造成整张问卷出现空白的现象；- 项目无回答也称部分无回答，是指被调查者回答了问卷中的部分调查项目未能回答其它调查项目的现象。不论是个体无回答还是项目无回答，都将导致调查数据残缺不全，从而最终影响估计结果，降低估计精度或可靠程度。因无回答而造成的估计误差，就称为无回答误差。,（二）无回答的成因,1、遗漏了被调查者； 2、被调查者地址不详； 3、调查内容未达被调查者； 4、被调查者拒绝回答； 5、回答不准确或不知如何回答； 6、忘记回答。以上各种原因，有的属于客观性，有的则属于主观性；有的属于有意识，有的则属于无意识；有的属于调查人员方，有的

7、则属于被调查者方。,二、无回答误差的影响,为了测定无回答对抽样的影响，先把总体分为两层：回答层与无回答层。就调查项目而言，如果无回答不是故意造成的（即与调查内容无直接关系），且无回答现象不集中于某类特殊单位组成的群体，那么就可以认为这种无回答是由随机因素引起的，这时无回答对抽样的影响是因实际有效的样本容量减少而使估计量方差增大，但却不会造成估计量偏差。估计量方差增大的程度取决于无回答率。如果无回答是故意造成的（即与调查内容直接有关），或无回答现象集中于某类特殊的群体，那么无回答层与回答层之间就存在明显的非随机性差异，这时，无回答对抽样效果的影响，除了会增加估计量方差外，还会带来较严重的估计量偏

8、差。,如果在调查中出现个无回答、个有回答（），那么当总体无回答层与回答层之间无差异时，估计量方差就变为：从而估计量方差增大的量为：其中为样本无回答率。,估计量方差增大的程度则为：在这种情况下，为了达到抽样方案所规定的抽样估计效果，就需要增加样本容量。如果总体无回答率为，那么样本容量应该确定为。,如果令为总体回答率，，总体中回答层与无回答层的均值分别为和，样本中回答层的均值为，那么当以来估计总体均值时，就会有偏差为：偏差率为：其中为回答层均值与无回答层均值之比。,不难发现，越接近于1（即无回答率越高），越远离于1（即回答层与无回答层之间的均值差异越大），那么估

9、计量的偏差就会越大，偏差率就会越高，估计结果就越不准确、越不可信。,还要注意的一个问题是，虽然从理论上讲无回答会使估计量方差增大（即）,但在实际上却难以得到客观的反映，因为我们所能计算的只是（此处的是总体中的回答层方差，未知时要以样本方差估计）。这样，与相比，当时就会高估,当时就会低估。与相比，则还有一个回答率的问题，因为,所以当时估计量方差高估，当时低估。如果，那么当时，必然会有估计量方差低估或高估的现象也就自然会消除。可见，提高回答率是消除无回答影响的关键所在。,三、无回答误差的控制,（一）事前准备充分，争取尽量高的首次回答率；（二）搞清无回答的原因，有针对性地进行复调查；（三）必要时，对无回答者进行替；（四）对于一些敏感性问题，可以采用随机化回答技术（沃纳模型，西蒙斯模型，格林伯格模型等）；（五）当无回答不可避免时，可采用一些专门技术来调整估计结果，以减少估计偏差。,具体的调整方法技术有以下几种： 1.汉森与赫维茨(Hansen and Hurwitz,1946)方法。 2.复制估算法。 3.加权调整法。,

展开阅读全文