抽样调查课件第八章-调查中的复杂样本

资源描述

《抽样调查课件第八章-调查中的复杂样本》由会员分享，可在线阅读，更多相关《抽样调查课件第八章-调查中的复杂样本（98页珍藏版）》请在金锄头文库上搜索。

1、第一节概述,重抽样（复制样本），泰勒级数，广义方差函数,典型抽样方法？复杂设计：多种抽样方法结合，多种抽样框复杂估计：非线性，无回答调整，加权估计，事后分层,第二节随机组法,一. 什么是随机组法（Random Group Method) 不同的名称： replicate samples 重复样本 ultimate cluster 末级群交叉样本等不同的术语来自于不同的应用。,无偏估计,全样本估计,保守估计,利用随机组方法估计拒答率及其方差,样本,样本,拒答户数,合格调查户数,拒答户数,合格调查户数,172个抽屉 64张卡片，卡片可能是可能是合同汽车旅馆、饭店、空白卡片等 1总体中

2、约有5000个合同汽车旅馆，并准备抽取约700个单元作总样本，这样，总抽样比约为700/5000，即约7个里面抽1个。所以，每一个抽屉都各增加6张空白卡片，这样每个抽屉都有70张卡片。 2从每一个抽屉中随机抽取一张卡片，组成一个172张卡片的样本。抽样在不同的抽屉中是互相独立的。 3按照第2步的方法有放回地再抽取9个样本，10个样本(或随机组) 互相独立。 4结果有854个汽车旅馆被抽入总样本，向每一个单元寄一张调查表。其他单元不是合同汽车放馆，不属于被调查总体。没有单元被重复观测。 510天后，对无回答的单元第二次寄调查表，再过一星期第三次寄调查表。如果一个单元24天后仍无返回调查表，就被认

3、为是无回答者。 6将无回答者按随机组的数字顺序排列，并从每3个相邻组中随机抽选一个。忽略对随机组估计量独立性的破坏。,总数,= 70(16+31) = 1330,权数：入样概率倒数,= 7094= 6580,第一随机组中回答者和无回答者子样本的求和,实际应用中很难实现多次有放回抽样，而是把一次样本随机分为k个随机组，所以随机组相互不独立,4 多阶段抽样：来自同一初级抽样单元（PSU）的所有基本样本单元的集合：末级群。随机组是通过将所有末级群分成组而得到的，具体的划分方法根据第一阶抽样方法而定。 5如果采用的是二重抽样，则应将第一重样本划分成个随机组；而第二重样本则被相应地分成随机组，即第二重样

4、本单元所在的随机组完全由第一次划分时决定。,在许多大规模调查中偏差通常都不会很大,随机组问题的讨论涉及两个主要问题： 1. 估计量的方差 2.估计量方差的精度，即对随机组方差估计的质量评估。,当N，n很大，抽样比很小时，也可用于不独立随机组,（1）,峰度,由（1）式看出，近似地反比于随机组个数K,定理说明CV依赖于两个因素，和K 1. K小，CV则大 2. 大，CV也大,说明，方差的随机组估计的精度，不但依赖 k，而且与的,分布（从而与）有关。令m=n/k，如取采用有放回简单随机抽样，取为a组的样本均值，则,这时,若抽样方式为放回PPS抽样，取为第a组的总体总和的估计

5、量，则,上述两种形式蕴含了这样一个事实，从本质上讲，的形式。,m从1开始增长时，峰度明显减少，但随m越来越大，峰度的递减作用减少，因此对越来越大的m，峰度的边际递减不足以弥补必要的k的递减， K对减少CV和提高方差估计精度比组容量m更重要。,要满足需要的精度水平,需要什么样的m和k? 估计听取专家意见根据经验判断,K增长时费用会增加，因此最优k的选择应该在费用约束下寻找,总结：random group methods,优点：计算简单，适用面广适于多参数、非参数问题，适于分中位数等非平滑函数，也可用于非抽样误差加权调整后的方差估计。缺点：随机组数目一般较少，方差估计不稳定，一般

6、至少10个随机组。随机组的产生较困难：要求机制与复杂抽样相同，而且限制随机组数目，如每层2个PSU,Resampling and replication methods,Sampling：“population” Subsamples （WR ）：估计方差 Banlanced Repeated Replication Jacknife bootstrap,半样本法:50年代末美国普查局的W. N. 赫维茨和M. 格尼平衡半样本法 :麦卡锡,Banlanced Repeated Replication,第三节平衡半样本方法,半样本基本原理每层只抽两个单元的分层抽样随机组方法,随机组缺点

7、？由于仅仅一个自由度，其稳定性比标准估计量差半样本：从每层抽取一个单元形成半样本，总共可能出现？个半样本半样本之间是彼此相关的,半样本估计量,=1，如果第h层中第一个单元被选入第个半样本； = 0，否则。,半样本估计量的性质,平衡半样本,一个小的半样本子集（k）尽量保留所有的信息,满足该条件的k个半样本为平衡半样本,完全正交平衡（full orthogonal balance）半样本,满足该条件的平衡半样本称为完全正交平衡半样本,完全正交平衡半样本：k的选择应该是大于L的4的最小整数倍,部分平衡半样本,假设有L层，采用K组半样本 L层可分为G群各群用同样方法构造正交列,部分平衡半样

8、本的方差估计量虽然不如完全平衡半样本精确，但也是无偏的。,用于多阶段抽样,在L层中的每一层初级抽样单元（PSU）都是按放回的抽样抽取的,用于非线性估计,对于非线性估计量，一般和是不等的，但多数调查实践中两者非常接近,推广,nh = 1 nh 2,第四节 Jackknife方法,Pseudo value,PPS例,前面srs+wr例,当k=n时，由于第j个虚拟值为平均值中的第j个变量，因此有,Jackknife的虚拟值为 Jackknife的估计量为在非线性估计条件下，,拒答率案例,第五节其他方法简介,一、bootstrap(Efron,1979),SRS,n, ”population”

9、,resamples，假设S是一个容量为n的简单随机样本；将S视为总体，从中再抽取重复样本。如果样本与总体确实相似如果样本的经验概率密度函数（epmf）与总体的概率密度函数相似那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性。 WR，WOR 优势：非平滑函数，方便的构造置信区间,例,利用文件ht.srs中的样本，用bootstrap方法估计身高中位数的方差。总体中身高的中位数是168；而ht.srs中样本中位数是169。总体概率密度函数与样本柱状图有相同的形状，因此预期从S中放回地抽取容量为n的简单随机样本，与从总体中放回地抽取的简单随机样本是类似的。从S中抽取的

10、重复样本可能与S并不完全一致，因为重复样本是放回的S中的有些观测值可能在重复样本中多次出现，有些观测值却从未被抽到过。,一共从S中抽取R = 2000个重复样本（n=200），分别计算每个样本的中位数，得到 2000个样本中位数的频数表：这2000个值的样本均值为169.3，样本方差为0.9148(方差的bootstrap估计量)。中位数的95置信区间为167.5, 171。直接利用bootstrap估计出的抽样分布，确定bootstrap分布的2.5百分位数和97.5百分位数，就可以得到95%的置信区间。,初始简单随机样本是无放回,Gross（1980）建议生成个样本的复制，以此作为“

11、虚拟的总体”，再从虚拟总体中无放回地抽取R个简单随机样本。如果很小，那么放回与无放回的bootstrap分布应该相差不大。,复杂抽样中bootstrap方法，Rao和Wu（1988）,从第h层的样本中放回地抽取一个容量为的简单随机样本。各层的抽样独立进行。对于每个重复样本r，生成一个新的权数变量其中是观测单元i被选入重复样本的次数。利用新的权数来计算。将第1、2步重复R次，R应该是一个很大的数。计算,二、Generalized variance function(GVFs),1990，NCVS，估计某种犯罪受害者人数t,20-24岁,1990年抢劫总次数的估计值为800510次

12、；该估计的标准差是如果对于不同的估计量有近似的设计效应（deff），,构建广义方差函数的一般步骤：,使用复制或其他方法，估计感兴趣的k个总体总量（）的方差。令相对方差 = 构建一个模型。利用回归技术估计和。Valliant（1987）建议采用加权最小二乘方法估计这两个参数，并为较小的项目赋予较大的权数。,优点在公布信息不充分的情况下可以用GVF来直接计算标准差。广义方差函数节省了大量时间，加速了年度报告的产生。 GVF对于将来类似调查的设计也很有借鉴意义。缺点模型可能并不适用，因此得出的方差估计是不可靠的。对计算回归参数时未采用的那些量的方差进行估计时，应用GVF必须谨慎。

13、如果子总体中的群deff非常高时，GVF会严重低估方差。,三、泰勒级数法（线性化方法）例如犯罪损失调查,是抢劫受害者报告的被抢金额，,是受害者因此耽误的工作日，,是抢劫受害者支付的医疗费用，假设每工作日损失150美元，对抢劫经济损失的可能是,。,更简便的办法：在观测单元水平上定义新的变量，,总体总量的平滑非线性函数,例,将均值和总量的非线性函数的方差估计量线性化的一般步骤：,将目标量表示成样本中测量或计算变量的均值或总量的函数。通常的形式为计算关于各个自变量的偏导数。以形成线性化步骤中的常数。应用Taylor定理将估计量线性化：定义新的变量q 计算的方差，将其作为方差的近似。,例

14、如比估计,应用Taylor定理：,优点：如果偏导数已知，应用线性化方法可以给出统计量的方差估计、并可以应用于一般的抽样设计中。线性化方法在统计学中有长期的应用，相关理论得到了很好的发展。现在有很多计算比率、回归系数等非线性函数的线性化方差估计的软件。缺点计算过于繁琐，在包含权数的复杂函数中这一方法难于应用。需要确定h的偏导数的分析表达式，或对偏导数进行具体的数值计算。对估计的每个非线性统计量都需要一个单独的方差公式，并需要进行专门的设计；而每个统计量所需的方法都有不同。并不是所有的统计量都可以表示成总体总量的平滑函数如中位数和其他百分位数就不适用。线性化近似的准确度取决于样本量

15、如果样本量不够大，方差的估计通常是偏低的。,总体总量的平滑函数的置信区间,大部分方差估计方法都假定渐近服从标准正态分布如果假定成立，近似95%置信区间为线性化方法、jackknife、BRR和bootstrap方法有如下假定：目标量可以表示为总体总量的平滑函数；更确切地说有连续的二阶偏导函数。样本量较大：或者是各层抽取的psu数量较大，或者是调查包含的层数较多。,总体分位数的置信区间,定义分位数为满足的y的最小值如果随机组的数量R适中， BRR或bootstrap方法：,不是平滑函数，但假定总体和样本足够大时，近似为连续函数,自由度为R - 1,Woodruff 方法 (1952 ),总体总量的函数近似95的置信区间为,0.95,例：对于身高数据ht.srs，应用Woodruff方法构造身高中位数的95置信区间。,是简单随机样本中取值小于等于值的观测单元的样本比例，忽略有限总体校正系数，有,中位数的置信下限是,置信上限是,

展开阅读全文