《第九章二阶及多阶抽样(抽样理论与方法河南财政学院)》由会员分享,可在线阅读,更多相关《第九章二阶及多阶抽样(抽样理论与方法河南财政学院)(39页珍藏版)》请在金锄头文库上搜索。
1、第八章 二阶及多阶抽样 第九章 二阶及多阶抽样 9.1 概述 一、二阶抽样定义: 设总体由N个初级单元组成,每个初级单元又由 若干次级单元组成,若在总体中按一定方法抽取n个 初级单元,对每个被抽中的初级单元再抽取若干次级 单元进行调查,这种抽样称为二阶抽样。 二、二阶抽样与分层抽样、整群抽样的关系: 如果第一阶段抽样采用全面调查,二阶抽样就成 了分层抽样; 如果第二阶段抽样采用全面调查,二阶抽样就成 了整群抽样。 性质l:对于两阶抽样,有 式中,E2,V2为在固定初级单元时对第二阶抽样求 均值和方差;E1,V1为对第一阶抽样求均值和方差 。 9.2 初级单元大小相等时的二阶抽样 一、总体均值的
2、估计量: 假定总体由N个初级单元组成,每个初级单元都含有M个 次级单元。 从N个初级单元中按简单随机抽样抽取n个初级单元, 在每个被抽中的初级单元中按简单随机抽样抽取m个次级 单元。 总总体的第i个初级单级单 元 样样本的第i个初级单级单 元 次级单级单 元数Mm 和 均值值 方差 定理:若两阶段的抽样都是简单随机抽样的,则 证明: 证明: 证明: 例:文具商店一柜台,上月共用了18本发票,每本发票 含发票200张。查帐者随机挑选了4本发票,再在挑中 的发票本中随机抽了40张发票,记录其营业额。数据 整理如下: 估计该柜台上个月的营业总额及标准差。 解: 9.3 初级单元大小不等时的二阶抽样
3、一、对初级单元进行简单随机抽样时,总体总和Y的估计 第一阶抽样按简单随机抽样从N个初级单元中抽取个, 第二阶抽样按简单随机抽样,在抽中的初级单元中分别 独立抽取次级单元。 (1)简单估计: 证明: 证明: (2)比估计: 二、对初级单元进行放回不等概率抽样时,总体总和Y的估计 第一阶抽样按放回不等概率抽样(多项抽样)抽取初级元, 第二阶抽样并没有作出特别的规定,只要初级单元指标Yi的 估计 是无偏的. 自加权情形: 第一阶抽样按放回不等概率抽样抽取初级单元, 第二阶抽样都抽取m个。 自加权情形: 第一阶抽样按PPS抽样抽取初级单元, 第二阶抽样按简单随机抽样抽取次级单元,都抽取m个 。 实际工
4、作中,对于各级单元大小不相等时多阶抽 样,自加权通常的做法是: 除了最后一阶采用等概率抽样(放回的或不放回的 均可),前几阶均采用PPS抽样,并且自第二阶开始, 每一阶的样本量都相同(即mi=m,kj=k,),则样本是 自加权的,其估计量的形式非常简单。 总体总和的估计为 的方差估计为 一、初级单元大小相等时,最优样本量m与n的确定: 1.m的确定: 线性费用函数: 9.4 样本量的确定 二、各级单元大小不相等时,多阶抽样的总样本量及最 优样本量的配置 二阶自加权情形: 第一阶抽样按PPS抽样抽取初级单元, 第二阶抽样按简单随机抽样抽取次级单元,都抽取m个 。 实际工作中,对于各级单元大小不相
5、等时多阶抽 样,自加权通常的做法是: 除了最后一阶采用等概率抽样(放回的或不放回的 均可),前几阶均采用PPS抽样,并且自第二阶开始, 每一阶的样本量都相同(即mi=m,kj=k,),则样本是 自加权的,其估计量的形式非常简单。 总体总和的估计为 的方差估计为 这时,多阶抽样的总样本量可以这样确定: 1.根据简单随机抽样时应抽样本量 2.再乘以设计效应deff获得。 多阶抽样与简单随机抽样相比其效率比较低,deff 应该大于1。实际工作中,可取deff的经验数据。不同项 目的deff不同。 例: 某调查公司接受了一项关于全国城市成年居民人均 奶制品消费支出及每天至少喝一杯鲜奶的人数的比例 情况
6、的调查。确定抽样范围为全国地级及以上城市中 的成年居民。成年居民指年满18周岁以上的居民。 第一步:确定抽样方法。 调查公司决定采用多阶抽样方法进行方案设计,调 查的最小单元为成年居民。确定调查的各个阶为城市 、街道、居委会、居民户,在居民户中利用二维随机 表(Kish随机表的简化)抽取成年居民。 第二步:确定样本量及各阶样本量的配置。 按简单随机抽样时,在95置信度下,绝对误差为 5,取使方差达到最大时的消费奶制品的居民比例为 50,则全国样本量应为: 根据以往调查的经验,估计回答率b=80,因此调整样 本量为: 多阶抽样的效率比简单随机抽样的效率低,这里取设计 效应deff=3.2,则在全
7、国范围内应调查的样本居民为: 各阶的样本量配置为: 初级单元:20个城市; 二级单元:每个样本市内抽4个街道,共80个街道; 三级单元:每个样本街道内抽2个居委会,共160个居委会; 四级单元:每个样本居委会内抽10个居民户,1600个居户。 在样本居民户内,利用二维随机表抽1名成年居民。 第三步:确定抽样方法。 第一阶,在全国城市中按与人口数成比例的放回的不等 概抽样,即PPS抽样。 第二阶和第三阶分别按与人口数成比例的不等概等距抽 样。 以第二阶为例,在某个被抽中的样本城市中,将其所属 的街道编号,搜集各街道的人口数,赋予每个街道与其人口 相同的代码数;根据该市总人口数除以样本量4,确定抽
8、样间 距;然后对代码进行随机起点的等距抽样,则被抽中代码所 在的街道为样本街道。 第四阶,分别在每个样本居委会中,按等距抽样抽出10个 民户。 即根据居委会拥有的居民户数除以样本量10得到抽样距, 然后随机起点等距抽样。 在每个样本居民户中,调查员按二维随机表抽取1名成年 居民。二维随机表的使用方法如下。 (1)随机号的确定。应事先在随机表的第一行数字上,选 好一个数字,并划上一个圈,被圈好的这个数字就是 这份问卷的随机号。随机号的选择一般由小到大或循 环给出。可以根据便于操作又保证实现随机的原则, 选择确定随机号的适当方法。 (2)选出被访者。将所有符合基本要求的家庭成员按年龄 从大到小的顺
9、序列入随机表中,以事先做好的随机号 为纵坐标、以最小家庭成员为横坐标,交叉处对应的 数字即为被访者的序号。例如,某受访户的随机号确 定为4,该户中家庭成员符合本次调查要求的共有4人 。将这4人的基本情况按年龄从大到小的顺序填入下面 的二维随机表中。 序号 姓名 性别 年龄 1 2 3 4 5 6 7 8 9 10 11 12 1 肖明 男 53 1 1 1 1 1 1 1 1 1 1 1 1 2 汪红 女 52 2 1 1 2 1 2 1 2 1 2 2 1 3 肖晓波 男 23 3 2 1 1 3 2 2 1 3 1 2 3 4 肖晓玲 女 21 4 1 3 2 2 3 1 4 3 2 4
10、1 5 5 4 1 2 3 4 1 2 3 5 4 2 6 7 8 9 10 11 12 表中,序号为4的列与年龄最小的家庭成员肖晓玲所在的 第4行交叉的数字是2。因此,第2号家庭成员汪红为被访 者。 第四步:推算方法。 记各样本城市的80位样本居民中,奶制品消费 总支出为yi,则各样本城市人均奶制品消费支出为: 全国1600名居民组成的样本中,奶制品消费总支 出为 ,则成年居民人均奶制品消费支出为: 的方差的估计为: 我国劳动力调查 约调查60万人,其中城镇40万,农村20万。 以全国为总体,各省市区独立实施抽样。可采用: 分层两阶整群抽样、分层三阶整群抽样、分层四阶整 群抽样。 1、 分层
11、四阶整群抽样 (1)对县级单元(县、县级市或市辖区)按照人口和劳 动力等特征分层;在第一阶段采用PPS在每一层抽取县 级单位; (2)对抽中的县级单位,采用PPS抽取乡级单位(街道 、镇或乡) ; (3)对抽中的乡级单位 ,采用PPS抽取村级单位(居委 会或村委会) ; (4)对抽中的村级单位,系统抽样抽取调查小区(由30 个最相邻的住址组成)。 抽中的小区调查其全部住户及家庭成员。 2、分层三阶整群抽样 (1)对乡级单元按照城乡及人口和劳动力等特征分层; 在第一阶段采用PPS在每一层抽取乡级单位; (2)对抽中的乡级单位,采用PPS抽取村级单位; (3)对抽中的村级单位,系统抽样抽取调查小区。 抽中的小区调查其全部住户及家庭成员。 3、分层两阶整群抽样 (1)对村级单元按照城乡及人口和劳动力等特征分层; 在第一阶段采用PPS在每一层抽取村级单位; (2)对抽中的村级单位,采用系统抽样抽取调查小区。 抽中的小区调查其全部住户及家庭成员。