文档详情

被等概率抽样

杰猫
实名认证
店铺
PPT
832KB
约44页
文档ID:187551778
被等概率抽样_第1页
1/44

1 第六章第六章 不等概率抽样不等概率抽样 第一节第一节 不等概率抽样概述不等概率抽样概述 第二节第二节 放回不等概率抽样放回不等概率抽样 第三节第三节 不放回不等概率抽样不放回不等概率抽样 2 第一节第一节 不等概率抽样概述不等概率抽样概述 一、不等概率抽样的必要性 在简单随机抽样中,总体(或层)中的每个单 元入样的概率都相等如果总体中的每个单元在 该总体中的地位(或重要性)相差不多,则这种基 于等概率的抽样是理所当然的选择等概率抽样 不仅实施简单,而且相应的数据处理公式也简单 但是在许多实际问题中,我们还需要使用不等 概率抽样(sampling with unequal probabilities) 3 一种情况是调查的总体单元与抽样总体的单 元可能不一致 另一种需要用到不等概率抽样的情况是,抽 样单元在总体中所占的地位不一致 最重要的一种不等概率抽样乃是使每个单元 入样的概率与该单元的大小成比例的抽样 (sampling with probabilities proportional to sizes,简称PPS抽样) 4 第三种需用不等概率抽样的情况是为了改善 估计量的特性每个可能的样本若被抽的概率与 样本中单元的辅助变量之和成正比的话,则按此 进行不等概率抽样所得到的样本,用通常的比估 计方法所得的估计量是无偏的。

5 总之,在实际工作中需要我们经常采用不等 概率抽样另外,从上面列举的情况也可看到, 凡需使用不等概率抽样的场合,必须提供总体单 元的某种辅助信息,例如每个单元的“大小”度 量Mi或辅助变量Xi等 6 二、不等概率抽样的主要分类 不等概率抽样可按多种原则进行分类鉴于 不等概率抽样同时会带来目标量估计及其方差估 计的复杂性,可分为 放回抽样:每次在总体(或层)中按一定概率 抽取一个单元,抽取后放回总体,再进行下一次 抽样,每次抽样都是独立的 不放回抽样其代价是:由于丧失了独立性 ,无论是抽样方法还是方差估计,都要比放回抽 样繁复得多 7 另一种分类是:视每次抽样(放回抽样的情形 )概率或每个单元的入样概率(不放回抽样的情形) 是否严格地与单元的大小成比例另外,看样本 量n是固定的还是随机的最重要的情形乃是当n 固定,且上述概率与单元大小严格成比例的不等 概率抽样以后我们将这种情形的放回抽样称为 PPS抽样,称相应的不放回抽样为PS抽样 8 对于不放回抽样,按其样本单元抽取方式的 不同又可分为以下几种方法: 1.逐个抽取法每次从尚未入样的单元中以 一定概率抽取一个单元,这个概率通常与已经入 样的单元有关, 2.重抽法。

以一定概率逐个进行放回抽样, 若一旦抽到重复单元,则放弃所有已抽到的单元 而重新抽取,直到抽到规定单元数且所有入样单 元都不同为止 Back 9 3.系统抽取法将总体单元按某种顺序排列, 且将规定的单元入样(或其倍数)累计起来,并 确定抽样间隔,在这个范围内产生一个随机数以 确定初始入样单元,然后按上述抽样间隔确定其 余的样本单元 4.全样本方法对每个可能样本规定一个被 抽中的概率,按这个概率一次抽取整个样本 Back 10 三、不等概率抽样的特点 不等概率抽样的主要优点是由于使用了辅助 信息,提高了抽样策略的统计效率,与简单随机 抽样甚至与分层抽样相比,能显著地减少抽样误 差 11 不等概率抽样有以下的缺点: 抽样框中的所有单元,都要有高质量的、能用 作大小度量的辅助信息; 抽样框的创建比简单随机抽样和系统抽样成本 高,更复杂,因为需要度量和存储总体中每一个单 元的大小; 并非在任何情况下都能使用,因为并不是每一 个总体都有稳定且与主要调查变量相关的有关大小 或规模的度量; 抽样及估计(特别对不放回抽样)相当复杂; 当单元大小度量不准确或不稳定时不适用,此 时更好的办法是将单元按大小分组并使用分层抽样 。

Back 12 第二节第二节 放回不等概率抽样放回不等概率抽样 一、多项抽样 多项抽样是一种最简单的不等概率抽样它 是从容量为N的总体中有放回地进行独立抽样, 每次抽样中,使抽到第i个单元的概率为Zi,i=1 ,2,N, ,连续抽n次,从而抽 到n个单元 13 若记为总体中第i个单元在n次抽样中被抽到 的次数,显然对每个i都有: , 且 作为随机变量( , , ), 它的联合分布即是以下的多项分布: 这就是多项抽样这个术语的来源 14 根据多项分布的性质,有 当每个单元具有一个说明其大小或规模 的 度量时,每个单元在每次抽样中的入样概率与单 元大小成比例,称这种特殊的多项抽样为放回的 与大小成比例的概率抽样,简称PPS抽样 15 二、PPS抽样 PPS抽样是与大小(或规模)成比例的概率抽 样,是一种使用辅助信息从而使入样概率不相等 的抽样技术 如果总体单元的大小或规模变化很大,且这 些大小是已知的,这样的信息就可以用在抽样中 ,以提高统计效率如果单元大小的度量是准确 的,而且所研究的变量与单元的大小相关,PPS抽 样能极大地提高精度但如果大小的度量不大准 确,最好按大小分组并使用分层抽样。

16 PPS抽样的入样概率如上所述,PPS抽样时 可取 为第i个单元的入样概率,其中 是总 体中所有单元的“大小”之和, 为第i个单元 的大小 17 有时,关于单元的大小 只是约略知道或 这个“大小”并不是用单元所含的次级单元数来 表示的,而是用其它有关尺度来计量此时,设 第i单元大小的计量尺度为 ,则有: 这时的PPS抽样也称作PPZ抽样 18 三、多项抽样的实施方法 如何抽取一个不等概率样本呢?有三种主要 方法:代码法、系统法及随机系统法以下的讨 论以PPS抽样为例,并假定单元大小皆为整数 19 (1)代码法(累计和法,随机法或汉森赫维 茨法) 设N不太大,且 (或 )为第i单元大小的 度量,且为整数,对总体中的每个单元计算累计大 小,得到总体所有单元代码的累计和 ,对总体 中每个单元确定与它相对应的代码范围;在1到总 的累计大小 范围内抽取一个随机数,该随机数 相应的代码范围中的单元即为入样单元重复上述 步骤,直到抽得n个单元为止 20 PPS抽样时,单元的代码如下表: 21 (2)拉希里法(二次抽样法) 代码法要将 累计,在N不太大时是适用的 ,但当N很大时,就很不方便此时可用Lahiri( 拉希里)1951年提出的方法。

令 每次抽取一个范围内的随机数 及 范围内的随机数m,若 ,则第 单元 入样;否则,重抽 此时,第i个单元的 入样概率与 成正比,从而 重复这 一过程,直到抽够所需的 个单元 22 (3)系统PPS抽样方法 对总体中的每个单元,计算累计大小; 对总体中每个单元确定与它相对应的代码范 围; 确定抽样间隔k=总累计大小/n; 在1和k的范围内确定一个随机起点r; 与代码r,r+k,r+2k,r+(n-1)k所在 范围相对应的单元入样 注意,当r+(n-1)k超过总累计大小时,应 使用圆形系统抽样中的模余数法 23 (4)随机系统抽样法 在这种方法中,名录在系统抽样前要进行随机 排序如果完全按原来的排序,会把一些可能的样 本排除在外在上面介绍的系统抽样的例子中,不 可能把单元3和4同时抽入同一个样本把名录重新 随机排列后会增加潜在的可能抽到的样本数量 实际上这些方法都有些问题例如,对系统抽 样法或随机系统抽样法,一个大小大于抽样间隔的 单元,就有重复被抽中的可能只有把这些大单元 放入单独的一个层,并独立地对它们进行抽样,才 能克服这个问题另一个问题是估计值的抽样方差 估计比较困难 24 四、估计量 对于多项抽样,由于抽样是不等概率的,每 个样本单元的观测值就不再是“平等的”,因此 对于总体参数的估计与等概率抽样不同。

汉森 赫维茨提出,如果 是按 为入样 概率的多项抽样抽得的样本指标值,相应的 为 ,则总体总和Y的无偏估计量如下: 25 且 若n1,则 的无偏估计量为 26 对于PPS抽样, ,所以有 其中 是第i个样本单元的观测值,例如商店的 年销售额,而 是该单元的大小,例如商店的员 工人数,则 即是第i个商店人均年销售额 对n个 取平均即是样本商业网点人均 年销售额的平均,将此数乘以 ,即该地所有 商业网点的员工总数,即可获得该地商业销售总 额的估计 27 举例: 下表是某系统全部N=36个单位上一年职工人 数及当年职工人数的数据,以为单位大小的度量 ,对单位进行PPS抽样,n=6,估计全系统当年职 工总人数Y,并与简单随机抽样做精度比较 28 第三节第三节 不放回不等概率抽样不放回不等概率抽样 一、包含概率与PS抽样 放回不等概率抽样实施简单,数据处理也不复 杂,在不等概率抽样中占有一定的地位但是由于 放回抽样有可能重复抽到同一单元,特别是个别大 单元被重复抽到的可能性比较大,这就在一定程度 上影响了样本的代表性,降低了抽样效率,也不易 被实际工作者所接受即使在相同样本量下,放回 抽样的精度比不放回抽样的差。

因此,我们仍有必 要研究不放回不等概率抽样 事实上,由于不放回抽样的样本不是独立的, 因此无论是实施还是数据处理,特别是方差估计, 都要比放回的多项抽样复杂得多 29 在放回的不等概率抽样中,每个单元的入样 概率起着关键作用在不放回抽样中,每个单元 被包含到样本的概率也即入样概率及任意两个单 元都包含到样本的概率都起着十分重要的作用, 它们通称为包含概率 对于固定的n包含概率满足以下性质: (1) (2) (3) 其中性质1是显然的性质2是对每个已在样本中 的单元而言的,固定了这个特定单元,总体中其 它N-1个单元在样本中只可能有n-1个单元,因此 其中最后一个等式利用了性质1性质3则直接利 用性质2: 与放回的PPS抽样类似,对于不放回不等概率 抽样,我们最感兴趣的是 与单元大小 成比 例的情形 若仍记 ,则由性质1有: 以后我们将这种不放回的与单元大小成比例 的概率抽样称为PS抽样 严格的PS抽样实施起来非常复杂事实上 ,只有当n=2时,才有一些简单且实用的方法在 不放回抽样的情形,如果抽选的单元多于一个, 要使入样概率与单元大小成正比以及对调查估计 值的误差进行估计都比较复杂在用不放回PS 抽样抽取多于两个单元时,情况就更加复杂。

实 际上,这仍是一个需要进行认真研究的问题除 了实施方面的原因外,当n大时, 的计算也极 其困难,而这对于方差估计是不可少的 二、霍维茨汤普森估计量及其性质 对不放回的不等概率抽样,总体总和Y的估 计采用霍维茨(Horvitz)与汤普森(Thompson )提出的以下估计量: 注意这个估计量与多项抽样的汉森赫维茨 估计量 非常相似事实上,对于PS抽样 ,由于 , 与相应PPS抽样的 完全 一致 霍维茨汤普森估计量具有如下性质: (1)若 ,则 是Y的无 偏估计,且它的方差为: 当n固定时,又有 (2)若 ,则 是 的无偏估计 又当n固定时,以下的耶茨(Yates)格伦 迪(Grundy)森(Sen)估计量 也是 的无偏估计: 37 三、n=2的严格PS抽样 对于PS抽样,由于作为总体总和的霍维茨 汤普森估计量的形式相当简单,因此就应用角 度来说,是否便利主要在于它的实施方法以及 的计算当n=2时,有几种比较实用的方法( 但在具体应用中,n=2并不是一个十分严重的限制 )这些方法常用在对总体分层,在每层中抽取 两个样本单元的情况 38 (1)布鲁尔(Brewer)方法 该方法要求对每个i,都满足 ,即总体 (层)中的最大单元必须小于全部单元大小总和 的1/2(若不然可以将这个“特大”单元作为必调 查的单元)。

两个样本单元采用逐个抽取法抽取 :第一个单元按与 成比例的概率抽取;第二个单元则在剩下的N-1个 单元中按与成比例的概率抽取 39 (2)德宾(Durbin)方法 两个样本单元仍用逐个抽取法抽取第一个 样本单元以概率抽取,设抽到的是单元i;第二 个样本单元则按与 。

下载提示
相似文档
正为您匹配相似的精品文档