抽样技术 7 不等概率抽样综述

上传人:最**** 文档编号:118235592 上传时间:2019-12-11 格式:PPT 页数:67 大小:1.52MB
返回 下载 相关 举报
抽样技术 7 不等概率抽样综述_第1页
第1页 / 共67页
抽样技术 7 不等概率抽样综述_第2页
第2页 / 共67页
抽样技术 7 不等概率抽样综述_第3页
第3页 / 共67页
抽样技术 7 不等概率抽样综述_第4页
第4页 / 共67页
抽样技术 7 不等概率抽样综述_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《抽样技术 7 不等概率抽样综述》由会员分享,可在线阅读,更多相关《抽样技术 7 不等概率抽样综述(67页珍藏版)》请在金锄头文库上搜索。

1、 第七章 不等概抽样 放回不等概率抽样 不放回不等概率抽样 利用软件进行抽样和计算 案例分析 第一节 不等概率抽样概述 一、不等概率抽样的必要性 1、在简单随机抽样中,总体(或层)中的每个单 元入样的概率都相等。等概率抽样的特点是总 体中的每个单元在该总体中的地位(或重要性) 相同,在抽样时对每个单元采取的是“不偏不 倚”的态度 。等概率抽样不仅实施简单,而且 相应的数据处理公式也简单。但是在许多实际 问题中,我们还需要使用不等概率抽样 (sampling with unequal probabilities)。 2、抽样单元在总体中所占的地位不一致:例 如:要反映某小麦品种的优良情况,以村作

2、 为抽样单位,但各村的种植面积不同,一些 种植面积大的村庄在抽样中是否被抽中对推 断总体的结果有很大影响 ,所以让“大单元 ”被抽到的概率大,“小单元”被抽到的概 率小,这样能够大大提高样本的代表性,减 少抽样误差。 不等概率抽样概述 不等概率抽样的特点 2、不等概率抽样的主要优点是由于使用了辅 助信息,提高了抽样策略的统计效率, 能 显著地减少抽样误差。 1、凡需使用不等概率抽样的场合,必须提供总体单 元的某种辅助信息。 例如:每个单元的“大小”度量Mi。注意:比估计 和回归估计是估计方法用到了辅助信息,本章是抽 样方法用到辅助信息. 不等概率抽样的特点 3、抽样框的创建比简单随机抽样和系统

3、抽样成本 高,更复杂,因为需要存储总体中每一个单元 的度量大小; 4、并非在任何情况下都能使用,因为并不是每一 个总体都有稳定且与主要调查变量相关的有关 大小或规模的度量; 5、抽样及估计(特别对不放回抽样)相当复杂; 6、 当单元大小度量不准确或不稳定时不适用。 6 不等概率抽样的分类 放回不等概抽样:按照总体单元的规模大小来确定在每次抽 中的概率。抽取后放回总体,再进行下一次抽样,每次抽 样都是独立的。这种抽样称为放回不等概抽样(sampling with probabilities proportional to sizes,简称PPS抽样) 不放回的不等概抽样:每次在总体中对每个单元按

4、入样概 率进行抽样,抽出的样本不再放回总体,因此,在抽取了 第一个单元后,余下的单元再以什么概率被抽取就较复杂 。 这种抽样不是独立的,无论是抽样方法还是方差估计,都 要比放回抽样繁复得多。不放回抽样通常称为PS抽样。 放回不等概抽样 PPS抽样:有放回的不等概抽样 在PPS抽样中,赋予每个单元与Mi相等的代码 数,将代码数累加得到M0,每次抽样都等概产 生一个1,M0之间的随机数,设为m,代码m 所对应的单元被抽中。 放回不等概率抽样实施方法 1.代码法 累计代码 10.66616 214.51451517151 31.515166152166 413.7137303167303 57.87

5、8381304381 615150531382531 710100631532631 83.636667632667 9660727668727 101.111738728738 73.8738 例5.1 设某个总体有10个单元,相应的单元大小及其代码 数如下表,在其中产生一个n=3的样本。 假设在1,738 中等概产生第一个随机数为354,再在1,738中产生第二 个随机数为553,最后在1,738中产生第三个随机数为493,则它们所对 应的第5,7,6号单元被抽中。 Mi*10 例:假设有10个乡,每个乡的村庄数不同,按pps抽3个乡 乡村庄数Mi累计代码 155 15 22833 633

6、 32659 3459 41473 6073 51083 7483 638121 84121 77128 122128 850178 129178 92180 179180 108188 181188 结合一下整群抽样、 多阶段抽样 2.拉希里法(二次抽取法)(统计学家Lahiri最先提出) : 设 M1, M2,MN为单元的规模 放回不等概率抽样实施方法 拉希里法抽样举例: 例5.1中,M=150,N=10.在1,10,1,150 中分别产 生( i,m)如下: 第一次 (3,121) , M3=15121, 舍弃,重抽 ; 第二次(8,50),M8=3677, 第7号单元入样; 第四次(5

7、,127),M5=7877, 第4号单元入样; 第六次(9,60),M9=6060, 第9号单元入样; 因此第4,7,9号单元被抽中。 三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质: 因为是放回抽样,所以是独立样本,数理统计的结 论可以在这里应用。 放回不等概率抽样对总体特征的估计 对上述结论加以说明: 独立同分布样本y1y2yn 抽中概率z1z2zn 新变量 ty1/ z1y2 /z2yn/zn 汉森-赫维茨估计量估计给出总体总量的估计, 如果对总体均值估计可按下公式: 例:某县农业局要调查全县养猪专业户今年生猪的出栏头 数,现有全县365个养猪专业户去年的生猪存栏数,各专

8、业 户的规模相差较大,决定以放回方式按与各养猪专业户上 年末生猪存栏头数成比例的PPS抽样 从中抽取30户进行调 查,结果如下,已知全县养猪专业户上年末生猪存栏头数 为9542头,试估计该县养猪专业户生猪今年出栏总头数和 抽样标准误。(摘自:“应用抽样技术”李金昌) imiyiimiyiimiyi 1157511402582119124 22313412321862226160 39371317692337215 42915214261562421104 584515114925749 63118516362212643336 7241331725145271896 8291731853328

9、30177 913741938288 1019872042304 其中第2、19号被抽中两次 解:根据题中所给资料,n=30,M0=9542, 利用汉森-郝维茨估计量,则有: 例5.2:某部门要了解所属8500家生产企业当月 完成的利润,该部门手头已有一份去年各企 业完成产量的报告,将其汇总得到所属企业 去年完成的产量为3676万吨。考虑到时间紧 ,准备采用抽样调查来推算当月完成的利润 。根据经验,企业的产量和利润相关性比较 强,且企业的特点是规模和管理水平差异比 较大,通常大企业的管理水平较高些,因此 采用与去年产量成比例的PPS抽样,从所属企 业中抽出一个样本量为30的样本。 1*38.2

10、310926105.501900191.5010 213.7010241115.00864208.0080 30.7513127.00172128.4213672 42.85301315.00104522*9.013845 52.0011021412.30220230.75480 65.00600153.864600245.00311 710.802901615.8023702528.439284 82.00430179.00940269.97842 98.8199218*21.00640275.20510 773861.05 相对误差达到20时所需样本量: 解 : 有放回不等概整群抽样 群规

11、模不等的整群抽样中,可采用等概和不等概抽样; 如果群规模差异不大,可采用等概抽样;如果群规模差异 较大,各个群对总体的影响不同,此时采用不等概抽样。 把群规模作为辅助信息,能提高估计精度,而且方差估计 形式简单。但在抽样时要掌握辅助信息,比简单随机复杂 。 假设群的抽取是按与 Mi成比例的pps抽样,每次按 Zi=Mi/M0(i=1,2,N)的概率抽取第i个群。 由汉森-赫维茨估计量, pps整群抽样总体总值估计量为 例 某企业欲估计上季度每位职工的平均病假天数。该 企业共8个分厂,现用不等概整群抽样拟抽取3个分厂, 并以置信度95%计算其置信区间。 分厂编号 职工人数 Mi 累积区间 1 2

12、 3 4 5 6 7 8 1200 450 2100 860 2840 1910 390 3200 11200 12011650 16513750 37514610 46117450 74519360 93619750 975112950 有放回不等概整群抽样 解:n3,采用PPS抽样,随机抽取的3个数为02011 ,07972,10281。调查结果如下: 有放回不等概整群抽样 注:1、对于群规模不等的整群抽样,采用不等概PPS抽 样,可以得到总体目标量的无偏估计, 2、估计量和估计量的方差都有比较简明的形式,估 计的效率也比较高,是值得优先考虑采用的方法, 3、使用条件:在抽取样本前,要掌握

13、各群规模的信 息。 多阶段有放回不等概抽样 当初级单元规模不等时,常采用不等概抽样。对初级单 元进行PPS抽样时,事先规定每个初级单元被抽中的概率 Zi=Mi/M0 (i=1N),可利用代码法,对抽中的初级单元再抽 取mi个二级单元;如果对第二阶段实行简单随机抽样,且 抽相同的样本数(第一阶段抽出来的一般是单元的规模较 大,而且彼此差别不大),此时估计形式较简单,且是自 加权的。这是实际中经常采用的多阶段不等概抽样法。 多阶段有放回不等概抽样 实际工作中,如果初级单元大小不等,人们喜欢: 1、第一阶段抽样时按放回的与二级单元成比例的PPS抽 样; 2、第二阶抽样进行简单随机抽样,且抽的样本量相

14、同, 这样得到的样本是自加权的,估计量的形式也非常简单 。 例:某县农村共有14个乡509个村,在实现小康的进程中 欲计算该县农村的恩格尔系数,即居民户的食品支出占 总支出的比例。首先要调查全县的食品总支出,现采用 了二阶段抽样,第一阶段先在14个乡中,按村的数目多 少进行PPS抽样,共抽了5个乡,第二阶段在抽中的乡中 随机地抽选6个村,然后对抽中的村做全面调查,取得的 数据如下,估计全县的食品支出总额及其标准误。 样本乡序号村数样本村数 样本村平均食品支出(万元 ) 119648 2416175 3726108 454690 5366100 多阶段有放回不等概抽样例题分析 多阶段有放回不等概

15、抽样例题分析 误差有点偏大,要想提高估计精度,必须 增加第 一阶段的样本量 例;某小区有10座高层建筑,每座高层建筑 拥有的楼层数如下表, 高层 建筑 ABCDEFGHIJ 楼层12121615101610181620 用二阶段抽样方法抽出10个搂层进行调查,第一阶段 PPS抽出5座建筑,第二阶段按简单随机抽样对每座建筑 抽取两个楼层,具体数据如下表所示,对小区总居民进 行估计,并给出估计的误差。 初级样本序号12345 居民数18,1215,1819,13 16,1016,11 多阶段有放回不等概抽样例题分析 解:已知n=5,m=2,M0=145, 这时,多阶抽样的总样本量可以这样确定: 1

16、.根据简单随机抽样时应抽样本量 2.再乘以设计效应deff获得。 多阶抽样与简单随机抽样相比其效率比较低,deff 应该大于1。实际工作中,可取deff的经验数据。不同项 目的deff不同。 下面是一案例分析 多阶有放回不等概抽样 例: 某调查公司接受了一项关于全国城市成年居 民人均奶制品每天至少喝一杯奶的人数的比例 情况的调查。确定抽样范围为全国地级及以上 城市中的成年居民。成年居民指年满18周岁以 上的居民。 第一步:确定抽样方法。 调查公司决定采用多阶抽样方法进行方案 设计,调查的最小单元为成年居民。确定调查 的各个阶段为城市、街道、居委会、居民户, 在居民户中利用 简单随机法抽取成年居民。 第二步:确定样本量及各阶

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号