第四章(整群抽样)

上传人:资****亨 文档编号:128139883 上传时间:2020-04-08 格式:PPT 页数:50 大小:390KB
返回 下载 相关 举报
第四章(整群抽样)_第1页
第1页 / 共50页
第四章(整群抽样)_第2页
第2页 / 共50页
第四章(整群抽样)_第3页
第3页 / 共50页
第四章(整群抽样)_第4页
第4页 / 共50页
第四章(整群抽样)_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《第四章(整群抽样)》由会员分享,可在线阅读,更多相关《第四章(整群抽样)(50页珍藏版)》请在金锄头文库上搜索。

1、1 抽样调查课 整群抽样 单位 浙江财经学院数统学院课程 抽样调查课教师 张锐 2 整群抽样 一 整群抽样的基本概念二 群规模相等条件下的估计三 群规模不相等条件下的估计 3 一 整群抽样的基本概念 问题的提出整群抽样的定义整群抽样的特点群的划分群规模简介 4 一个新建的居民区由近百幢居民楼组成 其中住户总数达数千户 欲用抽样调查方法估计该居民区现有的电话拥有率 a 一种是用简单随机抽样 抽取一定样本量的住户 譬如说共抽取n 250户进行调查 然后用简单估计方法对全居民区的电话拥有率进行估计 b 另一种方法是按一定方法抽取一定数量的居民楼 譬如说15幢或20幢楼 然后对这些楼中的每个住户都进行

2、调查 根据调查结果来估计整个居民区的电话拥有率 实际问题的提出 5 这两种方法的根本差别是 抽样单元不同 前者以住户为抽样单元 后者则以居民楼为抽样单元 后一种抽样方法称为整群抽样 6 Def 1一般地说 如果总体中所有较小的基本单元可以以某种形式组成数量较少但规模较大的单元 或反过来说 每个 大 单元都由若干 小 单元组成 称这些 大 单元为初级 抽样 单元 primarysamplingunit 小 单元为次级 抽样 单元 secondarysamplingunit Def 2在总体中 按一定方式抽取n个初级单元 调查每个被抽中的初级单元中所包含的全部次级单元 这种抽样方法称为整群抽样 c

3、lustersampling 也称集团抽样 7 定义 整群抽样是将总体划分为若干群 然后以群为抽样单元 从样本中随机抽取一部分群 对选中的群的所有基本单元进行调查的一种抽样技术 这里的群 cluster 就是指初级单元 整群抽样就是指将总体中的小单元整群整群地进行抽群 在前面的例子中 居民楼就是群 初级单元 而住户则是次级单元 对居民楼的抽样就是一种对住户的整群抽样 整群抽样的定义 8 整群抽样的特点 1 抽样框的编制简单 2 实施便利 节省费用 3 抽样误差相对比较大些 发挥整群抽样的优势 因为其省时省力 每个单元的平均调查费用比较少 故可通过增大样本量的方法弥补精度的损失 9 划分群的标准

4、 总体方差 群间方差 群内方差 群内方差 群间方差 此消彼长 整群抽样是对被抽中的群的群内的每个单元进行抽样 因此群内方差的影响很小 主要的误差是由群间方差影响的 分群的标准 使同一群内各单元之间的差异大一些即群内方差大些 群与群的差异尽可能的小些 即群间方差小些 10 群的规模 群的规模指组成群的单元的数量 群的规模比较灵活 可大可小 规模大些 估计的精度差些 但是费用省 规模小的 估计的精度可以提高但是费用大 费用与精度根据实际需要而定 11 群规模相等的整群抽样 一 群规模相等简介二 符号说明三 总体均值的估计及性质四 估计量方差的估计五 设计效应 12 总体中的N个初级单元即群的大小

5、群内次级单元数 都相等的情形 也就是 若总体有N个群时 每个群中所包含的单元数为M相等时 则称群规模相等 在实际问题中 只要群的规模接近时 也称为群规模相等 这时 对群的抽取一般采用简单随机抽样 无放回 一 群规模相等简介 13 二 符号说明 14 总体 样本 15 三 总体均值的估计及性质 总体平均值的估计为 性质 1 的无偏估计 建立如下盒子模型 证明 16 在这个新的盒子中有N个小盒子 每个小盒子中含元素 Yij j 1 2 M 它们的平均数是 而全体的平均数恰好构成盒子的平均数 17 我们的模型是从这N个小盒子中随机无放回地抽取n个 这n个小盒子相应的平均数为 而这n个的平均数恰好构成

6、样本平均数 总体均值 样本均值 故样本均值是总体均值的无偏估计 为什么 18 四 估计量方差的估计 19 根据 的一个无偏估计是 在实际问题中 具有某种特性的次级单元在总体中所占的比例P的估计常用整群抽样 不仅方便而且效率高 在各群大小相等的情况下 利用前面对的讨论 推导出对P的估计量及其方差 20 五 设计效应 我们已经研究了简单随机抽样和较复杂的分层抽样 不等概率抽样 整群抽样 抽样方法的不同会引起估计量精度的不同 之所以采用比较复杂的抽样手段 目的无非是提高估计的效果 因此 看一个抽样方案的效果究竟如何 一个比较好的办法是将它与简单随机抽样在相同的样本容量之下对精度作比较 这就是基什 K

7、ish 在1965年提出的设计效应 designeffect 简记为deff Deff 所考虑抽样设计估计量的方差 相同样本量下简单随机抽样估计量的方差 21 设计效应值愈大 表明它的效率愈低 若deff 1 表明所考虑的抽样设计的效率不如简单随机抽样 若deff 1 表明该抽样设计的效率比简单随机抽样高 在整群抽样中 我们在前面已经指出 如何划分群以及群的大小如何控制对于估计的精度都有影响 这就涉及到设计效应 根据设计效应的定义 考察在拥有NM个次级单元的总体中抽取容量为nM的简单随机样本 样本均值的方差为 22 因此 群大小相等的整群抽样的设计效应为 上面结果意味着 按同样的样本量 以次级

8、单元计 整群抽样的方差约为简单随机抽样的方差的倍 换句话说 为了获得同样的精度 整群抽样的样本量必须是简单随机抽样的样本量的倍 23 群内相关系数 24 例6 1在一次对某寄宿中学在校生零花钱的调查中 以宿舍为群进行整群抽样 每个宿舍有8名学生 用简单随机抽样在全部510间宿舍中抽取n 12间宿舍 全部96个学生上周每人零花钱及相关数据如下 1 试估计生平均零花钱 并给出其95 的置信区间 2 试估计群内相关系数与设计效应 3 如果是简单随机抽样 需要多少样本 25 i 240 187 162 185 206 197 154 173188 0027 19210 192 184 148 186

9、175 169 180180 5017 98149 168 145 130 170 144 125 167149 7517 32202 187 166 232 205 263 198 210207 8829 17210 285 308 198 264 275 183 231244 2545 20394 256 192 280 267 334 216 289278 5063 87192 121 172 165 152 224 195 241182 7538 77230 205 187 176 212 253 189 240211 5027 48274 208 195 307 264 258 21

10、0 309253 1344 52232 187 150 182 175 212 169 222191 1328 29342 294 267 309 258 198 244 286274 7543 70228 294 182 312 267 254 232 298258 3843 52 26 1 解 已知N 510 n 12 M 8 f n N 0 0235故 27 于是的置信度为95 的置信区间为也即 28 2 计算群内相关系数与设计效应解 由前已算出样本群间方差而群内方差为 29 30 3 若令为简单随机抽样的样本量则即可达到整群抽样96户样本量相同的估计精度 31 群规模不相等的整群抽样

11、一 等概抽样 简单估计二 等概抽样 加权估计三 等概抽样 比率估计四 例子 32 对总体均值的估计为可以看出 的方差估计为 等概抽样 简单估计 33 此法特点估计量是有偏的操作简便 易于掌握和使用适用条件 群之间的规模差异不大时 34 思路 以群规模Mi为权数 得到群总和yi 进而求得群总和均值 再除以群平均规模 等概抽样 加权估计 35 估计公式为 若未知 可用样本群平均规模代替 36 总体总量Y的估计为总量估计的另一公式为 37 估计量的方差为它的无偏估计为均值估计的方差为 38 总体均值估计为这里辅助变量不是Xi而是群规模Mi总体总量估计为 等概抽样 比率估计 39 估计量的方差分别是

12、40 与的样本估计分别是 41 42 背景 某县有33个乡 726个村 该年度某种作物总种植面积30525亩 现采用等概抽样随机抽出10个乡 要求估计全县总产量 计算抽样误差 调查资料如下 案例分析 43 样本乡编号 村庄数Mi 作物总产 乡 yi 万公斤 种植面积 乡 xi 亩 12345678910 15182614202821193117 22 022 830 221 725 331 226 020 533 823 6 800780100070088011008508001200830 1 46671 26671 16151 551 2651 11431 23811 0791 09031 3882 合计209257 18940 44 分别采用几种方法估计1 等概抽样 简单估计 45 评价 方法虽简单 却是有偏估计 46 2 等概抽样 加权估计 47 评价 虽是无偏估计量 但方差估计没有改观 48 3 等概抽样 比率估计 评价 有偏 n较大时比较理想 49 其它辅助变量的估计已知 种植面积X 30525 亩 用种植面积为辅助变量评价 和相比 更小 因而有更好的估计效果 选择关系密切的辅助变量 感谢亲观看此幻灯片 此课件部分内容来源于网络 如有侵权请及时联系我们删除 谢谢配合

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号