分层随机抽样

上传人:飞*** 文档编号:51604638 上传时间:2018-08-15 格式:PPT 页数:121 大小:3.59MB
返回 下载 相关 举报
分层随机抽样_第1页
第1页 / 共121页
分层随机抽样_第2页
第2页 / 共121页
分层随机抽样_第3页
第3页 / 共121页
分层随机抽样_第4页
第4页 / 共121页
分层随机抽样_第5页
第5页 / 共121页
点击查看更多>>
资源描述

《分层随机抽样》由会员分享,可在线阅读,更多相关《分层随机抽样(121页珍藏版)》请在金锄头文库上搜索。

1、第三章 分层随机抽样3.1 定义与符号 一、分层抽样(stratified sampling)、分层随机抽样 (stratified random sampling) u分层抽样:将容量为N的总体分成L个不相重叠的子总 体,子总体的大小分别为N1、 N2、 NL,皆已知,且则每个子总体就称为层。从每层中独立地进行抽样, 这样的抽样方法称为分层抽样。 u分层随机抽样:在分层抽样中,如果每层中的抽样都 是简单随机抽样,则这样的分层抽样称为分层随机抽 样。二、分层抽样的适用场合 不仅需要估计总体参数,也需要估计各层参数。 便于管理,按现成的地理分布或行政划分来分层。 希望样本中能包含各个部分,以增加

2、代表性。 把一个内部差异很大的总体分成几个内部比较相似的 子总体(层)进行分层抽样,可以提高估计量的精度 。如果有极端值,也可以把它们分离出来形成一层。 即“层间方差大,层内方差小”。三、进行分层抽样时,应注意的方面 层内抽样设计的选择。 分层变量的选择。 各层样本量的分配,样本总量的确定。 层数。 层的分界。3.2 简单估计量及其性质对总体均值或总值的估计:例3.1 总体由1000人组成,按以往的收入情况将总体分成 两层:第一层(高收入层),20人;第二层(低收入层 ),980人。从第一层随机抽取2人,调查上月收入,得 数据(单位:元)1200及1600;从第二层随机抽取8人, 调查上月收入

3、,得数据(单位:元)220、230、180、 320、400、340、280、360。估计这1000人上月平均收入 。 解:对比:一、分层抽样中,例3. 调查某地区的居民奶制品年消费支出,以居民 户为抽样单元,根据经济及收入水平将居民户分为 层,每层按简单随机抽样抽取户,调查数据如下 ,估计该地区居民奶制品年消费总支出及估计的标准 差。 样本户奶制品年消费支出 层层居民 户总户总 数样样本户户奶制品年消费费支出123456789101200104001101510408090024005013060801005516085160170375018026011001406020018030022

4、0415005035150203025103025解:(3)该地区居民奶制品年消费总支出的置信度为95%的 置信区间为例3.3:某市进行家庭收入调查,分城镇居民及农村居 民两部分抽样,在全部城镇居民23560户中随机抽取 300户,在全部农村居民148420户中随机抽取250户 ,调查结果是城镇年平均户收入为15180元,标准差 为2972元;农村年平均户收入为9856元,标准差为 2546元。求全市年平均户收入的置信度为90%的置信 区间。 解:3、分层随机抽样中,总体比例P的简单估计估计的性质 (1)(2)(3 )(4 )4例3.4:在某行业技术人员中,按年龄分层,调查会使用 计算机者所占

5、的比例。数据如下:试估计总体中会计算机者占的比例。层层人数入样样人数样样本中会使用 计计算机的人数30岁岁以下7781712430-35岁岁7497681236-40岁岁9779892241-45岁岁4627421145岁岁以上5366504总计总计35050320解:3.3 比率估计量及其性质在大样本时,1. 分别比估计:若 各层的样本量比较大时,各层可分别进行比估 计,再进行加权平均,所得估计量称为分别比估计。2. 联合比估计:若 某些层的样本量比较小时,可以采用联合比估计。先按分层随机抽样公式估计Y和X ,然后用 它们构造比估计,所得估计量称为联合比估计。3.各层分别比估计量与联合比估

6、计量的比较 从偏倚的角度看,各层分别比估计量 的偏倚较大,从方差的角度看,除了各 层比率 均相等时, 外, 一般只要各层的样本量均较大时,各层 比估计更加有效,即有: 因此,当 均大时,用分别比估计量 否则 ,用联合比估计量 较好。 如果各层的样本量 不大,或者各层的比率 差异较小(成本考虑 近似成立,联 合比估计并非更好,而只是与分别比估计相 当,但联合比估计本身由于只需知道辅助变 量总的特征而非各层特征故显得便宜),则 应优先采用联合比估计,这在直观上也是比 较容易理解的。比率估计量运用举例 例:某县欲调查某种农作物的产量,由于平原和山区 的产量有差别,故拟划分为平原和山区两层采用分层 抽

7、样。同时当年产量和去年产量之间有相关关系,故 还计划采用比估计方法。已知平原共有120个村,去 年总产量为24500(百斤),山区共有180个村,去年 总产出为21200(百斤)。现从平原用简单随机抽样 抽取6个村,从山区抽取9个村,两年的产量资料列在 下表中。试用分别比估计与联合比估计分别估计当年 的总产量,给出估计量的标准误,并对上面的两种结 果进行比较和分析。 平原样本去年产量/百斤 当年产量/百斤 1204210 214316038275 42562805275300 6198190山区样本去年产量/百斤当年产量/百斤1137150 2189200 3119125 46360 5103

8、110 61071007159180 8637598790解:根据题目中已给出的已知条件,将去年总产量作为辅助变量X,计算整 理得:层( h)平原 (1 )120624500202.51931.0490.99086757.55132山区 (2 )180921200121.1114.11.0610.98812242.361788.11 (1) 分别比估计:根据 , ,可 得分别比估计的标准误:将表中数据代入,得因此,分别估计的标准误为 (2)联合比估计:根据可得联合比估计的标准误:将表中数据和 代入,得 因此,联合比估计的标准误为可见,此时的分别比估计和联合比估计差 异不大,联合比估计的精度略高

9、于分别 比估计。3.4 回归估计量及其性质在大样本时,1. 分别回归估计:若 各层的样本量比较大时,各层可分别进行回 归估计,再进行加权平均,所得估计量称为分别回归估计。 当各层的理论回归系数之间有较大差异时 ,考虑用此法。 当 为设定的常数(如 = )时, 是 的无偏估计量,且在(h=1、2、L) 时达到极小值 : 当回归系数需从样本估计时,令为 的最小二乘估计。当每层 的 都较 大时, 其估计量为2. 联合回归估计:若 某些层的样本量比较小时,可以采用联合回归 估计。对两个指标先求总体均值或总和的分层估计,然后用它们 构造回归估计,所得估计量称为联合回归估计。 当 事先设定(如 =B )时

10、, 也是 的 无偏估计,且当 时方差达到极小值式中即 是各层回归系数 的加权平均值。由所以对于最优的 的选择,除非各层的 ,否则,分别估计优于联合估计。 当回归系数需从样本估计时,令作为 的样本估计。 若是按比例分配的,用 代替 -1,则上 式简化为 此时其估计量为= 总结:若确信每层中的回归线性很好, 又不大, 的变化也不大,则应采用 ;而当回归是线性的,但 的变化很大 , 都比较大时,应采用 ;若回归的 线性不好,除非 都相当大,否则还是 用 比较保险。3.5 各层样本量的分配在分层随机抽样中,假设样本量n固定样本量分配对精度的影响 在分层随机抽样中,若样本量n固定, 则它在各层的不同分配

11、,也即取不同的,将对估计量的精度有影响。 1)各层大小或权重不同; 2)各层的标准差有差异。 例:某个总体分为三层,其层权 及 标准差 见下表。设总样本量为300 ,考虑4种不同的样本量分配,并计算 出每种分配下,总体均值估计量的方差 。样本量的不同分配对方差的影响h常 数 分 配与 成 正比与 成 正比与 成正比10.220100 49604020.330100 110909030.534100 1411501703.8 63.113.093.001.比例分配:指按各层层权(各层单元数占总体单元数的 比例)进行分配。 当估计比例P时,同样有:例1:假设某公司欲估计某类产品的用户的每年平均支出

12、 。企划人员拟就整个潜在用户的名单,共8000户。采用分层随机抽样抽取样本200户,求按比例分配时 各层样本量。层层每层层中的潜在用户户少用2000中等4000多用2000总总和N=8000解:例2: 某电视台要在某地区的住户中,调查该台的晚间新 闻的收视率。该地区包括3个县,共有67401家住户。假 定该电视台采用等比例分层随机抽样分别从三个县抽 取住户,样本量为1500。每个县的总户数以及抽样数 据列表如下:求该地区新闻收视率的95%的置信区间。县县 i每个县县的户户数 Ni每个县县被抽出 的户户数ni 每个县县的样样本收 视视率 pi1 2 348107 124196875 107127

13、6153 0.27 0.18 0.17合计计N=67401n=1500解:分层随机抽样时,收视率P的估计为:收视率P的置信度为95%的近似置信区间为:即有95%的把握可以认为,该地区的新闻收视率在22.1% 26.5%之间。2.最优分配:例3.3:某市进行家庭收入调查,分城镇 居民及农村居民两部分抽样,在全部城 镇居民23560户中随机抽取300户,在全 部农村居民148420户中随机抽取250户 ,调查结果是城镇年平均户收入为 15180元,标准差为2972元;农村年平 均户收入为9856元,标准差为2546元。 求全市年平均户收入的置信度为90%的 置信区间。例3: 在例3.3中,样本量仍

14、为n=550。城镇居民23560户,农村居民148420户。城镇居民与农村居民的年收入的标准差分别为S1=3000元 ,S2=2500元。对城镇居民与农村居民抽样平均每户的费用比为1:2。试求城镇与农村两层比例分配与最优分配的样本量。又若 不考虑费用因素,那么最优分配的结果如何?解 :例4:调查某地区的居民奶制品年消费支出,以居民户为 抽样单元,根据经济及收入水平将居民户分为层, 每层按简单随机抽样抽取户,调查数据如下,估 计该地区居民奶制品年消费总支出及估计的标准差。 则按比例分配和Neyman分配时,各层的样本量为多少 ? 表:样本户奶制品年消费支出层层 居民 户总户总 数样样本户户奶制品

15、年消费费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025解:按比例分配时,对于Neyman分配,某些层需要超过100%抽样时的 修正 若抽样比较大,而个别层的 也很大,则按最优分配,一些层的 有 可能超过 (即 1)。这时,可以对 这些极端层进行100%抽样。然后将剩 下的其余的层可用的样本量再按最优分 配法在其它各层间重新进行分配。 以内曼分配为例,其具体步骤如 下: 假定: ,则令 。对 部分 作内曼分配: 此时,若所有的 (h2)则分配合 理。否则,若有 :,则 对 部分再作内曼分配: 若所有

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号