第四章 分层随机抽样4.1 概述 4.1.1分层抽样分层抽样(stratified sampling)、分层随机抽样分层随机抽样(stratified random sampling):分层抽样分层抽样:将容量为N的总体分成L个不相重叠的子总体,子总体的大小分别为N1、 N2、 NL,皆已知,且 每个子总体就称为层从每层中独立地进行抽样,这样的抽样方法称为分层抽样分层抽样分层随机抽样分层随机抽样:在分层抽样中,如果每层中的抽样都是简单随机抽样,则这样的分层抽样称为分层随机抽样4.1.2分层抽样的适用场合分层抽样的适用场合:(1)不仅需要估计总体参数,也需要估计各层参数2)便于管理,按现成的地理分布或行政划分来分层3)希望样本中能包含各个部分,以增加代表性4)把一个内部差异很大的总体分成几个内部比较相似的子总体(层)进行分层抽样,可以提高估计量的精度如果有极端值,也可以把它们分离出来形成一层 即“层间方差大,层内方差小”4.2 简单估计量及其性质对总体均值或总值的估计:一、分层抽样中一、分层抽样中例4.:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户分为层,每层按简单随机抽样抽取户,调查数据如下,估计该地区居民奶制品年消费总支出及估计的标准差。
表:样本户奶制品年消费支出表:样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025解:(3)该地区居民奶制品年消费总支出的置信度为95%的置信区间为例4.3:某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇居民23560户中随机抽取300户,在全部农村居民148420户中随机抽取250户,调查结果是城镇年平均户收入为15180元,标准差为2972元;农村年平均户收入为9856元,标准差为2546元求全市年平均户收入的置信度为90%的置信区间解:3、分层随机抽样中,总体比例P的简单估计估计的性质(1)(2)例:在某行业技术人员中,按年龄分层,调查会使用计算机者所占的比例数据如下:试估计总体中会计算机者占的比例层人数入样人数样本中会使用计算机的人数30岁以下778171243035岁749768123640岁977989224145岁4627421145岁以上5366504总计35050320解:4.3 各层样本量的分配在分层随机抽样中,假设样本量n固定1.比例分配:指按各层层权(各层单元数占总体单元数的比例)进行分配。
例:假设某公司欲估计某类产品的用户的每年平均支出企划人员拟就整个潜在用户的名单,共8000户 采用分层随机抽样抽取样本200户,求按比例分配时各层样本量层每层中的潜在用户少用2000中等4000多用2000总和N=8000例. 某电视台要在某地区的住户中,调查该台的晚间新闻的收视率该地区包括3个县,共有67401家住户假定该电视台采用等比例分层随机抽样分别从三个县抽取住户,样本量为1500每个县的总户数以及抽样数据列表如下: 求该地区新闻收视率的95%的置信区间县i每个县的户数Ni每个县被抽出的户数ni 每个县的样本收视率 pi1234810712419 6875 1071 276 153 0.270.180.17合计N=67401n=1500解:分层随机抽样时,收视率P的估计为: 收视率P的置信度为95%的近似置信区间为:即有95%的把握可以认为,该地区的新闻收视率在22.1%26.5%之间2.最优分配:例.在例4.3中,样本量仍为n=550 城镇居民23560户,农村居民148420户 城镇居民与农村居民的年收入的标准差分别为S1=3000元,S2=2500元 对城镇居民与农村居民抽样平均每户的费用比为1:2, 试求城镇与农村两层比例分配与最优分配的样本量。
又若不考虑费用因素,那么最优分配的结果如何?例3.:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户分为层,每层按简单随机抽样抽取户,调查数据如下,估计该地区居民奶制品年消费总支出及估计的标准差表:样本户奶制品年消费支出表:样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025解:按比例分配时, 对于Neyman分配,例:在例3.3中,样本量仍为n=550,城镇居民与农村居民年收入的标准差估计分别为3000元和2500元,对城镇居民与农村居民抽样品均每户的费用比为1:2,试求(1)城镇与农村两层比例分配样本量;(2)最优分配的样本量解: (1)按比例分配时, (2)对于Neyman分配,4.4 样本总量的确定1.在分层随机抽样中,影响样本总量n的因素:(1)只讨论对总体参数的精度要求;(2)样本量的分配形式2.在估计总体均值时,若精度要求给定,若精度要求给定,样本总量n的确定公式:证明:*例:某流水线生产了1500件产品,为估计产品的合格率,将产品按早、中、晚班分成三层。
各班产量分别为:早班550件,中班500件,晚班450件根据以往的情况,每班合格率均在95%左右若要求以95%的把握使估计量的绝对误差不超过2%,分别确定按比例配置和按Neyman配置时总样本量和各层样本量解:例: (续例3.2)如果要求在置信度置信度95%下,相对误差不超过下,相对误差不超过10%,则按比比例分配例分配和Neyman分配时,总样本量分别为多少?解:3.在估计总体均值时,若总费用给定若总费用给定,精度最高时,样本总量n的确定公式:4.5 分层时的若干问题1.抽样效果分析:抽样效果分析:(1)分层随机抽样与简单随机抽样的比较:)分层随机抽样与简单随机抽样的比较: 在相同的样本量下,比较二者的估计量的方差的大小分层随机抽样以比例分配为代表 (2)最优分配(以)最优分配(以Neyman为例)与比例分配在精度上的比较:为例)与比例分配在精度上的比较:理论上讲,最优分配的精度应高于相同样本量的任何其他分配当然,也高于比例分配的精度但最优分配在精度上的改进有多大呢?*最优分配对于估计总体比例P的情形较少使用除非特别小或特别大)2.层的划分:层的划分:()层的划分原则:()层的划分原则: a. 一种原则是仅为满足估计部分(即子总体)参数的需要或为了组织实施的便利。
b.另一种原则是尽可能提高抽样精度,减少估计量的方差需要选择恰当的变量变量作为分层标志 分层标志的选择:可以是调查指标的前期值 可以是与调查指标有较大线性相关的指标例如交通运输量的调查中,车辆的吨位是与其两个主要指标:运量与周转量密切相关的2)层权对估计量的影响:)层权对估计量的影响: (3)最优分层如何确定各层的分点:)最优分层如何确定各层的分点:下面介绍一种确定层界的快速近似法累积平方根法 它是由Dalenius和Hodges提出的 其做法:将分层变量的分布的累积平方根进行等分来获得最优分层,所以成为累积平方根法累积平方根法例:某地区电信部门在对利用上网的居民家庭安装ADSL意愿进行调查时,以辖区内最近三个月有上网支出的居民用户为总体(上网费为0.02元/分钟),并准备按上网费支出(记为x)进行分层,试确定各层的分点 居民家庭上网费支出分布居民家庭上网费支出分布范围x频数f累积0565328255.5934255.593451089240298.7306554.3241101536128190.0737744.3977152077525278.43311022.831202562407249.81391272.645253024591156.81521429.46304024586221.74761651.20840509582138.43411789.642506015761177.54441967.18660708099127.27142094.45770805676106.54582201.0038090345383.102352284.10690100425692.26052376.3661001501246111.62442487.9915020080089.442722577.43320025036560.415232637.84825030090302667.8483003503518.708292686.55735040057.0710682693.6284004501210.954452704.58245078.36662712.949 *计算累积频数时,应注意x的取值区间不是等长的。
30元以下,以5元为间距,计算时,按 累积; 30100元,以10元为间距,计算时,按 累积; 100元以上,以50元为间距,计算时,按 累积解:若取层数为4,则应每隔2712.949/4=678.237分一层 分点应使得累积 最接近678.237, 2* 678.237 =1356.474, 3* 678.237 =2034.712 所以较合理的分层为:(4 4)层数的确定:)层数的确定:一般地,每层至少有2个样本单元, 以不超过6层为宜3.3.事后分层事后分层:(:(poststratificationpoststratification) 是用简单随机抽样方法简单随机抽样方法或按其他标识分层的严格按比例分配按其他标识分层的严格按比例分配分层随机抽样分层随机抽样,从总体中抽取一个样本量为n的样本然后对每个样本单元按分层原则进行分层。