第三章 分层随机抽样第三章 分层随机抽样 3.1 概述概述 3.2 简单估计量及其性质 简单估计量及其性质 3.3 样本量在各层的分配 样本量在各层的分配 3.4 回归估计量及其性质回归估计量及其性质 3.5 各层样本量的分配各层样本量的分配 3.6 总样本量的确定 总样本量的确定2024/9/31§简单随机抽样只适合小型的抽样调查简单随机抽样只适合小型的抽样调查: 1. 抽样框抽样框 2. 代表性代表性 如如:了解中国各民族的情况了解中国各民族的情况:(鄂伦春族鄂伦春族)2024/9/32第一节 概述第一节 概述 一.定义与作用一.定义与作用 (一一)分层抽样和分层随机抽样分层抽样和分层随机抽样 先将总体N个单元划分成L个互不重复的子总体,每个子先将总体N个单元划分成L个互不重复的子总体,每个子 总体称为层,它们的大小分为别 ,这L个层总体称为层,它们的大小分为别 ,这L个层 合起来就是整个总体(N= )。
合起来就是整个总体(N= ) 然后,在每个层中分别然后,在每个层中分别独立独立进行抽样,这种抽样就是分层抽样,进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本如果每层都是简单随机抽样,则所得到的样本称为分层样本如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本称为分层随机抽样,所得到的样本称为分层随机样本不重不漏2024/9/33 各层中的抽样是独立进行的,因此,在各各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各层的可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的样本尽可能反映总体的特性以及子总体的特性 分层抽样有时也称为分层抽样有时也称为类型抽样或分类抽样类型抽样或分类抽样2024/9/34 分层随机抽样三原则:分层随机抽样三原则:((1))每层都抽样每层都抽样;;((2)各层都)各层都独立独立地抽样;地抽样;((3)各层的抽样都是)各层的抽样都是简单随机抽样简单随机抽样。
2024/9/35 (二)特点:(二)特点: 11.分层抽样的抽样效率较高,也就是说分层分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高抽样的估计精度较高 注意:注意: 分层抽样估计量的方差只和层内方差有关,分层抽样估计量的方差只和层内方差有关,和层间方差无关和层间方差无关 22.分层抽样不仅能对总体指标进行推算,分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算而且能对各层指标进行推算 如如:消费物价指数消费物价指数(全国和各省全国和各省) 33.层内抽样方法可以不同,而且便于抽样层内抽样方法可以不同,而且便于抽样 工作的组织工作的组织2024/9/36(三三)作用作用 可可以以对对各各层层的的参参数数进进行行估估计计, 有有助助于于提提高估计精度高估计精度2024/9/37二.使用场合二.使用场合 应用条件:应用条件: 适合于适合于各层差异较大各层差异较大,有进行分层的辅助信息有进行分层的辅助信息 层的划分原则:层的划分原则:1.层内单元具有相同性质,通常按调查对象的不同类型进1.层内单元具有相同性质,通常按调查对象的不同类型进 行划分,行划分,这时,分层抽样能够对每一类的目标量进行估这时,分层抽样能够对每一类的目标量进行估 计。
计2.尽可能使层内单元的标志值相近,层间单元的差异尽可2.尽可能使层内单元的标志值相近,层间单元的差异尽可 能大,从而达到提高抽样估计精度的目的能大,从而达到提高抽样估计精度的目的3.既按类型又按层内单元标志值相近的原则进行多重分3.既按类型又按层内单元标志值相近的原则进行多重分 层,同时达到实现估计类值以及提高估计精度的目的层,同时达到实现估计类值以及提高估计精度的目的4.为了抽样组织实施的方便,通常按行政管理机构设置进4.为了抽样组织实施的方便,通常按行政管理机构设置进 行分层2024/9/38如:对全国汽车货运量调查,目的是不仅要如:对全国汽车货运量调查,目的是不仅要了解全国货运量,而且推算不同经济成分了解全国货运量,而且推算不同经济成分货运量 首先为组织方便首先为组织方便,按省分层;各省再按按省分层;各省再按经济成分分层;为提高抽样效率经济成分分层;为提高抽样效率,再按吨位再按吨位分层2024/9/39三.符号说明三.符号说明层号:层号:h(h=1,2…,L) 第第h层的记号如下层的记号如下: 单元总数:单元总数:样本单位数: 第样本单位数: 第i个单元标志值为个单元标志值为: 从该层中抽取的样本的单元值为从该层中抽取的样本的单元值为: 层权: 层权: 抽样比: 抽样比: 总体均值:总体均值: 样本均值:样本均值:2024/9/310 §层内方差:层内方差:§样本方差:样本方差:2024/9/311第二节 简单估计量及其性质第二节 简单估计量及其性质 一.总体均值的估计一.总体均值的估计 (一一)简单估计量的定义简单估计量的定义 对于分层样本,对总体均值对于分层样本,对总体均值 的估计是通过对的估计是通过对各层的各层的 的估计的估计,按层权按层权 加权平均得到的。
加权平均得到的公式为公式为: 2024/9/312 如果得到的是如果得到的是分层随机样本分层随机样本,则总体均值则总体均值 的简单的简单估计为估计为: (二二)估计量的性质估计量的性质 性质性质1 对于对于一般的分层随机抽样一般的分层随机抽样,如果如果 是是 的无偏估计的无偏估计(h=1,2,…L),则则 是是 的无偏估计的无偏估计即对各层估计是无偏的,则对总体的估计也是无偏即对各层估计是无偏的,则对总体的估计也是无偏的 的方差为的方差为: 由于各层的抽样由于各层的抽样是相互独立的是相互独立的2024/9/313证明:因各层抽样是相互独立,则证明:因各层抽样是相互独立,则 也相互独立,也相互独立,则有则有2024/9/314性质性质2 对于对于分层随机抽样分层随机抽样 , 是是 的无偏估计的无偏估计, 的方差为的方差为: 2024/9/315 性质性质3 对于分层随机抽样对于分层随机抽样, 的一个无偏估的一个无偏估计为:计为:2024/9/316§注注: 当当 适当的大,各层样本适当的大,各层样本平均数平均数 均可适用正态近似,因此一般地均可适用正态近似,因此一般地 也适用于正态近似其置信区间。
也适用于正态近似其置信区间2024/9/317二.总体总量的估计二.总体总量的估计 (一)简单估计量的定义(一)简单估计量的定义 总体总量总体总量Y的估计为:的估计为: 分层随机样本分层随机样本: (二)估计量的性质(二)估计量的性质性质4 对于性质4 对于一般的分层抽样一般的分层抽样,如果 是,如果 是 偏估计,则 偏估计,则 是是Y的无偏估计的无偏估计 的方差为: 的方差为:2024/9/3182024/9/319 性质5 对于性质5 对于分层随机抽样分层随机抽样, 的方差为: 的方差为: 性质6 对于分层随机抽样性质6 对于分层随机抽样, 的一个无偏估计为:的一个无偏估计为: 2024/9/320【【例例3.1】】调查某地区的居民奶制品年调查某地区的居民奶制品年 消费支出,以居民户为抽样单元,根据经消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如按简单随机抽样抽取10户,调查获得如下数据(单位:元),估计该地区居民奶下数据(单位:元),估计该地区居民奶制品年消费总支出及估计的标准差。
制品年消费总支出及估计的标准差2024/9/321样本户奶制品年消费支出样本户奶制品年消费支出层层 居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出112233445566778899101011200200101040400011011015151010404080809090002240040050501301306060808010010055551601608585160160170170337507501801802602601101100014014060602002001801803003002202204415001500505035351515002020303025251010303025252024/9/322§解: N = 200+400+750+1500=2850§ =10( h=1,2,3,4)各层的层权及抽样比为: 2024/9/323各层样本均值及样本方差为:各层样本均值及样本方差为:2024/9/324§该地区居民奶制品年消费总支出该地区居民奶制品年消费总支出: :§估计量方差及标准差的样本估计为估计量方差及标准差的样本估计为: :2024/9/325 在在95%的概率保证下的概率保证下该地区居民该地区居民奶制品年消费总支出区间为奶制品年消费总支出区间为: :2024/9/326 【【例例3.2】】某市进行家庭收入调查某市进行家庭收入调查, ,分城镇居民分城镇居民和农村居民两部分抽样和农村居民两部分抽样, ,在全部城镇在全部城镇2356023560户中户中抽取抽取300300户户, ,在全部农村在全部农村148420148420户中抽取户中抽取250250户户( (均按简单随机抽样进行均按简单随机抽样进行),),调查结果是城镇年调查结果是城镇年平均户收入为平均户收入为1518015180元元, ,标准差为标准差为29722972元;农村元;农村年平均收入为年平均收入为98569856元元, ,标准差为标准差为25462546元。
求全元求全市年平均户收入的估计及其市年平均户收入的估计及其90%90%的置信区间的置信区间2024/9/327解:2024/9/3282024/9/329§全市年户均收入的置信区间全市年户均收入的置信区间: 10585.39 1.645 142.287,即即 10351.33 — 10819.45(元元)注注:由于城镇居民与农村居民收入水平,抽样由于城镇居民与农村居民收入水平,抽样比不同比不同(前者大于后者前者大于后者)如果不分层,计算如果不分层,计算样本平均数作为全市户均年收入是不合理样本平均数作为全市户均年收入是不合理的的:2024/9/330三三. . 总体比例的估计总体比例的估计 (一一)简单估计量的定义简单估计量的定义 总体比例总体比例P的估计为的估计为:(二二)估计量的性质估计量的性质 如果定义如果定义 1, 第第i个个单元具有所考元具有所考虑的特征的特征 0, 其他其他 i=1,2…N 2024/9/331§性质性质7 对于对于一般的分层抽样一般的分层抽样,如果 是,如果 是 的无偏估计的无偏估计(h=1,2,…L),则则 是是P的无偏估计的无偏估计. 的方差为的方差为: 性质性质8 对于对于分层随机抽样分层随机抽样, 是 是P的一个无偏估的一个无偏估计计, 的方差为的方差为: 因为因为: 及及 2024/9/332 2024/9/333 性质9性质9 对于分层随机抽样, 对于分层随机抽样, 的一个无偏估计为:的一个无偏估计为: 2024/9/334【例例3.3】§了解某地区居民户拥有家庭电脑的情况如下,估计该了解某地区居民户拥有家庭电脑的情况如下,估计该地区家庭拥有电脑的比例及估计的标准差。
地区家庭拥有电脑的比例及估计的标准差 样本户拥有家庭电脑情况样本户拥有家庭电脑情况层层居民户居民户总数总数样本户拥有家庭电脑情况样本户拥有家庭电脑情况11 22 3344 55 6677889910101120020000 00 0011 00 00001100002240040000 11 0000 00 00000011003375075011 11 0000 00 001100110044 1500150011 00 0000 00 00000000 002024/9/335解:2024/9/336 该地区家庭拥有电脑的比例的估计、估计量的方差、该地区家庭拥有电脑的比例的估计、估计量的方差、估计的标准差为估计的标准差为:2024/9/337(三三) 总体具有所考虑特征单元总数总体具有所考虑特征单元总数A的估计的估计§它的方差 及方差估计 分别是:2024/9/338 【例例3.4】为调查某个高血压高发病地区青少年与成年人高血为调查某个高血压高发病地区青少年与成年人高血压的患病率压的患病率, ,对对1414岁以上的人分四个年龄组进行岁以上的人分四个年龄组进行分层随机抽样分层随机抽样, ,调查结果如下调查结果如下, ,求总体高血压的患病率求总体高血压的患病率P P的估计及其标准差的的估计及其标准差的估计。
估计 高血压患病率调查数据高血压患病率调查数据年龄组年龄组(岁岁)层权层权层样本量层样本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.5362024/9/339解: P的估计量为:§ 为求为求 的方差估计的方差估计,取取2024/9/3402024/9/3413.3 比率估计及其性质比率估计及其性质§(一一)分别比率估计分别比率估计 条件:条件: 各层的样本量都比较大各层的样本量都比较大的情况下的情况下 方法:各层分别进行比率估计,将各层加权汇总得方法:各层分别进行比率估计,将各层加权汇总得到总体指标的估计到总体指标的估计先比后加权先比后加权)总体均值总体均值 和总体总量和总体总量Y的分别比率估计量的分别比率估计量:已知已知各层各层的的均值和总量均值和总量2024/9/342§对分别比估计,若各层样本量都比较大,则有对分别比估计,若各层样本量都比较大,则有:为第为第h层层X与与Y的相关系数的相关系数注:公式中注:公式中S、、R、、 用样本数据替代用样本数据替代2024/9/343§证明:根据比估计量的性质,当证明:根据比估计量的性质,当 比较大时,则有:比较大时,则有: 所以所以2024/9/344§总量:总量:2024/9/345§(二二) 联合比率估计联合比率估计条件:条件:各层的样本量不是都很大各层的样本量不是都很大的情况的情况方法:先分别对方法:先分别对 作分层估计,然后再采用比估计作分层估计,然后再采用比估计方法。
先加权后比)方法先加权后比)总体均值总体均值 和总体总量和总体总量Y的联合比率估计量:的联合比率估计量:已知已知总体总体的的均值和总量均值和总量2024/9/346的均方误差为的均方误差为:v对联合比估计,若总样本量对联合比估计,若总样本量 n比较大,则有比较大,则有:证明:证明:p75注意与分别比估计方差公式的差异注意与分别比估计方差公式的差异(Rh)2024/9/347(三三) 分别比率估计量与联合比率估计量的比较分别比率估计量与联合比率估计量的比较§如果如果各层的样本量都较大各层的样本量都较大,且有理由认为,且有理由认为各层的比率各层的比率 差异较大差异较大,则,则分别比率估计分别比率估计优于联合比率估计优于联合比率估计§当当各层的样本量不大各层的样本量不大,或,或各层比率各层比率 差异很小差异很小,则,则联合比率估计联合比率估计更好些 【【例例4.4】】某市某市1996年对年对950家港口生产单家港口生产单位完成的吞吐量进行了调查,位完成的吞吐量进行了调查,1997年欲对年欲对全市港口生产单位完成的吞吐量进行抽样全市港口生产单位完成的吞吐量进行抽样调查。
对港口生产单位按非国有调查对港口生产单位按非国有(h=1)和和国有国有(h=2)分为两层,单位数分别为分为两层,单位数分别为800家家和和150家,分别在两层中调查了家,分别在两层中调查了10家、家、15家港口生产单位,调查数据如下表,试估家港口生产单位,调查数据如下表,试估计计1997年全市港口生产单位完成的吞吐量年全市港口生产单位完成的吞吐量2024/9/349 1997年非国有和国有企业调查数据年非国有和国有企业调查数据ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465接上表接上表128176501391911601411601070157356982024/9/351h=1,非国有H=2,国有合计1015258001509500.8421050.15789510.01250.1171400102900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.0497252024/9/352§1.按分别比率估计量估计按分别比率估计量估计:2024/9/3532.按联合比率估计量估计按联合比率估计量估计2024/9/354n两种途径:两种途径:n分分别回回归估估计::对每每层样本分本分别求取回求取回归估估计量,量,然后然后对各各层的回的回归估估计量量进行加行加权平均,即先平均,即先““回回归””后后““加加权””;;n联合回合回归估估计::对两个两个变量先分量先分别计算出算出总体体总值或或总体均体均值的分的分层简单估估计量,然后再量,然后再对它它们的分的分层估估计量来构造回量来构造回归估估计,即先,即先““加加权””后后““回回归””。
3.3回归估计量及其性质回归估计量及其性质分别回归估计量同样要求每层的样本量都比较大,如果达不分别回归估计量同样要求每层的样本量都比较大,如果达不到这个要求,加之各层的简单随机抽样误差较大,整个分层到这个要求,加之各层的简单随机抽样误差较大,整个分层随机抽样就会产生较大的偏差,这时要使用联合比估计量随机抽样就会产生较大的偏差,这时要使用联合比估计量2024/9/3563.3分层随机抽样下的回归估计分层随机抽样下的回归估计 ( (一一) ) 分别回归估计分别回归估计 适用适用: 各层样本量不小的情况各层样本量不小的情况 方法方法: 先对各层的平均数或总和作回归估计,然先对各层的平均数或总和作回归估计,然后按层权平均或相加,得到总体指标的估计后按层权平均或相加,得到总体指标的估计先回归再加权)回归再加权)定义定义 3.6 分别回归估计是指在分层随机抽样中,分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均对对各层的回归估计按总体层权进行加权平均对 的分别回归估计为:的分别回归估计为:2024/9/357§总体均值的分别估计量:总体均值的分别估计量:§总体总量的分别估计量:总体总量的分别估计量:§ 1、当各层的回归系数为给定的常数时,分别估计、当各层的回归系数为给定的常数时,分别估计量是无偏的,其方差为:量是无偏的,其方差为:2024/9/358§并且当并且当 时时, 达达到最小到最小,即即§2、通常、通常 未知未知,可以用样本回归系数可以用样本回归系数 作为作为 的估计的估计:§这时分别估计量是有偏的,但当每一层的样本量这时分别估计量是有偏的,但当每一层的样本量2024/9/359§都较大时,估计的偏倚可以忽略,其方差近似都较大时,估计的偏倚可以忽略,其方差近似为为:§方差方差 的样本估计为的样本估计为:§式中式中,第第h层样层样本相关系本相关系数的平方数的平方2024/9/361(二二) 联合回归估计联合回归估计§条件:各层样本量不大条件:各层样本量不大 联合回归估计是对联合回归估计是对 作分层估计;然作分层估计;然后构造总体均值和总量的联合估计量。
后构造总体均值和总量的联合估计量先分层(先分层再回归)再回归) 总体均值、总量的联合估计量:总体均值、总量的联合估计量: 其中:2024/9/362 1、当回归系数为事先给定的常数时,联合估计量、当回归系数为事先给定的常数时,联合估计量 是无偏的,其方差为:是无偏的,其方差为:2024/9/363§当当 取取 时时, 达到最小达到最小 2、当回归系数未知时,取、当回归系数未知时,取 为为 的样本估计:的样本估计: 第第h层层样本相样本相关系数关系数的平方的平方2024/9/365这时联合估计是有偏的这时联合估计是有偏的,但当样本量但当样本量n 较大时较大时,估估计量的偏倚趋于零计量的偏倚趋于零,回归估计是渐近无偏的,且回归估计是渐近无偏的,且方差方差 的样本估计为的样本估计为:2024/9/366(三三)分别回归估计与联合回归估计的比较分别回归估计与联合回归估计的比较§ 当回归系数当回归系数事先设定事先设定时,分别回归估优于联合时,分别回归估优于联合回归估计,尤其在回归估计,尤其在各层回归系数相差较大时,分别各层回归系数相差较大时,分别回归估计更好。
回归估计更好§ 当回归系数由当回归系数由样本估计样本估计时,如果各层的时,如果各层的样本量样本量不太小,且各层的不太小,且各层的回归系数回归系数相差较大,还是采用分相差较大,还是采用分别回归估计为宜若各层的样本量不太大,且各层别回归估计为宜若各层的样本量不太大,且各层的回归系数大致相同,则采用联合回归估计较好的回归系数大致相同,则采用联合回归估计较好若层内的回归系数差别不太大,而每层的样本量并若层内的回归系数差别不太大,而每层的样本量并非都相当大时,联合回归估计可能更保险些非都相当大时,联合回归估计可能更保险些2024/9/367§【【例例4.6】】P P4545 :(续前例续前例)利用回归估计量估利用回归估计量估计该市港口生产单位计该市港口生产单位1997年完成的吞吐年完成的吞吐量解解: 样本回归系数样本回归系数:§(1)按分别回归估计量估计按分别回归估计量估计:§=163421.10+107135.19=270556.30h=1,非国有 h=2,国有1.070170.8564022024/9/368(2)按联合回归估计量估计按联合回归估计量估计:2024/9/3692024/9/370小结小结比估计量与回归估计量的异同:比估计量与回归估计量的异同:§1.从形式上看,比估计量是一个简单估计量从形式上看,比估计量是一个简单估计量 的的线性组合,而回归估计量两个简单估计量线性组合,而回归估计量两个简单估计量 的的线性组合;但实质上都是利用两个简单估计量和线性组合;但实质上都是利用两个简单估计量和辅助变量来估计总体指标。
辅助变量来估计总体指标§2.比估计量借助主要变量与辅助变量之间的比值比估计量借助主要变量与辅助变量之间的比值关系;回归估计量借助两者之间的线性相关关系关系;回归估计量借助两者之间的线性相关关系 第四节第四节 样本量在各层的分配样本量在各层的分配 简单随机抽样只需要根据调查精度的要求与简单随机抽样只需要根据调查精度的要求与费用的限制来确定抽样容量的大小,而分层抽样费用的限制来确定抽样容量的大小,而分层抽样则提出另一个重要的问题,一旦确定则提出另一个重要的问题,一旦确定n,又如何,又如何在各层中分配抽样容量在各层中分配抽样容量 ,其中有些问题要考虑,,其中有些问题要考虑,比如在各层中各有精度的要求以及费用的限制,比如在各层中各有精度的要求以及费用的限制,由于各层具有各自的鲜明特征,其花费自然不同,由于各层具有各自的鲜明特征,其花费自然不同,因而在样本容量分配上必须带有经济观点另一因而在样本容量分配上必须带有经济观点另一个重要考虑因素是由于个重要考虑因素是由于 的不同而带来数据处理的不同而带来数据处理的困难 样本量的分配必须尽可能地使估计量及其方样本量的分配必须尽可能地使估计量及其方差具有较简单的形式,从而使数据汇总工作量小,差具有较简单的形式,从而使数据汇总工作量小,做到省时省力。
做到省时省力2024/9/371样本量分配对精度的影响样本量分配对精度的影响2024/9/372 某个总体分为三层,其层权某个总体分为三层,其层权 及层标准差及层标准差 见下表,见下表,设总样本量为设总样本量为300,考虑四种不同的样本量分配,并,考虑四种不同的样本量分配,并计算出每一种分配下,总体均值估计量的方差:计算出每一种分配下,总体均值估计量的方差: 样本量的不同分配对方差的影响样本量的不同分配对方差的影响h常数分配与 成正比与 成正比与 成正比 10.22010049604020.330100110909030.5341001411501703.863.113.093.002024/9/3732024/9/374 (一一)比例分配(比例分配(proportional allocation ) 即在分层抽样中,若每层的样本量nh 都与层的大小Nh 成比例,即 也就是按各层的层权进行分配,即大的子总体多抽一些,小的子总体少抽一些 比例分配时, 也与层权 成比例。
简单随机抽样中总体的每一个单元入样的概率即为抽样比f 因而按比例分配而在各层中进行简单随机抽样的分层方法,任何一层中的样本被抽中的概率都为f因此比例分配的分层随机抽样是一种等概率抽样或2024/9/375总体均值 的估计是:显然估计量有相当简单的形式2024/9/376§自加权:自加权:如果总体总量(或均值)的无偏估计量可以写成样本观测值的总和(或平均数)的常数倍(如:Y=ky或 ),那么这种样本(或估计量)称作自加权自加权的或等加权等加权的§按比例分配的分层抽样就是自加权的简单随机抽样(放回的和不放回的)也是自加权的2024/9/377的方差为:注意:注意:注意:是各层方差按层权的是各层方差按层权的是各层方差按层权的加权平均加权平均加权平均! !!2024/9/378二二. 最优分配最优分配 (一) 最优分配 在分层随机抽样中, 在总费用给定的条件下,估计量的方差达到最小;或在给定估计量方差的条件下,使总费用最小的各层样本量的分配称为最优分配(optimum allocation) 简单线性费用函数:2024/9/379§建立目标函数:§根据柯西-许瓦兹(Cauchy-Schwarz)不等式,对于任意的 ,有 通过极小化目标函数,可同时达到给定方差下费用最小和给定费用下方差最小的效果。
2024/9/380§当且仅当 (K为常数)时,上式等号成立所以对于目标函数则有:§上式成立的条件是:2024/9/381§所以则使目标函数达到最小时的最优分配为:2024/9/382 上式表明, 越大(即层越大),则层内抽样应越多;又若 越大(即层内变差越大),则层内抽样也应越多;但如果 越大(即层内平均每单元费用越大),则在该层中的抽样应少一些即最优分配的 与 或 成正比,与 成反比2024/9/383 由此得出下面的行为准则,如果某一层:§单元数较多§内部差异较大§费用比较省 则对这一层的样本量分配较多些2024/9/384 (二) Neyman(内曼)分配 条件: 如果每层抽样的费用相同,即 时,最优分配可简化为:将 代入 即得:2024/9/385达到最小: 【【例例3.5】】( (续例续例3.1)p693.1)p69如果样本量为如果样本量为 n = 40,n = 40,则按比则按比例分配和例分配和NeymanNeyman分配分配, ,各层的样本量应为多少各层的样本量应为多少? ? 解解: : 按比例分配时按比例分配时, ,各层的样本量为各层的样本量为: :即各层的样本量分别为:3,6,11,20§(公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。
如:n=56.03 则n=57)2024/9/386按Neyman分配:2024/9/387各层的样本量为各层的样本量为: :即各层的样本量分别为:3,7,23,72024/9/388 【例例3.6】在例3.2中若固定n=550不变,城镇居民与农村居民年收入的标准差估计分别为 元, 元,对城镇居民与农村居民抽样平均每户的费用比1:2,试求城镇与农村两层比例分配与最优分配的样本量又若不考虑费用因素,那么最优分配的结果又有何变化?如何计如何计算呢?算呢?2024/9/389解: 城镇与农村居民年收入调查样本量分配的计算h1235600.137 30001411.0411.02148420 0.863 250022157.5 1525.61719802568.5 1936.62024/9/390§(1)比例分配§(2)最优分配§(3)内曼分配 2024/9/391§ 不考虑费用的内曼分配在农村的样本量比考虑费用的最优分配在农村的样本量更大这是因为农村调查费用较高,因此最优原则是适当增加城镇样本量,减少农村样本量2024/9/392(三)某些层要求大于100%抽样时的修正 按最优分配时,当某些层的标准差 特别大,而层的大小 相对指定的总样本量n又小很多,若加上对这些层抽样的平均单位费用 又很低,而抽样比f比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。
实际工作中,如果第k层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层2024/9/393以不考虑费用的内曼分配为例,实际操作步骤如下:2024/9/394 §在这种情况下,对于方差 的一般公式,可以直接将修正后的最优分配所得的 带入,而内曼分配最小方差公式则需必要的调整: 其中, 是仅对最后实际分配的样本量 严格小于 的各层求和, 也只是这些层中抽取的单元总数 修正的含义可理解为:因为对于那些实施普查( )的层来说,已经不存在所谓的抽样误差了,自然需要从原来的公式中将它们舍去2024/9/395【例例3.7】某个模拟的总体分为4层, 和 的值见下表,设n=80,请问该如何进行内曼分配? 一个模拟总体的分配情况h154002000210500500032001020004400208000合合计615—170002024/9/396解:解:计算各层的样本量:(1)第一层样本量的分配: 而 ,可见 ,则(2)将 个待分配的样本量分到2—4层:2024/9/397而 ,可见 , 则§(3)将 个待分配的样本量分到3、4层:因为 , ,所以(4)将个待分配的样本量分到第4层: 2024/9/398因为 , ,所以 因此,各层所分配的样本量是: 5,10,13,52 此时上题计算总体均值估计量的最小方差为:对第三、四层计算2024/9/399第五节第五节 总样本量的确定总样本量的确定 一一.影响样本总量影响样本总量n的因素的因素 1. 估计量精度的要求: (1)对总体参数估计的精度 (2)对各层参数估计的精度 2.费用的限制 (1)总费用的限制 (2)不同层中平均抽取一个单元的费用 3. 层的划分和层的样本量的分配形式2024/9/3100 由于估计量的精度实际上取决于每层样本量的大小,因此在总样本量给定的情况下,对层样本量的不同分配,其精度也不同。
反之对同一精度要求,对不同的样本量分配形式,计算得到的总样本量也有差异,因此在确定总样本时,要求先确定样本量的分配形式2024/9/3101 二二. 估计总体均值情形估计总体均值情形 1. 一般公式一般公式令 其中 已经选定,在调查的目标是估计总体均值 时,当给定方差V的上限或d时,2024/9/3102如果估计精度是由误差限的形式给出,则这时上式可以表示为:由上式可得由上式可得: :2024/9/3103§(1)当按比例分配比例分配时,即 则上式为:2024/9/3104实际工作中,n的计算可以分两步: 先计算 ,当 不能忽略不计 时,再计算:§(2)当按内曼分配内曼分配时,即2024/9/3105【【例例3.7】】( (续例续例3.1)3.1) 如果在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量分别为多少? 解: 按比例分配时:2024/9/31062024/9/3107§对 进行修正得n:§按Neyman分配时:2024/9/3108(3) 最优分配需要考虑费用时§简单线性函数: C =§将 代入n的一般公式,§得:2024/9/3109当总费用C给定时:(P92 式式3.139)2024/9/31102024/9/3111第六节第六节 分层时的若干问题分层时的若干问题 一一.抽样效果分析抽样效果分析 与简单随机抽样相比。
分层随机抽样的精度与样本量的分配及各层的方差有关 在固定样本的情况下,如果 相对1可以忽略,则 分别为分层随机抽样最优分配、分层随机抽样按比例分配、简单随机抽样简单估计的方差2024/9/3112 如果各层的均值差异越大,则用比例分配法较好,而当各层的标准差较大时,用最优分配法较好在调查多个目标量时,按比例分配的分层抽样可能更好些 通常用比例分配法较多,因为:(1)最优分配并不是对每个指标都是最优的2)由于最优分配时需对层标准差进行估计,估计又不可能十分精确,加上计算时样本量必须取整数,因此理论上的最优分配的最小方差并不一定能达到3)而且当实际分配偏离最优分配时,方差增加并不明显考虑到比例分配样本的自加权性质的简单性,除非层标准差异十分明显从而考虑最优分配有较大的改进,否则还是可以采用比例分配法 对于最优分配,需要各层标准差Sh的值,可以用调查指标的历史数据或通过辅助指标的信息推算2024/9/31131.简单随机抽样与分层随机抽样的效果比较简单随机抽样与分层随机抽样的效果比较(1)与比例分配的分层随机抽样的效果比较与比例分配的分层随机抽样的效果比较前提:前提:相同样本量相同样本量的情况下的情况下 简单随机抽样简单随机抽样(对均值估计量对均值估计量)的方差的方差: 比例分配的分层随机抽样相应估计量的方差比例分配的分层随机抽样相应估计量的方差:2024/9/3114§根据总体单元指标的平方和分解,简单随机抽样的方差分解如下:层内方差层间方差2024/9/3115 故 若所有的 都比较大,则 从而2024/9/3116 上式右边的第二项是层间平方和,它一定是非负的,因此有 上式意味着,当所有的 都比较大时,比例分配的分层随机抽样的方差小于简单随机抽样的方差,也就是说,比例分配分层随机抽样的精度比后者高,设计效应小于1。
2024/9/3117 方差差值为: 这表明层平均数 的差异越大,分层的效果就越好,若层平均数都相等,那么分层的效果与不分层的一样事实上正因为层间的这种变异不进入分层随机抽样的方差,因此才有分层随机抽样精度高于简单随机抽样的结果2024/9/3118(2)与最优分配的分层随机抽样的比较与最优分配的分层随机抽样的比较§按定义,最优分配的精度应高于相同样本量的任何其他分配,当然也高于比例分配的精度,但最优分配在精度上的改进究竟有多大?为此比较比例分配方差与最优分配(内曼情形)方差之差.2024/9/3119§ 从上式可以看出,最优分配在精度取决于各层标准差的差异,差异越大,最优分配的效果越好,反之若各层间标准差(方差)差别不大,那么最优分配的效果就不会比比例分配的效果好很多2024/9/3120 使用条件使用条件: 最优分配: 各层标准差差异大,尤其是调查多个目标量时 比例分配: 各层的均值差异大 二二. 层的划分层的划分 基本原则: 使层内差异尽可能小---各层有自己鲜明特色, 使层间差异明显地较大---各层之间有显著不同。
在多指标问题中可采用聚类分析的手段进行分层,在此我们考虑单指标如何分层2024/9/3121 (一一)最优分层最优分层 目的不同,分层方法不同,构造层的原则如下: 1.若为了便于组织、估计子总体的参数,则按自然 层或单元的类型划分 2.若是提高抽样效率,减少估计量的方差,则按目标 量 分层,但在调查之间目标量是未知的,因此 分层通常选择一个与调查指较大线性相关的指标 来进行这个标志可以是目标量的前期值,也可 以完全是另一个变量2024/9/3122 如何利用一个分层标志具体分层呢?实际上也就是说如何确定各层的分点§思路思路: 设总体分成h层,假定 与 分别为总体的最小与最大可能值按数值分层即为在 与 之间插上(h-1)个分点: 如果各层的抽样分配方案已定,即设法求这些分点以使得 达到最小2024/9/3123 确定层界的快速近似法确定层界的快速近似法:累积平方根法: 由戴伦纽斯(Daleniues )与霍捷斯(Hodges)提出的根据等分分层变量分布的累积平方根的最优分层方法,简称累积平方根法。
累积平方根法2024/9/3124【例3.9】 某地区电信部门在对利用上网的居民家庭安装ADSL意愿进行调查时,以辖区内最近三个月有上网支出的居民用户为总体(上网费为0.02元/分钟),并准备按上网支出(x)进行分层,试确定各层的分点2024/9/3125范围x 频数f累计0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.003678135620342024/9/312680~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582450以上78.36662712.9492024/9/3127 最终累计频数是2712.949,如果取层数为4,则应每隔 分一层.因此应该使得累 计 最接近678.237, 1356.474, 2034.712,即较 合理的分层是:2024/9/3128(二) 层数的确定 层数的增加能提高估计的精度,但当层数增加到一定的时候,在精度上的收益将很小;若样本量n已确定,由于每层至少必须抽取一个样本单元,因此最多的层数为n,如果要给出估计量方差的无偏估计,则每层至少2个样本单元,那么层数不能超过n/2。
分层时应考虑: 1.分层考虑精度的要求 一般以目标量 作为分层指标,但 未知,一般 通过与高度相关的辅助指标 来进行根据研究,除非Y与X的相关系数 ,层数一般不超过6为宜 2.分层考虑费用2024/9/3129三. 事后分层(或抽样后分层) 前面讨论的分层抽样是建立在抽样之前总体已经分好层,但有时这种事先分层会遇到较大困难,而我们又很想利用分层抽样的优势之处,此时可以采用事后分层的方法 适用情况适用情况: 没有层的抽样框,或总体特别大来不及事先分层,或几个变量都适合于分层或 存在极大(小)值条件条件: 需知各层的大小 或层权 不适合:层权与实际情况相差很大 层权 :用近似层权进行校正或重新抽样 2024/9/3130,则用估计量 来替代先抽取一个样本量n的简单随机样本,然后将样本按某个特征进行分层,落到第h层的单元数为样本均值 。
式中2024/9/3131 当 固定且都大于零的条件下,落到各层的样本可以看成是独立地从各层中抽取的简单随机样本,这时,事后分层估计量 的方差为: 式中, 2024/9/3132 事后分层的合理性, 即认为既然简单随机样本是总体的一个惟妙惟肖地刻画,那么按样本特征所聚的类恰好反映了总体的某一特色部分的层,而样本的各层恰好可认为是来自总体相应层的简单随机样本2024/9/3133 理论上,只要n充分大,事后分层估计量 是无偏估计,且它的方差有如下性质: 由上式可以看出,第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差增加量2024/9/3134 如果样本是按某一个辅助指标分层后抽取的,只要这个事先分层抽样是严格按比例分配进行的,则这个样本是自加权的,总体中每个单元被抽中的概率相同,可以将这个样本看做简单随机样本,分别对其它指标进行事后分层估计2024/9/3135【【例例3.10】】p p5959 某高校欲了解在校学生用于课外进修(如各种考证班等)的开支,在全校8000名学生中抽取了一个200人的简单随机样本.根据学生科的统计,本科生人数为全校学生的70%,调查最近一个学期课外进修支出的结果如下:2024/9/3136 在校学生课外进修开支调查结果 试估计全校学生用于课外进修的平均开支. 解解: 全校学生用于课外进修的平均开支为:层(h)层权( )样本量( )样本均值( )样本标准差( )本科生0.7120253.4231.00研究生0.380329.4367.00合计1200283.8294.572024/9/3137估计的方差:2024/9/3138估计的标准差:§如果采用简单估计,则估计的方差为:估计的标准差为:估计的标准差:2024/9/3139【【例例3.11】】某地对载货汽车进行抽样调查,调查目标量是当月该地发生的总运量和总周转量。
对全地区N=19730辆货车抽取一个n=178辆车的简单随机样本由于单车产量(运量和周转量)均与车核定标识吨x位密切线型相关,因此为提高精度可对样本车辆进行事后分层,分层指标值如下:2024/9/3140层号 标识吨位(吨)标识吨位(吨) 1 X<223452024/9/3141而事后分层数据如下: 货车简单随机抽样的事后分层数据 hNh Whnh152970.268545102.22952.879763.978241570.210737235.59326.42878746.936368610.347769315.412500.74545092.163428550.144723480.719750.084518144.86955600.02844803.838768.6116245529.414197301782024/9/3142解:(1)运量Y1 的估计:§ 2024/9/3143所以所以 ((2)周转量)周转量Y2估计:估计: 2024/9/3144本章基本公式2024/9/31452024/9/3146比例分配:内曼分配:内曼分配:最优分配最优分配2024/9/3147结结 束束2024/9/3148。