分层随机抽样.doc

上传人:汽*** 文档编号:558824538 上传时间:2024-01-05 格式:DOC 页数:17 大小:871.50KB
返回 下载 相关 举报
分层随机抽样.doc_第1页
第1页 / 共17页
分层随机抽样.doc_第2页
第2页 / 共17页
分层随机抽样.doc_第3页
第3页 / 共17页
分层随机抽样.doc_第4页
第4页 / 共17页
分层随机抽样.doc_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《分层随机抽样.doc》由会员分享,可在线阅读,更多相关《分层随机抽样.doc(17页珍藏版)》请在金锄头文库上搜索。

1、分层随机抽样一、定义在抽样之前,先将总体N个单元划分成L个互不重复的子总体(不重不漏),每个子总体称为层,它们的大小分别为,这个层合起来就是整个总体,然后在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是独立按照简单随机抽样进行,则称为分层随机抽样 二、作用分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。这是因为分层抽样估计量的方差只和层内方差有关,和层间方差无关。分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。层内抽样方法可以不同,而且便于抽样工作的组织。分层随机抽样的三个必要条件:(1)每层都抽;(2)各层都独立地抽;(3)各层的

2、抽样都是简单随机抽样。以分层抽样代替简单随机抽样的理由具体可以总结为以下几个方面:(1)由于每层都进行抽样,这使得样本在总体中分布更加均匀、更加具有代表性。(2)由于抽样在每一层中独立进行,所以一则允许各层选择适合本层的不同抽样方法;二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。(3)由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。三、分层原则总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。(1)估计:层内单元具有相同性质,通常按调查对象的不同类型进行划分。

3、(2)精度:尽可能使层内单元的指标值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。(3)估计和精度:既按类型、又按层内单元指标值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。(4)实施:抽样组织实施的方便,通常按行政管理机构设置进行分层。例如,对全国范围汽车运输的抽样调查,调查目的不仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完成的运量。为组织的方便,首先将货运汽车总体按省分层,由各省运输管理部门负责省内的调查工作。其次各省再将省内拥有的汽车按经济成分分层。最后为提高抽样效率,再对汽车按吨位分层。例如,某高校对学生在宿舍使用

4、电脑的情况进行调查,根据经验,本科生和研究生拥有电脑的状况差异较大。因此,在抽样前对学生按本科生和研究生进行分层是有必要的。四、符号说明符号代表的含义下标“第h层”下标“层内单位号”第h层的单位总数第h层的样本数第h层第i个总体单元的取值第h层第i个样本单元取值符号公式代表的含义第h层的层权第h层的抽样比第h层的总体均值第h层的样本均值符号公式代表的含义第h层的总体总量第h层的样本总量第h层的总体方差第h层的样本方差五、总体均值的简单估计量及其性质分层抽样首先根据各层的样本计算出各层的均值的某个适当的估计值,然后由层估计对总体层权的加权平均得到总体均值的估计,即:对于分层随机抽样来说,由于每层

5、中的抽样都独立地按照简单随机抽样进行,就取为h层的样本均值,设将的简单估计记为,则有定理1:对于分层随机抽样,由于是的无偏估计,所以是得无偏估计。即;的方差为:(注!只要对各层估计无偏,则总体估计也无偏.各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的.)证明定理1:由于对每一层有,因此有的方差,由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有定理2:对于分层随机抽样,是的无偏估计,即:;的方差为:证明定理2:对于分层随机抽样,各层独立进行简单随机抽样,对每一层有,因此,由定理1,有。由第二章定理2,可得,因此有定理3:对于分层随机抽样,的一个无偏估计

6、为:证明定理3:对于分层随机抽样,各层独立进行简单随机抽样,由第二章定理3,得的无偏估计为:,因此,的一个无偏估计为:其中,=是第h层样本的样本方差。六、对总体总量的估计总体总量的估计为:如果得到的是分层随机样本,则总体总量的简单估计为: 定理4:对于一般的分层抽样,如果是的无偏估计,则是的无偏估计。的方差为:定理5:对于分层随机抽样,的方差为:定理6:对于分层随机抽样,的一个无偏估计为:例1:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。

7、层居民户总数样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025 七、对总体比例的估计对于分层随机抽样,总体比例P的简单估计量:对于分层随机抽样,如果是的无偏估计(),则是的无偏估计即。则的方差为:对于分层随机抽样,是的无偏估计,因而的方差为:对于分层随机抽样,的一个无偏估计为:例2:在例3.1的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台),要估计该地区居民拥有家庭电

8、脑的比例及估计的标准差。层居民户总数样本户拥有家庭电脑情况12345678910120000010001002400010000001037501100001010415001000000000解:由上表可得,;对各层层权及抽样比的计算结果: 各层估计量的方差: 因此,该地区居民拥有家庭电脑比例的估计为: = 估计量的方差为:=估计量的标准差为:八、各层样本量的分配在分层随机抽样中,样本量在各层中的不同分配方式会对估计量的精度产生一定的影响,这一方面是由于层的规模大小不同或在总体中所占有的“地位”不同,另一方面是因为各层的层内方差不同。这些都会影响估计量的精度。从分层随机抽样中总体均值估计量的

9、方差表达式可以看出,等式右端第一项与各层样本量有关,同时还与相关。那么的分配遵循怎样的规则才能使尽可能小,有以下几种分配思路:(1)常数分配;(2)与层内方差成比例的分配;(3)与层权成比例的分配;(4)与成比例的分配。实际研究表明,等额分配的效果相对较差;与层内方差成比例的分配适用于要求每层的估计量都达到相当精度的情况;与层权成比例的分配(比例分配)和与成比例的分配(内曼最有分配)效果相对较好。例3:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的

10、标准差。按照分配层居民户数权数方差常数分配与权数成比例与成正比12000.0701751624103324000.1403512166106737500.2631588205101123415000.52631619310207九、按比例分配按各层单元数占总体单元数的比例,也就是按各层的层权进行分配. 对于分层随机抽样,按比例分配总体均值的估计是:(与是一个意思)(自加权)可以从上式看出,此时总体均值的估计量就是样本均值。由此可推出总体总量的估计:,为个样本总量。(注!总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自

11、加权的样本。)对于分层随机抽样,按比例分配总体比例的估计是: 所以有:十、最优分配在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。设总费用函数为:,式中为总费用;为与样本量无关的固定费用;为在第h层中抽取单元的平均费用。从该式中可以看出,只有是与各层样本量有关的费用。我们的目标是同时权衡费用和方差两个指标,在方差给定时使费用尽可能小,或在费用给定时使方差尽可能小,因此构造目标函数如下:式中,代表总费用中受各层样本量影响的部分;代表方差中受各层样本量影响的部分。1、对于分层随机

12、抽样,若费用函数为,则最有分配为:由此得出如果某一层单元数较多、内部差异较大、费用比较省则对这一层的样本量要多分配一些。2、内曼分配如果每层抽样的费用相同,最优分配可简化为:这种分配称为Neyman分配。这时,达到最小。 证明:所以:(续例3),如果样本量仍为40,则按比例分配和Neyman分配时,各层的样本量应为多少?按比例分配时,各层的样本量为: 按Neyman分配,各层的样本量为: 所以有:;十一、某些层要求大于100%抽样时的修正 按最优分配时,有时抽样比f较大,某个层的又比较大,则可能出现按最优分配计算的这个层的样本量超过的情况。实际工作中,如果第 k 层出现这种情况,最优分配是对这个层进行100%的抽样,即取,然后,将剩下的样本量按最优分配分到各层。例4:假设某个模拟的总体分为四层,和的值列在表中,假定样本量为n=100,该如何进行内曼最有分配?16500300022060012000330020600045003015000总计82636000解:第一步,根据表中的数据计算内曼最优分配下各层的样本量。(,所以)而=6,可见,因此令;第二步,将个待分配的样本量再按照内曼最优分配的原则分配到第2层到第4层。则,而,可见,因此,再令,。第三步,将个待分配的样本量再按照内曼最优分配的原则分配到第3层和第4层。,而,可见。且

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号