抽样技术课件第三章分层抽样

上传人:踏**** 文档编号:101750002 上传时间:2019-09-29 格式:PPT 页数:71 大小:831.50KB
返回 下载 相关 举报
抽样技术课件第三章分层抽样_第1页
第1页 / 共71页
抽样技术课件第三章分层抽样_第2页
第2页 / 共71页
抽样技术课件第三章分层抽样_第3页
第3页 / 共71页
抽样技术课件第三章分层抽样_第4页
第4页 / 共71页
抽样技术课件第三章分层抽样_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《抽样技术课件第三章分层抽样》由会员分享,可在线阅读,更多相关《抽样技术课件第三章分层抽样(71页珍藏版)》请在金锄头文库上搜索。

1、抽样调查课-分层抽样,单位: 浙江财经学院数统学院 课程: 抽样调查课 教师: 张锐,一、分层抽样的概念 二、估计量 简单估计 比率估计 三、样本量的确定,目录,一、分层抽样的概念,1、简单介绍 2、分层抽样的定义 3、符号说明 4、分层抽样的作用 5、分层抽样的原则,分层抽样(stratified sampling)(STR) 按一定原则,将总体分成若干明显不同的群体(子总体),每个子总体称为层,不同层之间是相互独立的,在每个层内进行抽样,将这些来自“子总体”的样本全部汇总起来成为总体的样本 。,1、分层抽样简介,特点:各层之间有明显不同,注意到明显不同特性的群体在样本中的反映 优点:组织实

2、施方便;样本散布均 匀;精度较高;数据处理简单。 分层技术是应用上最为普遍的抽样技术之一。,2、分层抽样的定义,分层抽样的定义 在抽样之前,先将总体N个单元划分成L个互不重复的子总体,每个子总体称为层,它们的大小分别为N1,N2.NL,这L个层合起来就是整个总体。然后在每个层中分别独立的进行抽样,这种抽样就是分层抽样,所得到的样本就称为分层样本。 分层随机抽样的定义 如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本就称为分层随机样本。,例子,调查杭州的超市情况: 分成大超市和小超市两层。 如果在两层都独立进行简单随机抽样,则为分层随机抽样。 如果在大超市一层中,先确定下沙物美必定抽样

3、。则为一般分层抽样。,3、分层抽样的符号说明,4、分层抽样的作用,分层抽样的抽样效率比较高,也就是说分层抽样的估计精度高。 分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。 层内抽样方法可以不同,而且便于抽样工作的组织。,5、分层原则:,1.估计:层内单元具有相同性质,通常按调查对象的不同类型进行划分。 2.精度:尽可能使层内单元的指标值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。 3.估计和精度:既按类型、又按层内单元指标值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。 4.实施:抽样组织实施的方便,通常按行政管理机构设置进行分层。,二、估

4、计量,1、简单估计量 总体均值的估计 总体总量的估计 总体比例的估计 2、比率估计量 分别比率估计 联合比率估计,一、简单估计量,总体均值的估计 总体均值的期望 总体均值的方差 总体总量的估计 总体均值的期望 总体均值的方差 总体比例的估计 总体均值的期望 总体均值的方差,1、总体均值的估计,简单估计量: 由于没有其他总体信息的,这也是总体的简单估计量。,如果是分层随机抽样,性质一(一般的分层抽样),对于一般的分层抽样,如果每层的均值都是无偏估计,则总体均值也是无偏估计。,注意:这个性质说明,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。,性质二(分层随机抽样

5、),无偏性的证明,在分层随机抽样下,在一般分层抽样下,所以无偏性也成立,估计量方差的证明,在一般分层抽样下,由于各层是独立进行的,所以协方差为0,即,在分层随机抽样下,由于每层都是简单随机抽样,所以,估计量的方差的估计的证明,在分层随机抽样下,,所以,2、总体总量的估计,简单估计量: 由于没有其他总体信息的,这也是总体的简单估计量。,如果是分层随机抽样,性质一(一般的分层抽样),对于一般的分层抽样,如果每层的均值都是无偏估计,则总体总量也是无偏估计。,注意:总体总量的估计,完全可以由总体均值来推算,因为它们只相差一个常数。,性质二(分层随机抽样),例3.1,调查某地区的居民奶制品年消费支出,以

6、居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。,3、总体比例的估计,简单估计量: 由于没有其他总体信息的,这也是总体的简单估计量。,总体比例的估计,是总体均值估计的一种特例,所以具有相同的特点。,性质一(一般的分层抽样),对于一般的分层抽样,如果每层都是无偏估计,则总体比例也是无偏估计。,性质二(分层随机抽样),性质二的证明:,性质二的证明:,例3.2,在例3.1的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台),要估计该地区居民拥有家庭电脑的比例及估计的

7、标准差。,解:由上表可得, 根据前面对各层层权 及抽样比 的计算结果,可得各层估计量的方差: 因此,该地区居民拥有家庭电脑比例的估计为: 估计量的方差为: 估计量的标准差为:,一种是:分层后,对每层样本考虑比估计,然后进行加权平均,所得的估计量称为分别比估计。,将比估计的思想与技术用于分层随机样本时,有两种可行的方法。,另一种是:对两个指标先求总体均值或总和的分层估计,然后用它们构造比估计,所得的估计量称为联合比估计。,二、分层随机抽样下比率估计,1 分别比估计(separate ratio estimator),设总体分为L层, 是第h层的样本均值, 是该层中 的比估计, 分别为第h层中指标

8、X的平均数及总和, 为层权, 分别表示该层中Y、X的方差及X与Y之间的协方差,若S换为s,X、Y换作x、y,则表示该层样本的方差与协方差。,我们不难得到有关总体的 的分别比估计:,(1),总体均值的估计,总体总量的估计,由上一节知,当每一层的样本容量nh都比较大时, 分别是 的近似无偏估计,因此,此时 也是近似无偏的,即,(1),渐近无偏性,其中, 自然是第h层Y与X之比:,估计量的方差,总体均值的方差,总体总量的方差,2 联合比估计(combined ratio estimator),联合比估计的构造很简单:只要对X,Y分别进行分层估计,再作成比估计。,对于分层随机样本,总体的两指标平均数之

9、比Rc可估计为:,而 的相应的联合比估计为:,渐近无偏性,证明:,同理可证总体总量。,估计量的方差,总体均值的方差,总体总量的方差,其中, 的定义为:,3 分别比估计与联合比估计的比较,对于分层随机抽样,在有辅助变量可以利用的情形,为提高估计量的精度,有多种估计量可以采用:分别比估计、联合比估计。通常它们都是有效的,特别是当 高度相关时。但要全面地对这些估计量进行比较是困难的。下面只作定性的说明。,首先,这两种形式的比估计都是有偏的。只有在大样本的情况下,它们才可以看作是近似无偏的。对于分别比估计,还要求每层样本量都比较大。因此,如果某些层的样本量不够大,则建议采用联合比估计。,如果每层的样本

10、量都比较大,同时每层的比估计都比较有效,且每层的Rh相差较大,则分别比估计比联合比估计更为有效,估计量的方差更小。,例子:某市1996年对950家港口生产单位完成吞吐量进行了调查,1997年欲对全市港口生产单位完成的吞吐量进行抽样调查。对港口生产单位按非国有和国有两层,单位数分别为800家和150家,分别调查了10家和15家港口生产单位。调查数据如表,并且已经知道1996年非国有的总吞吐量171400吨,国有的为102900吨;试估计1997年全市港口生产单位完成的吞吐量。,1997年 yi,解:将上述数据计算结果列于下表。,1.按分别比率估计量估计,2.按联合比率估计量估计。,对此例的结果进

11、行观察,在各层的样本量不够大,采用联合比 估计比分别比估计要好些。因而建议采用联合比估计。,三、样本量的确定,一、样本量在各层的分配 二、总样本量的确定 三、分层的若干问题,一、样本量在各层的分配,1、样本量层间分配简介 2、比例分配 3、最优分配 4、内曼(Neyman)分配 5 、抽样修正,1、样本量层间分配简介,对于分层抽样,我们需要解决三个问题: 各层分别需要多少样本量; 总共需要多少样本量; 应该分层几层; 首先我们来解决样本量的层间分配问题;层间分配的原则: 在没有任何信息下的,保证公平,即比例分配。 在有一定的样本信息下,尽量保证精度最高,即最优分配。,例 某个总体为三层,其层权

12、Wh及层标准差Sh见下表。设总样本量为300,考虑四种不同的样本量分配,并计算出每种分配下,总体均值估计量的方差。,2、比例分配,比例分配是指按各层单元数占总体单元数的比例,也就是按各层的层权进行分配,即,3、最优分配,最优分配的定义: 在总费用给定的条件下,使精度达到最高的分配。,如果某层单元数多,内部方差大,费用省,则应该多分配一些,最优分配的证明:,证明:在线性费用函数下,要使得精度最高。即求,Min:,s.t:,显然需要构造拉格朗日乘子。,设,令,Nh越大(即层越大),则层内抽样应越多;又若Sh2越大(即层内变差越大),则层内抽样也应越多;但如果ch越大(即层内平均每单元抽样费用越大)

13、,则在该层中的抽样应少一些。这些关系在直观上很容易为人们接受。,4、内曼分配,如果每层抽样的费用相同,则最优分配可以简化为内曼分配:,这时的估计量的最小方差为:,例子三,调查某地区居民牛奶消费支出,以居民户为抽样单元,分为4层,每层抽10户。数据如文件所述;如果在得到第一次调查结果后,想再做一次调查,并且样本量仍为40个,则按比例分配和内曼分配,各层的样本量应为多少?,解:,按比例分配时,各层的样本量为:,对于Neyman分配,,三、分层的若干问题,1、抽样效果分析 2、层的划分 快速近似法(累积平方根法) 层数的确定 3、事后分层,1、抽样效果,在实际工作中,通常分层抽样比简单随机抽样的精度

14、要高。 在固定样本量下,一般有: 如果各层均值差异较大,则采用比例分配较好。 而各层的标准差差异较大时,用最优分配较好。,2、层的划分,既然分层抽样比简单随机抽样的效率要高,那么如何构造层,构造多少层,就是需要解决的两个问题: 没有明显的行政区划信息,但是有高度相关的辅助指标X_i时,可以采用累积平方根法进行分层。 层数确定的几个问题;,快速近似法(累积平方根法),戴伦纽斯Dalenius和霍奇斯 Hodegs于1959年提出。 建立在比例分配与 奈曼分配下的最好层的划分。 最优层的界限的划分标准是什么?,例,某地区电信部门在对利用电话上网的居民家庭安装ADSL意愿进行调查时,以辖区内最近三个

15、月有电话上网支出的居民用户为总体(上网电话费为0.02元/分钟),并准备按上网电话费支出(记为x)进行分层,试确定各层的分点。,不等距,最终累计频数是2712.949,如果取层数为4,则应每隔2712.949/4=678.237分一层,因此分点应该使得累计 最接近678.237、1357.474、2034.712,即较合理的分层是70。,层数的确定,层数越多,越能提高精度。 层数增加到一定程度,在精度上的收益将非常小。 研究相关指标x时,除非相关系数大于0.95,否则层数一般不超过6。,事后分层,在没有层的抽样框,或则知道层权时,可以采用事后分层进行估计。 如在某市一个样本量为100的简单样本中,有15人最近一年用于购买彩票的支出大于5000,则可以知道,这个随机样本不大好,这里可以采用事后分层。,事后分层的估计量,【例子五】 某高校欲了解在校学生用于课外进修(如各种考证辅导班、外语辅导班等)的开支,在全校8 000名学生中抽出了一个200人的简单随机样本。根据学生科的统计,本科生人数为全校学生的70%,调查最近一个学期课外进修支出(单位:元)的结果如表4.4。试估计全校学生用于课外进修的平均开支。,解:全校学生用于课外进修的平均开支为:,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 初中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号