系统抽样的四节部分精讲解.ppt

上传人:小** 文档编号:87821696 上传时间:2019-04-12 格式:PPT 页数:90 大小:502.01KB
返回 下载 相关 举报
系统抽样的四节部分精讲解.ppt_第1页
第1页 / 共90页
系统抽样的四节部分精讲解.ppt_第2页
第2页 / 共90页
系统抽样的四节部分精讲解.ppt_第3页
第3页 / 共90页
系统抽样的四节部分精讲解.ppt_第4页
第4页 / 共90页
系统抽样的四节部分精讲解.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

《系统抽样的四节部分精讲解.ppt》由会员分享,可在线阅读,更多相关《系统抽样的四节部分精讲解.ppt(90页珍藏版)》请在金锄头文库上搜索。

1、第八章 系统抽样,第一节 概述 第二节 等概率系统抽样估计量 第三节 不同特征总体的系统抽样 第四节 系统抽样的方差估计,第一节 概述,一、系统抽样的定义 二、系统抽样的实施方法 三、排序标志 四、系统抽样的特点 五、系统抽样、整群抽样与分层抽样的关系,一、系统抽样的定义,系统抽样(Systematic sampling):也称机械抽样,它是将总体中的单元按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其它样本单元的一种抽样方法。 上述定义是广义的,事实上,总体单元的排列可以是一维的(直线或圆形的),也可以是二维的(平面的);起始单元可以是一个,也可以是一组;对总体单元的抽取

2、可以是等概的也可以是不等概的。,系统抽样中最简单的是等间隔抽取,这种系统抽样又称为等距抽样。 等距抽样的随机性是有限制的,因此也被称为伪随机抽样,但要注意:等距抽样并未真正丧失随机性原则。 例:工业产品质量检查,每隔2小时抽选一个或若干样品进行检验。,二、系统抽样的实施方法,(一)直线等距抽样 假设:总体N个单元按直线排列,样本容量为n, 且有N/n=k,k为整数,称为抽样间距(sampling interval)。 实施方法: 1.将总体分为n段,每段k个单元 2.在第一段的k个单元中随机抽取一个单元r 3.每隔k个单元抽出一个单元,共抽取n个单元,则被抽中的单元编号分别为: r, r+k,

3、 r+2k, r+(n-1)k 例见课本P142,方法评价: 当N/n=k为整数时,总体中每个单元的入样概率都相等(都等于1/k),从而是一种严格的等概率抽样。 当N/n=k不是整数时,实际抽取到的样本单元数可能是N/k,也可能是N/k+1,也即与原来设定的样本量可能相差1。每个单元的入样概率也是不相等的。这时等距抽样有可能产生偏倚。,(二)循环等距抽样 为克服直线等距抽样的上述缺陷,拉希里(Lahiri)提出一种替代方法,称为循环(或圆形)等距抽样。 实施方法: 1.将总体排成首尾相连的圆形。 2.在1N范围内随机抽取整数r作为起始单元编号。 3.每隔间距k(k为最接近N/n的整数)抽取样本

4、单元。直到抽足n个单元为止。 评价:对于循环等距抽样,即使对于N/n不为整数的情况,不仅样本量不会随起始值而变化,且是严格等概率的。 例:见P143,注意:以下为了处理方便,我们假定N总是n的整数倍。在实际工作中,若n充分大,则由于N/n非整数而带来的影响就充分小,可以忽略不计。,(三)不等概系统抽样法 常用的不等概率系统抽样是PS系统抽样 令: 表示总体所有单元大小的总和, 则有入样概率为: 在实际中,实施不等概率抽样最简单的方法是代码法。,实施方法: 1.先将单元 Mi值累加,取最接近M0/n 的整数k为抽样间距。 2.从 1,k中随机抽取一个整数作为起始单元编号。 3.每间隔k抽取样本单

5、元,则代码 r, r+k, ,r+(n-1)k 所对应的单元即样本单元.,【例7.1】设总体由10个行政村组成,N=10,每个行政村的人数 Mi见下表,利用PS 系统抽样抽取 n = 3 个行政村,解:,在 1,623中随机抽取整数r,设r=100,则 r+k=723, r+2k=1346,则对应的行政村为1,4,8. 注: 对于特别大的单元一般直接作为样本,然后对剩余的单元组成的总体实施抽样.,三、排序标志,等距抽样需要有作为排序依据的辅助标志。 排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。,(一)按无关标志

6、排队 (无序系统抽样),即各单元的排列顺序与所研究的内容无关. 如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的 无关标志排序的等距抽样也称无序等距抽样。,评价: 在无关标志排序的条件下,各单元的位次排定,并不等于各单元的调查标志值也按同一次序排定,虽然是等距抽样,它与随机抽样在性质上并无不同. 故无关标志排序的等距抽样,实质上相同于简单随机抽样,二者只是抽样形式不同而已,完全无损于随机原则,它们在估计精度上也是一致的。,(二)按有关标志排序,即各单元的排列顺序与所研究的内容是有关的, 用来对总体单元规定

7、排列次序的辅助标志,与调查标志具有共同性质或密切关系。 这种排序标志,在我国抽样调查实践中有广泛应用,如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。 利用这些辅助标志排序,有利于提高等距抽样的抽样效果。,(三)根据各单元原有的自然位置进行排序,例如:学生按学号抽样,入户调查根据街道门牌号按一定间隔抽取等。 这种自然状态的排列有时与调查标志有一定的联系,但又不完完一致,这主要是为了抽样方便。,四、系统抽样的特点,优点: 1.简便易行,容易确定样本单元 等距抽样简单明了,快速经济,操作灵活方便,使用面广,是单阶段抽样中变化最多的一种抽样技术。 在某些场合下甚至可以不用抽样

8、框。例如若要对公路旁的树木进行病虫害调查,确定每20棵数检查一棵,只要在初始被检树确定后,每隔20棵检查一棵即行,根本不需要在事先对公路旁的所有树木进行编号,或者不需要知道抽样框即所有树木的棵数。 在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、人口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。,2.样本单元在总体中分布比较均匀,有 利于提高估计精度. 将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确 。,缺点: 1.如果单元 的排列存在周期性的变化,而抽样者对此缺乏了解或缺

9、乏处理的经验,抽取出样本的代表性就可能很差可能很高。这时要慎重地选择K。 如:调查某航空公司每月班机旅客人数(淡季、旺季)k=12 2.系统抽样的方差估计较复杂,一般系统抽样没有设计意义下的无偏估计量,并且在很多实际应用中所采用的系统抽样都不是严格的概率抽样,这就给系统抽样方差的估计带来很大的困难.,五、系统抽样、整群抽样和分层抽样的关系,系统抽样可以看成是一种特殊的整群抽样,也可以看成是一种分层抽样。 为了看清其中的关系,我们以一般的等距抽样为例,将总体中的N(=nk)个单元按k个一组排成表,共有k行n列。 等距抽样,即将总体个单元排列成k行n 列的矩阵,在从k之间随机地产生一个随机数r,则

10、取第r行的全体单元作为样本,系统抽样的总体单元,如果将表的行看作群,实际上相当于将总体划分为 k群,系统抽样相当于从这 k个群中随机地抽出一个大小为n的群实行整群抽样,这是最简单的整群抽样. 因此,在讨论传统抽样的参数估计时,很多场合将引用整群抽样的一些现成结果.,系统抽样与整群抽样参数的对照,如果将表的列看作层,那么系统抽样又是一种分层抽样:在每层中抽取一个单元,不过这个单元在每个层中的位置是相同的,因此不是分层随机抽样.,系统抽样的总体单元按行列重新编号,第二节 等概率系统抽样估计量,一、符号说明 二、估计量 三、估计量方差的不同表示形式,一、符号说明,第r行第j列的单元指标值:Yrj Y

11、rj=Y(j-1)k+r ,r=1,2,k; j=1,2,n 总体单元数:N 样本单元数: n 系统样本平均数: 系统样本均值估计量:,层均值: , j=1,2,n 总体方差: 系统样本(群)内方差:,样本(群)内相关系数:,层内方差:,同一系统样本内对层均值离差的相关系数:,二、估计量,设起始值为r,则相应系统样本的平均数为: 总体均值 的估计量为:,性质1 当 N=nk 时,有 k 个可能样本: 是无偏估计量. 当 , 采用直线等距方法时, 是有偏的.但 N和n均比较大时,其偏倚不会很大,可以忽略不计.若采用循环等距抽样, 是无偏的.,三、估计量方差的不同表示形式,如前所述,如果总体单元是

12、按无关标志排列的,则其方差可按简单随机抽样去做。 若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,有几种表示方法。,为方便起见,假定 N= nk,因此系统样本的平 均数 是总体均值的无偏估计,它的方差按 定义为:,性质2 用样本(群)内方差 表示系统抽样估计量的方差:,式中:,为总体方差。,为系统样本(群)内方差,如果从总体中直接抽取样本量为n的简单随机样本,则总 体均值 的估计量 的方差为:,比较等距抽样方差和简单随机抽样方差:,可见:,性质3,系统抽样可看做一种特殊的整群抽样,系统抽样估计量的

13、方差 可以用群内相关系数 表示:,式中:,可见:系统样本(群)内正相关越大,也即系统样本内单元越相似,差别越小,则估计量的方差越大,这个结论与上面结论一致。,性质4,系统抽样可看做一种特殊的分层抽样,系统抽样的估计量的方差可以用层内方差 和同一等距样本内单元对层均值的相关系数 表示:,式中:,为层内方差,恰为比例分配分层随机抽样的方差,为第j层的平均值,为同一系统样本内对层均值离差的相关系数.,比较系统抽样方差 和比例分配的分层随机抽样方差 ,可见:,【例7.2】,设某个总体N=32个单元,总体单元排列显然有稳定上升的趋势.我们要产生一个样本量为4的等距样本,将总体单元排列如下表,k=8,n=

14、4,每一列都是一个等距样本,共8个等距样本.,N=32,k=8,n=4等距样本数据,显然,层内具有正相关,由性质4可知,系统抽样的精度低 于分层随机抽样。,层内方差与总方差分别为:,因此:,本例中,分层随机抽样和等距抽样比简单随机抽样更有效, 而分层随机抽样比等距抽样更有效。 实际上,将总体单元按大小顺序排列的目的就是为了增大 系统样本内方差,从而必然提高精度。,【例7.3】,利用例7.2的数据,但将第二层和第四层的观测值次序颠倒,数据如下:,此时,等距抽样均值估计的方差为:,而分层随机抽样和简单随机抽样均值估计的方差不变:,可见:本例中,改变数据顺序后,等距抽样比简单随机抽 样和分层随机抽样

15、更有效。,上述例子说明: 相对于分层随机抽样和简单随机抽样来说,系统抽样的效率很大程度上取决于总体性质。 即使是相同的总体数据,对于不同的单元排列顺序,就有不同的样本(群)内方差和相关系数,从面系统抽样估计量的方差也不同。 因此,要有效地应用系统抽样,必须先了解总体的特征。,第三节 不同特征总体的系统抽样,一.随机次序排列的总体 总体单元按无关标志排列,如居民家计调查按居民姓氏次序排列的总体单位。,对于一个有限总体,简单随机抽样的方差是确定的,系统抽样的方差则取决于单元的排列顺序. 对于特定的排列,系统抽样的方差可能比相应的简单随机抽样的方差大,也可能比它小。N个总体单元总共有N!种不同的排列

16、,从而有N!个系统抽样的方差。 但可以证明这N!个系统抽样方差的平均数恰好等于简单随机抽样的方差。 在这个意义下,我们说当总体单元按随机顺序排列时,系统抽样的效果等价于简单随机抽样。,当总体单元按无关标志排列时,可以采用简单随机抽样的方差作为系统抽样的方差估计:,二. 线性趋势的总体 (一)线性趋势的总体 当总体按指标值从小到大顺序列时,由于样本(群)内方差增加而使系统抽样的精度有显著的提高。 在实际问题中,当然不可能按指标值的大小 排列,但是常可以找到某个与指标值相关的奕量,若单元按这个变量大小排列,则可收到同样的效果。,假定单元指标Yi值是单元序号 i的线性函数,即Yi=a+bi(i=1,2,N),现比较,当Y i=i时,有,总体均值 总体方差,二. 对线性趋势总体的系统抽样法的改进,针对实践中经常出现的线性趋势总体,有必要对系统抽样进行改进,从而提高系统抽样的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号