序贯分析在分层随机抽样中的应用

上传人:飞*** 文档编号:43246370 上传时间:2018-06-05 格式:DOC 页数:23 大小:672KB
返回 下载 相关 举报
序贯分析在分层随机抽样中的应用_第1页
第1页 / 共23页
序贯分析在分层随机抽样中的应用_第2页
第2页 / 共23页
序贯分析在分层随机抽样中的应用_第3页
第3页 / 共23页
序贯分析在分层随机抽样中的应用_第4页
第4页 / 共23页
序贯分析在分层随机抽样中的应用_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《序贯分析在分层随机抽样中的应用》由会员分享,可在线阅读,更多相关《序贯分析在分层随机抽样中的应用(23页珍藏版)》请在金锄头文库上搜索。

1、统计方法研究统计方法研究 序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用1序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用TheThe ApplicationsApplications ofof SequentialSequential AnalysisAnalysis inin StratifiedStratified RandomRandom SamplingSampling双湖区统计局双湖区统计局康宏康宏二零零九年二零零九年 4 4 月月统计方法研究统计方法研究 序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用2序贯分析在分层随机抽样中的应用序贯分析

2、在分层随机抽样中的应用摘要摘要样本量的确定是抽样设计中的关键问题,传统的方法总是利用总体方差和调查费用的有关信息来确定样本量,传统方法的不足之处在于有可能产生以下两种问题,其一,样本量估计过低,无法保证希望的的估计精度要求;其二,样本量过大导致调查经费的浪费。序贯分层随机抽样利用已抽取的样本信息,采取逐步逼近的方法,在保证期望精度要求的情况下,采用更小的平均样本量,从而达到节省费用的目的。关键词关键词:分层抽样调查 样本容量 序贯分析 模拟试验统计方法研究统计方法研究 序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用3TheThe ApplicationsApplications

3、ofof SequentialSequential AnalysisAnalysis inin StratifiedStratified RandomRandom SamplingSamplingAbstractHow to decide the sample size is the key problem in the sampling designing. The traditional way is to decide the sample size by the overall variance and the research fee. The weakness of the tra

4、ditional way will generate the following two problems. First, the estimated sample size is inadequate, thus the precision can not be guaranteed. Second, too large sample size will waste a lot of money. Sequential Stratified Random Sampling makes use of the sample information that we have known and m

5、ay obtain a smaller expected sample size while guaranteeing the precision. Then we can save a lot of money.key words: Stratified Sampling, Sample Size, Sequential Analysis, Simulation Experiment统计方法研究统计方法研究 序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用4引引 言言目前,在抽样调查中,一般都采用固定样量的传统抽样方法,固定样本量的抽样方法是经过长期实践的比较成熟的经典抽样方法,

6、但是它也有不足之处,由于样本容量的确定是基于对总体均值与总体方差的前期估计而进行的,正是因为人们对总体的均值与总体的方差的不了解而进行抽样调查的,所以难免会存对总体均值与总体方差估计的误差而影响样本容量的确定。序贯抽样可以间接地避免这种误差。本文就如何将序贯的思想应用到分层随机抽样中及序贯分层随机抽样中确定的最终样本量的性质加以探讨与研究。一抽样调查中样本量的确定问题一抽样调查中样本量的确定问题在抽样调查方案的设计中,样本量的确定是一个至关重要的环节,它决定了能否在预算的约束下真正满足期望的调查的估计精度要求,样本量的大小一般取决于目标总体分布的离散状况(以总体方差表示) 、总的调查经费预算2

7、S(以常数 C 表示)和单个样本的调查费用(以 c 表示) 、以及要求的精度(以绝对误差 d 或相对误差 r、可靠性 1- 表示) ,这里的或 c 都是未知的,需要2S借助于一定的途径加以估计。如 c 的确定可以利用类似调查所得到的经验数据,的确定可以利用历史调查或类似调查的数据。但之所以要进行调查,恰恰是2S因为没有掌握目标总体足够多的信息,类似调查或历史调查的总体与当前调查的目标总体难免存在某些差距;预调查由于抽取的样本量较少,也不具有足够的说服力。因此,或 c 的估计量往往存在误差,从而确定的样本量也就无法2S保证能够满足预定的精度要求。样本量确定过小会使精度要求不能满足,样本量确定过大

8、又会浪费调查经费,难以达到最优的抽样设计。关于最佳样本量的确定问题,在工业产品的验收领域已经得到了有效的处理。除一次抽样外,二次抽样、多次抽样及序贯抽样都是利用从明确定义的总体中抽取出的一部分产品所提供的信息,来决定还需要抽取的样本量,从而保统计方法研究统计方法研究 序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用5证以平均最小的产品检验数目作出在统计上成立的接受或拒绝的决策判断。这在破坏性的抽样检验中显得尤为重要。社会经济领域的抽样调查与抽样验收在实施目的、依据的理论、操作程序和实施条件等方面都存在着较大差异,前者是为了获得对某个问题较为直观而深刻的理解而对目标总体进行抽样观测,

9、它基于参数估计的理论来建立估计精度, (及可靠性)与样本量之间的关系,只需考虑误拒的风险 ,利用样本观察结果可以估计、推断总体的特性。后者是为了在产品验收工作中作出科学决策,基于数理统计中的假设检验的理论来作出是否接受产品的判断,它既考虑了误拒的风险 ,也考虑了误受的风险 ,从而样本量的确定及结论的得出,显现出更多的复杂性。二者的差异还在于抽样验收中观测与作出判断是同时进行的,而社会经济领域的抽样调查由于总体的分布广泛、实施需要大量的人力、物力的投入,受资源、管理与操作的限制,一般只有在调查完成之后才能对采集到的数据进行统一录入,数据分析与统计推断是调查实施完成以后的一个独立过程。因此,抽样调

10、查一般都采用一次抽样的方法,很少考虑通过多次抽样将前期的抽样结果用于指导后期的抽样过程。二序贯分析在简单随机抽样中应用的现状二序贯分析在简单随机抽样中应用的现状(一)(一). .序贯分析序贯分析序贯分析(或者说统计中的序贯方法)是数理统计学的一个分支,其名称出于A.瓦尔德在1947年发表的一本同名著作序贯分析 ,序贯分析的研究对象是所谓的“序贯抽样方案”,及如何利用这种抽样方案得到样本去做统计推断。序贯抽样方案是指在抽样时,不事先规定总的抽样个数(观测或实验次数),而是先抽少量样本,根据其结果,再决定停止抽样还是继续抽样,若继续抽样,抽多少,这样一直下去,直至决定停止抽样为止。而那种事先确定抽

11、样个数的抽样方案,称为固定抽样方案,也就是传统的抽样方法。例如,一个产品的抽样检验方案规定按批抽样品20件,若其中不合格品件数不超过 3,则接收该批,否则拒收。在此,抽样个数20是预定的,是固定抽样。若方案规定为:第一批抽取3个,若全为不合格品,拒收该批,若其中不合格品件数少于3个,则继续抽样,直到不合格品数等于3个或者样本数等于20个,抽样结束,此种抽统计方法研究统计方法研究 序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用6样方案为序贯抽样。在假设检验、参数估计及更一般的统计决策问题中,序贯分析方法一般有两个组成部分(两个要素):停止法则与判决法则。停止法则告诉我们,在对总体进

12、行逐次观测(或抽样)的过程中何时停止下来;判决法则告诉我们,根据停止时得到的全部数据(序贯)样本对总体应如何作出推断或选择(接受或拒绝一个假设,估计参数等等)。数学上如何描述停止法则与判别法则呢?停止法则的定义如下:1,X2,X独立同分布的随机变量列(与总体X有相同的分布)。称随机变量是停止iX法则,若只取非负数整数值(但可取值),而且,或,对一切01,存在集合(Borel集)使得 ,其意义为:1n nB1,()nnnXXB是否大于n仅由,来确定,而与尚未观测的无关,这表明1XnX12,nnXX停止法则乃是不依赖于将来的随机变量,当时。表示不进行任何观测(或0抽样)。(二)(二). .序贯分析

13、在简单随机抽样中的应用序贯分析在简单随机抽样中的应用Stein 在 1954 年设计了一种二次抽样方法,在满足可靠性(1-)与(L=2d)要求的置信区间下,先抽取容量为的初始样本,计算样本均值1n与样本方差;利用初始样本统计量计算所需要11 111ni iyyn* 22 1 111()1ni isyyn的最终样本量,记,其中是自由度为*22 1/21max ,(1)/ 1nntnL2 /21(1)tn的 t 分布的上分位数,表示取整,L 是规定的置信区间长度。如果11n / 2 有,则无需再进行抽样,如果,则再从总体中抽取个单位,* 1nn* 1nn* 1nn根据两次抽样的合并样本计算估计量,

14、其置信区间为* 11ni iyyn。可见二次抽样实际上是以第一次抽样的样本方差作为*2* /2(/)(1)ySn tn总体方差的估计来去确定最终所需要的样本量的。但是由初始样本所计算的方差是否能够很好地代表总体方差,就不言而知了,因此这一抽样思路在实际的统计方法研究统计方法研究 序贯分析在分层随机抽样中的应用序贯分析在分层随机抽样中的应用7抽样调查中就很难推行了。实际上序贯抽样是由 A.Wald 在二次抽样的基础上发展起来的。在简单随机抽样中,在可靠度(1-)下使总体均值的估计量与真实值的相对误差不Ysrsy超过 r;总预算约束为 C(已扣除固定成本)的精度要求下。通过下面几个步骤来实现的:1

15、确定一个序贯抽样的起始点,当抽取样本量达到时,进入序贯抽样流1n1n程。2运用已经得到的个(首次 k=1)观测结果来计算样本均值和样1kki inn 本方差分别为和,并有单位调查费用的估计1/knkik iyyn2211()1knkik iksyyn 量,其中为第 i 次访问的成本。1/kkik iccnic3确定符合精度要求的最终样本量为, (1)2 2 */2 2(1)min, 1()kk k kks tnCny rc 这里忽略了有限总体的校正系数,表示取整。当时,有 100kn ,其中是标准正态分布上的分位数;并且随着样本量的22 /2/2(1)ktnz 2 /2z/ 2不断增加,趋近于常数,因而在不考虑费用因素的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号