《第五章不等概抽样高等教学》由会员分享,可在线阅读,更多相关《第五章不等概抽样高等教学(42页珍藏版)》请在金锄头文库上搜索。
1、抽样调查课抽样调查课-不等概抽样不等概抽样单位: 浙江财经学院数统学院课程: 抽样调查课教师: 张锐1严选课件一、不等概抽样简介二、放回不等概抽样三、不放回不等概抽样目录目录2严选课件一、不等概抽样简介一、不等概抽样简介1、等概率抽样回顾2、不等概率抽样介绍3、不等概抽样的应用4、不等概率抽样的优点和条件5、放回抽样和不放回抽样3严选课件 迄今为止,我们所讨论的两种抽样方法简单随机抽样和分层抽样具有一个共同的特点:总体或层中每个单元入样的可能性 ( 概 率 ) 相 等 等等 概概 率率 抽抽 样样(sampling (sampling with with equal equal probabi
2、lities)probabilities) 。等概率抽样的基本出发点是:将总体或层中每一个单元看作是平等的,不“偏向”也不“疏远”某些特定的单元如果总体单元的差异不大,这种处理方法既公正又方便。但在许多社会经济活动中并非所有单元的地位都相同或相近,即总体单元相差较大,也即总体方差大,这时等概率抽样的效果就不一定好。1、等概率抽样回顾、等概率抽样回顾4严选课件例如,为了估计一个城市的商业销售总额,对各商业网点进行调查。由于商业网点的规模差异极大,个别超大型商场年销售额可以超过亿元,甚至达到十几亿,它们是否景气对这个城市的商业销售总额起着至关重要的作用;而为数较多的大中型商场与商店年销售额是在几十
3、万到几千万之间;至于数量更多的小型商店与摊位的年销售额仅数万元甚至不到一万元。在这种情况下,将特大型、大型商场与一般中小型市场或商店平等对待既不公允,又使抽样推断结果有较大可能发生大的偏倚。因此,在调查中,对大型商场应该处于更重要的位置。5严选课件 这个例子启示我们:当总体单元相差较大,用等概率抽样的方法不合理时,可在抽样中将总体中每个单元的入样概率与其规模大小联系起来:“大”单元入样的概率大,“小”单元入样的概率小,这就是不等概率抽样不等概率抽样(sampling with unequal probabilities)(sampling with unequal probabilities)
4、。 出现总体单元差异特别大时,往往是牺牲“简单”来提高抽样效率,一一种种做做法法是是将将总总体体按按规规模模分分层层,然后,对较大单元的层取的抽样比高些,抽样比可以是100%,而较小单元的层抽样比定的小些。另一种就是赋予每个单元与其规模(或辅助变量)成比例的入入样样概概率率,这样,大单元入样概率大,小概率入样概率小。2、不等概率抽样介绍、不等概率抽样介绍6严选课件 不等概抽样中,总体中某类单元比其他单元出现在样本的机会大,这给人感觉这部分单元对推算影响大,使得推算偏向某一方。例如,大商场抽的多了,会不会造成推算的销售额偏大呢? 实际上 ,某些单元的入样概率大,推算时,则赋予它较小的权,反之,入
5、样概率小,推算时,就赋予它较大的权,这样就可以使推算结果仍然是公平的。 7严选课件3、不等概抽样的应用不等概抽样的应用1、抽样单元在总体中所占的地位不一致,如商场等调查等。2、调查的总体单元和抽样总体的单元不一致,比如调查者希望等概率的调查一单位职工的家庭情况,但由于有双职工的情况。因此,将双职工家庭的一个成员从调查框中拿掉或按每个职工的家庭成员在该单位的工作人数,然后对每名职工按与人数成反比的概率进行抽样。3、改善估计量。8严选课件4、不等概抽样的优点和条件、不等概抽样的优点和条件优点:主要是大大提高估计精度,减少抽样误差。条件:必须要有说明每个单元的规模大小的辅助变量来确定每个单元的入样规
6、模。这在抽样及推算中是必须的。有时比较容易获得。比如,管理部门在车船登记时,车船名和载重吨位是同时登记的,因此,载重吨位作为辅助变量,计算入样概率。9严选课件不等概率抽样分为放回与不放回两种情况,我们最关心也是最重要的情形是抽样容量n固定时,单元的入样概率(不放回抽样)或每次抽样的概率(放回抽样)与单元的“大小”严格成比例情形。这种情形下的放回抽样称为pps抽样,不放回抽样称为抽样。l放回不等概抽样:每次抽样过程都是从同一个总体中独立进行的,因此实施及推算过程相对简单一些。l不放回不等概抽样:在抽取时效率要高些。5 5、放回抽样和不放回抽样、放回抽样和不放回抽样10严选课件二、二、 放回的不等
7、概率抽样放回的不等概率抽样1、多项抽样2、pps抽样及实施方法代码法拉希里法3、 Hansen-Hurwitz估计量及其性质 11严选课件 1 1 1 1、 多项抽样多项抽样既然是不等概率抽样,那么在抽取之前就应当给总体中每一单元赋予一定的抽取概率。设总体包含N个单元,对其进行放回抽样,在每次抽样中,抽到第i个单元的概率为且按此规定,独立地抽取n次,共抽到n个单元(有可能重复),则称这种不等概率抽样为多项抽样多项抽样(multinomial sampling)。12严选课件若记为总体中第i单元在n次抽样中被抽中的次数,显然对每个i都有:且则是一个随机向量(r.v.),其联合分布为:(6.1)这
8、正是我们熟悉的多项分布,“多项抽样”其名正出于此。(6.3)13严选课件2 2、 ppspps抽样及实施方法抽样及实施方法倘若每个单元有一个数值度量其大小或规模,诸如职工人数、工厂产值、商店销售额等,我们记Mi为第i个单元的“大小”,并记是总体中所有单元的“大小”之和,则可取:此时,每个单元在每次抽样中的入样概率与单元的大小成正比例,称这种特殊的多项抽样为(放放回回的的)与与大大小小成成比比例例的的概概率率抽抽样样(sampling (sampling with with probability probability proportional to size)proportional to
9、size),简称ppspps抽样抽样。14严选课件 多项抽样是最简单的不等概率抽样,它的实施方法通常有两种,以pps抽样为例。注意:注意:抽样是放回的,因此某个单元出现在样本的次数有可能多次,在调查时,只需要调查一次,这样节省经费。但在计算的时候,按抽中几次计算几次的原则。15严选课件(1 1)代码法)代码法)代码法)代码法也称汉森也称汉森也称汉森也称汉森赫维茨赫维茨赫维茨赫维茨(Hansen-Hurwitz)(Hansen-Hurwitz)法法法法 它适合于N不太大的情形。假定所有Mi为整数(若不然也可以乘以一个倍数M0,使一切Mi=M0Zi成为整数),对于具有整数Mi的第i个单元赋予一个与
10、Mi相等的代码数。每次抽样前,先在整数1,2,M0里面随机等可能地选取一个整数,设为m,若代码m属于第j个单元拥有的代码数,则第j个单元入样。这个过程重复n次,得到n个单元入样(当然存在重复的可能),构成了pps样本。16严选课件表表5.1.1 pps抽样时各单元的代码数(设抽样时各单元的代码数(设Mi皆为整数)皆为整数)单元单元i单元大小单元大小Mi代码数代码数12NM1M2MN1,2,M1M1+1,M1+2,M1+M2,17严选课件例例1 设某个总体有N=10个单元,欲用多项抽样从中抽取n=5个单元,给定的入样概Zi如下表所示。18严选课件iZiMi累计Mi代码123456789100.0
11、80.100.170.060.240.090.050.070.040.108101762495741081835416574798690100189181935364142656674757980868790911001.00M0=10019严选课件在1,100范围内产生5个随机数,设分别为04,73,25,49,82,则第1,第6,第3,第5及第8个单元入样。如再增加一个样本单元,产生的随机数为58,则又对应第5个单元,这个单元即为抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概率与其大小Mi成正比。20严选课件(2)拉希里)拉希里(Lahiri)法法也称为二次抽取法也称为
12、二次抽取法当N相当大时,累计的将很大,给代码法的实施带来不便。Lahiri提出下列方法:对上述的Mi,令即所有Mi中的最大值,每次抽取一个1,N范围内的随机数i及1,M*范围内的随机数m,若则第i个单元入样;否则重抽一组(i,m)。21严选课件iZiMi累计Mi代码123456789100.080.100.170.060.240.090.050.070.040.108101762495741081835416574798690100189181935364142656674757980868790911001.00M0=10022严选课件例如,在例1中,N=10,M*=24。设1,10中的一个
13、随机数为4,1,24中的一个随机数为9,由于M4=68,故第二个单元入样。如此重复,直到抽到n个单元(允许重复)为止。拉希里法适用于N很大的情况,因为它不需要列出如上表这样的表。23严选课件显然,第i个单元的入样与否受到m的影响,只有时它才入样,因此第i个单元入样的可能性与Mi的大小成正比.事实上:P(第i个单元入样)=24严选课件3 3、汉森、汉森赫维茨赫维茨 (Hansen-Hurwitz)(Hansen-Hurwitz)估计量估计量若y1,y2,yn是按Zi为入样概率的多项抽样而得的样本数据,它们相应的Zi值自然地记为小写的z1,z2,zn,则对总体总和,Hansen-Hurwitz给出
14、了如下估计量:25严选课件以盒子模型来描述,我们的盒子里有N张签,分别标上但如何去实施每个单元的不同概率抽取呢?我们适当地将盒子进行扩充。具体方法如下:不失一般性,设Zi=Mi/M0,i=1,2,N,其中且各Mi均为整数。扩充了的盒子使原盒内标有Yi/Zi的一张签增加到Mi张签.26严选课件不等概率抽样不等概率抽样不等概率抽样不等概率抽样简单随机抽样简单随机抽样简单随机抽样简单随机抽样27严选课件因此,恰为的无偏估计。这样从新盒中随机地抽取Yi/Zi就相当于原盒中Yi/Zi以Zi=Mi/M0的概率被抽取。因此样本均值的期望就相当于新盒子的均值:28严选课件由于n次抽取是独立进行的(放回抽样的特
15、点),根据概率论的基本知识,的方差就等于新盒子的方差的1/n倍,即:因为为新盒子的方差,利用数理统计基本知识,样本方差为该方差的无偏估计,于是我们得到了的无偏估计:29严选课件汉森汉森赫维茨赫维茨 (Hansen-Hurwitz)估计量(总量估计)估计量(总量估计)30严选课件例子例子 某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成的产量为3676万吨。考虑时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性很强,且企业的特点是规模和管理水平的差异比较大,通常大企业的管理水平较高,因此采用与上
16、年产量成比例的pps抽样,从所属企业中抽出一个样本量为30的样本,调查结果如下表:31严选课件 请根据以上调查结果估计该部门所属企业的当月完成利润。并给出95%的置信度下的相对误差。如果相同条件下相对误差达到20%,所需的样本容量应该是多少?32严选课件1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.
17、802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640276.2051033严选课件解:解:34严选课件补充:在实际工作中,可以依照过去对同类问题的经验调查来估计,比如,对同类问题已经获得过一个样本量为n_o的简单样本,并且已知在一定置信度下,该调查对总体均值或总量的估计的相对误差为r_o,在同样置信度下,如果希望本次调查的相对误差达到r,则在抽样比可以忽略的的情况下,可以近似的计算本次调查所需的样本量:35严选课件36严选课件三、三、 不放回的不等概率抽样不放回的不等概率抽样1、包含概率与 抽样 2、统
18、计量3、几种常用的不等概率抽样方法 37严选课件 总体中每个单位被包含到样本的概率,即入样概率 起着关键的作用,总体中任意两个单位被包含到样本中的概率,一阶包含概率 二阶包含概率 1、包含概率与、包含概率与 抽样抽样38严选课件 如果抽样设计有固定的样本量,则包含概率有如下性质 : 1、2、3、39严选课件 如果我们事先对总体中的每一个单位都有一个度量其规模大小的指标值 ,记 对于固定的样本量 ,若总体中每个单位的入样概率即一阶包含概率与其规模大小 严格成比例,即若有 成立,我们称这种不放回的与单位规模大小成比例的概率抽样为严格的 抽样。 40严选课件 霍维茨汤普森估计量 对于不放回不等概率抽样,霍维茨(Horvitz)和汤普森(Thompson)(1952)提出如下关于总体总值 的估计量: 2、统计量41严选课件3、几种常用的不等概率抽样、几种常用的不等概率抽样 Brewer方法水野法Yates-Grundy逐个抽取法Poisson抽样42严选课件