第十章其它抽样方法技术ppt课件

上传人:枫** 文档编号:569724658 上传时间:2024-07-30 格式:PPT 页数:68 大小:946KB
返回 下载 相关 举报
第十章其它抽样方法技术ppt课件_第1页
第1页 / 共68页
第十章其它抽样方法技术ppt课件_第2页
第2页 / 共68页
第十章其它抽样方法技术ppt课件_第3页
第3页 / 共68页
第十章其它抽样方法技术ppt课件_第4页
第4页 / 共68页
第十章其它抽样方法技术ppt课件_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《第十章其它抽样方法技术ppt课件》由会员分享,可在线阅读,更多相关《第十章其它抽样方法技术ppt课件(68页珍藏版)》请在金锄头文库上搜索。

1、第十章第十章其它抽样方法技术其它抽样方法技术本章要点本章要点本本章章主主要要对对样样本本轮轮换换、双双重重抽抽样样、随随机机化化装装置置、交交叉叉子子样样本本等等抽抽样样技技术术原原理理、方方法法、特特点点及及应应用用条条件件进进行行了了较较为为全全面面的的介介绍绍。具具体要求体要求:掌掌握握本本章章所所介介绍绍的的几几种种抽抽样样技技术术的的特特点点及及应应用用条条件件,在在抽抽样样实实际际工工作作中中能能够够正正确确运运用用该种技术,提高估计的精度与效果。该种技术,提高估计的精度与效果。第一节第一节 样本轮换样本轮换第二节第二节 双重抽样双重抽样第三节第三节 随机化装置随机化装置 第四节第

2、四节 交叉子样本交叉子样本问题提出时间序列数据以及随后出现的面板数据都时间序列数据以及随后出现的面板数据都是经济统计分析和计量分析中非常重要的数是经济统计分析和计量分析中非常重要的数据类型。当我们在研究应该应用什么统计和据类型。当我们在研究应该应用什么统计和计量的方法去分析既定的时间序列数据时,计量的方法去分析既定的时间序列数据时,是否考虑过以下几个问题?是否考虑过以下几个问题?n时间序列数据是如何产生的?n所产生的时间序列数据是否准确?n如何让时间序列数据更加准确?随着社会经济现象的不断变化和发展,很多调查随着社会经济现象的不断变化和发展,很多调查对象的总体也在不断变化和发展。为了能够及时反

3、对象的总体也在不断变化和发展。为了能够及时反映调查总体的这种变化和发展,调查部门就需要对映调查总体的这种变化和发展,调查部门就需要对同一总体在不同时间上进行连续性抽样调查同一总体在不同时间上进行连续性抽样调查(SuccessiveSamplingSurvey),并定期公布调查结,并定期公布调查结果,形成一系列时序统计数据。因此,社会经济抽果,形成一系列时序统计数据。因此,社会经济抽样调查一般都应该是连续性的定期调查。样调查一般都应该是连续性的定期调查。n一次性抽样调查与截面数据n连续性抽样调查与时间序列数据及面板数据 抽样调查除了对总体的一次性抽样以外,很多重要的抽样调查除了对总体的一次性抽样

4、以外,很多重要的调查是隔一段时间重复进行的调查是隔一段时间重复进行的, ,对于这种经常性的抽样问对于这种经常性的抽样问题,就必须重视其样本轮换问题的研究。题,就必须重视其样本轮换问题的研究。 对于样本轮换问题,我们至少应考虑以下问题:每次调对于样本轮换问题,我们至少应考虑以下问题:每次调查的样本如何组成?是采用固定样本还是采用全新的样本,查的样本如何组成?是采用固定样本还是采用全新的样本,或者是部分保留部分替换,即样本轮换;在估计后期的总或者是部分保留部分替换,即样本轮换;在估计后期的总量或均值时,是否需要利用前期的信息来改进现期的估计,量或均值时,是否需要利用前期的信息来改进现期的估计,以及

5、如何利用;如果采用样本轮换的方法,如何确定最优以及如何利用;如果采用样本轮换的方法,如何确定最优的保留比例或替换比例。的保留比例或替换比例。 第一节第一节 样本轮换样本轮换 连续性抽样设计方法单水平轮换单水平轮换不完全的单水平轮换不完全的单水平轮换多水平轮换多水平轮换轮换模式应用举例n加拿大劳动力调查(加拿大劳动力调查(LFS)使用)使用60单水平轮单水平轮换模式换模式n美国现时人口调查(美国现时人口调查(CPS)使用)使用484不完全不完全单水平轮换模式单水平轮换模式n美国消费者支出的季度调查(美国消费者支出的季度调查(CEQ)便采用)便采用40三水平轮换模式三水平轮换模式中国城市住户抽样调

6、查中国城市住户抽样调查n中国规模以下工业企业抽样调查中国规模以下工业企业抽样调查n中国农产量抽样调查中国农产量抽样调查一、样本轮换的原因一、样本轮换的原因 如果是单纯地估计现值的情况,当然最好每次重新抽取新如果是单纯地估计现值的情况,当然最好每次重新抽取新样本,这样必然会增加费用;如果要逐期地与上期比较,则采样本,这样必然会增加费用;如果要逐期地与上期比较,则采用固定样本的方法为好,固定样本可以消除样本的因素而只观用固定样本的方法为好,固定样本可以消除样本的因素而只观察动态的变化。然而,样本长期不变,随着时间的推移,固定察动态的变化。然而,样本长期不变,随着时间的推移,固定样本会显露它的弊端,

7、既难以反映总体的变化,而且受访者也样本会显露它的弊端,既难以反映总体的变化,而且受访者也会产生厌烦心理,出现不合作或回答质量下降等问题,从而影会产生厌烦心理,出现不合作或回答质量下降等问题,从而影响调查质响调查质量。另外,无论是采用固定样本还是全新样本都难以量。另外,无论是采用固定样本还是全新样本都难以正确地反映总体在各个不同时间上的水平及变化,因此,一种正确地反映总体在各个不同时间上的水平及变化,因此,一种广泛采用的方法是样本轮换,即每隔一定时间(一个月、一季广泛采用的方法是样本轮换,即每隔一定时间(一个月、一季或一年)更换一定比例的单元,保留其余单元。或一年)更换一定比例的单元,保留其余单

8、元。第一节第一节 样本轮换样本轮换 与传统的一次性抽样调查相比,轮换的与传统的一次性抽样调查相比,轮换的抽样调查具有以下特有的优势:抽样调查具有以下特有的优势:n节省调查费用和调查资源节省调查费用和调查资源n在一定程度上减轻被调查者回答负担在一定程度上减轻被调查者回答负担n利用前后各期之间的相关关系提高估计精度利用前后各期之间的相关关系提高估计精度n我国我国1996年新修订的年新修订的统计法统计法第十条明确规定:第十条明确规定:“统计调查应当以周期性普查为基础,以统计调查应当以周期性普查为基础,以经常性抽经常性抽样调查样调查为主体,以必要的统计报表、重点调查、综为主体,以必要的统计报表、重点调

9、查、综合分析等为补充,搜集、整理基本统计资料。合分析等为补充,搜集、整理基本统计资料。”n因此,在今后我国政府统计部门开展的统计调查制因此,在今后我国政府统计部门开展的统计调查制度与方法改革的过程中,最重要的就是围绕如何更度与方法改革的过程中,最重要的就是围绕如何更好地好地发挥经常性抽样调查的主体作用发挥经常性抽样调查的主体作用,研究并应用,研究并应用更加符合我国国情的经常性抽样调查方法,以此得更加符合我国国情的经常性抽样调查方法,以此得出更加准确的统计数据,为我国政府部门、研究机出更加准确的统计数据,为我国政府部门、研究机构以及各类企事业单位等社会各界服务。构以及各类企事业单位等社会各界服务

10、。我国抽样调查制度与方法改革的方向二、样本轮换的最优比例二、样本轮换的最优比例第第一一个个时时期期采采用用有有放放回回简简单单随随机机抽抽样样方方式式抽抽出出样样本本量量为为n n的的样样本本;在在第第二二个个时时期期采采用用有有放放回回简简单单随随机机抽抽样样方方式式选选出出样样本本量量为为nqnq的的旧旧有有样样本本点点以以便便替替换换掉掉,即即保保留留的的样样本本量量为为npnp,保保留留样样本本的的比比例例为为p p,同同时时独独立立地地依依有有放放回回简简单单随随机机样样本本方方式式补补充充新新的的nqnq个个新新样样本本点点,这这里里p+qp+q=1=1,这这样样第第二二个时期的样

11、本量仍旧为个时期的样本量仍旧为n n。设。设: 第一节第一节 样本轮换样本轮换 为为第第一一个个时时期期与与第第二二个个时时期期相相同同的的npnp个个单单元元在在第第一一个个时时期期的均值。的均值。为第一个时期为第一个时期nq个单元在第一个时期的均值。个单元在第一个时期的均值。为为np个单元在第二个时期的样本均值。个单元在第二个时期的样本均值。为为nq个补充单元在第二个时期的样本均值。个补充单元在第二个时期的样本均值。为为和和之间的相关系数。之间的相关系数。 如如果果希希望望估估计计第第二二个个时时期期的的样样本本均均值值并并充充分分利利用用第第一一个个时时期期的的信信息息,令令该该估估计计

12、量量为为 ,那那么么它它应应该该是是充充分分利利用用前前后后期期中保留样本、不保留样本和后期新补充样本的加权平均数。中保留样本、不保留样本和后期新补充样本的加权平均数。第一节第一节 样本轮换样本轮换 设我们希望得到的估计量设我们希望得到的估计量是两期估计量的线性函数,即是两期估计量的线性函数,即=a+b+c+d(10.1)要求估计其参数要求估计其参数a,b,c,d。 因因为为E( )=E( )=,E( )=E( )=,所所以以E( )=(a+b) +(c+d) 。要要使使 成成为为 的的无无偏偏估估计计量,需量,需a+b=0,c+d=1,也即,也即b=-a,d=1-c。代入(。代入(10.1)

13、,有),有 =a=a( - - )+c +c +(1-c1-c) 第一节第一节 样本轮换样本轮换 第一节第一节 样本轮换样本轮换 该估计量的方差可以求得为:该估计量的方差可以求得为: 其中其中 是第一个时期的方差,是第一个时期的方差, 是第二个时期的方差。我是第二个时期的方差。我们要求出们要求出a a和和c c,使得,使得 达到最小,就要以上公式分别对达到最小,就要以上公式分别对a a和和c c求偏微分并使之等于求偏微分并使之等于0 0,即可求出,即可求出a a和和c c的最优值分别为:的最优值分别为: 第一节第一节 样本轮换样本轮换 该估计量的方差可以求得为:该估计量的方差可以求得为: 第一

14、节第一节 样本轮换样本轮换 将其代入公式(将其代入公式(10.110.1),就得到),就得到 该估计量的方差为该估计量的方差为 :第一节第一节 样本轮换样本轮换 如果不利用前期信息,只根据第二期的结果来估如果不利用前期信息,只根据第二期的结果来估计均值,那么计均值,那么 :其方差为其方差为 :第一节第一节 样本轮换样本轮换 故利用前期信息后的设计效果为故利用前期信息后的设计效果为 : 从上式可以看出,当从上式可以看出,当的值比较大时,利用上期信息的值比较大时,利用上期信息可以较大地提高可以较大地提高 的效率。表的效率。表10.110.1给出了不同的给出了不同的q q,值值时时 的值。的值。第一

15、节第一节 样本轮换样本轮换 表表10.1 10.1 不同的不同的q q,值时值时 的值的值 若对上式关于若对上式关于q求偏导,并使之等于求偏导,并使之等于0,那么便可得,那么便可得到最优轮换比:到最优轮换比:第一节第一节 样本轮换样本轮换 三、样本轮换方法三、样本轮换方法(一)(一)随机轮换法随机轮换法 在在进进行行轮轮换换时时按按确确定定的的轮轮换换单单位位数数目目或或比比例例,从从原原有有样样本本中中随随机机抽抽出出若若干干单单位位不不再再调调查查,而而从从其其余余未未包包括括在在样样本本中中的的总总体单位中抽取同样数目的单位来代替。体单位中抽取同样数目的单位来代替。第一节第一节 样本轮换

16、样本轮换 (二)(二)等距轮换法等距轮换法 在在总总体体抽抽样样框框中中确确定定出出各各个个等等距距抽抽样样的的样样本本,在在各各次次的的调调查查中中,按按相相应应位位置置的的等等距距样样本本单单位位进进行行轮轮换换。我我国国农农村村住住户户调调查就是采用这种轮换方式。查就是采用这种轮换方式。(三)(三)子样本轮换法子样本轮换法从总体中抽出若干套子样本,每次调查一定数量的子样本,从总体中抽出若干套子样本,每次调查一定数量的子样本,逐次轮换其中的部分子样本。逐次轮换其中的部分子样本。 第一节第一节 样本轮换样本轮换 子子样样本本轮轮换换实实际际上上就就是是每每次次采采用用交交叉叉子子样样本本,而

17、而交交叉叉子子样样本本不不仅仅能能有有效效地地减减少少和和控控制制估估计计偏偏差差,而而且且由由于于每每个个交交叉叉子子样样本本都都能能代代表表总总体体,即即使使有有的的子子样样本本资资料料搜搜集集不不到到,我我们们也也可可以以用用其其他他的的子子样样本本甚甚至至一一个个子子样样本本来来观观察察和和推推断断总总体体。此此外外,用用交交叉叉子子样样本本还还可可以以考考察察非非抽抽样样误误差差发发生生的的程程度度。因因此此,一一般般来来说说,子子样样本本轮轮换换方方法法是是以以上上三三种种样样本本轮轮换换方方法法中中最好的。最好的。 第一节第一节 样本轮换样本轮换 五、案例介绍五、案例介绍美美国国

18、人人口口现现状状调调查查(current current population population surveysurvey,CPSCPS)是是国国际际上上最最著著名名的的抽抽样样调调查查项项目目之之一一,已已经经成成为为美美国国以以及及许许多多国国家家进进行行居居民民调调查查的的参参考考模模型型,其其实实施施是是在在每每个个月月包包含含1919号号的的那那一一周周进进行行,调调查查的的问问题题涉涉及及受受访访者者此此前前一一周周内内的的活活动动。调调查查氛氛围围覆覆盖盖全全美美5050个个州州和和哥哥伦伦比比亚亚地地区区。CPSCPS采采用用的的就就是是样样本本轮轮换换的的方方法法,即即每

19、每位位受受访访者者连连续续4 4个个月月接接受受访访问问,然然后后退退出出样样本本,8 8个月后再进入样本,连续个月后再进入样本,连续4 4个月接受访问,最后永久地退出样本。个月接受访问,最后永久地退出样本。第一节第一节 样本轮换样本轮换 CPS在在1995年年7月的抽样设计方案中样本轮换的特征:月的抽样设计方案中样本轮换的特征:1在在任任意意一一个个月月内内,都都有有1/8的的住住户户单单元元第第一一次次接接受受调调查查,1/8的住户单元第二次接受调查,依次类推。的住户单元第二次接受调查,依次类推。2每每个个月月都都由由新新的的样样本本组组代代替替从从样样本本中中永永久久退退出出的的老老样样

20、本本组。组。3每每个个月月都都有有一一个个样样本本组组在在闲闲置置8个个月月后后重重新新接接受受调调查查,以以此代替刚刚进入闲置期的样本组。此代替刚刚进入闲置期的样本组。4通通过过轮轮换换设设计计,保保证证每每个个样样本本单单元元在在2个个年年份份的的4个个相相同同月份里接受调查。月份里接受调查。 5. 5. 在在连连续续的的2个个月月内内,有有3/4/的的样样本本点点是是相相同同的的;在在连连续续的的2年内,有年内,有1/2的样本点是相同的。的样本点是相同的。二维平衡单水平轮换模式的轮换过程二维平衡单水平轮换模式的轮换过程第二节第二节 双重抽样双重抽样 我我们们可可以以先先从从总总体体中中抽

21、抽取取一一个个大大的的初初始始样样本本,从从而而获获得得总总体体的的辅辅助助信信息息,然然后后再再从从初初始始样样本本或或从从总总体体中再抽一个子样本,这种方法就是中再抽一个子样本,这种方法就是双重抽样双重抽样。第二节第二节 双重抽样双重抽样 一、定义一、定义 双双 重重 抽抽 样样 , 也也 称称 二二 相相 抽抽 样样 或或 二二 重重 抽抽 样样 (two-phase (two-phase sampling)sampling),是是指指在在抽抽样样时时分分两两步步抽抽取取样样本本。一一般般情情况况下下,先先从从总总体体N N中中抽抽取取一一个个较较大大的的样样本本,称称为为第第一一重重(

22、 (相相) )样样本本(the (the first first phase phase sample)sample),对对之之进进行行调调查查以以获获取取总总体体的的某某些些辅辅助助信信息息,为为下下一一步步的的抽抽样样估估计计提提供供条条件件;然然后后进进行行第第二二重重抽抽样样(the (the second second phase phase sampling)sampling)。第第二二重重抽抽样样所所抽抽的的样样本本n n相相对对较较小小,但但是是第第二重抽样调查才是主调查。二重抽样调查才是主调查。 第二节第二节 双重抽样双重抽样 二、双重抽样与两阶段抽样的区别二、双重抽样与两阶

23、段抽样的区别(一一)两两阶阶段段抽抽样样(two-stage two-stage samplingsampling)是是先先从从总总体体N N个个单单元元( (初初级级单单元元) )中中抽抽出出n n个个样样本本单单元元,却却并并不不对对这这n n个个样样本本单单元元中中的的所所有有小小单单元元( (二二级级单单元元) )都都进进行行调调查查,而而是是在在其其中中再再抽抽出出若若干干个个二二级级单单元元进进行行调调查查;双双重重抽抽样样则则不不同同,要要对对第第一一重重( (相相) )样样本本进进行行调调查查以以获获取取总总体体的的某某些些辅辅助助信信息息,并并且且要要利利用用这这些些辅辅助助

24、信信息息进行排序、分层、抽样或估计等。进行排序、分层、抽样或估计等。 第二节第二节 双重抽样双重抽样 (二二)两两阶阶段段抽抽样样的的第第二二阶阶段段抽抽样样单单元元和和第第一一阶阶段段抽抽样样单单元元往往往往是是不不同同的的;双双重重抽抽样样要要有有一一份份最最终终单单元元的的完完整整名名册册( (总总体体所所有有单单元元的的抽抽样样框框) ),而而两两阶阶段段抽抽样样只只是是需需要要第第一一阶阶段段单单元元( (初初级级单单元元) )名名册册,然然后后在在中中选选的的初级单元中构造第二阶段抽样的抽样框初级单元中构造第二阶段抽样的抽样框。 第二节第二节 双重抽样双重抽样 三、双重抽样的作用三

25、、双重抽样的作用(一)有助于筛选主调查对象(一)有助于筛选主调查对象 (二)节约调查费用二)节约调查费用(三)提高抽样效率(三)提高抽样效率 (四)可用于研究样本轮换中的某些问题(四)可用于研究样本轮换中的某些问题 (五)降低无回答偏倚(五)降低无回答偏倚 第二节第二节 双重抽样双重抽样 四、双重抽样的应用四、双重抽样的应用(一)为分层的双重抽样(一)为分层的双重抽样分分层层抽抽样样如如果果事事先先无无法法知知道道总总体体的的层层权权,可可以以采采用用双双重重抽抽样。具体实施过程如下:样。具体实施过程如下:第第一一步步:利利用用简简单单随随机机抽抽样样,从从总总体体的的N N个个单单元元中中随

26、随机机抽抽取取第第一一重重样样本本,样样本本单单元元数数为为 ;根根据据已已知知的的分分层层标标志志将将第第一一重重样样本本分层,令分层,令 ,则,则 是总体层权是总体层权 的无偏估计。的无偏估计。 第二节第二节 双重抽样双重抽样 第第二二步步:利利用用分分层层随随机机抽抽样样,从从第第一一重重样样本本中中抽抽取取出出第第二二重重样样本,样本单元数为本,样本单元数为n n,第,第h h层样本单元数为层样本单元数为 , 。 采用双重分层抽样,对总体均值采用双重分层抽样,对总体均值 的估计量为:的估计量为: 的方差为:的方差为: 第二节第二节 双重抽样双重抽样 上式可简化为上式可简化为 : 的样本

27、估计量为:的样本估计量为: 第二节第二节 双重抽样双重抽样 第第一一步步:从从总总体体的的N N个个单单元元中中随随机机抽抽取取第第一一重重样样本本,样样本本单单元元数数为为 ;对对于于第第一一重重样样本本,仅仅观观测测辅辅助助变变量量信信息息,用用辅辅助助变量的样本均值变量的样本均值 估计总体均值估计总体均值 。 (二)为比率估计的双重抽样(二)为比率估计的双重抽样 在在实实际际工工作作中中,如如果果辅辅助助变变量量的的信信息息未未知知,可可以以利利用用双双重重抽抽样进行比率估计。具体实施过程如下:样进行比率估计。具体实施过程如下: 第二节第二节 双重抽样双重抽样 双重抽样对总体均值双重抽样

28、对总体均值 的比率估计:的比率估计: 第第二二步步:从从第第一一重重样样本本中中随随机机抽抽取取出出第第二二重重样样本本,样样本本单单元元数数为为n n;对对于于第第二二重重样样本本,观观测测目目标标变变量量与与辅辅助助变变量量,并并用用获获得的得的和和,计算,计算,构造比率估计。,构造比率估计。双重抽样比率估计的方差为:双重抽样比率估计的方差为: 第二节第二节 双重抽样双重抽样 双重抽样比率估计方差的样本估计:双重抽样比率估计方差的样本估计:第二节第二节 双重抽样双重抽样 (三)为回归估计的二重抽样(三)为回归估计的二重抽样 与与比比率率估估计计相相似似,在在辅辅助助信信息息未未知知时时可可

29、以以采采用用二二重重抽抽样样进进行回归估计。具体实施过程如下:行回归估计。具体实施过程如下: 第第一一步步:从从总总体体的的N N个个单单元元中中随随机机抽抽取取第第一一重重样样本本,样样本本单单元元数数为为 ;对对于于第第一一重重样样本本,仅仅观观测测辅辅助助变变量量信信息息 ,用用辅辅助助变量的样本均值变量的样本均值 估计其总体均值估计其总体均值 。 第二节第二节 双重抽样双重抽样 第第二二步步:从从第第一一重重样样本本中中随随机机抽抽取取出出第第二二重重样样本本,样样本本单单元元数数为为n n;对对于于第第二二重重样样本本,观观测测目目标标变变量量 与与辅辅助助变变量量 ,并并计算计算

30、、 和回归系数和回归系数b b,构造回归估计。,构造回归估计。 双重抽样对总体均值的回归估计:双重抽样对总体均值的回归估计: 双重抽样回归估计的方差为:双重抽样回归估计的方差为: 第二节第二节 双重抽样双重抽样 式中式中 :为第一重样本残差方差,其均值近似等于总体残差方差为第一重样本残差方差,其均值近似等于总体残差方差 :因因此此双双重重抽抽样样回回归归估估计计方差的样本估计:方差的样本估计:第三节第三节 随机化装置随机化装置 一、敏感性问题调查一、敏感性问题调查 所所谓谓敏敏感感性性问问题题(sensitive (sensitive question)question)是是指指所所调调查查的

31、的内内容容涉及私人机密,受访者不愿或不便于向外界透露的问题。涉及私人机密,受访者不愿或不便于向外界透露的问题。 对对于于这这类类敏敏感感性性问问题题,必必须须采采取取经经过过特特别别设设计计的的装装置置与与方方法法,以以消消除除受受访访者者的的顾顾虑虑,能能够够如如实实回回答答问问题题,避避免免调调查查出出现现严严重重偏偏误误。这这种种为为敏敏感感性性问问题题调调查查特特别别设设计计的的技技术术,称称随随机机化化回答技术回答技术(Randomized Response Technique)(Randomized Response Technique)。 第三节第三节 随机化装置随机化装置 敏敏

32、感感性性问问题题按按总总体体的的特特征征可可分分为为属属性性特特征征和和数数量量特特征征问问题题两两类类。属属性性特特征征的的敏敏感感性性问问题题是是指指受受访访者者是是否否具具有有敏敏感感性性问问题题的的特特征征,一一般般是是估估计计具具有有敏敏感感性性特特征征的的单单位位在在总总体体中中所所占占的的比比例例,因因此此又又可可称称作作敏敏感感性性比比例例问问题题。数数量量特特征征的的敏敏感感性性问问题题是是指指受受访访者者具具有有敏敏感感性性问问题题数数额额的的多多少少的的特特征征,一一般般是是估估计计敏敏感感性性数数额额的均值或总和,也可称作敏感性均值问题。的均值或总和,也可称作敏感性均值

33、问题。二、沃纳随机化回答模型二、沃纳随机化回答模型 使使用用随随机机化化回回答答技技术术的的第第一一个个模模型型是是由由沃沃纳纳(S.L. (S.L. Warner)Warner)首先提出的首先提出的 。 例例如如,某某大大学学欲欲调调查查学学生生考考试试的的作作弊弊问问题题,随随机机抽抽取取n n个个学学生生进进行行调调查查,对对每每位位学学生生显显示示两两个个相相反反的的问问题题,问问题题可可以以写写在在外外形形完完全全相相同同的的m m张张卡卡片片上上,其其中中m m1 1个个卡卡片片写写上上“我我曾曾在在考考试试中中作作过过弊弊”,另另外外m-mm-m1 1个个卡卡片片写写上上“我我不

34、不曾曾在在考考试试中中作作过过弊弊”。然后把这。然后把这m m个卡片折叠好,放在一个盒子里。其中:个卡片折叠好,放在一个盒子里。其中:A问题:我曾在考试中作过弊。问题:我曾在考试中作过弊。 B B问题:我不曾在考试中作过弊。问题:我不曾在考试中作过弊。 第三节第三节 随机化装置随机化装置 调调查查时时将将m m种种外外形形完完全全一一致致的的卡卡片片像像洗洗牌牌一一样样充充分分混混合合后后,由由受受访访者者依依简简单单随随机机抽抽样样中中的的抽抽签签方方式式随随机机抽抽取取一一张张卡卡片片,对对照自己的情况回答照自己的情况回答“是是”或或“否否”,然后放回盒子中。,然后放回盒子中。 设设卡卡片

35、片A A的的比比例例是是P P,则则卡卡片片B B的的比比例例就就是是1-P1-P。由由古古典典概概率率可可知知,在在大大规规模模的的调调查查中中,抽抽中中卡卡片片的的概概率率为为P P(A A)=P=P,抽抽中中卡卡片片的的概概率率为为P P(B B)=1-P =1-P 。若若样样本本量量为为n n,回回答答“是是”的的人人数数为为m m,则则( (是是) )的的估估计计值值为为m/nm/n。我我们们知知道道,回回答答“是是”的的人人有有两两种种情情况况:一一种种是是抽抽中中了了卡卡片片A,A,而而这这些些人人作作过过弊弊;另另一一种种是是抽抽中中了卡片了卡片B B,而这些人没有作过弊。利用

36、全概公式,得:,而这些人没有作过弊。利用全概公式,得: ( (是是)=P(A)=P(A) ( (是是|A)+P(B)|A)+P(B) ( (是是|B) |B) 第三节第三节 随机化装置随机化装置 不不管管是是抽抽到到卡卡片片A A还还是是抽抽到到卡卡片片B B,作作过过弊弊的的概概率率是是相相等等的的,假假设设这这一一比比例例为为 ,即即 ( (是是|A)= |A)= , ,则则抽抽到到卡卡片片B B,回回答答“是是”的的概概率率为为1- 1- ,即即P(P(是是|B)=1- |B)=1- 。代代入入上上述述公公式式,得得 的一个估计的一个估计 满足满足 :第三节第三节 随机化装置随机化装置因

37、此当因此当 时,有时,有 :其方差为:其方差为: 的一个无偏估计为:的一个无偏估计为: 第三节第三节 随机化装置随机化装置当当n n很大时,很大时, 三、西蒙斯三、西蒙斯(Simmons)(Simmons)随机化回答模型随机化回答模型 西西蒙蒙斯斯在在沃沃纳纳模模型型基基础础上上作作了了改改进进,他他将将其其中中一一张张卡卡片片上上的的问问题题改改为为与与所所调调查查的的敏敏感感性性问问题题完完全全无无关关的的另另一一个个非非敏敏感感性性问题。因此西蒙斯模型也称为无关问题的随机化回答模型。问题。因此西蒙斯模型也称为无关问题的随机化回答模型。 仍仍假假设设敏敏感感性性问问题题的的卡卡片片比比例例

38、为为P P,无无关关问问题题的的卡卡片片比比例例为为1-P1-P。对对于于敏敏感感性性问问题题回回答答“是是”的的比比例例为为 ,是是我我们们所所要要调调查查的的比比例例,对对无无关关问问题题回回答答“是是”的的比比例例 要要求求是是已已知知的的,则根据全概率公式,得则根据全概率公式,得 : ( (是是)=P +(1-P) )=P +(1-P) 第三节第三节 随机化装置随机化装置 当当样样本本量量为为n n,回回答答“是是”的的人人数数为为m m,则则 ( (是是) )的的估估计计值值为为m/nm/n,因此,因此 的估计值的估计值 满足:满足:第三节第三节 随机化装置随机化装置解此方程得解此方

39、程得 :它的方差为(若忽略它的方差为(若忽略fpcfpc):): V V( )的一个无偏估计为:)的一个无偏估计为: 【例例10.110.1】 某某大大学学对对本本校校大大学学生生考考风风情情况况进进行行调调查查。利利用用西西蒙蒙斯斯模模型型,对对每每个个受受访访者者准准备备了了一一套套同同样样的的(40(40张张) )卡卡片片,卡卡片片A A和卡片和卡片B B各各2020张,比例各占张,比例各占1/21/2。卡片上卡片上A A的问题是:最近学期期末考试你有过作弊行为吗?的问题是:最近学期期末考试你有过作弊行为吗?卡片上卡片上B B的问题是:你的阳历生日日期为奇数吗的问题是:你的阳历生日日期为

40、奇数吗? ?第三节第三节 随机化装置随机化装置 【例例10.110.1】 某某大大学学对对本本校校大大学学生生考考风风情情况况进进行行调调查查。利利用用西西蒙蒙斯斯模模型型,对对每每个个受受访访者者准准备备了了一一套套同同样样的的(40(40张张) )卡卡片片,卡卡片片A A和卡片和卡片B B各各2020张,比例各占张,比例各占1/21/2。卡片上卡片上A A的问题是:最近学期期末考试你有过作弊行为吗?的问题是:最近学期期末考试你有过作弊行为吗?卡片上卡片上B B的问题是:你的阳历生日日期为奇数吗的问题是:你的阳历生日日期为奇数吗? ? 假假如如对对依依简简单单随随机机抽抽样样方方式式抽抽出出

41、的的400400个个人人进进行行调调查查,在在n=400n=400人人中中总总共共有有m=115m=115人人的的答答案案为为“是是”,试试估估计计该该校校大大学学生生考试作弊的比例考试作弊的比例 并给出并给出90%90%的置信区间。的置信区间。 第三节第三节 随机化装置随机化装置 解解:n=800n=800,m=135m=135,P=0.5P=0.5, 为为生生日日日日期期为为奇奇数数的的人人数数比比例例。在在大大规规模模调调查查的的情情况况下下,可可以以看看作作生生日日为为奇奇数数和和偶偶数数的的各各占一半,因此占一半,因此 =0.5=0.5。根据公式得:。根据公式得: 第三节第三节 随机

42、化装置随机化装置 = = 故故 的的90%90%置信区间约为:(置信区间约为:(0.0751.640.04530.0751.640.0453),即),即 : =0.002054=0.002054 四、随机截尾模型四、随机截尾模型 现现实实中中我我们们也也经经常常需需要要调调查查定定量量的的敏敏感感性性问问题题,例例如如调调查查银银行行存存款款数数额额,学学生生考考试试作作弊弊的的平平均均次次数数,在在职职人人员员的的工工资资外外收收入入等等。GreenbergGreenberg等等人人针针对对这这类类问问题题提提出出了了几几种种随随机机化化调调查查方方法法,但但是是,这这些些方方法法都都要要求

43、求受受访访者者根根据据自自己己的的实实际际情情况况回回答答敏敏感感性性问问题题或或非非敏敏感感性性问问题题的的具具体体数数值值,给给受受访访者者/ /受受查查者者造造成了一定的困扰。成了一定的困扰。 近近年年来来提提出出了了所所谓谓随随机机截截尾尾模模型型,把把对对于于具具体体数数值值的的调调查查转转化化为为对对于于属属性性的的调调查查,避避免免了了直直接接回回答答,使使得得受受访访者者心心理理上上比较容易接受。比较容易接受。 第三节第三节 随机化装置随机化装置 设设反反映映敏敏感感性性问问题题的的特特征征量量为为X X,取取值值范范围围是是 ,密密度度函函数数为为 ,X X的的数数学学期期望

44、望为为 ,即即我我们们所所要要估估计计的的值值。又又设设Y Y是一个服从是一个服从 上的均匀分布的随机变量。上的均匀分布的随机变量。 第三节第三节 随机化装置随机化装置 设样本容量为设样本容量为n n,得到的调查数据是,得到的调查数据是 ,I=1I=1,2 2, n n,即:,即: = = ,因此,因此以以样样本本均均值值 = = 代代替替 ,得得到到 的的一一个个无无偏偏估估计计为:为: 第三节第三节 随机化装置随机化装置估计量的方差为:估计量的方差为: 的一个估计为:的一个估计为: 五、采用随机化回答技术应注意的问题五、采用随机化回答技术应注意的问题第三节第三节 随机化装置随机化装置( (

45、一一) ) 注注意意在在受受访访者者正正式式抽抽取取并并回回答答问问题题前前,清清楚楚介介绍绍这这种种做做法法的的原原理理,让让受受访访者者充充分分理理解解这这种种方方法法的的特特点点,以以彻彻底底消消除除受受访访者者的的顾顾虑虑,明明白白自自己己究究竟竟回回答答哪哪个个问问题题别别人人是是不不知知道道的的,使使其其相信这种设计是建立在科学的基础上,不是哄骗人的。相信这种设计是建立在科学的基础上,不是哄骗人的。( (二二) ) 所所提提问问题题必必须须简简单单明明了了,防防止止因因有有歧歧义义而而出出现现理理解解不不同同。对对涉涉及及问问题题的的解解释释必必须须在在抽抽卡卡片片以以前前进进行行

46、,否否则则就就暴暴露露了了抽抽到到的是哪类卡片,也就失去了随机化回答的意义。的是哪类卡片,也就失去了随机化回答的意义。第三节第三节 随机化装置随机化装置 ( (三三) ) 在在应应用用西西蒙蒙斯斯模模型型时时,无无关关问问题题的的选选择择特特别别重重要要,一一定定要要隐隐蔽蔽性性强强的的,使使受受访访者者在在回回答答无无关关问问题题时时不不会会暴暴露露正正在在回回答答哪哪个个问问题题。例例如如“你你是是男男生生吗吗? ?”这这类类问问题题就就很很不不妥妥,因因为为采采用用随随机机化化回回答答技技术术需需要要当当面面解解释释,受受访访者者的的性性别别不不可可能能保保密密,这这样也就失去了无关问题

47、本来应具有的保护作用。样也就失去了无关问题本来应具有的保护作用。 ( (四四) ) 做做好好调调查查者者的的培培训训工工作作,使使他他们们能能够够正正确确理理解解随随机机化化回回答答技技术术的的实实质质并并加加以以运运用用,这这样样才才能能更更好好地地向向受受访访者者解解释释清清楚楚,消除受访者的顾虑,以对调查的问题给予正确回答。消除受访者的顾虑,以对调查的问题给予正确回答。 第四节第四节 交叉子样本交叉子样本 交交叉叉子子样样本本(Interpenetrating Interpenetrating sub-samplessub-samples)方方法法最最初初是是由由印印度度著著名名统统计计

48、学学家家马马哈哈拉拉诺诺比比斯斯于于3030年年代代提提出出来来的的用用于于大大规规模模的的抽抽样样调调查查,后后来来由由美美国国统统计计学学家家戴戴明明推推广广和和发发展展,他他称称之之谓谓重重复复抽抽样样。它它的的主主要要优优点点是是便便于于计计算算抽抽样样标标准准误误差差,即即使使是是复复杂杂的的抽抽样样设设计计和和复复杂杂的的估估计计量量,也也可可以以很很快快得得到到方方差差的的估估计量。它还可以用于发现偏差,核对调查员的调查质量等。计量。它还可以用于发现偏差,核对调查员的调查质量等。 第四节第四节 交叉子样本交叉子样本 一、独立的交叉子样本一、独立的交叉子样本设设总总体体为为N N,

49、现现欲欲抽抽取取样样本本容容量量为为n n的的样样本本。那那么么可可以以利利用用交交叉叉子子样样本本的的方方法法, 假假设设抽抽取取K K个个子子样样本本,使使每每个个样样本本的的容容量量为为m(nm(n=Km)=Km),每每个个交交叉叉子子样样本本可可以以得得到到总总体体参参数数的的一一个个无无偏偏估估计量计量那么交叉子样本的估计量及其方差为:那么交叉子样本的估计量及其方差为:(不重复抽样(不重复抽样 ) 【例例10.210.2】假假设设有有一一小小城城镇镇,现现欲欲估估计计这这一一城城镇镇的的房房屋屋数数。该该城城镇镇共共有有5050个个居居委委会会,由由于于居居委委会会作作为为抽抽样样单

50、单位位太太大大,将将每每个个居居委委会会划划分分为为8 8个个地地段段,这这样样共共有有400400个个地地段段,拟拟抽抽取取20%20%的的地地段段做做样样本本,所所以以n=80n=80,现现采采用用K=5K=5独独立立交交叉叉子子样样本本,每每个个交交叉叉子子样样本本的的容容量量为为1616。抽抽样样的的方方法法可可用用系系统统抽抽样样的的方方法法,将将总总体体分分成成1616段段(层层),每每段段有有2525个个地地段段。抽抽选选时时先先在在1 12525之之间间用用不不重重复复抽抽样样方方法法抽抽取取5 5个个随随机机数数作作为为随随机机起起点点。如如表表(10. 10. 2 2)中的

51、第一行,它们分别是:)中的第一行,它们分别是:1818,1 1,8 8,2323,1111。 第四节第四节 交叉子样本交叉子样本第四节第四节 交叉子样本交叉子样本第四节第四节 交叉子样本交叉子样本方差的估计量为:方差的估计量为: 95%95%的置信区间为的置信区间为 第四节第四节 交叉子样本交叉子样本 交交叉叉字字样样本本的的估估计计量量也也适适用用于于复复杂杂的的估估计计量量,例例如如比比率率估估计计量量。如如果果每每个个子子样样本本的的估估计计量量为为 ,则则总总体体的的分分别别比比率估计量为:率估计量为: 19591959年年莫莫蒂蒂和和南南加加玛玛还还证证明明了了交交叉叉子子样样本本的

52、的合合并并比比率率估估计计量量 ,其方差也是近似的。,其方差也是近似的。 第四节第四节 交叉子样本交叉子样本二、交叉子样本的其他应用二、交叉子样本的其他应用 四四十十年年代代马马哈哈拉拉诺诺比比斯斯曾曾将将交交叉叉子子样样本本方方法法用用于于农农产产量量调调查查中中,用用来来发发现现不不同同调调查查员员的的偏偏差差。其其方方法法是是抽抽取取一一对对相相联联系系(或或邻邻近近)的的子子样样本本。如如在在田田块块中中设设置置哑哑铃铃型型的的测测框框,哑哑铃铃的的两两端端组组成成两两个个子子样样本本。分分别别由由两两组组调调查查人人员员各各调调查查一一个个子子样样本本,然然后后将将两两个个子子样样本

53、本的的结结果果相相比比较较,采采用用t t检检验验,如如果果两两个个子子样样之之间间有有显显著著差差别别,则则说说明明调调查查中中有有不不同同方方向向和和不不同同程程度度的的偏偏差差存存在在,如如果果没没有有显显著著差差异异,则则不不能能说说明明没没有有偏偏差差,只只能能所所没没有有发发现偏差。现偏差。 第四节第四节 交叉子样本交叉子样本 这这种种方方法法也也可可用用于于某某一一调调查查中中,研研究究调调查查人人员员是是否否需需要要进进行行培培训训。可可将将两两组组相相联联系系的的子子样样本本分分别别由由经经过过培培训训的的调调查查人人员员和和未未经经培培训训的的调调查查人人员员进进行行调调查

54、查,然然后后把把两两组组的的结结果果加加以以比比较较,如如果果有有显显著著差差别别,说说明明培培训训是是需需要要的的,如如果果无无显显著著差差别别,说说明明培培训训的的作作用用不不大大。交交叉叉子子样样本本还还可可以以在在不不同同的的操操作作方方法法中中进进行行检检验验,如如果果各各子子样样的的差差别别不不大大,说说明明各各种种操操作作方方法法都都是是可可行行的的,如如果果其其中中有有一一种种操操作作方方法法与与其其它它方方法法有有较较大大差差别别,那那么么对对这这种种操作方法应仔细检查。操作方法应仔细检查。 编号为奇数的习题答案编号为奇数的习题答案10.1(略)(略)10.3(1)双重抽样中最优的 ,双重分层抽样方差估计为:(2)不分层的简单随机抽样方差 ,故双重抽 样效率高。(3) 10.5 的双重回归估计量的标准差为的双重回归估计量的标准差为1.05 10.7,为生日日期为奇数的人数比例在大规模调查的情况下,可以看作生日为奇数和偶数的各占一半,因此 。根据公式得:即估计有70%的已婚男子存私房钱,由公式得: 故 的95%置信区间约为:即:(60.4%,79.6%)因此不能认为已婚男子存私房钱的比例约为60%。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号