09case-CNNIC抽样设计－金锄头文库

资源描述

《09case-CNNIC抽样设计》由会员分享，可在线阅读，更多相关《09case-CNNIC抽样设计（52页珍藏版）》请在金锄头文库上搜索。

1、,“网民知多少？” CNNIC全国调查抽样方案设计,背景,随着IT技术和互联网的飞速发展，中国的网民数量、网民特征以及上网行为成为社会关注的热点，这些信息不仅对于政府管理部门制定有关政策极具参考价值，对于各个网站以及网上广告主也有一定的商业价值。 1997年，经国务院信息办研究决定，由中国互联网信息中心（CNNIC）来实施这方面的调查统计工作。,CNNIC于1997年、1998年、1999年和2000年共发布了六次“中国互联网络发展状况统计报告” 对我国上网人群的数量、分布、基本特征等进行了估计对我国网民的上网行为、习惯以及对有关热点问题的看法和态度进行了概括性的说明,背景,背景,前六次调查

2、采用是网上联机调查的方式，即在网上发布问卷，由网民自由填写，CNNIC利用技术手段去掉重复的问卷，并从中抽样。利用这种网上联机方式来调查网民的情况，引起了一些争议。,为了使调查结果更具说服力，CNNIC决定第七次调查时，有关网民情况的内容采用传统的网下抽样调查的方式进行希望样本能够代表全国和各省的情况为此特委托北京广播学院调查统计研究所（SSI）设计全国调查的抽样方案,背景,全国以及各省,时间有限,费用有限,抽样方案设计,背景,CNNIC调查的主要目的是估计全国网民的总量网民的构成以及上网行为考虑到上网是有一定年龄限制的，年龄太小的孩子不可能独立上网，因此将目标总体界定为 “全国所

3、有六岁以上的居民”,二、抽样设计的基本思路-总体的界定,考虑到上网是有一定年龄限制的年龄太小的孩子不可能独立上网目标总体,二、抽样设计的基本思路-总体的界定,“全国所有六岁以上的居民”,二、抽样设计的基本思路-总体的界定,代表全国的抽样调查,随机入户面访的方式,CNNIC无法承受时间和费用,大规模的入户面访调查不符合效率原则,二、抽样设计的基本思路-总体的界定,上网是新生事物,网民的人数还比较少、所占比例低,全国所有六岁以上的居民,目标总体,二、抽样设计的基本思路-总体的界定,无住宅电话的6岁以上的居民,有住宅电话的6岁以上的居民,住校的高等院校学生,网民,二、抽样设计的基本思路-总体的

4、界定,住校的高等院校学生,拥有住宅电话的六岁以上的居民（不包括住校的大学生）,CATI,面访,抽样总体,二、抽样设计的基本思路-“住宅电话居民”抽样的总思路,分层 PPS与等概率结合四阶段混合型抽样,第一阶段：用PPS法抽取地区（城镇和乡村）第二阶段：抽取电话局号；第三阶段：抽取电话号码；第四阶段：抽取调查对象。,二、抽样设计的基本思路-“住宅电话居民”抽样的总思路,按省分层每个省作为一层,每个省内,所获得的样本可以近似看成是自加权样本对全省有代表性,分层 PPS与等概率相结合的三阶段混合型抽样,二、抽样设计的基本思路-“大学生”抽样的总思路,第一阶段：抽学校第二

5、阶段：抽班级第三阶段：抽住校学生,二、抽样设计的基本思路-“大学生”抽样的总思路,代表全国的近似自加权样本按各省大学生在各层的分配情况可以近似推断各省的情况,二、抽样设计的基本思路,全国网民人数上网行为,省,住宅电话居民,住校大学生,省,i省,加权处理,加权处理,（3）样本量的确定上网是一个新生事物，在“住宅电话居民”中，上网人数所占的比例还很小，为了保证目标比例估计值的精度，采用最大允许相对误差的公式来估计上网比例最低的省所需的样本量。,二、抽样设计的基本思路,非常简单随机抽样所需的最小样本含量为：,no：非常简单随机样本所需的最小样本量 rP：最大允许的相对误差 P：所估计的目

6、标比例在置信度为95%的情况下，t=1.96,二、抽样设计的基本思路,31个省中，目标总体中网民比例超过5%的只有7个，不到2%的有7个，网民比例最少的青海省和内蒙古自治区，估计比例为1.5%,二、抽样设计的基本思路,二、抽样设计的基本思路,保证精度前提下更多考虑到CNNIC能承受的访问实施的费用和时间为了便于各省比较，每个省样本量相同,在“大学生”总体中，网民的比例比较高，样本量按最大允许的绝对误差公式计算，综合考虑抽样设计的精度以及CNNIC所能承受的调查费用和调查时间，取置信度为95%，最大允许绝对误差为1.8%，设计效应为2，则总样本量为6,000。共抽取120所大学，每校

7、抽取5个班，每班调查10人。,二、抽样设计的基本思路,“住宅电话居民”总体,二、抽样设计的基本思路抽样指标的确定,“大学生”总体,二、抽样设计的基本思路抽样指标的确定,“住宅电话居民”总体多重抽样框：大部分的资料来自于统计年鉴有关省级住宅电话数目来自电信部门；抽中地区的电话局号资料，来自电信部门；地区一级的住宅电话数目是用回归模型预测的。,二、抽样设计的基本思路-关于抽样框的说明,“大学生”总体第一阶段：中国普通高等学校名录98版（教育部发展规划司编高等教育出版社），收录了截止1998年9月按国家规定的审批程序批准设置的1022所普通高校。包括15项指标，其中有21所学校多项指

8、标缺失，最终的抽样框共包括1001所大学。第二阶段、第三阶段的抽样框都是在访问实施过程中建立的完整抽样框。,二、抽样设计的基本思路-关于抽样框的说明,三、“住宅电话居民”子总体的抽样,第一阶段：抽取地区,从每个省中抽取五个地区抽样指标：地区的住宅电话数目,三、“住宅电话居民”子总体的抽样,（1）利用回归模型预测“地区住宅电话数目” 所获得的住宅电话的资料仅到省级，没有地区级的资料，利用省一级的经济、人口指标作为自变量，“住宅电话数目”作为因变量，通过SPSS软件对31个省的资料进行多次测算，建立了一个回归预测模型。,住宅电话数目=325018 +0.02684(地区人口) +0.03775

9、（国民生产总值） +0.1433（社会消费品零售总额）,三、“住宅电话居民”子总体的抽样,决定系数为0.944，回归模型的方差分析的显著性水平为0.000，三个自变量的与因变量的线性联系检验的显著性水平都小于5%。虽然三个自变量相关显著，但研究的目标是为了预测，追求的是决定系数最大，因此可以认为所得的回归预测模型是比较理想的。,住宅电话数目=325018 +0.02684(地区人口) +0.03775（国民生产总值） +0.1433（社会消费品零售总额）,三、“住宅电话居民”子总体的抽样,当然，利用省一级的数据做出的预测模型不一定完全适用于地区，但是在没有其他办法取得实际的各地区住宅电话数目

10、的情况下，采用预测模型也是不得已。按照此回归预测模型，用各个地区的人口数、98年地区国民生产总值以及98年社会消费品零售总额得到了各个地区的住宅电话数目。,三、“住宅电话居民”子总体的抽样,（2）抽取地区根据所估计的各地区“住宅电话的数目”的大小，按照PPS抽样法，使每个地区被抽中的概率，等于该地区“住宅电话的数目”与该省“住宅电话的数目”之比。,EXCEL抽样演示,三、“住宅电话居民”子总体的抽样,三、“住宅电话居民”子总体的抽样,（3）样本量分配在地区多于五个的省中，各省的样本量（2020）在抽中各地区中按抽中的次数平均分配，如抽中一次，该地区的样本量为404；如被抽中两次，该地区的

11、样本量为808。在地区少于五个的省中，各省的样本量（2020）在各地区中按地区的住宅电话数目的比例分配。,样本量分配示例,三、“住宅电话居民”子总体的抽样,第二阶段：抽取电话局号对于抽中的地区，通过有关部门获得了该地区的所有电话局号资料。电话号码由区号、局号和后四位数字（有极少部分地区，交换机还没有更新，电话号码除了局号，后面是三位数字）构成。抽中的地区中有些地区是统一的区号，有些地区可能还有不同的区号。每个区号下有很多局号，局号相同，则地理位置可能比较相近，为使样本的代表性更强，每个地区的所有局号都被抽取。平均分配每个局号下的样本量。,三、“住宅电话居民”子总体的抽样,空号、住宅电话

12、和非住宅电话,第三阶段：抽取电话号码,区号局号随机数号码,利用随机数字表,不同局号下的住宅电话号码被抽中的机会不同概率事前未知为保证各省的样本近似于自加权样本理论上此阶段要采取事后加权的方式,三、“住宅电话居民”子总体的抽样, 电话号码 ,局号号码,住宅电话非住宅电话,误差可能很大无法判断无人接听的电话是否住宅电话,每个局号下,三、“住宅电话居民”子总体的抽样,三、“住宅电话居民”子总体的抽样,在实施过程中，每个抽中地区的所有电话局号都被抽取了，也就是说，样本单元的分布遍布了所有的局号因此虽然各省的样本不是严格意义上的自加权样本，但是，将其按近似的自加权样本处理，误差可能反而会大

13、大小于按近似估计的加权系数来计算所造成的误差,三、“住宅电话居民”子总体的抽样,第四阶段：抽取调查对象电话调查方式在中国是新生事物，人们对此还不熟悉，为了便于访问实施，提高访问成功率：把接听电话的人作为被访对象先询问其家庭基本状况和个人是否上网、个人背景资料和家庭其他成员的最简要资料。如果他（她）不上网，但家中有人上网，则再随机抽取一名上网的成员来接听电话，回答有关上网的问题以及个人基本资料，以获取尽可能多的有用信息。,方法一：拨通住宅电话后，请家庭成员（不包括住校的高等学校学生）中生日距离访问日期最近的6岁以上的成员听电话，该人作为被访对象。即我们的调查是以个人作为访问对象；缺点：实

14、施起来开始进入有一定的难度，但是可能存在非随机抽样误差的问题。优点：但一旦开始则会比较容易完成访问；而且由于其随机性，也可以比较容易地进行事后的估计；,方法二：拨通住宅电话后，把接听电话的人作为被访对象，先询问家庭基本状况和他（她）本人上网（不上网）的有关情况、个人背景资料和家庭其他成员的最简要资料。如果他（她）不上网，但家中有人上网，则再随机抽取一名上网的成员来接听电话，回答有关上网的问题以及自己的个人基本资料。此方法获取了最大的信息量，但调查对象不是随机选取的，对目标量需要事后加权处理。方法二实施起来开始比较容易进入，但是由于询问量大，访问有可能半途中断；而且由于接电话者可能具有某些特

15、征，因此后期的估计需要作加权处理。不过这种方法所得到的信息量可能是最大的。,四、“大学生”子总体的抽样,住校大学生的界定如下：住校的（不是住在家中的，非走读）大专院校普通本专科学生（包括高职、大专、本科、续本、双学位）和研究生。,抽样采用分层三阶段抽样的方法。,四、“大学生”子总体的抽样,分层：选定有关学校的规模和性质的变量作为分层指标（可能与学生上网情况比较相关的指标），具体包括“普通本专科生人数”、“研究生人数”、“教授人数”、“副教授人数”、“博士点数目”、“硕士点数目”；分层指标标准化后，利用SPSS软件的聚类分析，把1001所大学分为了六层。按各层“普通本专科学生与研究生人数”

16、所占的比例，确定各层应抽取的学校的个数。,四、“大学生”子总体的抽样,第一级抽样单元为学校，按PPS方法，以“普通本专科学生与研究生人数”作为抽样指标；第二级抽样单元为班级，按院系和年级分层后随机抽取；第三级抽样单元为住校学生，等距抽取。,五、总体主要目标量及其精度的估计,本调查的目标量可以分成三类：总量：比如说目标总体中网民的总数；比例：本调查的总体目标量大部分都是以比例的形式出现的，如各省中网民人数占目标总体的比例，不同性别、不同文化程度、不同年龄的人群的上网比例等；均值：比如说平均的上网时间、平均的自费上网费用等。,五、总体主要目标量及其精度的估计,（1）“住宅电话居民”子总体各省的比例目标及其方差的估计,五、总体主要目标量及其精度的估计,（2）“大学生”子总体各省的比例目标及其方差的估计,其中Nh为某省第h层的学生数；N为该省的学生总数。,五、总体主要目标量及其精度的估计,（3）各省目标总体的比例及其方差的估计,其中 PA表示某省“住宅电话居民”子总体具有

展开阅读全文