国家卫生服务总调查样本地区和样本个体的抽取方法

资源描述

《国家卫生服务总调查样本地区和样本个体的抽取方法》由会员分享，可在线阅读，更多相关《国家卫生服务总调查样本地区和样本个体的抽取方法（10页珍藏版）》请在金锄头文库上搜索。

1、1 附件二：国家卫生服务总调查样本地区和样本个体的抽取方法一、概述. 国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性，又不致于过多增加样本量而加大调查的工作量，即经济有效的原则。. 抽样的方法是多阶段分层整群随机抽样法。第一阶段分层是以县（市或市区）为样本地区；第二阶段分层是以乡镇（街道）为样本地区；第三阶段分层以村为样本地区；最后是住户为样本个体。二、第一阶段分层整群抽样. 第一阶段抽样着重解决两个基本问题：一是由于全国各县、市差异极大，如何确定第一阶段分层的基准；二是抽样比例，多大的县、市样本量能经济有效地代表全国和不同类型的地

2、区。. 第一阶段分层基准的确定第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的个与卫生有关的社会经济、文化教育、人口结构和健康指标。个指标的主成份分析结果如表。表主要社会经济和人口动力学指标的主成份因子模型变量单位主成份主成份主成份第一产业就业率 0.82* -0.49 0.17 14 岁人口比例 0.80* -0.10 -0.49 文盲率 0.69* 0.32 0.22 粗出生率 0.69* 0.35 -0.10 粗死亡率 0.67* 0.51 0.33 婴儿死亡率 0.67* 0.60* -0.02 人均工农业产值（元） -0.65* 0.53* 0.12 第二产业就业率

3、-0.84* 0.45 -0.10 初中人口比例 -0.92* 0.02 -0.04 65 + 人口比例 -0.10 -0.19 0.93* 从主成份分析中可以看出主成份与绝大多数变量有十分显著的关联，意义十分明确，而且代表 10 个变量整体信息的 51.22。其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。因此，确定主成份为分层的基准称它为分层因子。. 第一阶段的聚类分层在计算各县、市分层因子的得分后，用 K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。聚类分层的结果第一层有 201 个县（市或市区），占整个县（市或市区）的 8.2

4、；第二层有 650个县（市或市区），占 26.5；第三层有 698 个县（市或市区），占 28.5；第四层有 691个县（市或市区），占 28.2；第五层有 212 ，2 占 8.6。表显示了各层因子得分和选择的社会经济等变量的均值，可见各层呈明显的梯度。可以认为，第一层所在的市县，是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区，第二层是比较好的地区，第三层是一般性地区，第四层是比较差，第五层是差的地区。表 2 主要社会经济和人口动力学指标的主成份因子模型市县因子得分社会经济和人口动力学指标层别数均数距离 GNP AEP ILLIT CDR IMR 1 201

5、 -2.4354 3210.28 3330 15.7 19.7 5.1 17.5 2 650 -0.6638 2164.66 835 64.6 23.7 5.7 26.2 3 698 0.0692 1655.00 450 83.5 32.4 6.3 31.4 4 691 0.5776 1264.57 341 88.1 43.6 7.4 49.1 5 212 1.7457 539.61 319 90.0 66.8 11.7 121.4 . 第一阶段分层等概率多种样本容量的抽样用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家抽样调查样本的设计，首先给定一个样本量大小的

6、范围，确定抽取样本量为 120 ， 90 ， 60，45 ，30 五个大小不等的样本。为了保证各层每一个县（市或市区）都有同等被抽取为样本的概率，必须考虑不同大小样本量的样本在各层的分配，即按比例的分层抽样。见表。表不同大小样本量样本在各层的分配层数全国不同大小样本量样本的分配: 合计（） 120 90 60 45 30 第一层201 （8.2 ）10 8 5 4 2 第二层650 （26.5 ）32 23 16 11 8 第三层698 （28.5 ）34 26 17 13 9 第四层691 （28.2 ）34 25 17 13 8 第五层212 （8.6 ）10 8 5 4 3 按系统随机抽

7、样方法，每个不同大小样本量的样本抽取 6 次。同一样本量的 6 次抽样，通过计算每次抽样样本各变量的统计量，分别与总体各变量参数进行比较，从中筛选出与总体参数最为接近的那个样本，作为该样本量的最佳抽取样本。. 第一阶段最佳样本量样本的选择与评价不同样本量样本各变量均值与总体均数的比较：如果将不同样本量样本各变量的均值与总体各变量的均数绝对误差，绝对误差与总体均数之比为相对误差，同一样本各变量的相对误差具有可加性，其均数称为该样本各变量的平均相对误差。平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。同时，用“- 平均相对误差”作为精确度。表显示了不同样本量样本各变量的均数，与总体

8、各变量比较的相对误差、平均相对误差和精确度。从不同样本量样本来看，平均相对误差随着样本量的减少而增大。如样本量从120减少到 60 ，平均相对误差由1.4 增加到 2.7 ，增加了62 ，而样本量从60 减少到 30，平均相对误差从2.7 增加到5.6 ，增加了一倍以上。样本量为 120 ，90 ， 60 的样本精确度均大 95 ，也就是说样本量大于 60 就可对总体有较好的代表性。不同样本量样本各变量的分布与总体分布的比较：样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。表列出了不同样本量各变量分布与总体分布卡方3 检验的结果。从不同样本各变量分布与总体分布的结果，平均

9、卡方值小于 9.49这一差异有显著性水平的样本量为 120 ， 90 和 60 。鉴于上述分析，故可认为，样本量大于 60 的样本，各变量的分布大多与总体分布相拟合，对总体有较好的代表性。见表。不同样本量样本分散度的评价：样本分散度指样本中各层的变量统计量对总体各层的代表性。在第一层中，样本量为 120 和 90 的样本，平均每个指标的精确度均大于 95 ；样本量为 60 的样本，精确度为 89.4。从第二层到第四层，样本量为 120 和 90 的各个样本，平均每个指标的精确度都大于95 ；第五层样本量为 120 ，90 和 60 的各样本，精确都分别为94.1 ， 92.5 和 93.9，与

10、上述四层相比，精确度略差一些。也就是说，要对总体各层有较好的代表性，样本量至少为 90 。详见表。. 考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性，国家卫生服务总调查的县（市或市区）样本容量取。具体抽出的县、市或市区见附件。三、第二阶段整群随机抽样 . 在上述抽取的个“样本县（市或市区）”中，以乡镇（街道）为第二阶段整群系统随机抽样单位。全国每个乡镇（街道）被抽取为“样本乡镇（街道）”的概率是1160 。第二阶段整群系统随机抽样全国共抽取 450个乡镇（街道）。平均每个“样本县（市或市区）”抽个乡镇（街道）。第二阶段分层整群抽样具体由各样本县（市或市区）按下述方法抽取

11、。. 第二阶段整群随机抽样的基准由于一个县（市或市区）内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异，因而确定县（市或市区）的抽样基准相对容易。根据我国各县（市或市区）的基本特征、实际的可操作性和以往抽样调查常用的指标，确定采用人口数（或人均收入）作为分层基准。. 第二阶段整群随机抽样的的方法将样本县（市或市区）所有的乡镇（街道）按人口数的多少（或人均收入的大小）由多到少依次排序；由多到少依次计算人口数（或人均收入）的累计数；计算抽样间隔，用累计的人口总数（或人均收入累计总数）除于抽取的样本数（累计总数）；用纸币法（随便拿出一张人民币，看人民币的号码与最初累计数哪一

12、个数接近，取这个数为开始数）随机确定第一个样本乡镇（街道），然后加上抽样距离确定第二个样本乡镇（街道），依次类推确定第三至五个样本乡镇（街道）。. 第二阶段整群随机抽样实例某个样本县共有 18 个乡、镇，要从该样本县抽取乡镇作为样本。根据抽样方案的要求，第一步人口数的多少由大到小排序，并计算累计数（该县人口累计数即人口总数为210100 ），见表；第二步计算抽样间隔，用人口总数除于抽样的样本数，248600 5 = 49720，该县乡镇整群抽样的抽样间隔为49720 ；第三步确定第一个随机数，取一张人民币，其编号的为FP59243854，取后位数是43854 ，所取的后为数不能大于抽样间

13、隔数，如大于再取一张人民币该后位随机数接近第编号即平湖镇后面的累计数，因此确定第号平湖镇为第一个样本；第四步用第一个样本的累计数加抽样间隔，即 43000 + 49720 = 92720，该数接近第编号即新龙乡的累计数，确定第号新龙乡为第二个样本。第五步用第二个样本的累计数加抽样间隔，即 100900+49720=142920，该数接近第编号新原乡的累计数，确定第号新原乡为第三个样本；同样的方法确定第号和第号即桐4 连乡和四顶乡。这样，五个样本乡镇就确定了。表 . 第二阶段整群随机抽样的实例编号乡镇人口数累计编号乡镇人口数累计编号乡镇人口数累计城关镇22000 22000 平原乡16400 1

14、34900 新店镇10000 205500 平湖镇21000 43000 * 新原乡15000 149900 *定安乡9500 215000 玉阳镇20000 63000 古农乡14000 163900 五岖乡8900 223900 五一乡19500 82500 王店乡11000 174900 五庙乡8500 232400 * 新龙乡18400 100900 * 双莲乡10500 185400 双山乡8200 240600 湖泊乡17600 118500 桐连乡10100 195500 *四顶乡8000 248600 四、第三阶段随机抽样. 第三阶段随机抽样的基准和样本容量在同一个乡镇（街道

15、）内，各村（居委会）的经济发展和卫生状况基本上变异不大。因此，第三阶段不用分层，直接采用随机整群抽样的方法从“样本乡镇（街道）”中抽取样本村（居委会）。但是，抽样时应按各村人均收入或人口数作为标识进行排序。第三阶段随机抽样由调查指导员负责。每个“样本乡镇（街道） ”整群随机抽取个村（居委会），全国共抽取 900个村（居委会），全国每村（居委会）被抽为样本的概率为 1:1120。. 第三阶段整群随机抽样的的方法将样本乡镇（街道）所有的村（居委会）按人均收入的多少（或人口数的大小）由多到少依次排序；由多到少依次计算人均收入（或人口数）的累计数；计算抽样间隔，用累计总数除于抽取的样本数（累计总数）；用纸币法（随便拿出一张人民币，看人民币的号码与最初累计数哪一个数接近，取这个数为开始数）随机确定第一个样本村（居委会），然后加上抽样距离确定第二个样本村。. . 第三阶段随机整

展开阅读全文

国家卫生服务总调查样本地区和样本个体的抽取方法

最新文档