文档详情

户内人口匹配数据的误用与改进

艾力
实名认证
店铺
PDF
262.62KB
约17页
文档ID:36790637
户内人口匹配数据的误用与改进_第1页
1/17

社会学研究 1 户内人口匹配数据的误用与改进户内人口匹配数据的误用与改进户内人口匹配数据的误用与改进户内人口匹配数据的误用与改进 ——兼与兼与兼与兼与《《《《高等教育扩张与教育机会平等高等教育扩张与教育机会平等高等教育扩张与教育机会平等高等教育扩张与教育机会平等》》》》一文商榷一文商榷一文商榷一文商榷 悟 舸 王广州 提要:户内人口匹配数据被广泛地应用于社会恘、人口恘及相关査域的 研究中, 但户内人口匹配数据的恒择性偏差常常被研究者忽桁 针对这枑问 题本文枬用 2000 年第五次人口普查和 2005 年 1%人口抽样调查原始抽样数 据对户内父子、 母子和夫妻关系进行匹配, 发现三种匹配数据均存在不同程 度恒择性偏差,体现在年柳、性别、栆动状况、城乡分布、教育、地区分布 等方面在此基础上,对《高等教育扩张与教育机会不平等》一文的匹配数 据、 分析模型和研究结案进行再检验 发现匹配数据的恒择性偏差对分析模 型和研究结案的影响是确定的 户内人口匹配数据的偏差不仅影响统计模型 因素判断程度的错误, 甚至完全改变影响因素的作用方向 为柚减小匹配数 据偏差的影响, 本文提出户内人口匹配数据偏差的调整方法和思栤, 认为加 权和再抽样方法能够在一定程度上弥补“恒择性偏差”,相比来说,加权模型 的调整效果更加枞想。

关键词: 户内匹配 人口普查数据 加权 再抽样 一、研究问题的提出 以户为单位是人口普查或 1%人口抽样调查的主要登记形式人 口普查和 1%人口抽样调查不仅需要填报户主信息,而且需要一并申 报户内成员及相互关系信息为了保证户信息和户内人口信息的完 整,在人口普查或 1%人口抽样调查的原始抽样数据中,均把户作为 最小的抽样和可识别的单位,使得原始数据依然保留户和个人两层结 构,为研究者的数据挖掘提供了便利在使用户和户内信息进行挖掘 数据时,研究者可以利用“成员与户主的关系”来构建各种户内成员关 系,如:夫妻关系、父子关系、母子关系,这些关系被广泛地应用于 婚姻、家庭、代际、社会网络、生育、社会流动等问题的研究中利 用以户为单位的原始数据, 对户内成员匹配研究的案例很多 (李玉柱、 姜玉,2009;吴晓刚,2009;李志宏,2004;郭志刚、李睿,2004) 在使用匹配数据进行研究时,首先必须回答户主和户内成员的关系是 否确切对应、户内成员登记是否完整,以及户内成员关系是否由于匹 配的原因发生扭曲等问题这些问题不仅是判断匹配样本是否能代表 目标总体或是否有选择性的基础,而且也是判断数据是否适合进行相 关研究的开始。

在实际运用匹配数据的过程中,户内关系的构建都建 立在一个假设的基础上,那就是这个关系所涉及的成员都被调查登记 在一个“户”中,不能登记在一个“户”内的关系会被排除在研究数据之 外 然而, 在这种条件下判断出来的“关系” 往往容易产生选择性偏差 社会学研究 2 二、“户”概念的界定 “户”概念的界定和实际应用与户内成员关系匹配密切相关但在 我国现代统计登记制度中,户的操作定义在发生着变化,特别是户籍 管理制度和人口普查 (或抽样调查) 规则交织在一起, “户口”、 “住户” 和“家庭”等概念的交叉和重复使得“户”概念的界定和实际操作更加难 以把握 如历次人口普查和人口抽样调查的具体登记情况就不完全一致 1982 年第三次人口普查登记户内成员包括: 人住在本户, 户口在本地; 人住在本户,人来本地一年以上,户口不在本地;人住在本户,人来 本地不到一年,但离开户口登记地一年以上;人不住本户,户口在本 户,离开本地不足一年这就是我们常说的“常住人口”口径1990 年 第四次人口普查和 2000 年第五次人口普查均采用了“常住人口”口径, 但“五普”的“常住”时间界定由“一年以上”改成了“半年以上”。

2005 年 全国 1%人口抽样调查对每户的调查对象是:居住在本户的人口和户 口登记在本户但人不在本户居住的人,即“现有人口”和“户籍人口”口 径① 调查过程中“户内成员关系”信息的采集多数照搬“户口本”, 当“人不在户在”这部分人口的信息因严重偏差而被删除后, 就出现了许多没 有“户主”的家庭户,这就影响到了户内成员关系的匹配可见,调查 登记制度是影响户内关系测量的主要因素,同时,调查实施方法也是 影响户内关系测量的重要因素 三、选择性的产生 家庭生命周期决定了被登记在一起的家庭成员的结构和特点有 家庭关系的人口在以户为单位进行登记时,可能登记在一起也可能无 法登记在一起因此,调查数据的偏差既有主观偏差,也存在客观偏 差然而,从社会学视角研究个体发展的影响因素时,往往需要匹配 子女或父母的信息由于子代的发展需要在其成年之后才能彻底表现 出来,这类研究中就需要选取已经成年的子代数据但成年子女和父 辈生活在同一“户”中的可能性却大大降低,许多成年子女由于结婚、 外出就业或就学等原因离开父辈居住此时不论是“常住口径”、还是 “现有口径”的登记原则,都会将这些离开父辈居住的子女排除在研究 数据之外。

同样,在研究妇女生育史时,也需要利用户内人口匹配数 据,对母亲-子女进行匹配幼年子女多数与母亲生活在一起,但较年① “现有人口”口径调查了所有本户户口本上人口的信息,本可惣避免外出流动人口无法和其父亲匹配上的偏差,但由于惊些调查和抽悪上的误差,使得流出人口的个人信息无法使用这就 是为什么 2005 年 1%人口抽悪调查的原始抽悪数据中有很多没有“户主”家庭户的原愁 社会学研究 3 长子女往往已经离家,许多母亲的信息也不能与其全部存活子女匹配 上,容易错误估计母亲的生育子女数和初育年龄与此同时,母亲去 世或外出、父母离婚等情况的母亲-子女数据也被排除在外 四、匹配与未匹配意味着什么? 对原始数据通过户内关系匹配,为研究婚姻、生育、亲子关系、 教育等提供了极大便利完成户内人口匹配后,能够匹配上的成员和 未匹配成功的成员往往是两个不同的群体下文将对我国 2000 年普 查的抽样数据和 2005 年 1%人口抽样调查数据进行父子、母子和夫妻 匹配,对比已匹配与未匹配的人口在年龄、性别、城乡和地区分布、 教育、婚姻等特征上存在的差别,找出匹配的过程会带来的选择性 ((((一一一一))))父子匹配父子匹配父子匹配父子匹配 在 2000 年第五次人口普查的 0.95‰的原始数据中,20-30 岁人口 为 209592 人,其中能和父亲匹配上的只有 70982 人,占 33.9%;在 2005 年 1%人口抽样调查 258 万抽样原始数据中,20-30 岁人口为 372301 人,其中能和父亲匹配上的只有 115483 人,占 31.0%。

比较 发现,无法进行父子匹配的人口比例有增长趋势,这不仅与我国现代 化进程中家庭结构的变化和人口流动更加频繁有关,也与调查登记的 数据口径变化(由“常住口径”转变为“现有口径”)有关 详细分解匹配过程发现,对于“与户主关系”为户主、配偶、子女、 父母、媳婿、兄弟姐妹的个体,我们可以准确判断其父亲是否在该户 中,而对于“与户主关系”为孙子女或“其他”的成员,则无法判断其父 亲是否在该户中在 2000 年和 2005 年的数据中,绝大部分匹配上的 “父子”是准确的, 但仍然有 0.79%和 1.70%的“父子”并不十分准确 这 也是利用户内成员匹配数据进行研究分析的风险之一,若将“孙子女” 或“其他”的成员都排除掉,又有可能进一步造成新的选择性问题 从匹配数据“与户主关系”构成可知,父子不能匹配最重要的原因 是子女的“自立门户”在 2000 年的未匹配人口中,33.49%自己成为 了“户主”,33.33%是别人的“配偶”,14.93%是别人家的“媳婿”,还有 11.98%的“其他”人多数离家后生活在集体户(学校或工作单位)中 2005 年的匹配数据也呈现类似的情况 对比 2000 年和 2005 年匹配上人口与未匹配上人口的特征差别发 现: 第一,从性别年龄结构来看。

匹配上人口的年龄结构更年轻,随 着年龄的增长,自立门户的可能性上升,父子能匹配的概率则下降 例如 2005 年 20 岁能匹配的人口比例为 51.63%, 25 岁下降到 32.32%, 而到 30 岁能匹配上的比例仅为 18.73%匹配上人口中男性的比例明社会学研究 4 显高于未匹配上人口,女性因为出嫁的原因,能和父亲登记在同一户 的比例显著下降 第二,从户籍特征来看匹配上人口中农业户口的比例略高于未 匹配上人口,差异并不明显;未匹配上人口中流动人口的比例明显高 于匹配上人口,外出流动是父子不能匹配的重要原因之一 第三,从社会经济特征来看匹配上人口的受教育程度向中间集 中,2000 年的数据向初中和高中毕业者集中,2005 年的数据则向高 中和大专毕业者集中;就婚姻来看,未匹配上人口中的已婚比例明显 高于匹配上人口,女性出嫁和男性结婚后的自立门户是父子不能匹配 的重要原因;就职业来看,匹配上人口中的农、林、牧、渔、水利业 生产人员的比例明显高于未匹配上人口 第四,从分布地区来看未匹配上人口中,北京、上海、福建、 广东、新疆等地区所占比重明显高于的匹配上人口,这些地区都是流 动人口较多的地区。

因此,20-30 岁子女父子匹配数据在总体中占的比例远远小于未 匹配上人口,且匹配上人口的分布与总体分布不一致,匹配过程的选 择性使得匹配数据的分布在年龄、性别、教育、婚姻、职业、地区等 方面均与总体存在一定偏差 ((((二二二二))))母子匹配母子匹配母子匹配母子匹配 为了研究育龄妇女的生育史(最常见的是计算妇女的初育年龄或 是初婚和初育的间隔时间),需要对数据进行母子匹配从对 2005 年 1%人口抽样调查原始数据母亲与其子女进行匹配结果来看,原始 数据中共有 51 万育龄妇女有存活子女,只有 26.3 万育龄妇女与其全 部存活子女登记在一个家庭户中,占 51.64%,没和任何子女登记在一 起的为 15.7 万人,占 30.84%这意味着只有一半育龄妇女可以准确 计算其初育年龄与父子匹配相比较,母子匹配的比例明显高于父子 匹配对比 2005 年 1%人口抽样调查中,母亲和全部存活子女生活在 一起的匹配人口与母亲和部分存活子女(或没有和任何一个子女)生 活在一起的未匹配人口的特征差别发现: 第一,从年龄结构来看匹配上母亲的年龄结构更年轻,这说明 随着年龄的增长, 子女离家的可能性上升, 母子能匹配的概率则下降, 这与父子匹配的特征完全相同。

第二,从户籍特征来看与 20 岁-30 岁父子匹配无明显选择倾向 有所不同,匹配上母亲中非农业户口的比例高于未匹配上母亲,非农 业人口子女离家的可能性更低;未匹配上母亲中流动人口的比例明显 高于匹配上母亲,外出流动是母子不能匹配的重要原因之一 第三,从社会经济特征来看匹配上母亲的受教育程度高于未匹 配上母亲,未匹配上母亲小学毕业比例高于匹配上母亲,初中和高中 毕业比例则低于匹配上母亲;就职业来看,未匹配上母亲的农、林、社会学研究 5 牧、渔、水利业生产人员的比例高于匹配上母亲,专业技术人员比例 则低于匹配上母亲 由此可见,母子匹配数据在总体中的分布也是有选择性的,匹配 过程的选择性使得匹配数据的分布在年龄、流动状况、城乡分布、教 育、职业等方面均与总体存在一定偏差在分析母亲初育年龄的影响 因素时,也必须考虑到这些偏差可能产生的影响 ((((三三三三))))夫妻匹配夫妻匹配夫妻匹配夫妻匹配 2005 年 1%人口抽样调查数据中的 764195 个在婚妇女中,65.2% 和丈夫生活在一起, 另外 34.8%的在婚妇女并没有和丈夫生活在一起, 显然,夫妻匹配的比例明显高于母子匹配,但这并不意味着匹配数据 没有选择偏差。

从妻子“与户主关系”构成可以看出夫妻不生活在一起的原因大 多数匹配上妻子是户主的配偶;12.43%的未匹配上妻子自己是户主, 这时丈夫可能外。

下载提示
相似文档
正为您匹配相似的精品文档