中国工业企业数据库以及海关贸易数据库合并方法概述

资源描述

《中国工业企业数据库以及海关贸易数据库合并方法概述》由会员分享，可在线阅读，更多相关《中国工业企业数据库以及海关贸易数据库合并方法概述（2页珍藏版）》请在金锄头文库上搜索。

1、中国工业企业数据库以及海关贸易数据库合并方法概述一、中国工业企业数据库和海关贸易数据库使用概况在经验研究中，企业级和产品级的微观数据正在受到越来越多的重视。数据是经验研究的根本，因此数据质量的好坏直接决定了经验研究的质量。其中，中国工业企业数据库和海关贸易数据库成为国内外学者研究中国企业在国际贸易中行为和绩效的主要数据库。他们的研究成果广泛的发表在国内著名学术期刊上，包括经济研究、管理世界、经济学、世界经济等。杨汝岱在区位地理与企业出口产品价格差异研究中用两个数据库从区位地理的角度解释中国出口产品的价格差异，越偏远的地方，企业出口产品的价格相对越低，初步反映出我国

2、出口产业的梯度分工模式。余淼杰在企业出口强度与进口中间品贸易自由化：来自中国企业的实证研究一文中，使用中国制造企业数据和贸易数据，发现企业面临的中间品关税的下降显著提高了企业的出口强度，即出口占销售的比例。戴觅在中国出口企业生产率之谜：加工贸易的作用一文中，通过 2000xx 年企业海关数据的分析表明，中国存在“出口企业生产率之谜”完全是由中国大量的加工贸易企业导致。除此之外，还有一系列研究运用中国工业企业数据库和海关贸易数据库得出了很好的结论。但是，将企业层面的生产数据和产品层面的贸易数据合并会面临一定的技术问题。两组数据库的编码系统完全不同，企业数据库中企业编号为 9 位，而

3、贸易数据库中企业编号为 10 位，将两个数据库匹配起来是有困难的。并且，两个数据库原始数据存在很多问题，如样本匹配混乱、指标缺失、变量大小异常、侧度误差明显和变量定义模糊等严重问题。本文介绍了将两个数据库合并的几种方法，并给出如何整理数据，剔除异常值的步骤和建议。文章余下部分安排如下：第二部分简要介绍了两个数据库的特征；第三部分介绍了两个数据库的并方法；第四部分是结论和建议。二、两个数据库基本介绍中国工业企业数据库的基本介绍中国制造业企业数据库由国家统计局建立，它的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。包括 2000 年到 xx 年每年约 230000 个

4、制造业企业的生产信息。这套数据包括了 3 张会计报表：损益表，资产负债表和现金流量表，共 100 多个会计变量。这套数据每年涵盖的企业生产总值占总工业生产总值约 95%，实际上中国统计年鉴中的加总的工业数据就是从这套数据加总而来。数据包括两大类型企业，所有国有企业以及年销售额在 500 万元以上的非国有企业。企业数目从 2000 年的 162885 家增长到了 xx 年的 301961 家。海关贸易数据库的基本介绍海关数据库包括了 2000-xx 年产品层面交易的月度数据。每个产品都是在 HS8 位码上，产品数量从 2000 年 1 月的 78 种增加到 xx 年 12 月的

5、230 种，每年平均的观测值数目由 2000 年的 1000 万增加到 xx 年的 1600 万，最终这 7 年的观测值总数约为 118333831 个，大约有 286819 家企业参与了国际贸易。三、两个数据库合并的方法按企业名称对接两个数据库根据企业的姓名和年份匹配，在同一年的两套数据中有相同的名字则认为是同一个企业。年份这一变量对于匹配是重要的，因为一些企业在不同年份企业名称可能不同，并且新进入的企业有可能采用他们原来的名称。中国的多产品出口企业及其产品范围：事实与解释采用此种方法，目的是为了剔除中间商。同时出现在海关数据库和工业企业数据库中的企业必然不是纯粹的中间商，

6、因此留下来的样本就是剔除了中间商的样本。用此种方法合并，最后得到 2000-xx 年的企业数量分别为 22631，26038，30629，37103，42259，44136 家。合并后的数据库企业出口额达到了原海关数据中出口额的 60%。这样，合并后的数据就近包括有出口行为的工业企业的进出口和企业的投入产出信息。两篇文章匹配出的结果一样。使用邮政编码和电话号码对企业进行识别通过企业的邮政编码和最后 7 位电话号码进行匹配，因为在每一个邮政地区中，企业的号码不同。加工贸易、企业生产率和关税减免来自中国产品面的数据一文采用此种方法。筛选之后，有 218024 家企业的产品贸易数

7、据保持有效，占到了全部 640352 个企业样本中的 34%。同理，对企业数据集，剔除掉其中邮政编码或电话号码无效的样本后，剩余的企业样本数为 973207。继续按照先前的标准进行筛选，则还剩下 433273 个企业样本，占到了 973207 家企业中的%。在此基础上，文章将产品贸易数据和企业生产数据归并整合起来。采用企业名称以及邮政编码和电话号码两种方法匹配，然后取并集企业出口强度与进口中间品贸易自由化：来自中国企业的实证研究一文首先根据企业的姓名和年份匹配，在同一年的两套数据中有相同的名字则认为是同一个企业。这样如果使用原始的工业企业数据，我们可以匹配到 83679 家企业

8、。如果使用筛选中的规定）过后的，我们可以匹配到 69623 家企业。第二种方法通过企业的邮政编码和最后 7 位电话号码进行匹配。一些企业有可能在工业库或海关库中没有汇报企业名称，同样，其邮编和电话号码也可能只出现在一套数据中。为了保证能匹配到更多的企业，将两种方法得到的数据取并集。如此，用原始工业企业数据成功匹配的企业数有 90558 个。筛选中的规定）后的有 76823 个。将企业名称拆分成若干词段，用这些词段去搜寻匹配在数据匹配上，首先按每家企业的企业名称完全匹配，接下来将不能完全匹配上的海关库企业中，按贸易额大小排序，将每家企业的企业名称拆分成若干词段，用这些词段去和工业库企业名称搜寻匹配，如果每个词段都能匹配上，赋值匹配类型为“1”，如果只有部分词段匹配上，按匹配要求的精度可逐步赋值。四、小结和建议从现有文献来看，合并两个数据库的主要方法有：1.通过企业名称和年份进行匹配； 2.邮政编码和最后 7 位电话号码进行匹配；3.将企业名称分为若干词段来匹配；4.代码表转换。由于第三种方法要求匹配的精度不好确定，以及第四种方法代码表转换不全面，不建议使用。建议使用第一种和第二种方法匹配所得到的数据取并集。

展开阅读全文

中国工业企业数据库以及海关贸易数据库合并方法概述

最新文档