双重差分模型介绍及其应用_叶芳

资源描述

《双重差分模型介绍及其应用_叶芳》由会员分享，可在线阅读，更多相关《双重差分模型介绍及其应用_叶芳（4页珍藏版）》请在金锄头文库上搜索。

1、通信作者: 王燕 E- mail: wangyan bjmu edu cn 双重差分模型介绍及其应用北京大学公共卫生学院( 100191)叶芳王燕双重差分模型( difference- in- difference， DID) 近年来多用于计量经济学中对于公共政策或项目实施效果的定量评估。通常大范围的公共政策有别于普通科研性研究，难以保证对于政策实施组和对照组在样本分配上的完全随机。非随机分配政策实施组和对照组的试验称为自然试验( natural trial) ，此类试验存在较显著的特点，即不同组间样本在政策实施前可能存在事前差异，仅通过单一前后对比或横向对比的分析方法

2、会忽略这种差异，继而导致对政策实施效果的有偏估计。 DID 模型正是基于自然试验得到的数据，通过建模来有效控制研究对象间的事前差异，将政策影响的真正结果有效分离出来。医疗卫生领域常用于差异比较的统计方法 1“前后” 差异比较是将研究对象干预后结局变量的值 At1减去干预前的值 At0，所得之差即为干预效果 d，如下式: d = At1 At0( 1) 该方法简单明了，可操作性强，然而，由于研究对象干预期间有可能受到其他因素的影响，如特殊事件、宏观因素影响等，简单的 “前后” 差异比较法并不能分离出这些影响，可能得到干预效果的有偏估计。 2“有无” 差异比

3、较它考虑到了干预效果中可能掺杂其他因素的影响，因而通过设立对照组来消除这种影响。干预效果的实际影响 d 即为干预实施后干预组结局变量的值 Btreat减去对照组结局变量的值 Bcontrol，如下式: d = Btreat Bcontrol( 2) 该方法的使用需建立在一个重要的假设基础之上，即干预实施前干预组和对照组之间需考察的结局变量没有差异。在小范围、通过随机分组得到的研究对象可满足这一假设，而对于大规模、规定区域分组的干预措施，则很难满足该假设或为了满足假设而导致很高的成本。 3 协方差分析通过对干预以外的影响因素采取数理统计方法进行控制，使这些因素尽

4、量保持一致，同时结合方差分析的方法，对某一控制变量进行分组，以提高研究的精确性和准确性。按照此方法，将干预前结局变量的值作为控制因素之一，而将干预后的值作为应变量，即可解决干预前干预组和对照组业已存在的差异问题。协方差分析通过分离干预组和对照组可消除其他影响因素，并考虑到干预实施前存在的应变量的事前差异，可在理论上保证分析结果的真实可靠性，然而过多、过于严格的应用条件使得协方差分析在实际工作中并不能得到广泛使用。 DID 模型介绍在干预效果评价方面， DID 模型通过将“前后差异” 和 “有无差异” 有效结合，一定程度上控制了某些除干预因素以外其他

5、因素的影响; 同时在模型中加入其他可能影响结局变量的协变量，又进一步控制了干预组和对照组中存在的某些“疑似” 影响因素，来补充 “自然试验” 在样本分配上不能完全随机这一缺陷，因而得到对干预效果的真实评估; 另外，构造模型所需满足的条件较少，又成为该模型在计量经济学界广为应用的原因之一。 1 DID 模型构造在使用 DID 模型之前，要确保数据满足三个假设; ( 1) 在干预组项目的开展对对照组的相关研究变量不产生任何影响，即项目实施仅造成干预组相关研究变量的改变。例如，对一项营养干预项目进行效果评价，干预组内的所有 5 岁以下儿童均可得到免费的营养支持

6、，而对照组无。若有部分对照组研究对象通过各种办法也获得了该项免费营养支持，则违反了本模型的第一项假设，造成干预效果的低估。( 2) 项目开展期间，宏观环境( 除项目实施以外的因素) 对干预组和对照组的影响相同 1。( 3) 干预组和对照组的某些重要特征分布稳定，不随时间变化，即在整个项目开展期间保持稳定。 DID 模型的核心是构造双重差分估计量( DID es- timator) ，通过对单纯前后比较( 干预前 vs 干预后) 和单纯截面比较( 干预组 vs 对照组) 的结合，得到如下公式:dID = 珔Ytreatment 珔Ycontrol = (珔Ytr

7、eatment， t1 珔 Ytreatment， t0) (珔Ycontrol， t1珔Ycontrol， t0)( 3) 其中， d 就是双重差分估计量， Y 为研究的结局变量，右侧脚标中 treatment 和 control 分布代表干预组和对照组， t0 和 t1 分别代表干预前和干预后。构造了差分估计量之后，就要根据不同的数据类型和不同的结局变量 Y，分别选用相应的参数检验方法来进行建模。 131中国卫生统计 2013 年 2 月第 30 卷第 1 期 2 不同数据类型的基本 DID 模型对于不同的数据类型， DID 模型的双重差分估计量的估算方法有所不同。 (

8、1) 适用于独立混合横截面数据 ( independent pooled cross- sectional data/repeated cross- sectional da- ta) 的 DID 模型独立混合横截面数据是在不同时点从同一个的大总体内部分别进行随机抽样，将所得的数据混合起来的一种数据集。该类数据的特点为每一条数据都是独立的观测值。通过将不同时点的多个观测值结合起来，从而可以加大样本量以获得更精密的估计量和更具功效的检验统计量; 也可加入新的变量时间 ( 即干预前后) ，以便判断干预前后的差别。对于总体一致、范围较大、涉及不同时间点的调查研究，多收集

9、此类数据 2。这类数据的 DID 模型基本形式为: Yit= b0+ b1Tit+ b2Ait+ b3TitAit+ eit( 4) 在( 4) 式中， Y 为被解释变量( dependent) ， T 和 A 是分别代表时间和分组的虚拟变量( dummy varia- ble) 。TA 即为时间和分组虚拟变量的交互作用。在回归分析中，被解释变量不仅受到一些定量变量的影响( 如年龄、收入、体重等等) ，还受到一些定性变量的影响( 如性别、婚姻关系、是否患病等等) ，这些定性变量称之为虚拟变量。e 代表残差。角标 i 代表每一个个体，角标 t 代表不同时间点。i =

10、0 和 1 时分别代表对照组和干预组， t =0 和 1 时分别代表基线和随访。当个体 i 属于干预组时，被解释变量 Y 在随访和基线期间的差 VYi( 1)为: Y i( 1)= Yi1 Yi0= ( b0+ b1+ b2+ b3) ( b0 + b2) = b1+ b3( 5) 同样，当个体 i 属于对照组时，被解释变量 Y 在随访和基线期间的差Yi( 0)为: Y i( 0)= Yi1 Yi0= ( b0+ b1) b0= b1 ( 6) 那么，干预的实际效果，即干预组和对照组在随访前后被解释变量的差Yi为: Yi= Yi( 1) Yi( 0)= ( b1+ b3)

11、b1 = b3( 7) 因此， b3就是我们最感兴趣的双重差分估计量。由于混合独立横截面的一大特点: 数据集都是由独立抽取的观测值构成的，因此可以满足残差项与分组解释变量完全独立，即: E( eit|Ait)=0( 8) 在确定满足条件 ( 8)以及满足回归方程要求的 “LINE” 条件( 线性、独立、正态分布、方差齐) 后，该模型可采用普通最小二乘( OLS) 来进行回归，并得到无偏的估计量。若在实际情况中得到的数据不满足以上 “LINE” 条件，则需要对数据进行进一步转化、分层以及使用广义最小二乘等方法来进行模型的构造。 ( 2)

12、适用于综列数据( panel data/longitudinal da- ta) 的 DID 模型综列数据同时兼有横截面数据和时间序列数据的特点，要求在不同时点调查相同的研究对象。它与独立混合横截面数据最大的不同在于，不同时点的观测值并不是独立分布的。这类数据的特点在于: 由于研究的个体相同，一些不随时间改变的不可观测的因素( 如个人特质等) 对不同时点的观测值会产生影响，可以通过控制这些影响从而得到较为真实的结果; 由于综列数据要求随访相同的研究对象，使得数据收集工作的难度明显增加，不太适用于大规模的调查研究 2。多数情况下，我们无法保证与个体自身有关的因

13、素与分组变量完全无关，这样就不能保证( 8) 式，即残差独立于分组变量。为了解决该问题，需将这些因素从残差 eit中分离出来。于是我们引入变量 ai，称为固定效应( fixed effect) ，代表不同个体的自身相关因素。因为它不随时间变化，因此右下角脚标为 i。即有: Yit= b0+ b1Tit+ b2Ait+ b3TitAit+ ai+ eit ( 9) 相比( 4) 式， ( 9) 式增加了新变量 ai。这样就在一定程度上保证了残差项独立于解释变量这个条件。对于普通的较大范围的调查，很难收集到所有与 ai有关的信息，无法得到这个参数的某个无偏估计系数或关

14、系式，因此通常进行差分来移除 ai而不影响对双重差分估计量的无偏估计，即 Y i( t( 1) t( 0) )= b1T + b3( TG)+ eit ( 10) 由于 DT 为固定不变的参数，用 d0来代表截距 b1 T，因此将( 10) 式略微修改并进一步简化就成为: Y i= d0+ b3D( TG)+ eit ( 11) 经过差分和简化后，就可以通过普通最小二乘法来对综列数据进行回归了。以上分析仅针对最简单的两时期综列数据进行分析，通过差分来移除固定效应。而综列数据同样具有时间序列的性质，对于多于两期的综列数据而言，还应考虑到滞后性等问题，需要结合时间序列

15、数据的特点，进一步通过计量经济学方法对其进行分析。 3 一般化 DID 模型由于一般大规模的人群调查存在较大的变异性问题，仅在模型中纳入虚拟变量“分组( A) ” 、 “时间 ( T) ” 是远远不够的。为了提高解释系数 R2，需要加入其他可能影响被解释变量的因素，即控制除分组、时间变量以外的其他变量。对于结局变量是一些偏态分布的连续性变量，可通过非线性处理( 如取自然对数) 后再行建模，而进一步提高模型的拟合度。 DID 模型的国内外应用现状 1 DID 发展历史 1985 年普林斯顿大学的 Ashenfelter 和 Card 的一 231Chinese Journ

16、al of Health Statistics， Feb 2013， Vol30， No1 篇项目评价的文章 3，第一次引入了 DID 模型。随后的十多年间，该模型在计量经济学界以及社会学界被广泛应用。 2001 年 6 月哈佛大学公共卫生学院学者 Yip W 与 Eggleston K 对中国海南省的医疗报销付费制度改革进行了分析 4。同年12 月，杜克大学卫生政策研究中心学者 Conover C J 等人，对美国保险制度 Medicaid 对于妇幼健康结局的影响进行了研究 5。这两篇文章将 DID 模型引入医学和公共卫生领域，随后带动了一批学者使用该模型进行相关研究。我国学者周黎安、陈烨借鉴 DID 模型的思路，运用全国 591 个县市级数据对我国农村税费改革政策的效果进行系统的评价 6，这也是国内医疗卫生领域首次运用该模型对政策效果进行评价。 2 DID 模型的

展开阅读全文