双重差分模型介绍及其应用_叶芳

上传人:小** 文档编号:88601377 上传时间:2019-05-05 格式:PDF 页数:4 大小:222.29KB
返回 下载 相关 举报
双重差分模型介绍及其应用_叶芳_第1页
第1页 / 共4页
双重差分模型介绍及其应用_叶芳_第2页
第2页 / 共4页
双重差分模型介绍及其应用_叶芳_第3页
第3页 / 共4页
双重差分模型介绍及其应用_叶芳_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《双重差分模型介绍及其应用_叶芳》由会员分享,可在线阅读,更多相关《双重差分模型介绍及其应用_叶芳(4页珍藏版)》请在金锄头文库上搜索。

1、通信作者: 王燕 E- mail: wangyan bjmu edu cn 双重差分模型介绍及其应用 北京大学公共卫生学院( 100191)叶芳王燕 双重差分模型( difference- in- difference, DID) 近年 来多用于计量经济学中对于公共政策或项目实施效果 的定量评估。 通常大范围的公共政策有别于普通科研性研究, 难以保证对于政策实施组和对照组在样本分配上的完 全随机。非随机分配政策实施组和对照组的试验称为 自然试验( natural trial) , 此类试验存在较显著的特点, 即不同组间样本在政策实施前可能存在事前差异, 仅 通过单一前后对比或横向对比的分析方法

2、会忽略这种 差异, 继而导致对政策实施效果的有偏估计。 DID 模型正是基于自然试验得到的数据, 通过建 模来有效控制研究对象间的事前差异, 将政策影响的 真正结果有效分离出来。 医疗卫生领域常用于差异比较的统计方法 1“前后” 差异比较是将研究对象干预后结局 变量的值 At1减去干预前的值 At0, 所得之差即为干预 效果 d, 如下式: d = At1 At0( 1) 该方法简单明了, 可操作性强, 然而, 由于研究对 象干预期间有可能受到其他因素的影响, 如特殊事件、 宏观因素影响等, 简单的 “前后” 差异比较法并不能分 离出这些影响, 可能得到干预效果的有偏估计。 2“有无” 差异比

3、较它考虑到了干预效果中可 能掺杂其他因素的影响, 因而通过设立对照组来消除 这种影响。干预效果的实际影响 d 即为干预实施后干 预组结局变量的值 Btreat减去对照组结局变量的值 Bcontrol, 如下式: d = Btreat Bcontrol( 2) 该方法的使用需建立在一个重要的假设基础之 上, 即干预实施前干预组和对照组之间需考察的结局 变量没有差异。在小范围、 通过随机分组得到的研究 对象可满足这一假设, 而对于大规模、 规定区域分组的 干预措施, 则很难满足该假设或为了满足假设而导致 很高的成本。 3 协方差分析通过对干预以外的影响因素采取 数理统计方法进行控制, 使这些因素尽

4、量保持一致, 同 时结合方差分析的方法, 对某一控制变量进行分组, 以 提高研究的精确性和准确性。按照此方法, 将干预前 结局变量的值作为控制因素之一, 而将干预后的值作 为应变量, 即可解决干预前干预组和对照组业已存在 的差异问题。协方差分析通过分离干预组和对照组可 消除其他影响因素, 并考虑到干预实施前存在的应变 量的事前差异, 可在理论上保证分析结果的真实可靠 性, 然而过多、 过于严格的应用条件使得协方差分析在 实际工作中并不能得到广泛使用。 DID 模型介绍 在干预效果评价方面, DID 模型通过将“前后差 异” 和 “有无差异” 有效结合, 一定程度上控制了某些 除干预因素以外其他

5、因素的影响; 同时在模型中加入 其他可能影响结局变量的协变量, 又进一步控制了干 预组和对照组中存在的某些“疑似” 影响因素, 来补充 “自然试验” 在样本分配上不能完全随机这一缺陷, 因 而得到对干预效果的真实评估; 另外, 构造模型所需满 足的条件较少, 又成为该模型在计量经济学界广为应 用的原因之一。 1 DID 模型构造 在使用 DID 模型之前, 要确保数据满足三个假 设; ( 1) 在干预组项目的开展对对照组的相关研究变 量不产生任何影响, 即项目实施仅造成干预组相关研 究变量的改变。例如, 对一项营养干预项目进行效果 评价, 干预组内的所有 5 岁以下儿童均可得到免费的 营养支持

6、, 而对照组无。若有部分对照组研究对象通 过各种办法也获得了该项免费营养支持, 则违反了本 模型的第一项假设, 造成干预效果的低估。( 2) 项目 开展期间, 宏观环境( 除项目实施以外的因素) 对干预 组和对照组的影响相同 1。( 3) 干预组和对照组的某 些重要特征分布稳定, 不随时间变化, 即在整个项目开 展期间保持稳定。 DID 模型的核心是构造双重差分估计量( DID es- timator) , 通过对单纯前后比较( 干预前 vs 干预后) 和 单纯截面比较( 干预组 vs 对照组) 的结合, 得到如下 公 式:dID = 珔Ytreatment 珔Ycontrol = (珔Ytr

7、eatment, t1 珔 Ytreatment, t0) (珔Ycontrol, t1珔Ycontrol, t0)( 3) 其中, d 就是双重差分估计量, Y 为研究的结局变 量, 右侧脚标中 treatment 和 control 分布代表干预组和 对照组, t0 和 t1 分别代表干预前和干预后。构造了差 分估计量之后, 就要根据不同的数据类型和不同的结 局变量 Y, 分别选用相应的参数检验方法来进行建模。 131中国卫生统计 2013 年 2 月第 30 卷第 1 期 2 不同数据类型的基本 DID 模型 对于不同的数据类型, DID 模型的双重差分估计 量的估算方法有所不同。 (

8、1) 适用于独立混合横截面数据 ( independent pooled cross- sectional data/repeated cross- sectional da- ta) 的 DID 模型 独立混合横截面数据是在不同时点从同一个的大 总体内部分别进行随机抽样, 将所得的数据混合起来 的一种数据集。该类数据的特点为每一条数据都是独 立的观测值。通过将不同时点的多个观测值结合起 来, 从而可以加大样本量以获得更精密的估计量和更 具功效的检验统计量; 也可加入新的变量 时间 ( 即干预前后) , 以便判断干预前后的差别。对于总体 一致、 范围较大、 涉及不同时间点的调查研究, 多收集

9、此类数据 2。 这类数据的 DID 模型基本形式为: Yit= b0+ b1Tit+ b2Ait+ b3TitAit+ eit( 4) 在( 4) 式中, Y 为被解释变量( dependent) , T 和 A 是分别代表时间和分组的虚拟变量( dummy varia- ble) 。TA 即为时间和分组虚拟变量的交互作用。 在回归分析中, 被解释变量不仅受到一些定量变量的 影响( 如年龄、 收入、 体重等等) , 还受到一些定性变量 的影响( 如性别、 婚姻关系、 是否患病等等) , 这些定性 变量称之为虚拟变量。e 代表残差。角标 i 代表每一 个个体, 角标 t 代表不同时间点。i =

10、0 和 1 时分别代 表对照组和干预组, t =0 和 1 时分别代表基线和随访。 当个体 i 属于干预组时, 被解释变量 Y 在随访和 基线期间的差 VYi( 1)为: Y i( 1)= Yi1 Yi0= ( b0+ b1+ b2+ b3) ( b0 + b2) = b1+ b3( 5) 同样, 当个体 i 属于对照组时, 被解释变量 Y 在随访和 基线期间的差Yi( 0)为: Y i( 0)= Yi1 Yi0= ( b0+ b1) b0= b1 ( 6) 那么, 干预的实际效果, 即干预组和对照组在随访前后 被解释变量的差Yi为: Yi= Yi( 1) Yi( 0)= ( b1+ b3)

11、b1 = b3( 7) 因此, b3就是我们最感兴趣的双重差分估计量。 由于混合独立横截面的一大特点: 数据集都是由 独立抽取的观测值构成的, 因此可以满足残差项与分 组解释变量完全独立, 即: E( eit|Ait)=0( 8) 在确定 满 足 条 件 ( 8)以 及 满 足 回 归 方 程 要 求 的 “LINE” 条件( 线性、 独立、 正态分布、 方差齐) 后, 该模 型可采用普通最小二乘( OLS) 来进行回归, 并得到无 偏的估计量。若在实际情况中得到的数据不满足以上 “LINE” 条件, 则需要对数据进行进一步转化、 分层以 及使用广义最小二乘等方法来进行模型的构造。 ( 2)

12、适用于综列数据( panel data/longitudinal da- ta) 的 DID 模型 综列数据同时兼有横截面数据和时间序列数据的 特点, 要求在不同时点调查相同的研究对象。它与独立 混合横截面数据最大的不同在于, 不同时点的观测值并 不是独立分布的。这类数据的特点在于: 由于研究的 个体相同, 一些不随时间改变的不可观测的因素( 如个 人特质等) 对不同时点的观测值会产生影响, 可以通过 控制这些影响从而得到较为真实的结果; 由于综列数 据要求随访相同的研究对象, 使得数据收集工作的难度 明显增加, 不太适用于大规模的调查研究 2。 多数情况下, 我们无法保证与个体自身有关的因

13、素与分组变量完全无关, 这样就不能保证( 8) 式, 即残 差独立于分组变量。为了解决该问题, 需将这些因素 从残差 eit中分离出来。于是我们引入变量 ai, 称为固 定效应( fixed effect) , 代表不同个体的自身相关因素。 因为它不随时间变化, 因此右下角脚标为 i。即有: Yit= b0+ b1Tit+ b2Ait+ b3TitAit+ ai+ eit ( 9) 相比( 4) 式, ( 9) 式增加了新变量 ai。这样就在一定程 度上保证了残差项独立于解释变量这个条件。对于普 通的较大范围的调查, 很难收集到所有与 ai有关的信 息, 无法得到这个参数的某个无偏估计系数或关

14、系式, 因此通常进行差分来移除 ai而不影响对双重差分估 计量的无偏估计, 即 Y i( t( 1) t( 0) )= b1T + b3( TG)+ eit ( 10) 由于 DT 为固定不变的参数, 用 d0来代表截距 b1 T, 因此将( 10) 式略微修改并进一步简化就成为: Y i= d0+ b3D( TG)+ eit ( 11) 经过差分和简化后, 就可以通过普通最小二乘法来对 综列数据进行回归了。 以上分析仅针对最简单的两时期综列数据进行分 析, 通过差分来移除固定效应。而综列数据同样具有 时间序列的性质, 对于多于两期的综列数据而言, 还应 考虑到滞后性等问题, 需要结合时间序列

15、数据的特点, 进一步通过计量经济学方法对其进行分析。 3 一般化 DID 模型 由于一般大规模的人群调查存在较大的变异性问 题, 仅在模型中纳入虚拟变量“分组( A) ” 、 “时间 ( T) ” 是远远不够的。为了提高解释系数 R2, 需要加 入其他可能影响被解释变量的因素, 即控制除分组、 时 间变量以外的其他变量。对于结局变量是一些偏态分 布的连续性变量, 可通过非线性处理( 如取自然对数) 后再行建模, 而进一步提高模型的拟合度。 DID 模型的国内外应用现状 1 DID 发展历史 1985 年普林斯顿大学的 Ashenfelter 和 Card 的一 231Chinese Journ

16、al of Health Statistics, Feb 2013, Vol30, No1 篇项目评价的文章 3, 第一次引入了 DID 模型。随后 的十多年间, 该模型在计量经济学界以及社会学界被 广泛应用。 2001 年 6 月哈佛大学公共卫生学院学者 Yip W 与 Eggleston K 对中国海南省的医疗报销付费制度改 革进行了分析 4。同年12 月, 杜克大学卫生政策研究 中心学者 Conover C J 等人, 对美国保险制度 Medicaid 对于妇幼健康结局的影响进行了研究 5。这两篇文 章将 DID 模型引入医学和公共卫生领域, 随后带动了 一批学者使用该模型进行相关研究。 我国学者周黎安、 陈烨借鉴 DID 模型的思路, 运 用全国 591 个县市级数据对我国农村税费改革政策的 效果进行系统的评价 6, 这也是国内医疗卫生领域首 次运用该模型对政策效果进行评价。 2 DID 模型的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号