《因果推断实用计量方法》大学教学课件第7章 匹配和回归方法比

上传人:O**** 文档编号:181843974 上传时间:2021-05-06 格式:PPTX 页数:28 大小:1.20MB
返回 下载 相关 举报
《因果推断实用计量方法》大学教学课件第7章 匹配和回归方法比_第1页
第1页 / 共28页
《因果推断实用计量方法》大学教学课件第7章 匹配和回归方法比_第2页
第2页 / 共28页
《因果推断实用计量方法》大学教学课件第7章 匹配和回归方法比_第3页
第3页 / 共28页
《因果推断实用计量方法》大学教学课件第7章 匹配和回归方法比_第4页
第4页 / 共28页
《因果推断实用计量方法》大学教学课件第7章 匹配和回归方法比_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《《因果推断实用计量方法》大学教学课件第7章 匹配和回归方法比》由会员分享,可在线阅读,更多相关《《因果推断实用计量方法》大学教学课件第7章 匹配和回归方法比(28页珍藏版)》请在金锄头文库上搜索。

1、,第7章: 匹配和回归方法比较,大纲,匹配和回归方法的相同点 匹配和回归方法的差异,匹配和回归方法的相同点,匹配和回归方法的相同点,我们通过一个简单的例子来对匹配和回归方法的相同点进行直观的分析,例子,例子,精确匹配,精确匹配,在计算 =30 和 =40 时,通过相减,年龄对于健康的影响已经去除,我们并不需要假设年龄和健康的函数关系,这是匹配相对回归方法的优点。 我们看到精确匹配方法允许不同年龄( =30, =40)的平均处置效应是不同的,即允许异质处置效应。如果要得到总体的平均处置效应,就应当使用相应的人数比例进行加权平均。,回归方法:完全饱和模型 (无常数项),这个例子里解释变量和分别有两

2、个值,一共有4个可能的组合。我们可以用4个虚拟变量030,130,040,140来涵盖四个可能的组合: 当 =0, AGE =30时,03 0 =1;否则,03 0 =0; 当 =1, =30时,13 0 =1;否则,13 0 =0; 当 =0, =40时,04 0 =1;否则,04 0 =0; 当 =1, =40时,14 0 =1;否则,14 0 =0。,回归方法:完全饱和模型 (无常数项),完全饱和回归模型设置如下 = 1 03 0 + 2 13 0 + 3 04 0 + 4 14 0 + 饱和回归模型对应的条件期望函数为: 03 0 ,13 0 ,04 0 ,14 0 = 1 03 0

3、+ 2 13 0 + 3 04 0 + 4 14 0 ,回归方法:完全饱和模型 (无常数项),我们看到饱和模型的系数对应了不同年龄处置组和控制组观测结果的均值,通过系数值,我们可求得ATT AGE =30 和ATT AGE =40 如下: =30 = =1, =30 =0, =30 = 2 1 =40 = =1, =40 =0, =40 = 4 3,回归方法:完全饱和模型 (无常数项),根据前面讨论的回归系数含义,ATE =30 和ATE =40 的样本回归估计值为: =30 = 2 1 =7.59=1.5 =40 = 4 3 =8.55.5=3 的估计值为: = =30 =30 + =40

4、=40 = 4 10 1.5 + 6 10 3=1.2,完全饱和回归模型和精确匹配,通过本节的例子我们看到,完全饱和回归模型和精确匹配得到的结果是一致的。 它们都是先计算不同年龄处置组和控制组的平均观测结果,进而计算不同年龄组的平均处置效应 ( =),最后根据的定义按不同年龄组人数比率P = 为权重计算 。,匹配和回归方法的差异,差异1:ATE估计权重的差异,在精确匹配模型或完全饱和回归模型中, 是每个 加权平均,其权重为处置组中不同年龄个体的比率,即: = =30 =30 + =40 =40 而在以下控制变量饱和回归模型中: = + 1 3 0 + 2 4 0 + 通过回归方法计算得到的 也

5、是个 的加权平均,只是权重有所不同,具体形式如下: = =30 =30 + =40 =40 = =30 =30 =30 =30 + =40 =40 =30 + =40 =40 =30 =30 + =40 =40 =40,, 的权重多出了 =30 和 =40 ,它们分别是年龄为30和40的个体里,处置变量 的样本方差。 =30 = =1 =30 1 =1 =30 = 2 6 4 6 = 2 9 =40 = =1 =40 1 =1 =40 = 2 4 2 4 = 1 4 将以上数值代入权重公式和,得到: ( =30)= ( | =30)( =30) ( | =30)( =30)+( | =40)(

6、 =40) = 2 9 6 10 2 9 6 10 + 1 4 4 10 =0.57 ( =40)= (| =40)( =40) ( | =30)( =30)+( | =40)( =40) = 1 4 4 10 2 9 6 10 + 1 4 4 10 =0.43,我们可以看到,这个结果和非饱和模型回归得到的系数 值是一致的,这验证了非饱和回归模型的系数 事实上是按公式计算的 = 加权平均。因此精确匹配方法和完全饱和模型得到的 与控制变量饱和回归模型得到的 不同的根本原因,是由于在计算 时,对 = 赋予的权重上有所不同。前者的权重取决于 = ,后者的权重取决于 = = 。,差异2:缺乏共同支撑域

7、和控制变量不均衡的影响,共同支撑域是指处置组和控制组控制变量的分布范围是否重叠。均衡性是指处置组和控制组控制变量的均值是否接近。,(a)满足共同支撑域条件和均衡条件 (b)满足共同支撑域条件但不均衡 (c)即既不满足共同支撑域条件也不均衡。,一个例子,一个例子,回归方法:非饱和回归模型,在实际运用中,我们通常并不使用完全饱和或控制变量饱和模型,而是使用非饱和回归模型如下: =+ College + + 回归得到的结果为: . reg inc1 college iq Source | SS df MS Number of obs = 20 -+- F(2, 17) = 1150.39 Model

8、 | 573203749 2 286601874 Prob F = 0.0000 Residual | 4235303.91 17 249135.524 R-squared = 0.9927 -+- Adj R-squared = 0.9918 Total | 577439052 19 30391529.1 Root MSE = 499.13 - inc | Coef. Std. Err. t P|t| 95% Conf. Interval -+- college | 5077.987 464.3257 10.94 0.000 4098.345 6057.628 iq | 103.0874 8

9、.01464 12.86 0.000 86.17794 119.9968 _cons | 9712.219 618.8173 15.69 0.000 8406.629 11017.81 -,回归方法:非饱和回归模型,图中两条直线的斜率为的系数 =103.08,两条线的距离是的系数( =5077.98)。 回归方程通过假设对的影响满足线性关系,达到估计的系数。 如果真实的反事实结果如虚线所示,而并非简单的线性关系。这种情况下,通过假设的线性函数外推得到的反事实结果就和真实情况相去甚远。,回归方法:非饱和回归模型,即使线性函数关系的假设是正确的,在缺乏重叠并且不均衡的情况下,处置变量系数的估计值也

10、容易受到控制变量系数估计值的影响,结果较不稳健。 为说明这个问题,我们稍微修改了表7.3的INC数据,表7.4的数据和表7.3的数据相比,只是INC的值有所不同。,对表7.4数据的回归结果如下: . reg inc2 college iq Source | SS df MS Number of obs = 20 -+- F(2,17) = 1081.33 Model | 538795132 2 269397566 Prob F = 0.0000 Residual | 4235306.65 17 249135.685 R-squared = 0.9922 -+- Adj R-squared =

11、0.9913 Total | 543030439 19 28580549.4 Root MSE = 499.13 - inc2 | Coef. Std. Err. t P|t| 95% Conf. Interval -+- college | 7577.986 464.3258 16.32 0.000 6598.344 8557.628 iq | 53.08735 8.014642 6.62 0.000 36.17793 69.99677 _cons | 13462.22 618.8175 21.75 0.000 12156.63 14767.81 -,我们看到稍微改变INC的值,college的系数发生了较大的变化,从原来的5077变到7577。,我们再来看在具备共同支撑域并且均衡的回归结果。,可以看到,图(A)直线斜率(IQ的系数)从95减小到右图的55时,但两图的处置效应 2 =5262 (A点到B点距离)并没有变化。可见处置效应对有共同支撑域数据的估计结果是比较稳健的,即对其他控制变量参数的变化不敏感。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号