《因果推断实用计量方法》大学教学课件第5章处置效应

资源描述

《《因果推断实用计量方法》大学教学课件第5章处置效应》由会员分享，可在线阅读，更多相关《《因果推断实用计量方法》大学教学课件第5章处置效应（36页珍藏版）》请在金锄头文库上搜索。

1、第5章：处置效应,大纲,潜在结果，处置效应，观测结果，反事实结果使用观测结果估计处置效应可能的偏差随机分配控制可观测变量回归方法和处置效应,潜在结果，处置效应，观测结果，反事实结果,潜在结果,如果个体接受了某种处置行为（Treatment）（例如服药），它的后果（例如健康）为 1 。如果没有接受这种处置，它的后果为 0 。我们称这两种结果为潜在结果（potential outcome），表示为潜在结果= 0 如果 =0 1 如果 =1 =0表示个体没有接受处置， =1表示个体接受了处置。,个体处置效应,处置行为对个体的处置效应（treatment effect）是个体接受处置

2、（ =1）的潜在结果和没接受处置（ =0）的潜在结果的差异。即对个体的处置效应= = 1 0 处置效应即处置行为（因）对（果）的因果效用(causal effect)。,平均处置效应,接受处置个体的平均处置效应（average treatment effect on the treated，ATT）： = 1 0 =1 = 1 =1 0 =1 在通常情况下，是我们最关注的结果，因为这是处置行为的直接后果。未接受处置个体的平均处置效应（average treatment effect on the untreated，ATU）： = 1 0 =0 = 1 =0 0 =0 衡量一项处置行

3、为对未接受处置个体（如果他们接受了处置）的平均处置效应。,平均处置效应,总体平均处置效应（Average Treatment Effect，ATE）： = 1 0 = 1 0 衡量一项处置行为对所有（包含已接受处置和未接受处置）个体的平均处置效应。是和的加权平均。权重是接受处置和没接受处置个体数占总体数分别的比例。用代表接受处置的个体数（ =1）的比例，1为未接受处置的个体数（ =0）的比例，则： =+(1),观测结果,对个体，我们不可能同时观测得到两种潜在结果，因此无法直接计算处置效用 1 0 ，这是Holland（1986）提出的因果推断的根本难点（fundamental problem

4、 of causal inference）。我们观测到的结果只是个体根据它的接受处置状态而显现出来对应的潜在结果，称之为观测结果（observed outcome）。观测结果可以表示为潜在结果和处置状态的函数： = 0 + 1 0 ,观测结果, =1的一组称为处置组 (treatment group)，这包括1到的个体。 =0的一组称为控制组 (control group) ，这包括+1到的个体。,反事实结果,对于处置组的个体，我们观测到了潜在结果 1 1 ， 2 1 ， 1 ，但我们没观测到潜在结果 1 0 ， 2 0 ， 0 。我们把观测结果所对应的未观测到的潜在结果称为反事实结果（

5、counterfactual outcome）。对于处置组的个体，观测结果 = 1 ，对应的反事实结果是 0 。对于控制组的个体，观测结果 = 0 ，对应的反事实结果是 1 。如何估计反事实结果是估计处置效应的关键。,使用观测结果估计处置效应可能的偏差,平均潜在结果，平均观测结果和反事实结果,观测结果估计平均处置效应的可能偏差,一个简单估计平均处置效应的方法（称之为“朴素”估计量，即Naive Estimator）是直接使用处置组平均观测结果T1减去控制组平均观测结果C0： T1C0 从以下简单的公式分解中，我们看到“朴素”估计量（T1C0）对ATT、ATU、ATE的估计都可能存在偏差。：

6、 T1C0= T1T0 ATT + T0C0 ATT估计偏差 T1C0= C1C0 ATU + T1C1 ATU估计偏差 T1C0= w T1T0 +(1w) C1C0 ATE + w(T0C0)+(1w)(T1C1) ATE估计偏差=wATT估计偏差+ 1 ATU估计偏差,观测结果估计平均处置效应的可能偏差,采用“朴素”估计量估计处置效应产生偏差的根本原因，是因为接受处置与否并非随机，即是否接受处置与潜在结果是相关的。例如选择服药的人通常是在未服药情况下健康水平较低或者是服药效果较好的人。又如企业选择进行治理改造的通常是在未改造情况下业绩水平较低或者改造效果较好的企业。由于产生偏差的原因

7、是接受处置与否是个体自我选择的后果，因此这种偏差我们通常也称之为选择偏差(selection bias)。,随机分配,随机分配,随机分配（random assignment）可以简单理解为通过掷硬币的方法来决定是否接受处置，因此在随机分配中，潜在结果的好坏不会影响处置的分配。换言之，个体的潜在结果和处置状态是独立的，用公式表示为： 1 , 0 上式称为潜在结果独立于处置变量（简称潜在结果独立假设，Independence Assumption）。,随机分配： 0 , 1 , 0 包含了两个独立性。第一个独立性是未接受处置潜在结果独立于处置变量, 即： 0 。由于 0 独立于，因此也意味着它

8、的平均值和不相关，即 0 =0 = 0 =1 = 0 以上公式可简写为： = 这个条件称为平均未处置潜在结果独立于处置变量，,随机分配： = , = 即： T0=C0 这个条件让我们可以用观测结果C0来衡量不可观测的反事实结果T0。 T1C0= T1T0 ATT + T0C0 ATT偏差=0 =ATT 因此，当平均未处置潜在结果独立于处置变量 0 = 0 时，我们可以通过控制组和观测组的平均观测值差异得到ATT。,随机分配，小结,随机分配的结果使得潜在结果独立假设 1 , 0 成立，这意味着均值独立假设成立，即 0 = 0 ， 1 = 1 。如果我们关心的是平均处置效应，我们只需要均值独立

9、假设成立，这是比潜在结果独立假设更弱的一个条件。随机分配是一种很理想的研究方法。然而在社会科学实践中，这种方法实际上很少使用,控制可观测变量,控制可观测特征,如果并非随机分配，那么处置组和控制组的平均潜在结果就可能存在差异。如果潜在结果的差异是由于个体的可观测特征造成的，我们可以通过消除可观测个体特征差异，即控制可观测特征去消除选择性偏差。,给定可观测特征平均处置效应,下表7给出了对于给定可观测特征 =的处置组和观测组的平均潜在结果和平均观测结果,ATT(X),对于有相同的 =的处置组和平均组，如果我们要估计ATT ，用处置组平均观测结果减去控制组平均观测结果得到： T1 C0 = T1

10、T0 ATT() + T0 C0 ATT 偏差。我们看到如果ATT 没有偏差，需要T0 C0 =0，即： 0 =1, = = 0 =0, = = (0)| = 这个条件称为平均未接受处置潜在结果条件均值独立于处置变量。它意味着对于有相同可观测特征的处置组和观测组，它们的平均未接受处置的潜在结果是一样的。可以简写为： , = 当这个条件成立时，我们可以用观测结果得到 =T1 C0 ,ATT, 告诉我们对于特征值 =并且接受处置个体的平均处置效应。如果想要得到所有接受处置个体的平均处置效应，可以根据处置个体里不同值个体的比例对()求平均值, 即： = |=1 = (|=1) (|=1)是接受

11、处置个体里具备特征 =的个体所占比例。,ATU(x),如果我们要估计ATU ，用有相同特征 =的处置组平均观测结果减去控制组平均观测结果可得： T1 C0 = C1 C0 ATU() + T1 C1 ATU()偏差。我们看到如果要达到ATU 没有偏差，需要T1 C1 =0，即： 1 =1, = = 1 =0, = = (1)| = 这个条件称为平均接受处置潜在结果条件均值独立于处置变量。它意味着对于有相同可观测值的处置组和观测组，它们的平均接受处置潜在结果是一样的。以上条件可简写为： , = 当这个条件成立时，我们可以用观测结果得到 =T1 C0 。,ATU, 告诉我们对于具备特征 =但未

12、接受处置个体的平均处置效应。如果我们想要得到所有未接受处置个体的平均处置效应，我们可以根据未处置个体里不同值个体的比例对()求平均值, 即： = |=0 = (|=0) (|=0)是未接受处置个体里具备特征 =的个体所占比例。,ATE(x)和ATE,如果我们能够通过观测结果正确地估计和，也就能正确地估计 : = +(1 () 是特征 =个体中接受处置个体的比例，1 是特征 =个体中未接受处置个体的比例。告诉我们对于特征为 =的个体的平均处置效应。如果想要得到所有个体的平均处置效应，我们可以根据不同特征值个体的比例对()求平均值, 即： = = () ()是所有个体里具备特征 =的个体

13、所占比例。,平均潜在结果条件独立于处置变量,上述讨论说明了通过控制可观测特征估计处置效用依赖的假设是对于相同给定特征的处置组和观测组，它们的平均潜在结果是相同的，即： 0 =1, = 0 =0, = 0 | 1 =1, = 1 =0, = 1 | 这个假设称为平均潜在结果条件独立于处置变量（简称条件均值独立假设，Conditional Mean Independent Assumption，CMI）。,回归方法和处置效应,观测结果的表述,我们知道观测结果可以表述为： = 0 + 1 0 ，进一步可改写为： = 0 + 1 0 + 0 0 =+ + 截距项 0 是所有个体未处置潜在结果的平

14、均值系数 = 1 0 是个体处置效应。假设个体处置效应相同，也是平均效应干扰项 0 0 是个体的 0 与平均 0 的差异，的均值等于0，因为 = 0 0 = 0 0 =0。,回归和处置效应,我们知道将对进行回归得到的是线性条件期望函数 ( | )： ( =+ + 可见回归得到的条件期望函数的系数是否等于处置，取决于。如果和存在线性关系： = 0 + 1 造成： ( =+ 0 + + 1 在这种情况下，回归得到的条件期望函数的系数是+ 1 ，并不等于。,回归和处置效应,可见如果回归得到的系数要等于处置效应系数，需要的条件是 1 =0，即干扰项必须满足均值独立于处置变量： =

15、 0 换而言之，的均值不随着改变: =1 = =0 = 0 将 0 0 代入，可得： 0 0 =1 = 0 0 =0 因为 0 是个固定值，和无关，因此上式等价于： 0 =1 = 0 =0 可见通过回归得到的回归函数 ( 的处置变量的系数如果要反映处置效应，需要满足干扰项均值独立 = = = 的条件，其本质上等同于未处置潜在结果均值独立 = = = 。,回归方法和控制变量,如果处置组和控制组的平均未处置潜在结果有差异 (0) =1 0 =0 ，我们首先要了解造成差异的原因。假设个体的潜在未处置结果是个体未处置时可观测特征和不可观测特征的线性函数，即： 0 =+ + 可得： = 0 +

16、 1 0 + + 0 =+ 1 0 + + =+ + + ,干扰项均值条件独立,上式描述了观测结果、处置状态、观测特征和不可观测特征的关系。如果将对和进行回归，得到的条件期望函数 , 等于： , =E + + , =+ + + , 回归得到的条件期望( | , ) 中的系数是否等于，取决于 , 。如果干扰项和以及存在线性关系： , = 0 + 1 + 2 代入，得到 , =+ + + 0 + 1 + 2 = + 0 + + 1 +(+ 2 ) ,干扰项均值条件独立, , =+ + + 0 + 1 + 2 = + 0 + + 1 +(+ 2 ) 在这种情况下，条件期望函数的系数是+ 1 。可见要使得回归得到系数等于处置效应，需要的条件是 1 =0，即： , = = 0 + 2 这意味着干扰项的条件均值与处置变量无关，换言之，对于给定的处置组和控制组，它们的干扰项平均值相同，即： =1, = =0, = 0 + 2 得到 , =+ + + 0 + 2 = + 0 + +(+ 2 ) ,控制变量,在前面的讨论中，我们区别了处置变量和控制变量。我们经常使用控制变量这

展开阅读全文