111面板数据、工具变量选择和HAUSMAN检验的若干问题

ni****g

实名认证

店铺

DOC

57.50KB

约6页

文档ID:442269210

1/6页

点击查看更多>>

文本预览下载提示常见问题

面板数据、工具变量选择和HAUSMAN检验的若干问题* 此短文适用于对于面板数据和工具变量已经有初步了解的人士，阅读过中级教材的相关内容本文仅供参考，如果存在错误，请与minglu73@联系，以便及时纠正请原谅中英文混用中国科学院的徐志刚博士一一指明了此文存在的错误，并且对原文中存在的不足作了大量的补充，特表示感谢第一节关于面板数据PANEL DATA1、面板数据回归为什么好一般而言，面板数据模型的误差项由两部分组成，一部分是与个体观察单位有关的，它概括了所有影响被解释变量，但不随时间变化的因素，因此，面板数据模型也常常被成为非观测效应模型；另外一部分概括了因截面因时间而变化的不可观测因素，通常被成为特异性误差或特异扰动项（事实上这第二部分误差还可分成两部分，一部分是不因截面变化但随时间变化的非观测因素对应的误差项Vt，这一部分一般大家的处理办法是通过在模型中引入时间虚拟变量来加以剥离和控制，另一部分才是因截面因时间而变化的不可观测因素不过一般计量经济学的面板数据分析中都主要讨论两部分，在更高级一点的统计学或计量经济学中会讨论误差分量模型，它一般讨论三部分误差）非观测效应模型一般根据对时不变非观测效应的不同假设可分为固定效应模型和随机效应模型。

传统上，大家都习惯这样分类：如果把非观测效应看做是各个截面或个体特有的可估计参数，并且不随时间而变化，则模型为固定效应模型；如果把非观测效应看作随机变量，并且符合一个特定的分布，则模型为随机效应模型不过，上述定义不是十分严谨，而且一个非常容易让人产生误解的地方是似乎固定效应模型中的非观测效应是随时间不变的，是固定的，而随机效应模型中的非观测效应则不是固定的，而是随时间变化的一个逻辑上比较一致和严谨，并且越来越为大家所接受的假设是（参见Wooldridge的教材和Mundlak1978年的论文），不论固定效应还是随机效应都是随机的，都是概括了那些没有观测到的，不随时间而变化的，但影响被解释变量的因素（尤其当截面个体比较大的时候，这种假设是比较合理的）非观测效应究竟应假设为固定效应还是随机效应，关键看这部分不随时间变化的非观测效应对应的因素是否与模型中控制的观测到的解释变量相关，如果这个效应与可观测的解释变量不相关，则这个效应成为随机效应这也正是HAUSMAN设定检验所需要检验的假说非观测效应模型因为对非观测效应假设的不同，因为使用面板数据信息的不同，可以用不同方法来估计并且得到不同的估计量，一般有四个：（1）组内估计量（WITHIN ESTIMATOR）（FE或FD: First Difference）（2）组间估计量（BETWEEN ESTIMATOR）（3）混合OLS估计量（POOLED OLS ESTIMATOR）（4）随机效应估计量（RE，GLS或FGLS估计量）这四个估计量因为假设和使用信息的不同而不同，各有优劣势，相互之间也有密切关系。

3和4分别是1和2的加权平均；4在特定的假设分别可以转化成1和3；如果HAUSMAN检验表明4和1没有区别的时候意味着1和2没有区别RE假设未观察因素与解释变量是正交的，只不过在未观察因素里有两个部分，一是与个体单位有关的，二是完全随机的，RE在做估计的时候，是用这两个部分的方差计算出一个指数λ，来做quasi-demean，也就是说在去平均的时候是用原值的y或x减去λ乘以y或x的均值，然后用GLS估计极端地，当λ为0时，非观测效应是一个常数，并且所有个体都一样，就等价于Pooled OLS，当λ为1时，说明完全随机的部分可以忽略，所有未观察因素都是与单位有关的，于是就等价于FE但FE不需要假定未观察因素与解释变量是正交的，在做FE时，固定效应都被差分掉了，所以也可得到consistent的结果PANEL数据的好处之一是，如果未观察到的是固定效应，那么在做DEMEAN时，未观察因素就被差分掉了这样就可以减少由于未观察的因素可能与解释变量相关而导致的内生性问题2、那么PANEL的FE或RE分析就避免了内生性问题吗？只能说好一些，如果内生的问题只是由于与单位有关的并不随时间变化的遗漏变量与解释变量有关造成的，这时，数据的差分就解决了问题，但是，别忘记还有一部分误差，如果这部分误差里包含的因素也可能影响解释变量，那么，差分只能解决前面讲的问题，由随机项里包括的因素与解释变量之间的关系导致的内生性问题还可能存在。

3、怎么办？找IV解决类似于在OLS基础上找IV，但对PANEL的工具应该具有PANEL结构，除非你基础的估计没有使用PANEL的方法，比如说对数据用了pooled OLS方法，但能够用pooled OLS方法分析PANEL DATA的条件是很严格的第二节关于工具变量选择1， IV应该尽量是外生的（如历史/自然/气候/地理之类），它应该在理论上对被解释变量（以下称Y）没有直接影响，但应该通过影响被工具的变量（以下称X）而间接影响被解释变量Y2，如果上述理论逻辑通的话，将内生变量X作为解释变量，IV和其他变量（X2）作为解释变量，看IV是否显著，它应该显著如果选了多个IV，就用F TEST看其是否都不显著同时，如果在多个IV中，有一个是确定为外生的，那么，可以用Sargan test of overidentifying restrictions来检验其他的IV是不是确实是外生的3，如果上述都没有问题，做一下IV回归完成后，用HAUSMAN检验，这个检验的原假说是IV回归与原回归（不用IV的回归）的变量的系数并没有显著的不同看一下P值，如果P小于比如说0.1，或者0.05，那么，说明IV回归与原来的回归显著不同，原来的方程的确有内生性问题导致的估计偏误。

反之，如果P很高，超过0.1，或0.05，那说明IV回归与原来的回归没有显著不同，无法拒绝原来的回归没有显著的内生问题导致的估计偏误的原假设4，如果选择的IV本身就影响Y，那它就不能被作为IV例如，Y在左边，右边是X（被工具的），X2，IV当IV被放在方程右边时，它最好是不显著影响Y的在Acemoglu（2001）里，他就检验了他们的IV是否直接影响被解释变量，结果说明不直接影响，于是这个IV是好的当然，一个好的IV在前面的回归中也可能是显著的（不过一般如果理论和逻辑上IV是通过被工具的内生解释变量间接影响被解释变量的话，一般来说应该是被工具的内生解释变量使得IV不显著，或者由于两者相关性很高，两者都不显著），但判断的标准还只是t值这个变量显著完全有可能是因为它影响了其他显著的变量（比如被工具的变量），如果是这样，当包括了IV在原方程中以后，其他变量（特别需要注意的是被工具的变量X）的系数可能发生明显变化第三节关于HAUSMAN TSET（以下简称HT）的若干细节问题具体参见Stata corporation, 2001, STATA 7 Reference H-P, Stata Press1，含义：“The null hypothesis is that the efficient estimator is a consistent and efficient estimator of the true parameters. If it is, there should be no systematic difference between the coefficients of the efficient estimator and a comparison estimator that is known to be consistent for the true parameters. If the two models display a systematic difference in the estimated coefficients, then we have reason to doubt the assumptions on which the efficient estimator is based.”参见手册Stata corporation, 2001, STATA 7 Reference H-P, Stata Press。

该方法是Hausman (1978)的程序化所以，Hausman Test的命令(hausman)假设使用者知道需要比较的两个方程中哪一个是“无论原假说成立与否都是consistent”，哪一个“在原假说下不仅efficient而且consistent，但若原假说不成立，则inconsistent”， Refer to the appendix for the definition of unbiased, consistent and efficient.然后，在STATA 8下，步骤是： (1) obtain an estimator that is consistent whether or not the hypothesis is true; (2) store the estimation results under a name-consistent using estimates store; (3) obtain an estimator that is efficient (and consistent) under the hypothesis that you are testing, but inconsistent otherwise; (4) store the estimation results under a name-efficient using estimates store; (5) use hausman to perform the test hausman name-consistent name-efficient [, options]举例：（1）在关于是FE还是RE的检验中，原假说是非观测效应与解释变量不相关，备择假说是两者相关。

FE是无论原假说成立与否都是consistent，而RE在原假说下是consistent，并且Asymptotically efficient（样本越大越有效），但如果原假说被拒绝，则RE不是consistent的 (Hausman, 1978)所以做法应该是（STATA 8的命令）：sort code year （排序）tis year (时间变量是year)iis code (表示单位的是code)xtreg y x x2, fe（假设其中x是需要被工具的变量）est store fixed （在STATA8里命令有变化，不再是HAUSMAN，SAVE了，这里的fixed实际上就是个变量名，用什么都行）xtreg y x x2, rehausman fixed（2）比较OLS（或FE）和IV（或IVFE）先做IV，因为，它无论如何都是consistent的，但OLS只有在原假设成立，即OLS结果与IV结果相同，内生性问题没有时，才是consistent的所以，应该先做IV在老版本的STATA里，如果不加特殊说明，STATA就会默认为先写的回归命令得到的是总是一致的估计结果，后写的得到的是备择假设下不一致的估计结果。

现在HAUSMAN命令规范了，而且扩展了先跑哪个不重要，关键在于写最后HAUSMAN命令时候的顺序，而且如果最近跑的一个没有用EST存名字的话，要用“.”代替2．注意：（1）对以上。

下载提示

点击查看常见问题

相似文档

正为您匹配相似的精品文档