面板数据、工具变量选择和HAUSMAN检验的若干问题

资源描述

《面板数据、工具变量选择和HAUSMAN检验的若干问题》由会员分享，可在线阅读，更多相关《面板数据、工具变量选择和HAUSMAN检验的若干问题（6页珍藏版）》请在金锄头文库上搜索。

1、面板数据、工具变量选择和 HAUSMAN 检验的若干问题此短文适用于对于面板数据和工具变量已经有初步了解的人士，阅读过中级教材的相关内容。本文仅供参考，如果存在错误，请与联系，以便及时纠正。请原谅中英文混用。中国科学院的徐志刚博士一一指明了此文存在的错误，并且对原文中存在的不足作了大量的补充，特表示感谢。第一节关于面板数据PANEL DATA1、面板数据回归为什么好一般而言，面板数据模型的误差项由两部分组成，一部分是与个体观察单位有关的，它概括了所有影响被解释变量，但不随时间变化的因素，因此，面板数据模型也常常被成为非观测效应模型；另外一部分概括了因截面因时间而变化的不可观

2、测因素，通常被成为特异性误差或特异扰动项（事实上这第二部分误差还可分成两部分，一部分是不因截面变化但随时间变化的非观测因素对应的误差项Vt，这一部分一般大家的处理办法是通过在模型中引入时间虚拟变量来加以剥离和控制，另一部分才是因截面因时间而变化的不可观测因素。不过一般计量经济学的面板数据分析中都主要讨论两部分，在更高级一点的统计学或计量经济学中会讨论误差分量模型，它一般讨论三部分误差）。非观测效应模型一般根据对时不变非观测效应的不同假设可分为固定效应模型和随机效应模型。传统上，大家都习惯这样分类：如果把非观测效应看做是各个截面或个体特有的可估计参数，并且不随时间而变化，则模型为固

3、定效应模型；如果把非观测效应看作随机变量，并且符合一个特定的分布，则模型为随机效应模型。不过，上述定义不是十分严谨，而且一个非常容易让人产生误解的地方是似乎固定效应模型中的非观测效应是随时间不变的，是固定的，而随机效应模型中的非观测效应则不是固定的，而是随时间变化的。一个逻辑上比较一致和严谨，并且越来越为大家所接受的假设是（参见Wooldridge的教材和 Mundlak1978 年的论文），不论固定效应还是随机效应都是随机的，都是概括了那些没有观测到的，不随时间而变化的，但影响被解释变量的因素（尤其当截面个体比较大的时候，这种假设是比较合理的）。非观测效应究竟应假设为固定效应还是

4、随机效应，关键看这部分不随时间变化的非观测效应对应的因素是否与模型中控制的观测到的解释变量相关，如果这个效应与可观测的解释变量不相关，则这个效应成为随机效应。这也正是 HAUSMAN 设定检验所需要检验的假说。非观测效应模型因为对非观测效应假设的不同，因为使用面板数据信息的不同，可以用不同方法来估计并且得到不同的估计量，一般有四个：（ 1）组内估计量（ WITHIN ESTIMATOR）（ FE 或 FD: First Difference）（ 2）组间估计量（ BETWEEN ESTIMATOR）（ 3）混合 OLS 估计量（ POOLED OLS ESTIMATOR）（4）随机效应估

5、计量（RE, GLS或FGLS估计量）这四个估计量因为假设和使用信息的不同而不同，各有优劣势，相互之间也有密切关系。和4分别是1和2的加权平均;4在特定的假设分别可以转化成1和3；如果HAUSMAN 检验表明 4 和 1 没有区别的时候意味着 1 和 2 没有区别。RE 假设未观察因素与解释变量是正交的，只不过在未观察因素里有两个部分，一是与个体单位有关的，二是完全随机的，RE在做估计的时候，是用这两个部分的方差计算出一个指数入，来做quasi-demean，也就是说在去平均的时候是用原值的y或x减去入乘以y 或x的均值，然后用GLS估计。极端地，当入为0时，非观测效应是一个常数，并且所

6、有个体都一样，就等价于Pooled OLS,当入为1时，说明完全随机的部分可以忽略，所有未观察因素都是与单位有关的，于是就等价于FE。但FE不需要假定未观察因素与解释变量是正交的，在做FE时，固定效应都被差分掉了，所以也可得到consistent的结果。PANEL数据的好处之一是，如果未观察到的是固定效应，那么在做DEMEAN时，未观察因素就被差分掉了。这样就可以减少由于未观察的因素可能与解释变量相关而导致的内生性问题。2、那么PANEL的FE或RE分析就避免了内生性问题吗？只能说好一些，如果内生的问题只是由于与单位有关的并不随时间变化的遗漏变量与解释变量有关造成的，这时，数据的差

7、分就解决了问题，但是，别忘记还有一部分误差，如果这部分误差里包含的因素也可能影响解释变量，那么，差分只能解决前面讲的问题，由随机项里包括的因素与解释变量之间的关系导致的内生性问题还可能存在。3、怎么办？找IV解决。类似于在OLS基础上找IV,但对PANEL的工具应该具有PANEL结构，除非你基础的估计没有使用PANEL的方法，比如说对数据用了 pooled OLS方法，但能够用 pooled OLS方法分析PANEL DATA的条件是很严格的。第二节关于工具变量选择1，IV应该尽量是外生的（如历史/自然/气候/地理之类），它应该在理论上对被解释变量（以下称Y）没有直接影响，但应该通过

8、影响被工具的变量（以下称X）而间接影响被解释变量 Y。2，如果上述理论逻辑通的话，将内生变量X作为解释变量，IV和其他变量（X2）作为解释变量，看IV是否显著，它应该显著。如果选了多个IV,就用F TEST看其是否都不显著。同时，如果在多个IV中，有一个是确定为外生的，那么，可以用Sargan test of overidentifying restrictions 来检验其他的 IV 是不是确实是外生的。3，如果上述都没有问题，做一下IV回归。完成后，用HAUSMAN检验，这个检验的原假说是IV回归与原回归（不用IV的回归）的变量的系数并没有显著的不同。看一下P值，如果P小于比如说

9、0.1，或者0.05，那么，说明IV回归与原来的回归显著不同，原来的方程的确有内生性问题导致的估计偏误。反之，如果P很高，超过0.1,或0.05，那说明IV回归与原来的回归没有显著不同，无法拒绝原来的回归没有显著的内生问题导致的估计偏误的原假设。4，如果选择的IV本身就影响Y,那它就不能被作为IV。例如，Y在左边，右边是X （被工具的），X2, IV。当IV被放在方程右边时，它最好是不显著影响Y的。在Acemoglu （2001）里，他就检验了他们的IV是否直接影响被解释变量，结果说明不直接影响，于是这个IV是好的。当然，一个好的IV在前面的回归中也可能是显著的（不过一般如果理论和

10、逻辑上 IV 是通过被工具的内生解释变量间接影响被解释变量的话，一般来说应该是被工具的内生解释变量使得IV不显著，或者由于两者相关性很高，两者都不显著），但判断的标准还只是t值。这个变量显著完全有可能是因为它影响了其他显著的变量（比如被工具的变量），如果是这样，当包括了 IV在原方程中以后，其他变量（特别需要注意的是被工具的变量X）的系数可能发生明显变化。第三节关于HAUSMAN TSET （以下简称HT）的若干细节问题具体参见 Stata corporation, 2001, STATA 7 Reference H-PStata Press1, 含义：“The null hypot

11、hesis is that the efficient estimator is a consistent and efficient estimator of the true parameters. If it is, there should be no systematic difference between the coefficients of the efficient estimator and a comparison estimator that is known to be consistent for the true parameters. If the two m

12、odels display a systematic difference in the estimated coefficients, then we have reason to doubt the assumptions on which the efficient estimator is based. ”参见手册 Stata corporation, 2001, STATA 7 Reference H-P Stata Press。该方法是 Hausman （1978）的程序化。所以，Hausman Test的命令（hausman）假设使用者知道需要比较的两个方程中哪一个是“无论原假

13、说成立与否都是consistent”，哪一个“在原假说下不仅efficient而且consistent，但若原假说不成立，则inconsistent”，燃后，在STATA 8下，步骤是：（1）obtain an estimator that is consistent whether or not the hypothesis is true;（2）store the estimation results under a name-consistent using estimates store;（3）obtain an estimator that is efficient （and co

14、nsistent） under the hypothesis thatyou are testing, but inconsistent otherwise;（4）store the estimation results under a name-efficient using estimates store;（5）use hausman to perform the testhausman name-consistent name-efficient , options举例：（1）在关于是FE还是RE的检验中，原假说是非观测效应与解释变量不相关，备择假说是两者相关。FE是无论原假说成立与否

15、都是consistent，而RE在原假说下是consistent，并且 Asymptotically efficient （样本越大越有效），但如果原假说被拒绝，则RE不是consistent的（Hausman, 1978）。所以做法应该是（STATA 8的命令）：sort code year （排序） tis year （时间变量是 year） iis code （表示单位的是 code） xtreg y x x2, fe （假设其中x是需要被工具的变量） est store fixed （在STATA8里命令有变化，不再是HAUSMAN, SAVE 了，这里的fixed实际上就是个变量

16、名，用什么都行）xtreg y x x2, rehausman fixed（2）比较 OLS （或 FE）和 IV （或 IVFE）先做IV,因为，它无论如何都是consistent的，但OLS只有在原假设成立，即OLS结果与 IV结果相同，内生性问题没有时，才是consistent的。所以，应该先做IV。在老版本的STATA里，如果不加特殊说明，STATA就会默认为先写的回归命令得到的是总是一致的估计结果，后写的得到的是备择假设下不一致的估计结果。现在HAUSMAN命令1 Refer to the appendix for the definition of unbiased, consistent and efficient. 规范了，而且扩展了。先跑哪个不重要，关键在于写最后hausman命令时候的顺序，而且如果最近跑的一个没有用est存名字的话，要

展开阅读全文