stata面板数据连玉君.pdf

资源描述

《stata面板数据连玉君.pdf》由会员分享，可在线阅读，更多相关《stata面板数据连玉君.pdf（38页珍藏版）》请在金锄头文库上搜索。

1、Estimation with STATA 连玉君1 中山大学岭南学院金融系 arlionn 2007 07 1这是我在西安交通大学金禾中心读博期间整理的学习笔记非常感谢我的导师钟经樊先生带我走进计量经济学的多彩世界并介绍给我一非常难得的朋友 STATA 同时也要感谢金禾中心的程建博士现就职于建行总行博士后流动站和朱晓明博士现就职于国家开发银行北京总行在 LATEX 软件的使用方面给与的帮助如果发现笔记中有任何错误和不妥之处或是对我还没有想出来的问题有任何解决的建议烦请发邮件给我同时我已经完成的笔记共 12 章都可以在我的博客中下载欢迎光临由于

2、这些笔记还在不断更新中所以恳请各位将阅读过程中发现的小错误及时反馈给我我会将你们的名字做成列表定时发送最新版的笔记给你们目录第八章面板数据模型1 8 1简介 1 8 2静态面板数据模型 1 8 2 1固定效应模型 2 8 2 2随机效应模型 7 8 2 3假设检验 10 8 2 4STATA 实现 13 8 3非均齐方差 25 8 3 1异方差 25 8 3 2序列相关 29 8 3 3方差形式未知时的稳健性估计 33 8 4动态面板模型 33 8 5面板 VAR 模型 33 8 6面板门槛模型 33 8 7面板单位根检验和协整分析 33 I 第八章面板数据模型 8 1简介面板数

3、据简言之是时间序列和截面数据的混合严格地讲是指对一组个体如居民国家公司等连续观察多期得到的资料所以很多时候我们也称其为追踪资料近年来由于面板数据资料的获得变得相对容易使其应用范围也不断扩大而关于面板数据的计量理论也几乎涉及到了以往截面分析和时间序列分析中所有可能出现的主题如近年来发展出的面板向量自回归模型 Panel VAR 面板单位根检验 Panel Unit Root test 面板协整分析 Panel Cointegeration 门槛面板数据模型 Panel Threshold 等都是在现有截面分析和时间序列分析中的热点主题的基础上发展起来的

4、采用面板数据模型进行分析的主要目的有二一是控制不可观测的个体异质性二是描述和分析动态调整过程处理误差成分使用面板数据主要有以下几方面的优点便于控制个体的异质性比如我们在研究全国 30 个省份居民人均消费青岛啤酒的数量时可以选取居民的收入当地的啤酒价格上一年的啤酒消费量等变量作为解释变量但同时我们认为民族习惯 1风俗文化 2广告投放等因素也会显著地影响居民的啤酒消费量对于特定的个体而言前两种因素不会随时间的推移而有明显的变化通常称为个体效应而广告的投放往往通过电视或广播我们可以认为在特定的年份所有省份所接受的广告投放量是相同的通常称为时间效应

5、这些因素往往因为难以获得数据或不易衡量而无法进入我们的模型在截面分析中者往往会引起遗漏变量的问题而面板数据模型的主要用途之一就在于处理这些不可观测的个体效应或时间效应包含的信息量更大降低了变量间共线性的可能性增加了自由度和估计的有效性便于分析动态调整 8 2静态面板数据模型我们一般所说的静态面板数据模型是指解释变量中不包含被解释变量的滞后项通常为一阶滞后项的情形但严格地讲随机干扰项服从某种序列相关的模型如 AR 1 AR 2 MA 1 等也不是静态模型动态模型和静态模型在处理方法上往往有较大的差异本节中我们重点介绍两种最为常用的静态模型固定效应

6、模型和随机效应模型考虑如下模型 yit x0it uit 8 1 uit ai it 1如宁夏属于回族自治区那里的回民因为信仰伊斯兰教所以不允许饮酒的而生活在宁夏的许多汉民也往往因为自己的回民朋友无法饮酒而无形中减少了啤酒的消费量 2如中国南部地区啤酒的消费量比较大而北方很多地区只有在夏天才会饮用较多的啤酒冬天他们一般是只喝白酒的 1 8 2 静态面板数据模型2 其中 i 1 2 N t 1 2 T xit为 K 1 列向量 K 为解释变量的个数为 K 1 系数列向量对于特定的个体 i 而言 ai表示那些不随时间改变的影响因素而这些因素在多数情况下都是无法直接观

7、测或难以量化的如个人的消费习惯国家的社会制度等我们一般称其为个体效应 individual effects 对个体效应的处理主要有两种方式一种是视其为不随时间改变的固定性因素相应的模型称为固定效应模型另一种是视其为随机因素相应的模型称为随机效应模型这两种模型的差异主要反映在对个体效应的处理上固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上随机效应模型则假设所有的个体具有相同的截距项个体的差异主要反应在随机干扰项的设定上因此该模型通常也称为误差成分模型基于此一种常见的观点认为当我们的样本来自一个较小的母体时我们应该

8、使用固定效应模型而当样本来自一个很大的母体时应当采用随机效应模型比如在研究中国地区经济增长的过程中我们以全国 28 个省区为研究对象可以认为这 28 个省区几乎代表了整个母体同时也可以假设在样本区间内各省区的经济结构人口素质等不可观测的特质性因素是固定不变的因此采用固定效应模型是比较合适的而当我们研究西安市居民的消费行为时即使样本数为 10000 人相对于西安市 600 万人口的母体而言仍然是个很小的样本此时可以认为不同的居民在个人能力消费习惯等方面的差异是随机的此时采用随机效应模型较为合适遗憾的是很多情况下我们并不能明确地区分我们的样

9、本来自一个较大母体还是较小的母体因此有些学者认为区分固定效应模型和随机效应模型应当看使用二者的假设条件是否满足由于随机效应模型把个体效应设定为干扰项的一部分所以就要求解释变量与个体效应不相关而固定效应模型并不需要这个假设条件因此如果我们的检验结果表明该假设满足那么就应该采用随机效应模型因为它更为有效反之就需要采用固定效应模型另外有些学者认为具体采用哪一种模型主要决定于我们的分析目的如果主要目的在于估计模型的参数而模型中个体的数目又不是很大采用固定效应模型是个不错的选择因为它非常容易估计但当我们需要对模型的误差成分进行分析时通常分解为长期效

10、果和短期效果就只能采用随机效应模型在这种情况下即使模型中的部分解释变量与个体效应相关我们仍然可以通过工具变量法对模型进行估计简言之两种模型有各自的优缺点和适用范围在实证分析的过程中我们一方面要根据分析的目的选择合适的模型同时也要以 8 2 3 节中介绍的假设检验方法为基础进行模型筛选 8 2 1固定效应模型模型的基本设定和假设条件若视 ai为固定效应模型 8 1 可以采用向量的形式表示为 yi ai1T xi i 8 2 其中 yi yi1 yi2 yiT 0 xi xi1 xi2 xiT 0 i i1 i2 iT 0 1T是一个所有元素都为 1 的 T 1

11、列向量我们有如下两个基本假设 3 3一般应用中我们也常采用如下两个相对较弱的假设假设 10 E i xi 0 和假设 20 Var i xi 2IT 第八章面板数据模型3 假设 1 E i xi ai 0 8 3 假设 2 Var i xi ai 2IT 8 4 假设 1 表明干扰项与解释变量 x 的当期观察值前期观察值以及未来的观察值均不相关也就是说模型中所有的解释变量都是严格外生的假设 2 就是一般的同方差假设在此假设下模型 8 1 的 OLS 估计是 BLUE 的当此假设无法满足时我们就需要处理异方差或序列相关以便得到稳健性估计量组内估计量上面我

12、们已经提到在假设 1 和假设 2 同时成立的情况下模型 8 1 的 OLS 估计是 BLUE 的但在实际操作的过程中如果 N 比较大那么我们的模型中将包含 N K 个解释变量 4计算的工作量往往很大对于 N 相当大的情况如 N 10000 一般的计算机都无法胜任所以我们有必要先进行一些变换以消除固定效应进而对简化后的模型进行估计本小节和下一小节介绍的这两种方法都是基于此目的进行的我们首先将所有观察值进行堆叠于是模型 8 1 可用矩阵形式表示为 y Da X 8 5 其中 y y01 y02 y0N 0 01 02 0N 0 均为 NT 1 向量 D IN 1T

13、a a1 a2 aN 0 考虑到 D 矩阵的构造形式它事实上对应着 N 个虚拟变量因此模型 8 5 等价于在混合 OLS 模型 y X 中加入 N 个虚拟变量在正式估计模型之前我们先定义一些有用的矩阵运算它们将在后面的分析中反复使用定义 DD0 IN JT 其中 JT 1T10T为 T T 维矩阵每个元素均为 1 同时我们定义 P D D0D 1D0 IN JT JT 1 T JT是 T T 维矩阵每个元素均为 1 T Q INT D D0D 1D0 INT P 矩阵 P 和 Q 都具有如下性质 1 对称幂等性 P0 P 且 P2 P 2 正交性 PQ 0 3 和为单

14、位矩阵 P Q INT 我们可以从上述三个性质中的任意两个推导出第三个易于证明 QD 0 因此我们可以通过在等式 8 5 两边同时左乘 Q 以消除固定效应 Qy QX Q 8 6 4此时我们可以将模型 8 1 视为一个包含 N 个虚拟变量 X 中不包含常数项的普通 OLS 模型当然我们也可以在 X 中包含常数项但此时只需加入 N 1 个虚拟变量参见脚注 6 8 2 静态面板数据模型4 变换后的模型的 OLS 估计量为 5 WG X0QX 1X0Qy 8 7 方差估计量为 Var WG 2 X0QX 1 8 8 显然 2的一致估计量为 2 1 NT N K Qy QX WG

15、0 Qy QX WG 8 9 个体效应的估计值为 ai yi xi WG 8 10 该估计量通常称为组内估计量因为上述变换实质上是从每个观察值中减去其组内平均值以去除组内不随时间变化的个体效应变换后的模型 8 7 的特定元素为 yit yi x0it xi it i 8 11 其中 yi 1 T PT t 1yit xi和 i的定义方式与此相同所以要得到 WG 我们只需要从原始数据中间去其组内平均然后对变换后的模型执行 OLS 估计即可需要注意的是在模型 8 5 中 Da 项实际上对应着 N 个虚拟变量所以为了避免共线性问题解释变量 X 中不应再包含常数项

16、6 一阶差分估计量除了上述通过组内去心的办法消除固定效应外我们还可以通过一阶差分的方式去除固定效应对 8 1 式取一阶差分得到 4yi2 4x0i2 4 i2 4yiT 4x0iT 4 iT 8 12 采用矩阵形式可表示为 Byi Bxi B i 8 13 其中 B 110 00 0 11 00 000 11 T 1 T 8 14 5事实上模型 8 6 并不满足 OLS 的经典假设因为 E Q Q 0 2Q 6 2I 但其 GLS 估计量与 8 7 式相同具体推导过程留给读者 6当然我们也可以在 X 中加入常数项但此时要同时加入约束条件 PN i 1ai 0 这样我们估计出的个体效应 ai就应当解释为个体 i 的相对截距项而不是前面得到的绝对截距项 STATA8 0 就采取了在 X 中包含常数项的处理方式第八章面板数据模型5 对所有观察值进行堆叠得到 IN B y IN B X IN B 8 15 设 QB IN B 则相应的 OLS 的估计量为 OLS X0QBX 1X0QBy 8 16 根据假设 1 可知 E X 0 所以 OLS是的无偏

展开阅读全文

stata面板数据连玉君.pdf

最新文档