1 © 陈强,2015 年, 《计量经济学及 Stata 应用》 ,高等教育出版社 第第 12 章章 面面 板板 数数 据据 12.1 面板数据的特点 面板数据的特点 面板数据(panel data 或 longitudinal data),指在一段时间内跟踪 同一组个体(individual)的数据 它既有横截面维度(n位个体),又有时间维度(T个时期) 一个3T 的面板数据结构如表 12.1 2 表 12.1 面板数据的结构 y1x2x3x 个体 1: t = 1 个体 1: t = 2 个体 1: t = 3 个体 2: t = 1 个体 2: t = 2 个体 2: t = 3 个体n: t = 1 个体n: t = 2 个体n: t = 3 3 通常的面板数据T较小,n较大,在使用大样本理论时让n趋于 无穷大,称为“短面板”(short panel) 如果T较大,n较小,则称为“长面板”(long panel) 在面板模型中,如果解释变量包含被解释变量的滞后值,称为 “动态面板”(dynamic panel); 反之,称为“静态面板”(static panel)。
本书仅关注静态面板 在面板数据中,如果每个时期在样本中的个体完全一样,则称 为“平衡面板”(balanced panel); 反之,则称为“非平衡面板”(unbalanced panel)主要关注平衡 面板,但在本章第 11 节讨论非平衡面板 4 面板数据的主要优点如下 (1) 有助于解决遗漏变量问题: 遗漏变量常由不可观测的个体差异或“异质性”(heterogeneity) 造成(比如个体能力) 如果个体差异“不随时间而改变”(time invariant),则面板数据 提供了解决遗漏变量问题的又一利器 (2) 提供更多个体动态行为的信息: 面板数据有横截面与时间两个维度,可解决截面数据或时间序 列不能解决的问题 5 例 如何区分规模效应与技术进步对企业生产效率的影响截面 数据没有时间维度,无法观测到技术进步单个企业的时间序列 数据,也无法区分生产效率提高有多少由于规模扩大,有多少由 于技术进步 例 对于失业问题,截面数据告诉我们在某个时点上哪些人失 业,时间序列告诉我们某个人就业与失业的历史,但均无法告诉 我们是否失业的总是同一批人(低流转率), 还是失业的人群总在变 动(高流转率)。
如有面板数据,就可能解决上述问题 (3) 样本容量较大:同时有截面与时间维度,面板数据的样本容 量通常更大,可提高估计精度 6 面板数据也会带来问题 样本数据通常不满足 iid 假定, 因为同一个体在不同期的扰动项 一般存在自相关 面板数据的收集成本通常较高,不易获得 12.2 面板数据的估计策略面板数据的估计策略 一个极端策略是,将面板看成截面数据进行混合回归(pooled regression),即要求样本中每位个体拥有完全相同的回归方程 混合回归的缺点是, 忽略个体不可观测的异质性(heterogeneity), 而该异质性可能与解释变量相关,导致估计不一致 7 另一极端策略是,为每位个体估计单独的回归方程 分别回归的缺点是,忽略个体的共性,可能没有足够大的样本 容量 实践中常采用折衷的策略,即假定个体的回归方程拥有相同的 斜率,但可有不同截距项,以捕捉异质性(参见图 12.1) 8 图 12.1 面板数据中不同个体的截距项可以不同 9 这种模型称为 “个体效应模型” (individual-specific effects model): (1,, ;1,, )ititiiitin tTyuxz (12.1) iz为不随时间而变(time invariant)的个体特征(,ititzz), 比如性 别; itx可以随个体及时间而变(time-varying)。
扰动项由()iitu两部分构成,称为“复合扰动项”(composite error term) 不可观测的随机变量iu是代表个体异质性的截距项, 即 “个体效 应”(individual effects) 10 it为随个体与时间而改变的扰动项,称为“idiosyncratic error” 一般假设{}it为独立同分布,且与iu不相关 如果iu与某个解释变量相关,则进一步称为“固定效应模型” (Fixed Effects Model,简记 FE) 此时 OLS 不一致解决方法是转换模型,消去iu获得一致估计 如果iu与所有解释变量(,)itixz均不相关, 则进一步称为 “随机效 应模型”(Random Effects Model,简记 RE) 与横截面数据相比,面板数据提供了更丰富的模型与估计方法 11 12.3 混合回归混合回归 如果所有个体都拥有完全一样的回归方程,则12nuuu 将相同的个体效应统一记为,方程(12.1)可写为: ititiityxz (12.2) 其中,itx不包括常数项 把所有数据放在一起,像横截面数据那样进行 OLS 回归,故称 “混合回归”(pooled regression)。
虽可假设不同个体的扰动项相互独立,但同一个体在不同时期 的扰动项之间往往自相关 12 每位个体不同时期的所有观测值构成一个“聚类”(cluster) 样本观测值可分为不同的聚类,在同一聚类里的观测值互相相 关,不同聚类之间的观测值不相关,称为“聚类样本”(cluster sample) 对于聚类样本,仍可进行 OLS 估计,但需使用“聚类稳健的 标准误”(cluster-robust standard errors),形式上也是夹心估计量, 表达式更为复杂 对于样本容量为nT的平衡面板,共有n个聚类,而每个聚类中 包含T期观测值 13 使用聚类稳健标准误的前提是,聚类中的观测值数目T较小, 而聚类数目n较大(n ); 此时聚类稳健标准误是真实标准误的一致估计 聚类稳健标准误更适用于时间维度T比截面维度n小的短面板 在推导过程中未假定同方差,故聚类稳健标准误也是异方差稳 健的 混合回归的基本假设是不存在个体效应, 对此须进行统计检验, 在下文介绍 14 12.4 固定效应模型:组内估计量固定效应模型:组内估计量 考虑固定效应模型: ititiiityuxz (12.3) 其中,iu与某解释变量相关,故 OLS 不一致。
解决方法:通过模型变换,消掉个体效应iu 给定个体 i,方程两边对时间取平均: iiiiiyuxz (12.4) 其中,11Tiit tyyT,ix与i的定义类似 15 将原方程减去平均方程(12.4),可得离差形式: ()()itiitiitiyyxx (12.5) iz与iu被消去定义ititiyyy,ititi xxx,ititi,则 ititityx (12.6) 只要新扰动项it与新解释变量it x不相关, 则 OLS 一致, 称为 “固 定效应估计量”(Fixed Effects Estimator),记为FEˆ FEˆ 主要使用每位个体的组内离差信息,也称“组内估计量” (within estimator) 16 即使iu与itx相关,只要使用组内估计量,即可得一致估计,这 是面板数据的一大优势 由于可能存在组内自相关,应使用以每位个体为聚类的聚类稳 健标准误 在离差变换过程中,iz 也消掉,无法估计 FEˆ 无法估计不随时间而变的变量之影响, 这是 FE 的一大缺点。
为保证()iti与()itixx不相关, 须假定个体 i 满足严格外生性 (比前定变量或同期外生的假定更强),即1E(,,)0itiiTxx,因为ix中包含了所有1(,,)iiTxx的信息 17 12.5 固定效应模型:固定效应模型:LSDV 法法 个体固定效应iu,传统上视为个体 i 的待估参数,即个体 i 的截 距项 对于n位个体的n个不同截距项, 可在方程中引入(1)n个个体虚 拟变量来体现: 2nititiiiit iyDxz (12.7) 其中,个体虚拟变量2D=1,如果为个体 2;否则,2D= 0其他 (3,,nDD)的定义类似 用 OLS 估计此方程,称为“最小二乘虚拟变量法”(Least Square Dummy Variable,LSDV) 18 LSDV 法的估计结果与组内估计量 FE 完全相同 正如线性回归与离差形式的回归在某种意义上等价(参见习题): ()()iiiiiiyxyyxx (12.8) 做完 LSDV 后,如发现某些个体的虚拟变量不显著而删去,则 LSDV 的结果就不会与 FE 相同。
LSDV 的好处是,可得到对个体异质性iu的估计 LSDV 法的缺点是,如果n很大,须在回归方程中引入很多虚拟 变量,可能超出 Stata 所允许的变量个数 19 12.6 固定效应模型:一阶差分法固定效应模型:一阶差分法 对于固定效应模型,还可对原方程两边进行一阶差分,消去个 体效应iu: ,1,1,1()()iti titi titi tyyxx (12.9) 使用 OLS 即得到“一阶差分估计量”(First Differencing Estimator),记为FDˆ 只要扰动项的一阶差分,1()iti t与解释变量的一阶差分,1()iti txx不相关,则FDˆ 一致 此一致性条件比保证FEˆ 一致的严格外生性假定更弱 20 可以证明(参见习题),如果2T,则FDFEˆˆ 对于2T ,如果 it为独立同分布,则FEˆ 比FDˆ 更有效率 实践中,主要用FEˆ ,较少用FDˆ 12.7 时间固定效应 时间固定效应 个体固定效应模型解决了不随时间而变(time invariant)但随个体 而异的遗漏变量问题。
还可能存在不随个体而变(individual invariant),但随时间而变 (time varying)的遗漏变量问题 比如,企业经营的宏观经济环境 21 在个体固定效应模型中加入时间固定效应(t): itititiityuxz (12.10) 其中,t随时间而变,但不随个体而变 可视t为第t期特有的截距项,并解释为“第t期”对y的效应; 故称1,,T为“时间固定效应”(time fixed effects) 使用 LSDV 法,对每个时期定义一个虚拟变量,把(1)T个时间 虚拟变量包括在回归方程中: 2Tititittiit tyDuxz (12.11) 22 时间虚拟变量21D,如果2t;否则,2D= 0;以此类推 方程(12.11)既考虑了个体固定效应,又考虑了时间固定效应, 称为“双向固定效应”(Two-way FE) 可通过检验这些时间虚拟变量的联合显著性来判断是否应使用 双向固定效应模型 如果仅考虑个体固定效应, 称为 “单向固定效应” (One-way FE) 有时为节省参数(比如,时间维度T较大),可引入时间趋势项, 以替代上述(1)T个时间虚拟变量: ititiiitytuxz (12.12) 23 上式隐含假定,每个时期的时间效应相。