面板数据模型－金锄头文库

资源描述

《面板数据模型》由会员分享，可在线阅读，更多相关《面板数据模型（80页珍藏版）》请在金锄头文库上搜索。

1、第九章面板数据模型第一节面板数据与面板数据模型第二节固定影响模型第三节随机影响模型第四节 SUR模型 *第五节随机系数模型 *第六节动态面板数据模型第一节面板数据与面板数据模型一、面板数据混合数据（pooled data）是指将横截面数据和时间序列数据结合在一起的数据。混合数据包含不同横截面个体不同时期的数据，或者说，混合数据包含既跨越时间又跨越空间的数据。如果混合数据包含的观测值来自同一批地区、公司、人员或其它横截面个体的不同时期数据，则此类混合数据称为面板数据（panel data）。如果混合数据包含的观测值来自从一个大总体中随机抽样的主体不同时期的数据

2、，则此类混合数据称为非面板混合数据。例如，我们每年对北京市固定的一万户家庭消费的观测记录所得到的数据集就是面板数据；而我们每年对北京市居民家庭随机抽样一万户家庭消费的观测记录所得到的数据集就是非面板混合数据。在实践中，面板数据通常比非面板混合数据更有用，这是因为面板数据中的地区、公司、人员等横截面个体在各时期中一直保持不变，这使得我们更易于对这类个体随着时间的推移所发生的变动进行比较和分析。相应地，我们将基于面板数据的回归模型称为面板数据模型（panel data model）。面板数据模型可以分为单方程面板数据模型和联立方程面板数据模型；也可以分为线性面板数据模型和非

3、线性面板数据模型（如离散被解释变量面板数据模型、受限被解释变量面板数据模型）。相应地，我们将基于面板数据的回归模型称为面板数据模型（panel data model）。面板数据模型可以分为单方程面板数据模型和联立方程面板数据模型；也可以分为线性面板数据模型和非线性面板数据模型（如离散被解释变量面板数据模型、受限被解释变量面板数据模型）。二、面板数据模型的优点1利用面板数据进行的经济分析更全面2利用面板数据能够改进估计的有效性三、分析面板数据的一般模型框架分析面板数据的基本框架是形如下式的回归模型：其中中有k个解释变量，不包括常数项。异质性或个体影响由表示，其中包含一个常数项

4、和一组体现横截面个体影响但不随时间变化的变量，例如可观测的种族、性别等，或无法观测的家庭特征、偏好等，所有这些变量都只体现横截面个体特征，而不随时间变化。如果所有横截面个体的都可以观测到，那么整个模型可被视为一个普通线性模型，并可用最小二乘法来拟合。但在大多数应用中，不可观测，处理起来就要复杂得多。分析的主要目标是偏效应（partial effects）的一致和有效估计：是否能达到这个目标取决于有关不可观测的影响的假设。我们以自变量的严格外生性假设作为起点, 该假设为：即当期扰动项与过去、现在和未来的每一期中的自变量都无关。模型关注的重要方面是异质性，这方面特别方便

5、的一个假设是所谓的均值独立（mean independence）：如果该假设成立，即不可观测的变量与包括在模型中的变量无关，那么下面将看到，可以将它们包括在模型的扰动项中，这正是随机影响模型的基础假设。可是，这是一个很强的假设，很多情况下无法满足。弱一些的假设是：假设条件放宽了，模型的适应面也宽了，但复杂性也大大增加了，因为需要有关函数性质的假设。四、模型结构我们将研究分析面板数据的各类模型，它们大致可分为如下几种类型：1混合回归（pooled regression）若中仅包含常数项，则模型形式如下：这类模型假设所有的横截面个体在各个不同时期的斜率和截距都是相同的，这样就可

6、以直接把面板数据混合在一起，用OLS估计参数，得到一致和有效估计量。由于混合回归模型假设解释变量对被解释变量的影响与横截面个体无关，这在现实中是很难成立的，所以应用不广。2固定影响（fixed effects）如果不可观测，但与相关，则由于遗漏了有关变量，的OLS估计量是有偏和不一致的。可是在这种情况下，模型包含了所有可观测的影响，并且设定了一个可估计的条件均值。这就是固定影响模型。其中。固定影响模型将视为回归模型中每一个体各自不同的常数项。注意，这里使用的 “固定”一词是表明和的相关，并不表明是非随机的。固定影响模型可分为三类，即个体固定影响模型（Ent

7、ity fixed effects model）、时点固定影响模型（Time fixed effects model）和个体时点固定影响模型（Entity and time fixed effects model）。在本章中，我们只介绍个体固定影响模型。3随机影响（random effects）如果未观测到的个体异质性可以被假定与包括在模型中的变量无关，则模型可设定为这是一个带复合扰动项的线性回归模型。可用 OLS法估计，得到一致但非有效的估计量。（9.4）称为随机影响模型。这里是一个反映横截面个体影响的随机元素。固定影响模型和随机影响模型的关键区别是未观测到的个体影响是否包含

8、与模型中解释变量相关的元素，而不在于这些影响是否随机。4. 随机系数（random coefficients）随机影响模型可看成是一个带有随机常数项的回归模型。如果数据集足够丰富，我们可以将此思路扩展到其它系数也随着个体随机变动的模型，从而得到随机系数模型：其中是一个引起参数跨个体变动的随机向量。第二节固定影响模型一、固定影响模型的设定上一节给出了分析面板数据的一般模型固定影响模型源于一般模型中被遗漏的影响与包括的变量相关的假设，此假设的一般形式是：（9.6）由于上式中的条件均值在所有时期中都相同，我们可将模型写成括号项可通过构造使其与不相关，因而可将其吸收到扰动项

9、中，模型可写为（9.7）这就是固定影响模型。从模型的设定可知，固定影响模型假设横截面个体之间的差异为截距不同，而斜率系数相同，即允许不同的横截面个体的截距是不同的，但每一个体的截距在各个不同时期则保持不变。换句话说，固定影响模型假定不同横截面个体的差异可用不同的常数项来描述，在此模型中，被作为要估计的未知参数。如果进一步假设为常数，则在此假设下，（9.7）变成经典线性回归模型。二、固定影响模型的参数估计固定影响模型参数的估计方法有两种，一种是最小二乘虚拟变量（LSDV）估计法，另一种是组内估计（Within Estimator）或称协方差估计（The Analysis

10、 of Covariance Estimation，ANCOVA）。下面介绍这两种参数估计方法。1. LSDV估计法设和为第i个横截面单元的T个观测值，是一个元素全为1的列向量，为相应的扰动项列向量，则（9.8）将全部i个单元汇集在一起，给出或（9.9）这里是第i个单元为1其它单元为0的虚拟变量。设矩阵，则将所有行组合在一起，有此模型通常称为最小二乘虚拟变量模型(least squares dummy variable model，LSDVM)。此模型是一个经典线性回归模型。如果n足够小，模型就可用OLS法估计，对中K个解释变量和D中的n列回归，共个参数

11、。实际应用中，n 通常很大，数以千计，模型很可能超出任何计算机的存储容量。可考虑使用分块回归技术以减少计算量。有关分块回归技术的详细讨论参见Greene（2008）。另一方面，运用LSDV估计固定影响模型，需要加入n个虚拟变量，当模型中的虚拟变量的个数n很大时，回归中会损失大量的自由度。解决这个问题的思路是对模型进行变换，消去常数项，再用变换后的模型回归。为表达方便起见，不失一般性，我们用双变量模型来说明。在这种情况下，模型（9.7）简化成：（9.10）我们对第i个横截面个体在时间上求均值，则有（9.10）（9.11），得这样在模型（9.12）中，常数项就被去掉了。令

12、则模型转换为对模型（9.13）运用OLS进行回归，就得到的OLS估计值。2. 组内估计法为表达方便起见，先考虑双变量模型，假定。再令定义，，称为组内均值。组内平方和及交叉乘积和为：参数和的估计值由关于和最小化得到。我们有不难看出，上式中1、3两项分别是；而2、4两项内层求和号中都是离差和，内层对t求和恒等于0。因此我们得到被称为组内估计量，记为或。为了使组内估计量是一致估计量，必须满足，而满足此条件的充分条件是与不相关，则与也不相关。即满足也就是说是严格外生的。在多个解释变量的情况下，前面的结果变为三、检验个体影响的显著性如果我们对不同横截面个体的

13、差异感兴趣，我们可以用F检验来检验每个横截面个体的常数项是否都相等。即假设，检验的F统计量为： F(n-1,nT-n-K) 或 F(n-1,nT-n-K) 式中，为最小二乘虚拟变量模型的决定系数，为受约束模型（即混合回归模型）的决定系数；受约束模型的残差平方和，为最小二乘虚拟变量模型的残差平方和。在给定的显著性水平下，如果拒绝了原假设，则将模型设定为固定影响模型；如果接受原假设，则模型设定为混合回归模型。例9.1 我们搜集我国20012007年我国内地31个省市自治区城镇居民家庭人均年可支配收入、城镇居民家庭人均年消费支出和各地区城镇居民消费价格指数的数据，建立

14、消费收入模型，以研究城镇居民的消费行为。模型中用到的变量是： Cit = i省市第t年城镇居民人均消费，单位：元 Yit = i省市第t年城镇居民人均收入，单位：元 Pit = i省市第t年城镇居民消费价格指数（1985 100）事实上，对于这3个变量中的每一个，都有217个观测值（31个省市乘以7年）。由于在每个时期（每一年）都是这31个省市，因此这些混合数据是面板数据。现实中，即使每个时期中每个省市的消费与收入之间的关系都相同，但经济发达的省市与经济落后的省市的城镇居民的消费模式、消费理念肯定是有差别的。因此，为简单起见，我们假定采用固定影响模型，模型形式如下：此模型的回归

15、我们不采用LSDV法，这会损失很多的自由度，因而采用组内估计法。应用EViews6，估计模型参数，结果为：31个省市自治区城镇居民家庭人均年边际消费倾向均为 0.552，自主性消费（截距项）有很大差异，见表 9.1。地区自主性消费水平（元）地区自主性消费水平（元）地区自主性消费水平（元）广东省3066.09 福建省1776.53 安徽省1486.75 北京市3050.22 湖北省1753.70 青海省1457.59 上海市2955.21 甘肃省1705.62 贵州省1412.96 重庆市2501.59 吉林省1659.79 山东省1393.78 浙江省2470.95 宁夏回族自治区1657.24 河北省1388.96 西藏自治区2265.71 云南省1647.26 广西壮族自治区1377.02 天津市2218.72 内蒙古自治区1620.24 黑龙江省1333.89 陕西省196

展开阅读全文