12.面板数据回归－金锄头文库

资源描述

《12.面板数据回归》由会员分享，可在线阅读，更多相关《12.面板数据回归（63页珍藏版）》请在金锄头文库上搜索。

1、面板数据回归时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以，面板数据（panel data ）也称时间序列截面数据（time series and cross section data）或混合数据（ pool data）。面板数据，简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国家、公司等) 连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来，由于面板数据资料的获得变得相对容易，使其应用范围也不断扩大。1996-2002年中国

2、15个省级地区的居民家庭人均消费数据（不变价格）（例一）地区人均消费费1996199719981999200020012002CP-AH（安徽） 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364CP-BJ（北京） 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12CP-FJ（福建） 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005CP-HB（河北） 3197.339

3、3868.319 3896.778 4104.281 4361.555 4457.463 5120.485CP-HLJ（黑龙龙江） 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535CP-JL（吉林） 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874CP-JS（江苏苏） 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331CP-JX（江西） 2714.124 3136.873

4、 3234.465 3531.775 3612.722 3914.080 4544.775CP-LN（辽辽宁） 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063CP-NMG（内蒙古） 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180CP-SD（山东东） 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770CP-SH（上海） 6193.333 6634.183 6866.41

5、0 8125.803 8651.893 9336.100 10411.94CP-SX（山西） 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561CP-TJ（天津） 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843CP-ZJ（浙江） 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210面板数据的格式（例二）companyyearinvestmvalue11951755.9483

6、311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9当描述截面数据时，我们用下标表示个体，如Yi表示第i个个体的变量Y。当描述面板数据时，我们需要其他符号来同时表示个体和时期。为此我们采用双下标而不是单下标，其中第一个下标i表示个体，第二个下标t表示观测时间。于是Yit表示n个个体中第i

7、个个体在T期中的第t个时期内变量Y的观测值。面板数据用双下标变量表示。例如Yit, i = 1, 2, , N； t = 1, 2, , T N表示面板数据中含有N个个体。T表示时间序列的最大长度。对于样本点来说：Stata中面板数据的表示companyyearinvestmvalue11951755.94833 11952891.24924.9 119531304.46241.7 119541486.75593.6 21951588.22289.5 21952645.52159.4 219536412031.3 21954459.32115.5 31951135.21819.4 319

8、52157.32079.7 31953179.52371.6 31954189.62759.9在stata中，首先使用xtset命令指定个体特征和时间特征，然后可以用xtdes命令显示面板数据的结构。use fatality,clearxtset state yearxtdes短面板和长面板如果面板数据 T 较小，而n 较大，这种面板数据被称为“短面板”（short panel ）。（大n小T）如fatality.dta 反之，如果T 较大，而n 较小，则被称为“长面板”（long panel）。（大T小n ）如Grunfeld.dta 面板数据的优势（1）可以解决遗漏变量问题：遗漏

9、变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决，但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或“异质性”（ heterogeneity）所造成，如果这种个体差异“不随时间而改变”（time invariant），则面板数据提供了解决遗漏变量问题的又一利器。（2）提供更多个体动态行为的信息：由于面板数据同时有截面与时间两个维度，有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。比如，如何区分规模效应与技术进步对企业生产效率的影响。在截面数据中，由于没有时间维度，故无法观测到技术进步。然而，对于单个企业的时间序列数据来说，我们无法区分其生产

10、效率的提高究竟有多少是由于规模扩大，有多少是由于技术进步。（3）样本容量较大：由于同时有截面维度与时间维度，通常面板数据的样本容量更大，可以提高估计的精确度。面板数据的建模方法主要有三种：固定效应回归模型随机效应回归模型混合回归模型实例:交通事故死亡人数和酒精税由此我们就能得出增加啤酒税收会导致更多的交通事故死亡人数吗？不一定，这是因为这些回归中可能存在着巨大的遗漏变量偏差。影响死亡率的因素有很多，包括： 1。州内驾驶的汽车质量； 2。高速公路的维修情况是否良好； 3。大部分驾驶的路程是在乡下还是市内； 4。路上的汽车密度； 5。社会文化能否接受酒后驾车等。这些因素都有可能与酒

11、精税有关。若相关，则会导致遗漏变量偏差。一种解决这些导致遗漏变量偏差潜在根源的方法是收集这些变量的数据，并把它们加入到上式中。不幸的是，我们很难或不可能度量诸如酒后驾车的文化接受度等变量。解决方法：固定效应OLS回归具有两个时期的面板数据：“前后”比较特别注意：Zi不随时间变化结论：两期的变化（差分）表示的回归消除了随时间不变的不可观测变量Zi的效应。换言之，分析 Y和X的变化可以控制随时间不变的变量，于是就消除了这种产生遗漏变量偏差的来源。当数据是在两个不同年份里观测得到的时候，这种“前后”分析很有效。但我们的数据集中包含7个不同年份里的观测值，即当 T2时不能直接应用这

12、种“前后”比较方法。为了分析该面板数据集中的所有观测值，我们使用固定效应回归方法。固定效应模型对于特定的个体i而言，ai 表示那些不随时间改变的影响因素，如个人的消费习惯、国家的社会制度、地区的特征、性别等，一般称其为“个体效应” (individual effects)。如果把“个体效应”当作不随时间改变的固定性因素，相应的模型称为“固定效应”模型。对于固定效应模型，可采用虚拟变量法。基本思想：固定效应模型实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量，使得每个截面都有自己的截距项。由于固定效应模型假设存在着“个体效应”，每个个体都有其单独的截距项。这就相当

13、于在原方程中引入n1个虚拟变量（如果省略常数项，则引入n个虚拟变量）来代表不同的个体，获得每个个体的截据项。如何理解个体效应、个体截距项的不同以及虚拟变量的引入？我们用一份模拟的数据来分析： use example,clear xtset company year xtdes 1。画出散点图和拟合线，并建立OLS回归方程。2。加入虚拟变量，并重新画出建立OLS回归方程。reg y xgen d1=0gen d2=0gen d3=0replace d1=1 if id=1replace d2=1 if id=2replace d3=1 if id=3reg y x d1 d2固定效

14、应模型的估计算法“个休中心化”OLS算法或者组内离差估计法假设原方程为：(式1)给定第i 个个体，将(式1)两边对时间取平均可得，(式2)(式1) (式2)，得：可以用OLS方法一致地估计，称为“固定效应估计量”（Fixed Effects Estimator），记为由于主要使用了每个个体的组内离差信息，故也称为“组内估计量”（within estimator）。固定效应模型的优势和劣势面板固定效应模型的优势是：即使个体特征 ui与解释变量Xit相关，只要使用组内估计量，就可以得到一致估计，即即使存在不随时间改变的遗漏变量，也可得到无偏一致的估计。面板固定效应模型的劣势是：模型无

15、法估计不随时间而变的变量之影响，这需要用随机效应模型。在交通事故死亡人数中的应用由于(10. 8)式中的“差分”回归只用了1982年和1988年的数据(具体讲就是这两年的差额)，而(10. 15)式中的固定效应回归用到了所有7年的数据，因此这两个回归是不同的。由于利用了更多的数据，因此(10. 15)式中的标准误差小于(10. 8)式中的标准误差。固定效应模型的stata实现use fatality,clearxtset state yearxtdesxtline FatalityRate 固定效应模型：xtreg FatalityRate beertax,fe回归结果解读1。三个

16、R2哪个重要？ 2。固定效应为什么有两个F检验？ 3。corr(u_i, Xb) 的含义。 4。 sigma_u、sigma_e、rho的含义。1。因为固定效应模型是组内估计量（离差），因此，只有within是一个真正意义上的R2 ，其他两个是组间相关系数的平方。2。右侧的F统计量表示除常数项外其他解释变量的联合显著性。最后一个F检验，原假设所有U_i=0，即不存在个体效应，不必使用固定效应模型。首先注意：结果中的u_i不表示残差，而是表示个体效应。3。corr(u_i, Xb) 个体效应与解释变量的相关系数，相关系数为0或者接近于0，可以使用随机效应模型；相关系数不为0，需要使用固定效应模型。4。sigma_u：表示个体效应的标准差sigma_e：表示干扰项的标准差rho：rho = sigma_u2 / (sigma_u2 + sigma_e2) 个体效应的波动占整

展开阅读全文

12.面板数据回归

最新文档