面板数据模型－金锄头文库

资源描述

《面板数据模型》由会员分享，可在线阅读，更多相关《面板数据模型（5页珍藏版）》请在金锄头文库上搜索。

1、面板数据回归模型我们在第一章里简要讨论了实证分析一般可用的几个数据类型，即时间序列数据，截面数据和面板数据。时间序列数据是一个或多个变量在一段时期内排列起来的统计数据（例如连续几个季度或几年的GDP）。截面数据是一个或多个变量在同一时点所选定的不同空间的观测数据（例如给定一年里美国 50个州的犯罪率）。面板数据是同一个截面单元（例如一个家庭或一个公司或一个国家）在一段时间内的调查数据。总之，面板数据是时间序列和截面数据相结合的数据。表1.1给出了1990 年及1991 年美国50个州鸡蛋产量和价格。每一年的鸡蛋产量和价格是截面数据样本。每个州的鸡蛋产量和价格是时间序列数据。因此，

2、我们一共有50X2=100个鸡蛋产量及价格的观测值。面板数据又叫合并数据（时间序列和截面观测值的合并），结合时间序列和截面的数据，微观面板数据，纵向数据（时间变量或者对象组的研究），事件史分析（例如连续时间条件下主体随着时间的推移运动），队列分析（例如某商学院1965年毕业生的职业生涯）。尽管有着细微的不同，这些名称基本上都意味着数据在截面单位上的时间运动。因此，我们将使用一般意义上的长期面板数据来代替以上数据。我们把基于这种数据的回归模型叫做面板数据回归模型。面板数据模型越来越多的被应用在经济研究中。以下是一些著名的面板数据集：1收支动态长期追踪调查（PSID）在美国密歇根大学社

3、会研究所进行。该调查始于1968年，该研究所每年收集5000个家庭的社会经济状况和人口变化情况。2美国商务部人口普查局进行了一项类似PSID的叫做收入与项目参与（SIPP）的调查，受访者每天接受四次关于经济状况的调查。除此以外，还有很多其他的政府部门发起的调查。最初，模型的研究很艰难。面板数据回归模型的课题非常宽泛，所射击队数学和统计问题也非常复杂。我们只希望触及一些基本的引用细节的面板数据回归模型。但是我们被告知，有些引用的技术性很强。幸运的是，一些用户友好的软件例如Limdep, PcGive, SAS, STATA, Shazam和Eviews等帮助我们建立起面板数据回归

4、模型。面板数据相对于截面数据和时间序列数据的优点是什么？ Baltagi列出了面板数据的如下优点：1. 由于面板数据涉及个人，企业，州，国家等，久而久之，势必会在这些单位里产生异质性。短期内我们将证明面板数据的估计方法能明确的将这种异质性考虑到单个特定变量中去。我们用一般意义上的长期个体数据概括例如个人，家庭，州和国家这些微观单位。2. 通过截面数据和时间序列数据的结合，面板数据是信息量更大，变化更多，变量间的共线性更少，更大的自由度和更高的效率。3. 通过反复研究截面数据，面板数据更适合研究动态变化。失业，职业流动和劳动力流动等问题从由面板数据研究更为合适。4. 面板数据能更好的

5、检测和衡量那些在纯截面数据或者纯时间序列数据中很难被观察到的影响因素。例如，如果我们将最低工资的连续增长包括在联邦和 /或国家的最低工资中，那么最低工资对就业和收入的影响就能被更好的研究。5. 面板数据是我们能够学习更复杂的行为模式。举例来说，面板数据比纯截面数据和纯时间序列数据更好地处理如经济规模和技术变革现象。6. 如果我们将个人和企业算入广泛的总量，通过使上千个单位能获得数据，面板数据能最大限度的减少偏见。总之，面板数据在方法上能使实证分析更加丰富，这是用截面数据或时间序列数据没法做到的。但这并不说明使用面板数据模型没有问题，在我们介绍一些理论和讨论一个例子后，我们将来说明这些

6、问题。16.2 面板数据：案例分析我们来讨论一个具体的例子。我们研究表16.1的数据，这些数据取自由 Y.Gru nf eld提出的著名投资理论研究。Gru nf eld感兴趣的是如何找出建立在公司实际价值（X2 ）和实际资本存量（X3）上的总投资（Y）。尽管最初的研究对象包括了好几各企业，为了说明问题我们选取了通用电气（GE），通用汽车（GM），美国钢铁（US）和西屋电气四家公司的数据。我们能找到每家公司上述三个变量1935到1954年的数据。因此，共有四个截面单位和 20个时间段，我们共有 80 个观测值。先验地，我们认为Y与X2, X3是正相关的。原则上，我们可以对每个公司建

7、立一个时间序列回归模型，或者对每年的数据建立 20 个截面回归模型。但是在后一种情况下，我们不得不考虑自由度的问题。表 16.1 19351954 年四个公司的调查数据观测值IF-1C-1观测值IF-1C-1GEUS193533.101170.6097.801935209.901362.4053.80193645.002015.80104.401936355.301807.1050.50193777.202803.30118.001937469.902673.30118.10193844.602039.70156.201938262.301801.90260.20193948.102256

8、.20172.601939230.401957.30312.70194074.402132.20186.601940361.602202.90254.201941113.001834.10220.901941472.802380.50261.40194291.901588.00287.801942445.60216 8.60298.70194361.301749.40319.901943361.601985.10301.80194456.801687.20321.301944288.201813.90279.10194593.602007.70319.601945258.701850.2021

9、3.801946159.902208.30346.001946420.302067.70232.60续表16.11947147.201656.70456.401947420.501796.70246.801948146.301604.40543.401948494.501625.80306.90194998.301431.80618.301949405.101667.00351.10195093.501610.50647.401950418.801677.40357.801951135.201819.40671.301951588.202289.50341.101952157.302079.7

10、0726.101952645.202159.40444.201953179.502371.60800.301953641.002031.30623.601954189.602759.90888.901954459.302115.50669.70GMWEST1935317.603078.502.80193512.93191.501.801936391.804661.7052.60193625.90516.000.801937410.605387.10156.90193735.05729.007.401938257.702792.20209.20193822.89560.4018. 1019393

11、30.804313.20203.40193918.84519.9023.501940461.204643.90207.20194028. 57628.5026.501941512.004551.20255.20194148. 51537.1036.201942448.003244.10303.70194243.34561.2060.801943499.604053.70264.10194337.02617.2084.401944547.504379.30201.60194437.81626.7091.201945561.204840.90265.00194539.27737.2092.4019

12、46688.104900.00402.20194653.46760.5086.001947568.903526.50761.50194755.56581.40111.101948529.203245.70922.40194849.56662.30130.601949555.103700.201020.10194932.04583.80141.801950642.903755.601099.00195032.24635.20136.701951755.904833.001207.70195154.38732.80129.701952891.204924.901430.50195271.78864

13、.10145.5019531304.406241.701777.30195390.081193.50174.8019541486.705593.602226.30195468.60118 8.90213.50联合所有这些 80 各观测值，我们可以得出 Grunfeld 投资函数：丫 it= 01 + 02X2it + p3X3it + U it ( 16-2-1)i=1，2，3，4t=1 , 2 ,，20i表示第i个横截面数据，t表示第t个时间段。按照定义，i表示横截面数据的标识符，t表示时间的标识符。据推测，在N个横截面数据中会有一个最大值，一个时间段的最大值。如果每一个横截面数据有相同

14、的时间序列观测，那么这样的面板称之为平衡板。在此例中有一个平衡板，因为样本中每一个人公司都有20个观测值。若观测值个数不同于每一个面板数，我们称该面板为非平衡面板。在本章里我们将大量地关注平衡面板。起初，我们假定X s是非随机的，误差项遵循古典假设，即，E(uit) N(0, o 2).请仔细注意双重和三重下标符号，这应该是不言自明的。怎样估计(16.2.1)？答案如下。16.3 面板数据估计的回归模型：固定效应方法(16.2.1)的估计取决于我们对截距作的假设，斜率系数和误差项U辻有以下几种可能：1. 假设截距和斜率系数在时间上和空间上都是不变的，误差项随着时间和个体的变化而变化的。2. 斜率系数是不变的但截距随个体是变化的。3. 斜率系数是不变的但截距随着时间和个体变化而变化的。4.

展开阅读全文