单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,面板数据回归,,,,面板数据是同时在时间和截面上取得的二维数据所以,面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)面板数据用双下标变量表示例如,,,Y,it,,,i,= 1, 2, …,,N,;,t,= 1, 2, …,,T,,N,表示面板数据中含有,N,个个体T,表示时间序列的最大长度,对于样本点来说:,,,Stata中面板数据的表示,company,year,invest,mvalue,1,1951,755.9,4833,1,1952,891.2,4924.9,1,1953,1304.4,6241.7,1,1954,1486.7,5593.6,2,1951,588.2,2289.5,2,1952,645.5,2159.4,2,1953,641,2031.3,2,1954,459.3,2115.5,3,1951,135.2,1819.4,3,1952,157.3,2079.7,3,1953,179.5,2371.6,3,1954,189.6,2759.9,,,在stata中,首先使用xtset命令指定,个体特征,和,时间特征,,然后可以用xtdes命令显示面板数据的结构。
use grunfeld,clear,,xtset company year,,xtdes,,,面板数据的建模方法主要有三种:,,固定效应回归模型,,随机效应回归模型,,混合回归模型,,,固定效应模型,对于特定的个体i而言,a,i,,表示那些不随时间改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称其为“个体效应” (individual effects)如果把“个体效应”当作不随时间改变的固定性因素, 相应的模型称为“固定效应”模型固定效应模型,,,,,对于固定效应模型,可采用虚拟变量法基本思想:固定效应模型实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量,使得每个截面都有自己的截距项由于固定效应模型假设存在着“个体效应”,每个个体都有其单独的截距项这就相当于在原方程中引入,n,−1个虚拟变量(如果省略常数项,则引入,n,个虚拟变量)来代表不同的个体,获得每个个体的截据项例如:共有7个州,方程可以写成:,,7个州的回归线斜率相同,但截距不同第1个州的截距是:,,第2个州的截距是:,,第3个州的截距是:,,第4个州的截距是:,,,如何理解个体效应、个体截距项的不同以及虚拟变量的引入?,,我们用一份模拟的数据来分析:,,use example,clear,,xtset company year,,xtdes,,1。
画出散点图和拟合线,并建立OLS回归方程加入虚拟变量,并重新画出建立OLS回归方程reg y x,,,,,gen d1=0,,gen d2=0,,replace d1=1 if id==2,,replace d2=1 if id==3,,reg y x d1 d2,,,,,固定效应模型的估计算法,“个休中心化”OLS算法或者组内离差估计法,,假设原方程为:,(式1),给定第,i,个个体,将(式1)两边对时间取平均可得,,(式2),,,(式1) – (式2),得:,可以用OLS方法一致地估计β ,称为“固定效应估计量”(Fixed Effects Estimator),记为,由于 主要使用了每个个体的组内离差信息,故也称为“组内估计量”(within estimator)固定效应模型的优势和劣势,面板固定效应模型的,优势,是:即使个体特征u,i,与解释变量X,it,相关,只要使用组内估计量,就可以得到一致估计,即即使存在不随时间改变的遗漏变量,也可得到无偏一致的估计面板固定效应模型的,劣势,是:模型无法估计不随时间而变的变量之影响,这需要用我们后面要讲到的随机效应模型。
在交通事故死亡人数中的应用,由于(10. 8)式中的“差分”回归只用了1982年和1988年的数据(具体讲就是这两年的差额),而(10. 15)式中的固定效应回归用到了所有7年的数据,因此这两个回归是不同的由于利用了更多的数据,因此(10. 15)式中的标准误差小于(10. 8)式中的标准误差固定效应模型的stata实现,,use grunfeld,clear,,xtset company year,,xtdes,,xtline invest,,固定效应模型:,,xtreg invest mvalue kstock ,fe,,,回归结果解读,1三个R,2,哪个重要?,,2固定效应为什么有两个F检验?F的自由度如何得出?,,3corr(u_i, Xb) 的含义 sigma_u、sigma_e、rho的含义因为固定效应模型是组内估计量(离差),因此,只有within是一个真正意义上的R,2,,其他两个是组间相关系数的平方右侧的F统计量表示除常数项外其他解释变量的联合显著性最后一个,F,检验,原假设所有,U_i=0,,即不存在个体效应,此时证明,pooled ols,(混合回归)更有效首先注意:结果中的,u_i,不表示残差,而是表示,个体效应。
3corr(u_i, Xb) 个体效应与解释变量的相关系数,相关系数为0或者接近于0,可以使用随机效应模型;相关系数不为0,需要使用固定效应模型sigma_u:表示个体效应的标准差,,sigma_e:表示干扰项的标准差,,rho,:,rho = sigma_u^2 / (sigma_u^2 + sigma_e^2),,,表示个体效应的波动占整个波动的比例拿到一份面板数据,现在我们有四种方法进行估计:,,1当作一份截面数据直接估计,这称为混合OLS(,pooled ols )利用组内离差法进行估计,这被默认为固定效应模型的一般估计方法假设有i个个体,加入i-1个虚拟变量为了得到每个个体具体的截距项,加入i个虚拟变量,同时省略常数项我们用这四种方法进行估计并比较结果use invest, clear,,xtset company year,,方法1:,,reg invest mvalue kstock,,est store ols,,方法2:,,xtreg invest mvalue kstock,fe,,est store panel_1,,,方法3:,,tab,company,, gen(d),,reg invest mvalue kstock d2 d3 d4 d5,,est store panel_2,,方法4:,,reg invest mvalue kstock d1 d2 d3 d4 d5, nocons,,est store panel_3,,,est table *, b(%6.3f) star(0.1 0.05 0.01),,,,,方法3还可以用如下简单等价的命令实现:,,xi:reg invest mvalue kstock pany,,即LSDV方法或者添加虚拟变量法。
面板数据格式不符合要求的处理例如如下表格格式该如何处理?,,处理方法:,,扁平数据变长条数据的命令:reshape,,use invest2,clear,,edit,,reshape long invest kstock, i(company) j(year),,,company,invest2002,invest2003,invest2004,kstock2002,kstock2003,kstock2004,1,18.9,19.1,19.6,19.6,16.8,16.7,2,17.4,18.4,18.8,18.1,17.4,17,3,19,19.6,20.1,20.2,17,17.1,4,20,20.4,20.3,20.4,17.5,17.3,5,18.1,18.3,18.4,18.5,16.4,16.1,6,19.7,20,19.9,17.2,16.3,16.3,,,时间固定效应回归,其中S,t,是只随时间改变,不随个体改变的变量和个体固定效应能控制不随时问变化但个体间不同的变量一样,时间固定效应能控制个体间相同但随时间变化的变量由于新车安全性能的提高是发生在全国范围内的因此它们能够减少所有州的交通死亡事故。
故把汽车安全性能视为随时间变化但对所有州都相同的遗漏变量是合理的于是加入用S,t,表示的汽车安全性能的效应后,得:,,,只有时间效应,我们暂时假设Z,i,不出现,方程变为:,我们的目的是在控制S,t,条件下估计ß,1,,,,,在上述例子中加入时间固定效应实际上添加了t-1个时间虚拟变量主要反映随着时间变化的一些特征tab year,gen(yr),,edit,,drop yr1,,xtreg invest mvalue kstock yr*,fe,,大部分时间虚拟变量显著,说明随着时间的变动,invest有不断变动的趋势个体和时间固定效应(双向固定效应模型),如果某些遗漏变量不随时间变化但随州变化(如对酒后驾车的文化接受度),而其他遗漏变量不随州变化但随时间变化(如国家安全标准),则在模型中同时加入个体(州)和时间效应更为恰当,我们称为双向固定效应模型固定效应模型: Y,it,=a,i,+X,it,ß,1,+,ε,it,,双向固定效应模型:Y,it,=a,i,+,λ,t,+X,it,ß,1,+,ε,it,,,,,双向固定效应模型的估计,双向固定效应模型可以通过加入n-1个个体二元变量和T-1个时间二元变量进行OLS估计,但这会使解释变量的数目变得极为庞大!,,所以一般我们还是采用组内离差法进行估计。
方法一,:可以通过先从Y和X中减去个体和时间平均值,然后估计被减后的Y关于被减后的X的多元回归方程的方法来估计X的系数这种方法可以避免二元变量的出现方法二,:从Y, X和时间指示变量中减去个体(不是时间)均值然后估计,被减后的Y对被减后的X和被减后的时间指示变量的多元回归中的k+T个系数在交通死亡人数中的应用,,上述形式中包含了啤洒税,47个州二元变量(州固定效应),6个年二元变量(时间固定效应)和截距项,所以这个模型的解释变量个数多达55个,这将带来大量的自由度的损失因为时间和州二元变量和截距项的系数不是我们主要感兴趣的,所以我们在这里没有列出比较参数发现加入时间效应后啤酒税的系数由-0.66变为-0.64,可见加入时间效应对结果影响不大固定效应回归假设和固定效应回归的标准误差,本章给出的标准误差是利用一般异方差稳健公式计算得到的当T中等大小或较大时,在称为固定效应回归假设的五个假设条件下面板数据中的这些异方差稳健标准误差都是正确的固定效应回归假设,,,固定效应回归的标准误差,,如果重要概念10.3中的假设5成立,则给定回归变量条件下,误差u在时间上不相关,在这种情况下如果T中等大小或较大时,则常用(异方差稳健)标准误差是正确的。
如果误差自相关,则常用标准误差公式不正确理解这一点的一种方法是同异方差做类比在截面数据回归中,如果误差异方差,则由于同方差适用的标准误差是在同方差的错误假设下导出的,因此是不正确的类似地,如果面板数据中的误差自相关,则由于常用标准误差是在它们没有自相关的错误假设下导出的,因此也是不正确的由于面板数据具有潜在异方差且在给定个休的不同时间上潜在相关时,正确的标准误差称为,异方差和自相关一致的标准误差(HAC),这种标准误差由称为,群标准误差,在时间序列中使用的命令是newey,,,在面板数据中使用的命令是xtgls,,,有关酒后驾车的法律规定和交通事故死亡人数,酒精税只是抑制酒后驾车的一种方法,如果某州想要打击酒后驾车,可以通过增加税收和严酷的法律来做到这一点因此,即使在包含州和时间固定效应的模型中遗漏这些有关酒后驾车的法律也会导致啤酒税对交通死亡事故效应的OLS估计量中存在遗漏变量偏差此外,是否开车也部分取决于司机是否有工作,同时,税收变化也反映了经济状况(如州预算赤字会增加税收)所以遗漏州的经济状况也会导致遗漏变量偏差本节中我们将前面的分析推广到保持经济状况不变条件下有关酒后驾车的法律规定(包括啤酒税)对交通死亡事故效应的研究。
为此,我们需要估计包含其他酒后驾车法律和州经济状况的回归变量的面板数据回归这些结果刻画了一幅抑制酒后驾车和交通死亡事故措施引发争议的画面这些估计值表明严厉的处罚和提高最低法定喝酒年龄对死亡率都不会产生重要作用相反,有证据表明提高类似啤酒税这样的酒精税会减少交通死亡率但这个效应的估计仍是不精确的随机效应模型,对于面板数据而言,除了我们前面讲的混合回归和固定效应模型以外,还存在另外一种模型形式:随机效应模型为了区别固定效应模型和随机效应模型,我们把两个模型的方程分别写成:,,,固定效应模型,随机效应模型,,,两个模型看似一样,但模型形式截然不同:,,在固定效应模型中: 作为一个随机变量(解释变量),标示模型的个体效应而在随机效应模型中:随机误差项分成两部分,一部分是不随时间变化的误差项 ,另一部分是随时间变化的误差项 ,即,,,,其中,,,,关于随机效应模型:,,1随机效应模型将固定效应模型的个体效应归入到随机误差项中,因此更加灵活固定效应模型通过组内离差的方法消除掉不随时间改变的变量,这一方面保证了模型的无偏性,另一方面模型无法估计不随时间改变的变量之影响,这在随机效应模型中可以实现。
3回归的结果是随机效应模型的所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上由于上述特性,随机效应模型比固定效应模型结果更加有效,同时,条件更加苛刻随机效应模型必须满足下列条件:,,一般在固定效应模型中,,,随机效应模型:,,xtreg invest mvalue kstock ,re,,,回归结果解读与固定效应模型的结果比较模型的筛选,至此,对于面板数据,我们至少学习了三种估计方法混合回归(,pooled ols,)固定效应回归模型随机效应回归模型三种回归的结果往往不一致当拿到一个面板数据集时,究竟该用哪种方法?,,,,三种回归的命令:,,混合回归:reg invest mvalue kstock,,固定效应:xtreg invest mvalue kstock ,fe,,随机效应:xtreg invest mvalue kstock ,re,,,1混合回归还是固定效应?,,xtreg invest mvalue kstock ,fe,,然后在结果中直接观测F值混合回归还是随机效应?,,xtreg invest mvalue kstock ,re,,xttest0(BP检验),,原假设: a,i,没有干扰,可以用,混合回归。
备则假设: a,i,的方差不为0,有干扰性,必须使用,随机效应固定效应还是随机效应?,,Hausman检验,,基本思想:如果 , Fe 和 Re 都是一致的,但Re更有效如果 , Fe 仍然一致,但Re是有偏的因此,,原假设: 即应该采用随机效应备则假设 应该采用固定效应xtreg invest mvalue kstock ,fe,,est store fixed,,xtreg invest mvalue kstock ,re,,est store random,,hausman fixed random,,本题接受原假设,即应该用随机效应多数实证研究都采用固定效应模型或双向固定效应模型,,,。