面板数据的统计分析方法-冯国双课件

资源描述

《面板数据的统计分析方法-冯国双课件》由会员分享，可在线阅读，更多相关《面板数据的统计分析方法-冯国双课件（69页珍藏版）》请在金锄头文库上搜索。

1、面板数据的统计分析方法,冯国双,主要内容,1、面板数据简介 2、面板数据的固定效应模型 3、面板数据的随机效应模型 4、动态面板数据模型 5、空间面板数据模型,面板数据,横断面数据时间序列数据,面板数据,面板数据（panel data）,面板数据,面板数据：同时含有横断面和时间序列的数据对一组固定个体的多次观测数据其它称谓：重复追踪数据纵贯调查数据 ,面板数据,微观面板数据：主要指个体的重复调查数据，一般个体数N较大，观察时间较短宏观面板数据通常涉及一段时间内国家、省等单位的重复调查数据，观察时间较长,面板数据模型,面板数据用双下标变量yit表示其中，i=1,2,N 表示第

2、i个个体，共N个个体 t=1,2 ,T表示第t个观测时间，共观测T次 yit表示第i个个体在第t时间点的观测值,面板数据模型,面板数据模型的一般形式 i是截距项 i=1,2,N（N为个体数） t=1,2,T（T为每一个体的观察时点数） K为解释变量个数 uit是随机误差项,混合模型,（一）混合模型（pooled model）表示对所有个体都有一个相同的截距项。,混合模型,混合模型,混合模型,混合模型,混合模型的参数估计：混合模型将所有数据混合在一起作为样本数据，可采用普通最小二乘法（ordinary least square，OLS）进行参数估计。,混合模型,混合模型的缺点：假定所有个体

3、（如不同省、市、区县、家庭）都是同质的，没有区分不同个体，也无法说明是否不同个体之间存在差异。掩盖了个体间可能存在的异质性，把个体特征全部放到误差项中。,混合模型,针对混合模型缺点的解决方法：需要体现出个体的差异，主要基于两种方法： 1、个体固定效应模型 2、个体随机效应模型,固定效应模型,（二）个体固定效应模型（fixed effect model）把各个个体的值设定为一套固定的参数，采用一定的方法估计出来个体固定效应模型根据不同情况还可分为： 1、变截距的个体固定效应模型 2、变斜率/系数的个体固定效应模型,固定效应模型,1、变截距的个体固定效应模型： i反映了个体对总均值的偏离，

4、表示不同个体有不同的截距项。,固定效应模型,变截距的固定效应模型,固定效应模型,变截距固定效应模型的参数估计：最小二乘虚拟变量（least square dummy variable，LSDV）利用虚拟变量的方式，估计出所有个体的截距值如个体固定效应模型可以表示为：共需估计N个虚拟变量系数和K个自变量系数,固定效应模型,2、变系数的个体固定效应模型也称似不相关回归（Seemingly Unrelated Regression） i反映了个体对总均值的偏离，表示不同个体有不同的截距项。 i反映了个体对总斜率的偏离，表示不同个体有不同的斜率。,固定效应模型,变系数的固定效应模型,随机效应

5、模型,（三）个体随机效应模型（random effect model）把各个个体的值设为一套具有特定概率分布的随机变量，假定这些个体仅是从一个具有特定分布的总体中随机抽取出来的随机效应模型也可分为两大类： 1、变截距的个体随机效应模型 2、变斜率/系数的个体随机效应模型,随机效应模型,1、变截距的个体随机效应模型： 2、变斜率的个体随机效应模型 vi是独立于解释变量的一个具有特定概率分布的随机变量，反映了个体成员的随机影响。,随机效应模型,个体随机效应模型的参数估计：由于个体之间可能存在一定的相关，普通的最小二乘法不再是最有效的估计通常采用可行广义最小二乘法（feasible gene

6、ralized least square，FGLS）。,面板数据模型,固定效应模型与随机效应模型：固定效应模型中，假定每一个体有自己（固定）的截距；模型允许未被观测到的变量与任何已观测的自变量之间存在相关。随机效应模型中，假定这些个体是从一个更大的总体中随机抽取的。未被观测到的变量与所有自变量之间不相关。,面板数据模型,如何选择混合、固定或随机效应模型 1、约束的F检验（比较混合模型和固定效应模型）判断：如果P大于0.05，可以认为约束模型（混合模型）成立；否则认为应采用无约束模型（固定效应模型）,面板数据模型,如何选择混合、固定或随机效应模型 2、BP检验（拉格朗日乘数检验，比较混合模

7、型和随机效应模型）原假设（H0）为：接受混合模型 BP检验的统计量判断：如果P大于0.05，可以接受混合模型； P小于0.05，可认为应采用随机效应模型,面板数据模型,如何选择混合、固定或随机效应模型 3、Hausman检验（比较随机效应模型和固定效应模型）原假设（H0）为：接受随机效应模型 Hausman检验的统计量判断：如果P大于0.05，可以接受随机效应模型； P值小于0.05，可认为应采用固定效应模型,面板数据模型,如何选择混合、固定或随机效应模型 4、更实际的考虑流行病学中个体追踪随访数据通常考虑随机效应模型更为合适省、市、区等的观察可考虑固定效应模型结合实际研究目的而

8、定,面板数据分析案例,例1：四个城市1-6月份手足口病报告发病率与气温的关系,面板数据分析案例,首先进行因变量的变换原变量对数变换,面板数据分析案例,混合模型（pooled model）的最小二乘估计： SAS程序： proc reg; model lhfm=temp; run;,面板数据分析案例,最小二乘估计（pooled model）结果：,面板数据分析案例,自相关的Durbin-Watson检验： SAS程序： proc reg; model lhfm=temp/dw dwprob; run;,面板数据分析案例,Durbin-Watson检验结果：提示：可能存在空间或时间自相关,

9、面板数据分析案例,残差（Residual）分析：,面板数据分析案例,残差（Residual）分析,面板数据分析案例,各城市的变化趋势图,面板数据分析案例,个体固定效应模型（最小二乘虚拟变量回归） SAS程序 proc panel printfixed; id city month; model lhfm=temp/fixone; run;,面板数据分析案例,虚拟变量及自变量的估计结果：,面板数据分析案例,各城市截距：乌鲁木齐：-0.4091 哈尔滨：-0.4091-0.67097=-1.08007 北京： -0.4091+1.123651=0.714551 上海： -0.4091+1.210

10、117=0.801017,面板数据分析案例,固定效应的约束F检验：模型拟合效果：与最小二乘回归相比，R2增加，MSE降低。,面板数据分析案例,固定效应模型的残差分析,面板数据分析案例,Pooled模型预测值固定效应模型预测值,面板数据分析案例,个体随机效应模型 SAS程序 proc panel; id city month; model lhfm=temp/ranone; run;,面板数据分析案例,随机效应模型估计结果：随机效应模型的拟合结果,面板数据分析案例,Hausman检验和BP检验结果： P值仅略大于0.05，考虑选择固定效应模型,面板数据分析案例,拟合变斜率面板数据模型固定

11、效应模型似不相关回归（SUR） proc syslin sur; model y1=x1; model y2=x2; model y3=x3; model y4=x4; run;,面板数据分析案例,似不相关模型（SUR）,面板数据分析案例,普通最小二乘回归模型（OLS）,面板数据分析案例,SUR模型 OLS模型,面板数据分析案例,拟合变斜率面板数据模型随机效应模型 proc mixed covtest method=MIVQUE0 ; class city; model lhfm=temp/solution; random int temp/subject=city type=vc; run

12、;,面板数据分析案例,随机系数分析参数估计结果,动态面板数据模型,如果现在的结果不仅受到当前因素的影响，还可能受到以往结果或因素的影响，可考虑动态面板数据模型。动态面板数据模型的参数估计通常采用广义矩估计（GMM）,动态面板数据模型,例2：续例1数据，考虑到手足口病发病有可能受到上个月份手足口病例数的影响，采用动态面板数据进行分析分析：只考虑前一个月手足口发病率的影响，将因变量的一阶滞后项纳入模型,动态面板数据模型,SAS程序 proc panel; id city month; clag hfm(1) / out=hfmlag; run; proc panel data=hfmlag

13、; inst depvar; model hfm = hfm_1 temp/gmm twostep maxband=5; id city month; run;,动态面板数据模型,主要结果：,空间面板数据模型,常见空间模型 1、空间滞后模型（Spatial Lag Model，SLM）该模型包括解释变量X和空间滞后项Wy 式中，W是空间权重矩阵。是空间自回归系数，反映样本数据的空间依赖性，测量y对周边或相邻空间观测的影响，如果 0，提示存在区域之间的相互影响。表示随机误差。,空间面板数据模型,常见空间模型 2、空间误差模型（Spatial Error Model，SEM）该模型结合了一个标

14、准的回归模型和一个随机误差的空间自回归模型。式中，W是空间权重矩阵，是空间误差相关的参数，表示随机误差。,空间面板数据模型,两种空间模型的选择如果我们确信每个个体的y值受到周围值的直接影响，可以考虑空间滞后模型。如果我们相信y并没有直接受到周围值的影响，而是因为某些我们没有考虑到的因素而导致模型的误差出现空间相关，此时可以考虑空间误差模型。,空间面板数据模型,空间面板数据模型,两种空间面板数据模型（SPDM） 1、空间面板滞后模型 2、空间面板误差模型,空间面板数据模型,例3：全国31个省3年的模拟数据，分析x1、x2对y的影响,空间面板数据模型,线性回归分析结果（SAS proc re

15、g过程）： SSE=145.91886，MSE=1.6213,空间面板数据模型,面板数据个体固定效应模型（SAS proc panel过程） SSE=3.3568，MSE=0.0559,空间面板数据模型,空间面板个体固定效应滞后模型（R spml包） SSE=3.2485，MSE=0.0541,面板数据模型与多水平模型的关系,面板数据可以看做是二水平数据，面板数据模型中的随机效应模型等同于二水平模型多水平模型也可用于处理面板数据，只是思路不同。多水平强调层次结构，通过对各水平残差方差的估计与检验，判断是否存在层次结构,面板数据模型与多水平模型的关系,面板数据模型在计量经济领域广泛应用，多水平模型在多个领域（包括医学领域）中应用均较多面板数据模型仅用于处理二水平数据，多水平模型可用于处理三水平甚至更高水平的数据,面板数据模型与多水平模型的关系,面板数据模型除可分析个体异质性外，还可以分析时间层次上的随机效应。多水平模型主要侧重于个体的效应面板数据模型还可分析因变量或自变量的滞后效应的影响，也就是动态面板数据模型,谢谢,

展开阅读全文