《固定效应与随机效应的比较.docx》由会员分享,可在线阅读,更多相关《固定效应与随机效应的比较.docx(6页珍藏版)》请在金锄头文库上搜索。
1、方差分析主要有三种模型:即固定效应模型(fixedeffectsmodel),随机效应模型(randomeffectsmodel),混合效应模型(mixedeffectsmodel)。所谓的固定、随机、混合,主要是针对分组变量而言的。固定效应模型,表示你打算比较的就是你现在选中的这几组。例如,我想比较3种药物的疗效,我的目的就是为了比较这三种药的差别,不想往外推广。这三种药不是从很多种药中抽样出来的,不想推广到其他的药物,结论仅限于这三种药。“固定”的含义正在于此,这三种药是固定的,不是随机选择的。随机效应模型,表示你打算比较的不仅是你的设计中的这几组,而是想通过对这几组的比较,推广到他们所能
2、代表的总体中去。例如,你想知道是否名牌大学的就业率高于普通大学,你选择了北大、清华、北京工商大学、北京科技大学4所学校进行比较,你的目的不是为了比较这4所学校之间的就业率差异,而是为了说明他们所代表的名牌和普通大学之间的差异。你的结论不会仅限于这4所大学,而是要推广到名牌和普通这样的一个更广泛的范围。“随机”的含义就在于此,这4所学校是从名牌和普通大学中随机挑选出来的。混合效应模型就比较好理解了,就是既有固定的因素,也有随机的因素。一般来说,只有固定效应模型,才有必要进行两两比较,随机效应模型没有必要进行两两比较,因为研究的目的不是为了比较随机选中的这些组别。固定效应和随机效应的选择是大家做面
3、板数据常常要遇到的问题,一个常见的方法是做huasman检验,即先估计一个随机效应,然后做检验,如果拒绝零假设,则可以使用固定效应,反之如果接受零假设,则使用随机效应。但这种方法往往得到事与愿违的结果。另一个想法是在建立模型前根据数据性质确定使用那种模型,比如数据是从总体中抽样得到的,则可以使用随机效应,比如从N个家庭中抽出了M个样本,则由于存在随机抽样,则建议使用随机效应,反之如果数据是总体数据,比如31个省市的Gdp,则不存在随机抽样问题,可以使用固定效应。同时,从估计自由度角度看,由于固定效应模型要估计每个截面的参数,因此随机效应比固定效应有较大的自由度.固定效应模型固定效应模型(fix
4、edeffectsmodel)的应用前提是假定全部研究结果的方向与效应大小基本相同,即各独立研究的结果趋于一致,一致性检验差异无显著性。因此固定效应模型适用于各独立研究间无差异,或差异较小的研究。固定效应模型是指实验结果只想比较每一自变项之特定类目或类别间的差异及其与其他自变项之特定类目或类别间交互作用效果,而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。例如:研究者想知道教师的认知类型在不同教学方法情境中,对儿童学习数学的效果有何不同,其中教师和学生的认知类型,均指场地依赖型和场地独立型,而不同的教学方法,则指启发式、讲演式、编序式。当实验结束时,研究者仅就两种类型间的交互作
5、用效果及类型间的差异进行说明,而未推论到其他认知类型,或第四种教学方法。象此种实验研究模式,即称为固定效果模式。与本词相对者是随机效应模型(randomeffectmodel)、混合效应模型(mixedeffectmodel)。随机效应模型randomeffectsmodels随机效应模型(randomeffectsmodels)是经典的线性模型的一种推广, 就是把原来(固定)的回归系数看作是随机变量,一般都是假设是来自正态分布。如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型(mixedmodels)。虽然定义很简单,对线性混合模型的研究与应用也已经比较成熟了,但是如果从不
6、同的侧面来看,可以把很多的统计思想方法综合联系起来。概括地来说,这个模型是频率派和贝叶斯模型的结合,是经典的参数统计到高维数据分析的先驱,是拟合具有一定相关结构的观测的典型工具。随机效应最直观的用处就是把固定效应推广到随机效应。注意,这时随机效应是一个群体概念,代表了一个分布的信息or特征,而对固定效应而言,我们所做的推断仅限于那几个固定的(未知的)参数。例如,如果要研究一些水稻的品种是否与产量有影响,如果用于分析的品种是从一个很大的品种集合里随机选取的,那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。这里,就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(popu
7、lation)。同时,引入随机效应就可以使个体观测之间就有一定的相关性,所以就可以用来拟合非独立观测的数据。经典的就有重复观测的数据,多时间点的记录等等,很多时候就叫做纵向数据(longitudinaldata),已经成为很大的一个统计分支。上述两点基本上属于频率派,分析的工具也很经典,像极大似然估计,似然比检验,大样本的渐近性等。但是,应该注意到把固定的参数看做是随机变量,可是贝叶斯学派的观念。当然,mixedmodels不能算是完全的贝叶斯模型,因为贝叶斯学派要把所有的未知的参数都看作是随机的。所以有人把它看做是半贝叶斯的or经验贝叶斯的。在这个模型上,我们可以看到两个学派很好的共存与交流
8、,在现代的统计方法里两种学派互相结合的例子也越来越多。众所周知,随机效应有压缩(shrinkage)的功能,而且可以使模型的自由度(df)变小。这个简单的结果,对现在的高维数据分析的发展起到了至关重要的作用。事实上,随机效应模型就是一个带惩罚(penalty)的一个线性模型,有引入正态随机效应就等价于增加的一个二次惩罚。有趣的是,著名的岭回归(ridgeregression)就是一个二次惩罚,它的提出解决了当设计矩阵不满秩时最小二乘估计(LSE)无法计算以及提高了预测能力。于是,引入随机效应或者二次惩罚就可以处理当参数个数p大于观测个数n的情形,这是在分析高维数据时必须面对的问题。当然,二次惩
9、罚还有一个特性,如:计算简便,能选择相关的predictors,对前面的几个主成分压缩程度较小等。根据面板数据的特性,在回归模型的设定的有效性问题上,我们需要检验混合估计模型、固定效应模型(Fixed-EffectModel)以及随机效应模型(Random-EffectModel)的有效性1,其中固定效应又包括个体固定效应和时间固定效应(如果同时具备个体固定效应和时间固定效应,则称之为双向固定效应)。对于混合估计模型和固定效应模型,我们可以使用F检验来判别其有效性;对于混合估计模型和随机效应模型,通常可以用LM检验判别其有效性;对于固定效应模型和随机效应模型,通常用Hausman检验判断其适用
10、性。有关模型设定和检验的细节可以参考Baltagi(2005)所以,你需要分别检验是否加入时间固定效应、是否需要加入个体固定效应。1简言之,混合估计模型就是假定所有公司年度都具有相同的截距项;固定效应模型假定截距项随公司和年度而变;随机效应模型不但假定截距项随公司和年度而变,而且假定这些不同的截距项和其它解释变量不相关。更为具体的模型设定问题可以参见李子奈、叶阿忠(2000),Wooldridge(2003),以及Baltagi(2005)。面板数据分析方法步骤步骤一:分析数据的平稳性(单位根检验)按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往
11、表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为虚假回归或伪回归(spuriousregression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的
12、折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,LevinandLin(1993)很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levinetal.(2002)的改进,提出了检验面板单位根的LLC法。Levinetal.(2002)指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25250之间,截面数介于10250之间)的面板单位根检验。Imetal.(1997)还提出了检验面板单位根的IP
13、S法,但Breitung(2000)发现IPS法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung法。MaddalaandWu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher和PP-Fisher5种方法进行面板单位根检验。其中LLC-T、BR-T、IPS-W、ADF-FCS、PP-FCS、H-Z分别指Levin,Lin&Chut*统计量、Breitungt统计量、lmPesaran&ShinW统计量、ADF-FisherChi-square统计量、PP-Fisher
14、Chi-square统计量、HadriZ统计量,并且Levin,Lin&Chut*统计量、Breitungt统计量的原假设为存在普通的单位根过程,lmPesaran&ShinW统计量、ADF-FisherChi-square统计量、PP-FisherChi-square统计量的原假设为存在有效的单位根过程,HadriZ统计量的检验原假设为不存在普通的单位根过程。有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒
15、绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含 截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。步骤二:协整检验或模型修正情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某