第五讲多重共线性、异方差、自相关

资源描述

《第五讲多重共线性、异方差、自相关》由会员分享，可在线阅读，更多相关《第五讲多重共线性、异方差、自相关（70页珍藏版）》请在金锄头文库上搜索。

1、一、多重共线性的概念二、多重共线性的后果三、多重共线性的诊断四、克服多重共线性的方法五、案例,6.1 多重共线性,第六章多重共线性、异方差及自相关,一、多重共线性的概念,如果某两个或多个解释变量之间出现了相关性，则称为多重共线性(Multicollinearity)。,含义：解释变量的样本向量近似线性相关。,多重共线性来源：（1）解释变量x受到同一个因素的影响；例如：政治事件对很多变量都产生影响，这些变量同时上升或同时下降。（2）解释变量x自己的当期和滞后期；（3）错误设定。,对于模型其基本假设之一是解释变量是互相独立的。,二、多重共线性的后果,如果存在完全共线性，则不存在，

2、无法得到参数的估计量。,例：对离差形式的二元回归模型,2、近似共线性下OLS估计量非有效,近似共线性下，可以得到OLS参数估计量，但参数估计量方差的表达式为,如果模型中两个解释变量具有线性相关性，例如 X2= X1 ，这时，X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义，于是经常表现出似乎反常的现象：例如1本来应该是正的，结果恰是负的。,3、参数估计量经济含义不合理,注：除非是完全共线性，多重共线性并不意味着任何基本假设的违背。,多重共线性诊断的任务是：（1）检验多重共线性是否存在；（2）估计多重共线性的范围

3、，即判断哪些变量之间存在共线性。,多重共线性表现为解释变量之间具有相关关系，所以用于多重共线性的检验方法主要是统计方法：如判定系数检验法、逐步回归检验、方差膨胀因子（VIF）法等。,三、多重共线性的诊断,(1)对两个解释变量的模型，采用简单相关系数法求出X1与X2的简单相关系数r，若|r|接近1，则说明两变量存在较强的多重共线性。,(2)对多个解释变量的模型，采用综合统计检验法,若在OLS法下：R2与F值较大，但t检验值较小，说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨，故t检验不显著。,1、检验多重共线性是否存在,如果存在多重共线性，需进一

4、步确定究竟由哪些变量引起。,2、判明存在多重共线性的范围,(1) 判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。如果某一种回归Xji=1X1i+2X2i+kXki 的判定系数较大，说明 X j 与其他X间存在共线性。,具体可进一步对上述回归方程作F检验：,式中：Rj2为第j个解释变量对其他解释变量的回归方程的可决系数，若存在较强的共线性，则Rj2较大且接近于1，这时（1- Rj2 ）较小，从而Fj的值较大。因此，给定显著性水平，计算F值，并与相应的临界值比较，来判定是否存在相关性。,在模型中排除某一个解释变量 X j，估计模型；如果拟合优度与包

5、含X j时十分接近，则说明X j与其它解释变量之间存在共线性。,另一等价的检验是:,(2)逐步回归法,以Y为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著，则说明新引入的变量是一个独立解释变量；如果拟合优度变化很不显著，则说明新引入的变量与其它变量之间存在共线性关系。,(3) 方差膨胀因子（ VIF: Variance Inflation Factor ）,判断：若VIF5，则认为多重共线性强，不可接受。,(4) 条件数（Condition Indix）,条件数大于30，认为多重共线存在。,找出引起多重共线性的解释

6、变量，将它排除出去。以逐步回归法得到最广泛的应用。注意：这时，剩余解释变量参数的经济含义和数值都发生了变化。,如果模型被检验证明存在多重共线性，则需要发展新的方法估计模型，最常用的方法有三类。,四、克服多重共线性的方法,1、第一类方法：排除引起共线性的变量,时间序列数据、线性模型：将原模型变换为差分模型:Yi=1 X1i+2 X2i+k Xki+ i 可以有效地消除原模型中的多重共线性。,一般讲，增量之间的线性关系远比总量之间的线性关系弱得多。,2、第二类方法：差分法,多重共线性的主要后果是参数估计量具有较大的方差，所以采取适当方法减小参数估计量的方差，虽然没有消除模型中的多重共线性，但确能消

7、除多重共线性造成的后果。例如：增加样本容量可使参数估计量的方差减小。,3、第三类方法：减小参数估计量的方差,六、案例中国粮食生产函数,根据理论和经验分析，影响粮食生产（Y）的主要因素有：农业化肥施用量（X1）；粮食播种面积(X2)成灾面积(X3); 农业机械总动力(X4);农业劳动力(X5),已知中国粮食生产的相关数据，建立中国粮食生产函数：Y=0+1 X1 +2 X2 +3 X3 +4 X4 +5 X5 +,调用数据库E:博士计量课程软件应用multi,R2接近于1；给定=5%，得F临界值 F0.05(5,12)=3.11 F=137.11 3.11，故认上述粮食生产的总体线性关系显著成

8、立。但X4 、X5 的参数未通过t检验，且符号不正确，故解释变量间可能存在多重共线性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),1、用OLS法估计上述模型：,发现： X1与X4间存在高度相关性。,列出X1，X2，X3，X4，X5的相关系数矩阵：,2、检验简单相关系数,可见，应选第1个式子为初始的回归模型。,分别作Y与X1， X3 ，X2，X4，X5间的回归：,(25.58) (11.49) R2=0.8919 F=132.1,(-0.49) (1.14) R2=0.075 F=1.30,(17.45) (6.68) R2=0.7527 F=4

9、8.7,(-1.04) (2.66) R2=0.3064 F=7.07,3、找出最简单的回归形式,(1.74) (7.25) R2=0.1596 F=3.04,将其他解释变量分别导入上述初始回归模型，寻找最佳回归方程。,4、逐步回归,回归方程以Y=f(X1，X2，X3)为最优：,5、结论,5.2 异方差（ Heteroscedasticity ）,1、同方差假定及异方差定义模型的假定条件给出Var( ) 是一个对角矩阵，,且的方差协方差矩阵主对角线上的元素都是常数且相等，即每一误差项的方差都是有限的相同值（同方差假定）；且非主对角线上的元素为零（无自相关假定），,当这个假定不成立时

10、， Var( ) 不再是一个纯量对角矩阵。,当误差向量的方差协方差矩阵主对角线上的元素不相等时，称该随机误差系列存在异方差，即误差向量中的元素取自不同的分布总体。非主对角线上的元素表示误差项之间的协方差值。比如中的 i j ,（i j）表示与第i组和第j组观测值相对应的 i与 j的协方差。若非主对角线上的部分或全部元素都不为零，误差项就是自相关的（后面讲自相关）。,2. 异方差的表现,随着解释变量值的增大，被解释变量取值的差异性增大,注：时间序列数据和截面数据中都有可能存在异方差。经济时间序列中的异方差常为递增型异方差。金融时间序列中的异方差常表现为自回归条件异方差。无论是

11、时间序列数据还是截面数据。递增型异方差的来源主要是因为随着解释变量值的增大，被解释变量取值的差异性增大。,3. 异方差的后果,（1）.当Var(ut) = t 2为异方差时（t 2是一个随时间或序数变化的量），回归参数估计量仍具有无偏性和一致性,但是回归参数估计量不再具有有效性。,上式不等号左侧项分子中的t 2不是一个常量，不能从累加式中提出，所以不等号右侧项不等于不等号左侧项。而不等号右侧项是同方差条件下 1的最小二乘估计量的方差。因此异方差条件下的失去有效性。,4.异方差的诊断,（2）参数估计量的方差估计是真实方差的有偏估计,（3）t 检验失效,经济变量规模差别很大时容易出现异方

12、差。如个人收入与支出关系，投入与产出关系。,(2) 利用散点图做初步判断。,（4）自回归条件异方差（ARCH）检验,异方差的另一种检验方法称作自回归条件异方差 (ARCH) 检验。这种检验方法不是把原回归模型的随机误差项t 2 看作是xt 的函数，而是把t 2 看作误差滞后项ut-12 , ut-22 , 的函数。 ARCH是误差项二阶矩的自回归过程。恩格尔（Engle 1982）针对ARCH过程提出LM 检验法。辅助回归式定义为：,5. 克服异方差的方法,（1）采用GLS估计,若对于不全为零的实数x1,x2,xn 总有f=f(x1,x2,xn)0,则f称为正定二次型。,满秩矩阵,5.

13、3 自相关（ Autocorrelation ）,1. 非自相关的假定及自相关定义,注：自相关又称序列相关。,图1 非自相关的散点图,图4 正自相关的散点图,图3 负自相关的散点图,图2 非自相关的序列图,2.自相关产生的原因,大多数经济时间数据都有一个明显的特点，就是它的惯性。GDP、价格指数、生产、就业与失业等时间序列都呈周期性，如周期中的复苏阶段，大多数经济序列均呈上升势，序列在每一时刻的值都高于前一时刻的值，似乎有一种内在的动力驱使这一势头继续下去，直至某些情况（如利率或课税的升高）出现才把它拖慢下来。,（1）惯性,（2）设定偏误1：模型中未含应包括的变量,例如：如果对牛肉需求的正确

14、模型应为 Yt=0+1X1t+2X2t+3X3t+t 其中：Y=牛肉需求量，X1=牛肉价格，X2=消费者收入，X3=猪肉价格如果模型设定为： Yt= 0+1X1t+2X2t+vt则该式中，vt= 3X3t+t,于是在猪肉价格影响牛肉消费量的情况下，这种模型设定的偏误往往导致随机项中有一个重要的系统性影响因素，使其呈序列相关性。,(3)设定偏误2：不正确的函数形式,例如：如果真实的边际成本回归模型应为：Yt= 0+1Xt+2Xt2+t 其中：Y=边际成本，X=产出，但建模时设立了如下模型：Yt= 0+1Xt+vt因此，由于vt= 2Xt2+t, ，包含了产出的平方对随机项的系统性影响，随机项也呈

15、现序列相关性。,3. 自相关性的后果,（1）参数估计量非有效虽然回归系数仍具有无偏性。,( 2) 变量的显著性检验失去意义,(3) Var( ）和su2都变大，都不具有最小方差性。所以用依据普通最小二乘法得到的回归方程去预测，预测是无效的。,关于名词白噪声序列：零期望、同方差、无自相关序列。,然后，通过分析这些“近似估计量”之间的相关性，以达到判断随机误差项是否具有自相关性的目的。,基本思路：,4. 自相关检验,（1）Durbin-Watson 检验法,D-W检验是J.Durbin）和G.S. Watson于1951年提出的一种检验序列自相关的方法，该方法的假定条件是：,（1）解释变量 X非随机；（2）随机误差项i为一阶自回归形式：i=i-1+i （3）回归模型中不应含有滞后因变量作为解释变量，即不应出现下列形式：Yi=0+1X1i+kXki+Yi-1+i （4）回归含有截距项；,该统计量的分布与出现在给定样本中的X值有复杂的关系，因此其精确的分布很难得到。,D.W.统计量,DW检验步骤如下。给出假设：H0: = 0 ( 不存在自相关)H1: 0 ( 存在一阶自相关) 用残差值 et计算统计量DW。,因为的取值范围是 -1, 1，所以DW统计量的取值范围是 0, 4。,

展开阅读全文

第五讲多重共线性、异方差、自相关

最新文档