多重共线性电子教案

资源描述

《多重共线性电子教案》由会员分享，可在线阅读，更多相关《多重共线性电子教案（62页珍藏版）》请在金锄头文库上搜索。

1、第6章多重共线性,Multi-Collinearity,一、多重共线性的概念二、多重共线性的原因三、多重共线性的后果四、多重共线性的检验五、多重共线性的解决办法六、案例,第6章多重共线性,一、多重共线性的概念,对于多元线性回归模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了相关性，则称为多重共线性(Multicollinearity)。这里，“共线性”表示存在着线性相关关系，“多重”意味着相关关系有多个组合。,也就是说，如果存在 1X1i+2X2i+kXki=0 i=1,2,n 其中:

2、i不全为0，则称为解释变量间存在完全共线性（perfect multicollinearity）即某一个解释变量可以用其他解释变量的线性组合表示。,如果存在 1X1i+2X2i+kXki+vi=0 i=1,2,n 其中i不全为0，vi为随机误差项，则称为近似共线性（approximate multicollinearity）或不完全共线性。,，解释变量间毫无线性关系，变量间相互正交。这时已不需要作多元回归，每个参数j都可以通过Y 对 Xj 的一元回归来估计。,回归模型中解释变量的关系,由于存在随机变量，完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。这时，列向量不是

3、完全线性相关的，而是近似线性相关的。,需要指出的是，多重共线性是指解释变量之间的线性关系，并不是指它们之间的非线性关系。例如，对于下述回归模型：,该模型仅是非线性关系，并不违反无多重共线性假定。,注意：,二、多重共线性产生的原因,一般地，产生多重共线性的主要原因有以下四个方面： 1 经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。,2 经济变量之间的内在联系,在经济计量模型中，引入的经济变量之间存在内在联系。例如，农

4、业生产函数中，影响农业产量Y的因素有耕地面积X1和施肥量X2等因素，其模型可写为,一般来说，土地面积与施肥量有密切关系，面积越大，施肥量越多，二者存在着一定的线性依存关系。,3 滞后变量的引入,在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入）显然，两期收入间有较强的线性相关性。,再如，固定资产存量不仅与本期投资有关，还与以前有关。同一变量的前后期值可能高度线性相关。,4 样本资料的限制,由于完全符合理论模型所要求的样本数据较难收集，只能被动接受，而且只能获得一个有限范围观察值，无法进行重复试验，如果解释变量个数大于观测次数，就会出现过度

5、拟合的模型。特定样本可能存在某种程度的多重共线性。如医疗研究中，可能只有少数病人，却要收集大量变量的信息，这些变量之间就会出现相关性。从方程组的角度看，是方程个数少于变量的个数，则方程组有无数组解，其中部分解可以用其他解线性表示，即变量之间存在相关性。,三、多重共线性的后果,1、完全共线性下参数估计量不存在,如果存在完全共线性，则(XX)-1不存在，无法得到参数的估计量。,的OLS估计量为：,如果解释变量之间是相关的，当一个发生变化时，与其高度相关的变量的观测值也会以相似的方式变化，这时参数的大小就不再具有原来的意义，而且参数的意义难以解释。,例如，在农业生产函数中如果耕地面积和施肥量

6、之间存在完全的共线性，比如 (k为一非零常数)，我们再引入一个任意非零常数，则代入模型中则有虽然完全等价，但回归系数却显然不同 ,说明这时参数值的估计不唯一确定 . 从经济意义上讲，如果取，那么（） 0 这表明，随耕地面积的增加农产量将会减少，这显然是十分荒谬的结论。,完全多重共线性的后果,对于二元线性回归模型其参数1的OLS估计式为：由得 ,则,完全多重共线性的后果(一般),因此，,2.参数估计量经济含义不合理,如果模型中两个解释变量具有线性相关性，例如 X2= kX1 ，这时，X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变

7、量的共同影响。 1、2已经失去了应有的偏回归系数经济含义，甚至经常表现出似乎反常的现象：例如1本来应该是正的，结果却是负的。,3.不完全共线性下OLS估计量非有效,不完全共线性下，可以得到OLS参数估计量。,对于二元线性回归模型,可见X1与X2不完全的共线时，参数是可以估计的。,设X1与X2不完全的共线性关系为其中，,则有,代入参数估计式,得:,3.不完全共线性下OLS估计量非有效,不完全共线性下，虽然可以得到OLS参数估计量，但参数估计量方差的表达式为,由于|XX|0，引起(XX) -1主对角线元素较大，使参数估计值的方差增大，OLS参数估计量非有效。,仍以二元线性模型 Y=0+1X1+

8、2X2+ 为例:,恰为X1与X2的线性相关系数的平方r2,由于 r2 1，故 1/(1- r2 )1,其中,多重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)，它表明OLS的估计量的方差随着是多重共线性的增加而“膨胀”起来。,当完全不共线时, r2 =0,当不完全共线时, 0 r2 1,当完全共线时， r2=1，,4、参数的置信区间明显扩大,由于存在多重共线性，变大的方差容易使参数估计量有较大的标准差，因此参数真值的置信区间也将增大。,此置信区间将随的增大而增大。而置信区间愈大,对真值的估计愈不准确。,5、变量的显

9、著性检验失去意义,存在多重共线性时,参数估计值的方差与标准差变大,容易使通过样本计算的t值小于临界值，误导作出参数为0的推断,可能将重要的解释变量排除在模型之外,6、参数估计量及其标准误差对于样本波动非常敏感,数据即使出现轻微变动，它们都将发生较大变化，使回归模型缺乏稳定性。这可从二元线性回归模型中看出，故当样本数据的轻微变动引起的轻微变动时，将会发生较大的变动，即将会发生较大的变动。,注意：,当模型存在多重共线性时，OLS估计仍然为最佳线性无偏估计（BLUE）。如果我们的目的仅仅是预测的未来值，且预计解释变量之间的多重共线关系在预测期不发生变化，那么，多重共线性对Y的预测就没有明显

10、影响。问题在于，即使OLS法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。,多重共线性表现为一种样本现象，即使总体不存在多重共线性，所得样本也可能出现多重共线性。而且由于抽样波动，对于同一总体，不同样本的共线性程度也不相同。因此，对于多重共线性的检验，可以直接对所得样本进行分析做出判断。,多重共线性表现为解释变量之间具有相关关系，所以用于多重共线性的检验方法主要是统计方法：如简单相关系数检验法、判定系数检验法、方差扩大（膨胀）因子法等。,四、多重共线性的检验,1.简单相关系数检验法,含义：简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重

11、多重共线性的一种简便方法。判断规则：一般而言，如果每两个解释变量的简单相关系数(零阶相关系数)比较高，例如大于0.8，则可认为存在着较严重的多重共线性。,较高的简单相关系数只是多重共线性存在的充分条件，而不是必要条件。特别是在多于两个解释变量的回归模型中，有时较低的简单相关系数也可能存在多重共线性。因此，并不能简单地依据相关系数进行多重共线性的准确判断。命令方式COR 各个解释变量名，得两两简单相关系数矩阵如下,注意：,2.根据可决系数R2 、F检验、t检验的结果判断,经验表明，多重共线性存在的一个标志是模型结果具有较大的标准误差和较小的t统计量。如果模型的可决系数很大，检验高度显著

12、，但是偏回归系数的t检验几乎都不显著（ t检验值较小），则模型很可能存在多重共线性。因为通过检验，虽然各解释变量对的联合线性影响高度显著，但每个解释变量的单独影响却都不显著，就无法辨别哪个解释变量对被解释变量的影响更大。这种矛盾结果可能是由于较大引起的，这时很有可能存在严重的多重共线性。,3、判定系数检验法,如果存在多重共线性，需进一步确定究竟由哪些变量引起。使模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。如果某一种回归 Xji=1X1i+2X2i+kXki 的判定系数较大，说明Xj与其他X间存在共线性。（其中称为复相关系数）,具体可进一步对上述回

13、归方程作F检验：,式中：Rj2为第j个解释变量对其他解释变量的回归方程的决定系数，若存在较强的共线性，则Rj2较大且接近于1，这时（1- Rj2 ）较小，从而Fj的值较大。因此，给定显著性水平，计算F值，并与相应的临界值比较，来判定是否存在相关性。,构造如下F统计量,在模型中排除某一个解释变量Xj，估计模型；如果拟合优度与包含Xj时十分接近，则说明Xj与其它解释变量之间存在共线性。,另一等价的检验是:,4、方差扩大（膨胀）因子法,经验规则,方差膨胀因子越大，表明解释变量之间的多重共性越严重。反过来，方差膨胀因子越接近于1，多重共线性越弱，因此，可以用作为衡量多重共线性的一个指标。经验

14、表明，方差膨胀因子VIF 10时，说明解释变量与其余解释变量之间有严重的多重共线性，且这种多重共线性可能会过度地影响最小二乘估计。,与等价的指标是“容许度”（Tolerance），其定义为：,另一等价的检验是:,显然，0TOLj1；当Xj与其他解释变量高度相关时，TOLj0。因此，一般当TOLj0.1时，认为模型存在较严重的多重共线性。,5.条件数检验,(1)特征值：,考察解释变量的样本数据矩阵,当模型存在完全多重共线性时,rank(X)k+1,而当模型存在严重的多重共线性时，,根据矩阵代数知识，,为矩阵的个,若,0,特征值，则有：,5.条件数检验(特征值),，,，,这表明特征值中至少

15、有一个近似地等于0。若c是对应于特征值的单位特征向量，则，，，更具体地这说明矩阵列向量之间存在多重共线性，并且这些多重共线性关系的系数向量就等于接近于0的那个特征根对应的特征向量。因此，可以利用的特征值来检验模型的多重共线性,5.条件数检验,（2）条件指数（Condition Index）将矩阵的每一列用其模相除以实现标准化，然后再求矩阵的特征值，取其中最大的除以最小的后再求平方根，得到该矩阵的“条件数”，记为：通常当大于10或20时，认为存在较明显的多重共线性。,附：回归系数方差分解:,如果V是对角化的(K+1) (K+1)对角矩阵：即其中是的特征值构成的对角矩阵。从而两种理解：如果特征值之和反映对被解释变量解释程度，倒数之和反映引起估计量方差的比重。,首先明确建立模型的目的：经济预测、结构分析或政策评价。如果建立模型的目的是进行预测，就可以忽略多重共线性。 1、直接剔除次要或可替代的变量剔除时需注意产生新的问题: 当模型存在共线性，若将某个共线性变量去掉，模型的经济意义不合理；可能使模型产生异方差性或自相关性；若剔除不当,可能会产生模型设定误差，造成参数估计严重有偏,四、多重共线性的解决方法,2、减小参数估计量的方差,多重共线性的主要后果是参数

展开阅读全文