多重共线性问题.－金锄头文库

资源描述

《多重共线性问题.》由会员分享，可在线阅读，更多相关《多重共线性问题.（40页珍藏版）》请在金锄头文库上搜索。

1、问题一：多重共线性 Multi-Collinearity 一、多重共线性的概念二、实际经济问题中的多重共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的方法六、案例 *七、分部回归与多重共线性一、多重共线性的概念对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性，则称为多重共线性(Multicollinearity)。如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中: ci不全为0，则称为解释变量间存在完全共线性（perfect mult

2、icollinearity）。如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0，vi为随机误差项，则称为近似共线性（approximate multicollinearity）或交互相关 (intercorrelated)。注意：完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。二、实际经济问题中的多重共线性一般地，产生多重共线性的主要原因有以下三个方面：（1）经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生

3、产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。（2）滞后变量的引入在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入）显然，两期收入间有较强的线性相关性。（3）样本资料的限制由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。一般经验：时间序列数据样本：简单线性模型，往往存在多重共线性。截面数据样本：问题不那么严重，但多重共线性仍然是存在的。二、多重共线性的后果 1、完全共线性情况下的后果 (1) 完全共线性下参数估计量不存在 (2) 参数估计

4、量的方差无限大 2、不完全多重共线性产生的后果如果模型中存在不完全的多重共线性，可以得到参数的估计值，但是对计量分析可能会产生一系列的影响。（1）参数估计值的方差增大（2）对参数区间估计时, 置信区间趋于变大（3）严重多重共线时,假设检验容易做出错误的判断（4）当多重共线性严重时,可能造成可决系数R2 较高经F检验的参数联合显著性也很高，但对各个参数单独的t检验却可能不显著，甚至可能使估计的回归系数相反，得出完全错误的结论。变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大容易使通过样本计算的t值小于临界值，误导作出参数为0的推断可能将重要的

5、解释变量排除在模型之外注意：除非是完全共线性，多重共线性并不意味着任何基本假设的违背；因此，即使出现较高程度的多重共线性， OLS估计量仍具有线性性等良好的统计性质。问题在于，即使OLS法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。多重共线性检验的任务是：（1）检验多重共线性是否存在；（2）估计多重共线性的范围，即判断哪些变量之间存在共线性。多重共线性表现为解释变量之间具有相关关系，所以用于多重共线性的检验方法主要是统计方法：如判定系数检验法、逐步回归检验法等。三、多重共线性的检验 1、检验多重共线性是否存在 (1)对两个解释

6、变量的模型，采用简单相关系数法求出X1与X2的简单相关系数r，若|r|接近1，则说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型，采用综合统计检验法若在OLS法下：R2与F值较大，但t检验值较小，说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨，故t检验不显著。 2、判明存在多重共线性的范围如果存在多重共线性，需进一步确定究竟由哪些变量引起。 (1) 判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。如果某一种回归 Xji=1X1i+2X2i+LXLi 的判定系数较大

7、，说明Xj与其他X间存在共线性。具体可进一步对上述回归方程作F检验：式中：Rj2为第j个解释变量对其他解释变量的回归方程的决定系数，若存在较强的共线性，则Rj2较大且接近于1，这时（1- Rj2 ）较小，从而Fj的值较大。因此，给定显著性水平，计算F值，并与相应的临界值比较，来判定是否存在相关性。构造如下F统计量在模型中排除某一个解释变量Xj，估计模型；如果拟合优度与包含Xj时十分接近，则说明Xj与其它解释变量之间存在共线性。另一等价的检验是: (2)逐步回归法以Y为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计。根据拟合优度的变化决定新引入的变量是

8、否独立。如果拟合优度变化显著，则说明新引入的变量是一个独立解释变量；如果拟合优度变化很不显著，则说明新引入的变量与其它变量之间存在共线性关系。（3）方差扩大（膨胀）因子法统计上可以证明，解释变量的参数估计式的方差可表示为其中的是变量 (Variance Inflation Factor)，即的方差扩大因子其中是多个解释变量辅助回归的可决系数经验规则方差膨胀因子越大，表明解释变量之间的多重共性越严重。反过来，方差膨胀因子越接近于1，多重共线性越弱。经验表明，方差膨胀因子10时，说明解释变量与其余解释变量之间有严重的多重共线性，且这种多重共线性可能会过度地影响

9、最小二乘估计。（4）直观判断法当增加或剔除一个解释变量，或者改变一个观测值时，回归参数的估计值发生较大变化，回归方程可能存在严重的多重共线性。从定性分析认为，一些重要的解释变量的回归系数的标准误差较大，在回归方程中没有通过显著性检验时，可初步判断可能存在严重的多重共线性。有些解释变量的回归系数所带正负号与定性分析结果违背时，很可能存在多重共线性。解释变量的相关矩阵中，自变量之间的相关系数较大时，可能会存在多重共线性问题。找出引起多重共线性的解释变量，将它排除出去。以逐步回归法(stepwise)得到最广泛的应用。注意：这时，剩余解释变量参数的经济含义和数值都

10、发生了变化。如果模型被检验证明存在多重共线性，则需要发展新的方法估计模型，最常用的方法有三类。四、克服多重共线性的方法 1、第一类方法：排除引起共线性的变量 2、第二类方法：差分法时间序列数据、线性模型：将原模型变换为差分模型: Yi=1 X1i+2 X2i+k Xki+ i 可以有效地消除原模型中的多重共线性。一般而言，差分后变量之间的相关性要比差分前弱得多，所以差分后的模型可能降低出现共线性的可能性，此时可直接估计差分方程。问题：差分会丢失一些信息，差分模型的误差项可能存在序列相关，可能会违背经典线性回归模型的相关假设，在具体运用时要慎重。例如：由表中

11、的比值可以直观地看到，增量的线性关系弱于总量之间的线性关系。进一步分析： Y与C(-1)之间的判定系数为0.9988， Y与C(-1)之间的判定系数为 0.9567 3、第三类方法：减小参数估计量的方差多重共线性的主要后果是参数估计量具有较大的方差，所以采取适当方法减小参数估计量的方差，虽然没有消除模型中的多重共线性，但确能消除多重共线性造成的后果。例如：增加样本容量，可使参数估计量的方差减小。横截面数据与时序数据并用首先利用横截面数据估计出部分参数，再利用时序数据估计出另外的部分参数，最后得到整个方程参数的估计。注意：这里包含着假设，即参数的横截面估计和

12、从纯粹时间序列分析中得到的估计是一样的。变量变换变量变换的主要方法： (1)计算相对指标 (2)将名义数据转换为实际数据 (3)将小类指标合并成大类指标变量数据的变换有时可得到较好的结果，但无法保证一定可以得到很好的结果。 *岭回归法（Ridge Regression） 70年代发展的岭回归法，以引入偏误为代价减小参数估计量的方差，受到人们的重视。具体方法是：引入矩阵D，使参数估计量为其中矩阵D一般选择为主对角阵，即 D=aI a为大于0的常数。（*）显然，与未含D的参数B的估计量相比，(*)式的估计量有较小的方差。六、案例中国粮食生产函数根据理论和经验分析，影响粮

13、食生产（Y）的主要因素有：农业化肥施用量（X1）；粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据，建立中国粮食生产函数： Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 + 1、用OLS法估计上述模型： R2接近于1；给定=5%，得F临界值 F0.05(5,12)=3.11 F=638.4 15.19，故认上述粮食生产的总体线性关系显著成立。但X4 、X5 的参数未通过t检验，且符号不正确，故解释变量间可能存在多重共线性。 (-0.91) (8.39) (3.32) (-2.81) (-1.45

14、) (-0.14) 2、检验简单相关系数发现： X1与X4间存在高度相关性。列出X1，X2，X3，X4，X5的相关系数矩阵： 3、找出最简单的回归形式可见，应选第1个式子为初始的回归模型。分别作Y与X1，X2，X4，X5间的回归： (25.58) (11.49) R2=0.8919 F=132.1 DW=1.56 (-0.49) (1.14) R2=0.075 F=1.30 DW=0.12 (17.45) (6.68) R2=0.7527 F=48.7 DW=1.11 (-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36 4、逐步回归将其他解释变量分别导入上述初始回归模型，寻找最佳回归方程。回归方程以Y=f(X1，X2，X3)为最优： 5、结论结束了！

展开阅读全文