多重共线性问题及其补救措施

资源描述

《多重共线性问题及其补救措施》由会员分享，可在线阅读，更多相关《多重共线性问题及其补救措施（3页珍藏版）》请在金锄头文库上搜索。

1、NEIMENGGU STATISTICS内蒙古统计20091大就业、统筹城乡经济社会协调发展紧密结合起来，加强我区国民经济核算基础，努力提高全区核算工作整体水平。（一）加快建立和完善第三产业统计调查体系。在做好普查年度第三产业统计调查工作，摸清第三产业家底的基础上，更要高度重视常规调查年度第三产业统计调查工作，也是搞准整个第三产业核算数据的重要内容。目前我区第三产业增加值核算使用的统计和会计资料，大体分成三大块：第一块是由统计部门承担的，第二块就是由部门来承担的，还有剩余未纳入统计系统和部门管理的一块占第三产业增加值的比重为 19。需要指出的是，无论是统计部门组织的调查，还是业务

2、部门组织的调查，目前常规年度第三产业统计中都没有将第三产业所有行业纳入统计范围。要依托部门第三产业财务核算，继续完善非普查年度全区重点服务业财务统计报表制度，实施满足常规调查年度 GDP 核算中营利性和非营利服务业中没有资料来源的第三产业部分行业抽样调查制度。通过建立和完善第三产业调查体系，以满足年度地区生产总值、资产负债、资金流量和国民帐户的编制。（二）改革和完善经济普查年度第三产业核算制度。第一次经济普查中，由于第三产业中工商个体经济普查指标设置了经营收入，各地数据填报差异很大，难以全面真实反映工商个体经济经营情况，给第三产业统计核算工作造成一定困难。第二次经济普查中，工商个体经济

3、增加值核算方法应更多考虑政府行政记录，统一核算标准，增强地区间可比性。进一步完善支出法地区生产总值核算，扩大居民和政府消费核算范围。（三）健全和完善非普查年度第三产业增加值核算制度。目前，全国执行的非普查年度第三产业增加值核算制度，无论是年度核算制度，还是季度核算制度，有许多不够完善的地方，直接造成年度数据与季度数据难以衔接。如用季度第三产业营业税增速和电信业务总量增速计算的第三产业有关行业增加值总量和增速，与用年度财务报表核算的有关行业收入法增加值总量和增速差距非常大。再比如，季度金融业核算仅计算了银行业发展情况，而证券和保险业增长情况均未考虑进来，与年度使用财务报表

4、核算的收入法金融业增加值在总量和速度上出现较大偏差。作者单位：内蒙古统计局责任编辑：尹瑞()一、多重共线性的性质多重共线性（multicollinearity ）一词原意是指一个回归模型中的一些或全部解释变量之间存在有一种 “完全”的 “线性” 关系。对涉及解释变量 X1，X2，， Xk（其中，为了把截矩项考虑进来，在一切观测中取 X11 ）的 k 变量回归来说，存在有一准确线性关系，如果以下条件得到满足，则说明解释变量之间存在多重共线性：1X12X2kXk0式（1.1 ）其中 1， 2， k为常数，但不同时为 0。然而，现在多重共线性有更广泛的含义，既包括式（1.1 ）

5、所表明的完全多重共线性情形，还包括 X 变量之间有交互相关、但又不是 “完全相关” 的如下情形：1X12X2kXki0式（1.2 ）其中 i是随机误差项。这种没有完全相关的式子表示，某一个 X，比如 X2，在 20 的假定之下，和其他 X 之间没有完全的线性关系，因为 X2还决定于随机误差项i。经典线性回归模型假定所有的解释变量之间都没有多重共线性。这是因为，回归系数，比如，就是在保持其他变量不变的条件下，当 X2每改变一单位 Y的平均值的变化率。但如果 X2和 X3完全共线性的话，那么我们没有办法能保持 X3不变，也没有方法能把X2和 X3的各自影响分解开来，并

6、且它们的标准误为无穷大。因此，无法得到各个回归系数的唯一解。如果是不完全多重共线性的话，虽然我们可以确定各个回归系数，但还是存在较大的标准误，缺乏估计系数的准确性，从而导致我们不能通过回归分析来证明理论模型，也不能试图将经济模型数量化。多重共线性可能由以下因素导致：一、数据收集所用的方法不适当。比如，抽样限于总体中诸回归元所取值的一个有限的范围内；二、模型或从中取样的总体受到约束。比如，在做电力消费对收入（X2）和住房面积（X3）的回归时，总体中有这样的一种有形的约束，即一般地说，收入较高的家庭比收入较低的家庭有较大的住房；三、模型设定。比如，在回归中添

7、加多项式项，尤其当 X 变量的变化范围（极差）较小时；四、一个过度决定的模型。这多重共线性问题及其补救措施韩存毛剑芬统计实践50内蒙古统计20091NEIMENGGU STATISTICS种情况出现在模型的回归元个数大于观测次数时。例如，在医药研究中，可能只有少数病人，但却要在他们身上收集大量变元的信息；五、模型中包括的回归元具有相同的时间趋势，即它们同时随着时间而增减。二、出现多重共线性时的实际后果高度多重共线性可能导致的一个重要问题是，虽然 OLS 估计量是BLUE，但是有大的方差和协方差，因而难以做出准确的估计。大的方差和协方差可以从模型（2.1 ）所给的2 和3

8、的方差和协方差的公式中看到：其中， r23是 X2与 X3之间的相关系数。从式（2.2 ）和式（2.3 ）可以看到，随着 r23趋于 1，即随着共线性增加，2 和3的方差也增加。在 r231 时，方差变为无穷大。同样，由式（2.4 ）显见，随着 r23趋于 1，两估计量的协方差在绝对值上也增大。方差和协方差的增大速度可以由方差膨胀因子（VIF ）看出，其定义为：VIF=1 1- r232式（2.5 ）VIF 表明，估计量的方差由于多重共线性的出现而膨胀起来。而且 r23的增加，即共线性的增加，对 OLS 估计量的方差与协方差有剧烈的影响。同时，由于多重共线性导致了

9、大的标准误，有关总体参数的置信区间将要宽得多，以致接受虚拟假设（比如20 ）更为容易。而且，由于估计的标准误增加非常快，从而使 t 值（比如2/se(2) ）迅速变小，一个或多个系数的 t 比率倾向于统计上不显著，我们会越来越多的接受有关真实总体系数为零的虚拟假设。另外，在高度共线性情形中，我们有可能会发现，在一个或多个系数的 t比率在统计意义上不显著，个别地在统计意义上是不显著的时候，总的拟合优度 R2仍可能非常高（比如 0.9 以上），从而 F 检验拒绝 23K0 的假设。OLS 估计量及其标准误对数据的微小变化也是敏感的，这影响到估计值的可信度。三、判别多重共

10、线性的方法判别多重共线性的经验规则一般有如下几种方法：3.1关注R2值与t比率R2值高而显著的 t 比率小是典型的多重共线性特征。如果R2值很高（比如超过 0.8 ）， F 检验在大多数情况下都会拒绝所有偏斜系数同时为零的假设。但是个别的 t检验却表明，没有或很少有偏斜系数在统计上是异于零的。3.2确认回归元之间是否有高度的两两相关如果每两个回归元的简单相关分析系数都很高，超过 0.8，说明多重共线性是很严重的。但该方法的困难在于，它是多重共线性存在的充分条件而不是必要条件。即使简单相关系数比较低（比如 0.5 ），多重共线性也可能存在。不过，如果只有两个解释变量的话，看简

11、单相关也就够了。3.3检查偏相关由于上述简单相关所带来的问题，有的研究者建议去检查偏相关系数。比如在做 Y对 X2， X3和 X4的回归分析中，发现 R212.34 很高，而r212.34， r212.34， r214.23 都比较低时，可能表示变量 X2， X3和 X4是高度交互相关的，并且至少其中的一个变量是多余的。3.4进行辅助回归辅助回归是相对于辅助 Y对诸 X的主回归的名称，它是指做每个 Xi对其余 X 变量的回归，并算出相应的判定系数 R2（记之为 R2i）。方差分析所用的 F 检验与 R2是同向变化的，当 R20 时， F 等于 0； R2越大， F 值

12、也越大； R1 时， F 变为无限大。因此， F 检验既是所估回归的总显著性的一个度量，也是 R2的一个显著性检验。根据 F 与 R2 之间的这种关系，变量服从自由度为 k- 2 和n- k+1 的 F 分布。若 Fi大于显著水平值，说明 Xi和其余 X有共线性。式中，n 代表样本大小， k 代表包括截矩项在内的解释变量的个数。式（3.1 ）除了对所有补助的 R2值做形式检验外，还可以采取克里安的经验法则，即：仅当来自一个辅助回归的 R2值大于得自 Y 大于得自 Y 对全部回归元的回归中的总 R2值时，多重共线性才算是一个麻烦的问题。当然，和别的经验法则一样，不可把这个经验

13、法则当作法定的规则来运用。另外，该方法的缺点是计算复杂，对复杂的交互关系难以判断。3.5确认容许度与方差膨胀因子方差膨胀因子（VIF ）也可以作为判断共线性的指标。 VIFi 值越大，则变量 Xi 的共线性越大。作为一种经验规则，如果一个变量的 VIF 超过 10 （当R2i 超过 0.90 时将发生这种情况），则说该变量是高度共线的。作为 VIF 的倒数，容许度（TOL ）也能用来度量多重共线性。TOLi越接近于 0，该变量与其他回归元之间的共线性程度就越大。反过来， TOLi越接近于 1，则 Xi与其他回归元之间没有共线性的证据就越充分。另外，根据病态指数（condi

14、tionindex ）等其它方法，也能发现多重共线性。然而由于多重共线性本质只是一种样本现象，它来源于大多数社会科学中所收集的基本上是非实验性质的数据。我们没有解决它的方便方法，也无法知道某种方法在任一特定的应用中是否灵验。四、解决办法如果多重共线性严重，我们可以采取以下两种补救措施：一是无为而治；二是采用某些经验规则。4.1无为而治多重共线性实际上是数据不足的统计实践51NEIMENGGU STATISTICS内蒙古统计20091统计数字的真实性、有效性是统计工作的前提，但由于统计工作的复杂性、系统性，长期以来统计资料存在数据失真、分析偏误的现象。如何从大量的数据中正确识别

15、无效或者虚假的数字对于统计工作的顺利开展意义重大，也是统计工作中极其重要的环节。本文的目的在于探讨一些数理统计方法在数据筛选、甄别中的应用，并提出一些具体建议。一、在统计数据搜集整理过程中对数理统计知识的运用1、在统计指标选取时要严格审核由于统计工作在经济活动和日常生活中极强的应用性，在统计实践中浅析数理统计在数据筛选时的应用谷巨川问题，而我们有时候无法选择能用于经验分析的数据。同样，并非回归模型中所有的系数都是统计上非显著的。此外，即使我们不能更准确地估计一或多个回归系数，但可以相对有效的估计它们的一个线性组合（即可估计的函数）。有时候这是我们对给定的数据集最好的做法。4.

16、2经验法则我们还可以尝试如下的经验法则来解决多重共线性问题。是否成功取决于共线性问题的严重程度。(1)借鉴先验信息。先验信息就是来自先前遇到的同样共线性问题的研究工作，或者来自于该研究领域的有关基础理论。假如，我们考虑模型：Yt=1+2X2t+3X3t+ut其中 Y为消费， X2为收入， X3为财富。收入与财富相关性高，即有高度共线性，但是若凭事先想像，认为 30.102，我们就可以做下面的回归：Yi12X2i0.102X3iui12Xiui其中 XiX2i0.10X3i。一旦估算出，便可从想像中的 2与 3的关系式估计。另外，并用横截面与时间序列数据也是先验信息法的一个变种。比如，在时间序列中，价格和收入一般都有高度共线的趋势。利用横截面数据可以比较有效的估计。但是，它的缺点是无形假定了横截面数据估计和时间序列得到的估计是一样的。(2)剔除变量。最简单的方法就是删除共线性诸变量之一。但是这样可能导致设定偏误，即在分析中使用了不正确设

展开阅读全文

多重共线性问题及其补救措施

最新文档