多重共线性的诊断方法和解决方法综述

上传人:I*** 文档编号:179750582 上传时间:2021-04-13 格式:DOCX 页数:11 大小:701.68KB
返回 下载 相关 举报
多重共线性的诊断方法和解决方法综述_第1页
第1页 / 共11页
多重共线性的诊断方法和解决方法综述_第2页
第2页 / 共11页
多重共线性的诊断方法和解决方法综述_第3页
第3页 / 共11页
多重共线性的诊断方法和解决方法综述_第4页
第4页 / 共11页
多重共线性的诊断方法和解决方法综述_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《多重共线性的诊断方法和解决方法综述》由会员分享,可在线阅读,更多相关《多重共线性的诊断方法和解决方法综述(11页珍藏版)》请在金锄头文库上搜索。

1、 多重共线性的诊断方法和解决方法综述 摘 要:多元线性回归模型的经典假定之一是解释变量之间不存在线性关系。但在实际应用中,多元线性回归模型中的解释变量之间往往存在近似的线性关系,如果仍然用最小二乘法估计模型,会造成分析结果不准确甚至严重偏离变量间本来的依存关系。为此,首先总结了多重共线性的检验方法,然后探讨了多重共线性常用的修正方法,最后结合实例演绎了逐步回归法和主成分回归法的具体应用,为现实经济问题中多重共线性的检验与处理提供一定借鉴。关键词:多重共线性; 诊断; 补救措施; 逐步回归法; 主成分回归;Abstract:There being no linear relationship a

2、mong interpretation variables is one of the classical assumptions in multiple linear regression model.However,in the practical application,there is often an approximate linear relation.If we still use the method of ordinary least squares to estimate the model,the result may become incorrect and even

3、 far from the original relationship among the variables.Therefore,the paper first summarizes the test methods of Multicollinearity.And then,the paper summarizes the commom correction methods of multicollinearity.Finally,the application of stepwise regression and principal component regression is ded

4、uced by using an example.The research will provide some reference for the test and treatment of multicollinearity in real economic problems.Keyword:multicollinearity; diagnosis; remedial measures; stepwise regression; principal component regression;多重共线性是指模型中解释变量间存在相关关系。如果解释变量之间存在完全线性相关关系,则称模型出现了完全多

5、重共线性;如果解释变量之间近似线性相关,则称模型出现了不完全多重共线性。古典线性回归模型的假设之一是模型中不存在多重共线性。如果模型存在多重共线性,仍然采用普通最小二乘法估计模型参数,会产生以下后果:完全共线性下模型的普通最小二乘估计量不存在,无法得到参数的估计量;近似共线性下普通最小二乘估计量即使存在,但共线性使得参数估计量的方差增大,进而导致变量的显着性检验失去意义、模型的预测失效。在实际经济问题中,解释变量之间往往存在某种关联,多重共线性是多元回归模型中普遍存在的问题。那么,如何诊断多重共线性及其影响程度以及怎样处理模型中的多重共线性,显得尤为重要。关于多重共线性的诊断方法与解决方法,不

6、少学者进行了研究。本文综述了多重共线性的诊断方法和解决方法。在实际应用中,对于多重共线性的检验有时并不需要复杂的检验方法,而经验方法简单易行,本文结合实例给出了诊断共线性的经验方法。本研究可为现实经济问题中多重共线性的检验与处理提供一定借鉴。1 、多重共线性的诊断方法1.1、 经验方法模型的可决系数R2值较高,但变量显着性检验(t检验)表明变量不显着,或模型的经济意义不合理,这是多重共线性的“典型”特征。也就是说如果R2较高,则模型显着性检验(F检验)通常会拒绝零假设,即方程整体显着,但t检验表明,没有或很少有斜率系数是显着不为零的。1.2 、简单相关系数检验法对模型中任意两个不同的解释变量求

7、简单相关系数。如果相关系数的绝对值较大,则认为这两个变量相关性较高。但是,相关系数检验法只能检验两个解释变量的相关性,对于3个或更多个解释变量的相关性检验不适用。1.3、 辅助回归模型检验1将模型中每一个解释变量对其余解释变量进行回归。如果某一种回归的拟合优度较大,说明Xj与其他解释变量之间存在共线性。另一等价的检验是:在模型中排除某一解释变量Xj,重新估计模型,如果调整的可决系数(珚R2)与包含Xj时十分接近,则说明Xj与其他解释变量之间存在线性关系。1.4 、方差膨胀因子检验2在多元线性回归模型中,第i个解释变量的方差膨胀因子为:其中,Ri2是把第i个解释变量作为被解释变量,将其对其他k-

8、1个解释变量作线性回归所得的可决系数。该方法其实和辅助回归模型检验一样,只不过利用可决系数构造了一个新的指标VIFi。方差膨胀因子越大,说明Ri2越接近1,则第i个解释变量与其他解释变量之间共线程度越强。1.5、 特征值、病态数与病态指数检验2对于由k个解释变量、n个样本观察值组成的样本数据矩阵:当模型存在完全共线性时,|XX|=0;当模型存在严重共线性时,|XX|0。设1,2,k+1为矩阵XX的k+1个特征值,若则特征值1,2,k+1中至少有一个近似等于0,表明模型存在严重的共线性。病态数(CN)和病态指数(CI)是利用特征值构造的用于检验多重共线性的指标。其指标定义为这两个指标数值越大,说

9、明多重共线性越严重。一般经验是:CI大于10即可认为模型存在共线性,大于30即可认为模型存在严重的共线性。2 、多重共线性的解决方法2.1、 排除引起共线性的解释变量找出引起多重共线性的解释变量,然后把它从模型中剔除出去,这是解决多重共线性最有效的方法。在实际应用中,解决方法有逐步回归法、利用粗糙集理论的属性约简方法和GMDH算法3,4,其中逐步回归法应用最广泛。逐步回归法是在模型中逐个引入解释变量,根据模型经济意义的检验、统计意义的检验以及珚R2的变化来判断新引入的变量是否引起了共线性。如果新引入的变量使得模型经济意义检验和统计意义检验都能通过,且又能提高模型的珚R2,则应引入;如果珚R2无

10、显着变化,或者模型的经济意义检验通不过,或者变量的显着性检验没有通过,则无需引入5。利用逐步回归法可以剔除掉引起共线性的变量,但是,当排除了引起共线性的变量后,保留在模型中的变量的系数的估计值将会发生改变,其经济意义也将发生变化。2.2、 改变参数的约束形式根据经济理论或其他信息,找出参数间的某种关系进行受约束回归。受约束回归模型减少了解释变量的个数,消除或削弱了多重共线性。这种方法的缺点在于外生的或先验的信息并不总是可获得的,即使能获得这一信息,但要假设外生的或先验的信息在当前样本中仍然有效并不总是能够实现。所以应用这种方法的关键在于获得这一信息,并检验约束条件在当前样本中的真伪。如果约束条

11、件为真,则可以应用该方法。2.3、 变换模型的形式对原设定的模型形式进行适当的变换,可以消除或削弱模型中解释变量之间的线性关系。具体有3种变换方式:一是变换模型中变量的形式;二是变换模型的函数形式,如将线性模型转换成非线性模型;三是改变变量的统计指标6。2.4、 减少参数估计量的方差减少参数估计量的方差,可以使变量显着性检验的t值增大,使本来不显着的解释变量变得显着。在实际应用中,有增大样本容量和岭回归两种方法。2.4.1 、增大样本容量在建立的计量经济学模型中,如果变量的样本数据太少,很容易产生多重共线性。对于多元线性回归模型,参数估计值bi的方差为:式中:2为随机误差项的方差;Xi为第i个

12、解释变量的观察值;珡Xi为i个解释变量的均值;,Ri2表示第i个解释变量对模型中其他解释变量回归时的可决系数。从式(7)可以看出,当样本容量增大时,将会增大,从而使var(bi)变小,这对提高bi的估计精度有益。2.4.2、 岭回归法岭回归法是以引入偏误为代价来减少参数估计量方差的方法。岭回归法的参数估计量为矩阵D一般选择为主对角矩阵。即式中:l为大于0的常数;I为单位矩阵。关于l的取值,一般采用何瑞尔和肯纳德于1975年提出的方法。与最小二乘估计量相比,式(9)的估计量方差较小。岭回归分析方法虽然能够减少参数估计量的方差,使回归结果更符合实际,但如果原模型的经济意义不合理,即使使用岭回归法也

13、不一定使修正后的模型能通过经济意义的检验。因此在实际应用中并不是所有的共线性都可以用岭回归法来解决7。2.5、 主成份回归主成分回归是运用降维的思想,在尽量减少信息损失的情况下,将多个指标通过正交旋转转化为几个综合指标的分析方法。其基本原理是:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同侧面反映了解释变量的综合影响8,9。因此,可以将解释变量对这些主成分进行回归,再根据主成分与解释变量之间的关系,求得原回归模型的估计方程。3 、实践应用根据上述多重共线性的诊断方法及解决方法,本文将结合实际例子对多重共线性进行检验与修正,从而给出多重共线性检验与修正的具体操作方法,为相关研究与应

14、用提供一定的借鉴。取中国民航客运量作为被解释变量(Y,万人)。选取的解释变量为居民消费支出(X1,亿元)、政府消费支出(X2,亿元)、来华旅游入境人数(X3,万人)、民航航线里程(X4,万公里)。收集整理的样本数据(表1)来源于1996-2019年的中国统计年鉴10。将居民消费支出和政府消费支出换算为以1995年为基期的不变价,建立中国民航客运量预测模型。表1 1995-2018年中国民航客运量及其影响因素数据表1 1995-2018年中国民航客运量及其影响因素数据运用Eviews软件对中国民航客运量的多元线性回归模型进行最小二乘估计,结果如下:式(10)中括号内的数字是各变量显着性检验对应的

15、P值,下同。从模型的最小二乘估计结果可以看出,模型的整体拟合优度非常高,但除X4之外,其余解释变量的显着性检验都没有通过,并且变量X3经济意义检验没有通过,说明模型出现了严重的多重共线性。为了消除或削弱多重共线性的影响,本文选择两种修正方法:第一种方法是逐步回归法,即排除引起共线性的变量的方法;第二种方法是主成分分析方法,该方法没有去掉任何变量便可以削弱共线性的影响,使模型经济意义合理。3.1 、逐步回归法3.1.1、 一元回归模型根据相关系数和理论分析可知,中国民航客运量与民航航线里程关联程度最大,因此,设建立一元回归方程为:3.1.2 、最优回归模型的选择通过逐步引入其他变量,确定最合适的多元回归方程。回归结果见表2。表2 中国民航客运量预测模型逐步回归结果由表2可知,模型Y=f(X1,X4)中调整的判定系数较一元模型Y=f(X4)的高,模型经济意义合理,变量都通过了显着性检验,因此最终的预测模型为:对比模型(10)和模型(1

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 信息产业

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号