多重共线性的情形及其处

上传人:枫** 文档编号:585901193 上传时间:2024-09-03 格式:PPT 页数:41 大小:261KB
返回 下载 相关 举报
多重共线性的情形及其处_第1页
第1页 / 共41页
多重共线性的情形及其处_第2页
第2页 / 共41页
多重共线性的情形及其处_第3页
第3页 / 共41页
多重共线性的情形及其处_第4页
第4页 / 共41页
多重共线性的情形及其处_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《多重共线性的情形及其处》由会员分享,可在线阅读,更多相关《多重共线性的情形及其处(41页珍藏版)》请在金锄头文库上搜索。

1、第第6章章 多重共线性的情形及其处理多重共线性的情形及其处理6 .1 多重共线性产生的背景和原因6 .2 多重共线性对回归模型的影响6 .3 多重共线性的诊断6 .4 消除多重共线性的方法6 .5 主成分回归6 .6 本章小结与评注第六章第六章 多重共线性的情形及其处理多重共线性的情形及其处理 如果存在不全为0的p+1个数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip=0 , i=1,2,n () 则称自变量x1,x2,xp之间存在着完全多重共线性。 在实际经济问题中完全的多重共线性并不多见,常见的是()式近似成立的情况,即存在不全为0的p+1个数c0,c1,c2,cp

2、 ,使得c0+c1xi1+c2xi2+cpxip0 , i=1,2,n() 称自变量x1,x2,xp之间存在着多重共线性(Multi-collinearity),也称为复共线性。多重共线性产生的经济背景和原因多重共线性产生的经济背景和原因 当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们之间就容易出现共线性。 例如, 我们要研究我国居民消费状况,影响居民消费的因素很多,一般有职工平均工资、农民平均收入、银行利率、全国零售物价指数、国债利率、货币发行量、储蓄额、前期消费额等,这些因素显然既对居民消费产生重要影响,它们之间又有着很强的相关性。 多重共线

3、性产生的经济背景和原因多重共线性产生的经济背景和原因 许多利用截面数据建立回归方程的问题常常也存在自变量高度相关的情形。 例如,我们以企业的截面数据为样本估计生产函数,由于投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与企业的生产规模有关,所以它们之间存在较强的相关性。6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 设回归模型y=0+1x1+2x2+pxp+存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip=0 , i=1,2,n 设计矩阵X的秩rank(X) p+1,此时|xx|=0,

4、正规方程组的解不唯一,(xx)-1不存在,回归参数的最小二乘估计表达式 不成立。6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 对非完全共线性, 存在不全为零的一组数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip0 , i=1,2,n6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 我们做y对两个自变量x1,x2的线性回归,假定y与x1,x2都已经中心化,此时回归常数项为零,回归方程为6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 6.2 多重共线性对回归模型的影响多重

5、共线性对回归模型的影响 当给不同的r12值时,由表可看出方差增大的速度。 为了方便,我们假设2/L11=1,相关系数从变为时,回归系数的方差增加了295%,相关系数从变为时,回归系数的方差增加了670%。6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 在例中,我们建立的中国民航客运量回归方程为: x1x2x3x4x5其中:y民航客运量(万人), x1国民收入(亿元), x2消费额(亿元), x3铁路客运量(万人), x4民航航线里程(万公里), x5来华旅游入境人数(万人)。 5个自变量都通过了t检验,但是x2的回归系数是负值,x2是消费额,从经济学的定性分析看,消费额与民航客运

6、量应该是正相关,负的回归系数无法解释。问题出在哪里?这正是由于自变量之间的复共线性造成的。6.3 多重共线性的诊断多重共线性的诊断 一、方差扩大因子法一、方差扩大因子法 对自变量做中心标准化,则X*X*=(rij)为自变量的相关阵。记C=(cij)=(X*X*)-1(6.5)称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据()式可知,其中Ljj是xj的离差平方和,由()式可知用cjj做为衡量自变量xj的方差扩大程度的因子是恰如其分的。6.3 多重共线性的诊断多重共线性的诊断 6.3 多重共线性的诊断多重共线性的

7、诊断 6.3 多重共线性的诊断多重共线性的诊断 6.3 多重共线性的诊断多重共线性的诊断 经验表明,当VIFj10时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。 还可用p个自变量所对应的方差扩大因子的平均数来度量多重共线性。当远远大于1时就表示存在严重的多重共线性问题。 6.3 多重共线性的诊断多重共线性的诊断6.3 多重共线性的诊断多重共线性的诊断以下用SPSS软件诊断例中国民航客运量一例中的多重共线性问题。 6.3 多重共线性的诊断多重共线性的诊断二、特征根判定法二、特征根判定法(一)特征根分析 根据矩阵行列式的性质,矩阵的行列式等

8、于其特征根的连乘积。因而,当行列式|X XX X|0时, 矩阵X XX X至少有一个特征根近似为零。反之可以证明,当矩阵X XX X至少有一个特征根近似为零时,X X 的列向量间必存在复共线性,证明如下:6.3 多重共线性的诊断多重共线性的诊断 记X X =(X X0 ,X X1,X Xp),其中 X Xi为X X 的列向量, X X0 =(1,1,1)是元素全为1的n维列向量。是矩阵X XX X的一个近似为零的特征根,0c c=(c0,c1, ,cp)是对应于特征根的单位特征向量,则X XX X c c=c c0 06.3 多重共线性的诊断多重共线性的诊断 上式两边左乘c c,得 c cX

9、XX X c c0 0从而有 X X c c0 0即 c0X X0 +c1X X1+cp X Xp0 0写成分量形式即为 c0+c1xi1+c2xi2+cpxip0 , i=1,2,n这正是()式定义的多重共线性关系。6.3 多重共线性的诊断多重共线性的诊断(二)条件数 特征根分析表明,当矩阵XX有一个特征根近似为零时,设计矩阵X 的列向量间必存在复共线性。那么特征根近似为零的标准如何确定哪?这可以用下面介绍的条件数确定。记XX的最大特征根为m,称为特征根i的条件数(Condition Index)。6.3 多重共线性的诊断多重共线性的诊断 0k10时,设计矩阵X没有多重共线性;10k100时

10、,认为X存在较强的多重共线性;当k100时,则认为存在严重的多重共线性。 用条件数判断多重共线性的准则 6.3 多重共线性的诊断多重共线性的诊断 对例中国民航客运量的例子,用SPSS软件计算出特征根与条件数如下: 6.3 多重共线性的诊断多重共线性的诊断 方差比例是用于判断哪几个自变量之间存在共线性的。实际上共线性关系可以根据()式直接从特征向量看出来,只是SPSS软件在线性回归模块中没有输出特征向量阵。 把特征向量按照特征值由大到小排成行向量,每个数值平方后再除以特征值,然后再把每列数据除以列数据之和,使得每列数据之和为1,这样就得到了输出结果的方差比。 再次强调的是线性回归分析共线性诊断中

11、设计阵X包含代表常数项的一列1,而因子分析模块中给出的特征向量是对标准化的设计阵给出的,两者之间有一些差异。 6.3 多重共线性的诊断多重共线性的诊断 (三)直观判定法 1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。 2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。 3.有些自变量的回归系数所带正负号与定性分析结果违背。 4.自变量的相关矩阵中,自变量间的相关系数较大。 5.一些重要的自变量的回归系数的标准误差较大。 6.4 消除多重共线性的方法消除多重共线性的方法 一、剔除一些不重要的解释变量一、剔除一些不重要的解释变量 在剔除自变量时,

12、可以将回归系数的显著性检验、方差扩大因子VIF以及自变量的经济含义结合起来考虑,以引进或剔除变量。 6.4 消除多重共线性的方法消除多重共线性的方法 6.4 消除多重共线性的方法消除多重共线性的方法 6.4 消除多重共线性的方法消除多重共线性的方法 6.4 消除多重共线性的方法消除多重共线性的方法二、增大样本容量二、增大样本容量例如, 由()式和()式 可以看到,在r12固定不变时,当样本容量n增大时,L11和L22都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。6.4 消除多重共线性的方法消除多重共线性的方法 三、回归系数的有偏估计三、回归系数的有偏估计 消除多重共线性对回

13、归模型的影响是近30年来统计学家们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如: 岭回归法 主成分回归法 偏最小二乘法等。6.5 主成分回归主成分回归 主成分分析(Principal Components Analysis,简记为PCA)是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,也就是对原有变量做一些线性变换,变换后的变量是正交的。为了避免变量的量纲不同所产生的影响,要求先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵(即设计阵)就是n行p列的矩阵, 就是相关阵。6.5 主成分回

14、归主成分回归 以例民航客运量的数据为例 6.5 主成分回归主成分回归 6.5 主成分回归主成分回归 现在用y对前两个主成分Factor1和Factor2做普通最小二乘回归,得主成分回归回归方程: 不过以上回归方程的自变量是用两个主成分Factor1和Factor2表示的,应该转换回到用原始自变量表示的回归方程。 6.5 主成分回归主成分回归 分别用两个主成分Factor1和Factor2做因变量,以5个原始自变量做自变量做线性回归,所得的回归系数就是所需要的线性组合的系数。得到6.5 主成分回归主成分回归 还原后的主成分回归方程为:每个回归系数的解释也都合理。6.5 主成分回归主成分回归 载荷矩阵 6. 6 本章小结与评注本章小结与评注 当解释变量之间的简单相关系数很大时,可以断定自变量间存在着严重的多重共线性;但是一个回归方程存在严重的多重共线性时,解释变量之间的简单相关系数不一定很大。例如假定3个自变量之间有完全确定的关系 再假定x2与x3的简单相关系数r23,x2与x3的离差平方和L22=L33=1,此时 6. 6 本章小结与评注本章小结与评注同理 r13

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号