第十讲 多重共线性 Multi-Collinearity一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例一、多重共线性的概念1、多重共线性• 对于模型 (i=1,2,…,n)如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性其基本假设之一是解释变量kXXX,,,21L互相独立 如果存在c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n 其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全共 线性如果存在c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中ci不全为0,vi为随机误差项,则称为一般共线性(近似共线性)或交互相关(intercorrelated)• 在矩阵表示的线性回归模型Y=XB+N 中,完全共线性意味着:秩(X)10,认为xj与其余变量共线; • 平均扩大因子远远大于1,认为xj与其余变量 共线; • 容忍度: • TOLj=1-R2j (xj的容忍度)• (3)特征根法 • 特征根分析: • 若(X’X)有多个特征根近似为0,则X 就有多个多重贡献关系; • 条件数: • 记λi为(X’X)的第i个特征根, λm为 最大特征根,称 • ki=( λm / λi )为第i个条件数 • 若 0100(严重共线)四、克服多重共线性的方法克服多重共线性的方法:第一类方法:排除引起共线性的变量第二类方法:差分法第三类方法:减少参数估计量的方差1、第一类方法:排除引起共线性的变量• 找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。
–上述用于检验多重共线性的方法,同时就是克服多重共线性问题的方法,其中又以逐步回归法得到最广泛的应用• 但应注意的是:排除了引起共线性的变量后,剩余解释变量参数的经济含义和数值都发生了变化它们不再仅仅反映自身与被解释变量的关系,也包含了与它们成线性关系的、被排除的变量对被解释变量的影响2、第二类方法:差分法• 对于以时间序列数据为样本、以直接线性关 系为模型关系形式的计量经济学模型,将原模型 变换为差分模型Yi=1 X1i+2 X2i++k Xki+ i可以有效地消除存在于原模型中的多重共线性• 原因在于:一般来讲,增量之间的线性关系远 比总量之间的线性关系弱得多例如:在中国消费模型中的2个变量:• 由表中的比值可以直观地看到,两变量增量的 线性关系弱于总量之间的线性关系• 进一步分析:Y与C(-1)之间的判定系数为0.9845,△Y与△C(-1)之间的判定系数为0.7456一般认为:两个变量之间的判定系数大于0.8 时,二者之间存性关系所以,原模型经检验被认为具有多重共线性 ,而差分模型则可以认为不具有多重共线性五、案例一:服装市场需求函数□1、建立模型• 根据理论和经验分析,影响居民服装类支出Y 的主要因素有:可支配收入X、居民流动资产拥 有量K、服装价格指数P1、物价总指数P0。
• 已知某地区的有关资料,根据散点图判断,建 立线性服装消费支出模型:Y=0+1X+2K+3P1+4P0+2、样本数据由于R2较大且接近于1,而且 F=638.4,大于临 界值:F 0.05(4,5)=15.19,故认为服装支出与上述解 释变量间总体线性关系显著但由于变量K的参数估计值的t检验值较小(未能 通过检验),故解释变量间存在多重共线性3、估计模型(1)用OLS法估计上述模型: (2)检验简单相关系数• 不难看出,各解释变量间存在高度相关性,其 中尤其以P1和P0间的相关系数为最高3)找出最简单的回归形式• 可见,应选①为初始的回归模型4)逐步回归将其他解释变量分别导入上述初始回归模型,寻 找最佳回归方程4、讨论:①在初始模型中引入P1,模型拟合优度提高,且 参数符号合理,但P1的t检验未通过;②再引入K,拟合优度虽有提高,但K与P1的t检验 未能通过,且X与P1的t检验值及F检验值有所下降, 表明引入K并未对回归模型带来明显的“好处”,K可 能是多余的;③去掉K,加入P0,拟合优度有所提高,且各解释 变量的t检验全部通过,F值也增大了④将4个解释变量全部包括进模型,拟合优度未有 明显改观,K的t检验未能通过,K显然是多余的。
5、结论回归方程以Y=f(X, P1, P0)为最优:Y=-12.45+0.10X-0.19P1 +0.31P0五、案例二:中国消费函数模型1、OLS法估计结果2、差分法估计结果3、比较β1:0.48095→0.49672β2:0.19854→0.15850在消除了共线性后,GDP对CONS的影响增大, CONS1对CONS的影响减少• 当模型存在共线性,将某个共线性变量去掉, 剩余变量的参数估计结果将发生变化,而且经济 含义有可能发生变化;• 严格地说,实际模型由于总存在一定程度的共 线性,所以每个参数估计量并不真正反映对应变 量与被解释变量之间的结构关系模型选择准则• 1、R2准则 • 2、调整的R2准则 • 3、赤池信息(AIC)准则 • 4、施瓦茨信息(SIC)准则R2准则调整的R2准则准则:该值越大越好!注意:被解释变量相同才能比较!赤池信息(AIC)准则准则:该值越小越好!注意:被解释变量相同才能比较!可用于比较一模型样本内或样本外的预测表现!施瓦茨信息(SIC)准则准则:该值越小越好!注意:被解释变量相同才能比较!可用于比较一模型样本内或样本外的预测表现!Cp统计量•其中: ----样本量; • ----模型中自变量个数; • ----1+全回归模型中个数(); • ----有个自变量的回归模型的决定系数; • ----全回归模型的决定系数。
•如果一个模型和真实模型之间只有随机差异, 的平均值为 ,而 且,数据拟合的很好的回归模型其 值应小于 因此,在用这个统 计量对不同的回归模型进行评估时,目的往往是为了找到一个模型使其 表达式 值为负随机解释变量 Random Independent Variable一、随机解释变量问题 二、随机解释变量的后果 三、工具变量法 四、案例一、随机解释变量问题1、随机解释变量问题• 单方程线性计量经济学模型的假设之一是:Cov(Xi,i)=0即解释变量与随机项不相关• 违背这一假设的问题被称为随机解释变量问题• 这一假设实际上是要求:或者X是确定性变量,不是随机变量;或者X虽是随机变量,但与随机误差项不相关2、随机解释变量问题的三种情况• 对于模型Yi=0+1X1i+2X2i++kXki+i ( i=1,2,…,n)为讨论方便,假设其中X2为随机解释变量 • 对于随机解释变量问题,又分三种不同情况:⑴随机解释变量与随机误差项不相关,即E(X2)=0⑵ 随机解释变量与随机误差项在小样本下 相关,在大样本下渐近无关,即在小样本下E(X2)0在大样本下P lim(X2ii/n)=0 或: P (lim (X2ii/n)=0)=1⑶ 随机解释变量与随机误差项高度相关,且P lim(X2ii/n)02、实际经济问题中的随机解释变量问题• 在实际经济问题中,经济变量往往都具有随机性 。
• 但是在单方程计量经济学模型中,凡是外生变量 都被认为是确定性的• 于是随机解释变量问题主要表现于用滞后被解释 变量作为模型的解释变量的情况例如:耐用品存量调整模型:耐用品的存量Qt由前一个时期的存量Qt-1和当期 收入It共同决定:Qt=0+1It+2Qt-1+t t=1,,T这是一个滞后被解释变量作为解释变量的模型但是,如果模型不存在随机误差项的序列相关性 ,那么随机解释变量Q t-1只与t-1相关,与t不相关 ,属于上述的第1种情况合理预期的消费函数模型合理预期理论认为消费是由对收入的预期所决定 的,或者说消费是有计划的,而这个计划是根据对 收入的预期制定的于是有:在该模型中,作为解释变量的 Ct-1 不仅是 一个随机解释变量,而且与模型的随机误差项 (t-t-1)高度相关(因为Ct-1与t-1高度相关 )属于上述第3种情况二、随机解释变量的后果1、出发点• 计量经济学模型一旦出现随机解释变量,如 果仍采用OLS法估计模型参数,不同性质的随机 解释变量会产生不同的后果 • 对回归模型Y=XB+N取期望,有 • 可见,随机解释变量带来什么后果取决于它 与随机误差项是否相关。
2、当随机解释变量与随机误差项不相关时• 这时采用OLS法估计模型参数,得到的参数估 计量仍然是无偏估计量3、当随机解释变量与随机误差项在小样本 下相关,在大样本下渐近无关时• 这时采用OLS法估计模型参数,得到的参数估计量在小样本下是有偏的,在大样本下具有渐 近无偏的4、当随机解释变量与随机误差项高度相关时• 这时采用OLS法估计模型参数,得到的参数估 计量在小样本下是有偏的,在大样本下也不具有 渐近无偏性• 此时OLS法失效,需要发展新的方法估计模型 5、当滞后被解释变量作解释变量,并且与 随机误差项相关时这时,除了OLS法参数估计量是有偏的以外,还带来两个后果:①模型必然具有随机误差项的自相关性因为该滞后被解释变量与滞后随机误差项相关,又与当期随机误差项相关②D.W.检验失效因为不管D.W.统计量的数值是多少,随机误差项的自相关性总是存在的三、工具变量法Instrumental Variables Method1、工具变量的选取工具变量:在模型估计过程中被作为工具使用, 以替代模型中与随机误差项相关的随机解释变量选择为工具变量的变量必须满足以下条件:(1)与所替代的随机解释变量高度相关;(2)与随机误差项不相关;(3)与模型中其它解释变量不相关,以避免出 现多重共线性。
2、工具变量的应用• 对于多元线性模型Yi=0+1X1i+2X2i++kXki+i ( i=1,2,…,n)• 用普通最小二乘法估计模型,最后归结为求解 一个关于参数估计量的正规方程组: (1) • 该正规方程组是用每个解释变量分别乘以模型 的两边,并对所有样本点求和: (2) • 然后再对方程的两边求期望: (3) • 并利用下列条件得到的:• 如果X2为随机变量,且与随机误差项相关,将导致 从上述(3)式的第3个方程无法得到上述(1)式的 第3个方程,也就无法求得参数的无偏估计量如果按照工具变量的选择条件选择Z作为X2的工具 变量在应该用X2乘方程两边时,不用X2,而用Z, 将使上述(2)式变为:(4) 请注意,(4)式与(2)式的区别仅仅在于第3个方程两边的“乘数变量”,原模型中的X2并没有改变,包括第3个方程 • 求解该方程组即可得到关于原模型参数的工具变 量法估计量 (5) • 对于矩阵形式:Y=XB+N通常,对于没有选择另外的变量作为工具变量的 解释变量,可以认为用自身作为工具变量于是Z被 称为工具变量矩阵其中利用了工具变量与随机误差项不相关 3、工具变量法估计量是无偏估计量4、几点注解• 工具变量并没有替代模型中的解释变量 ,只是在估计过程中作为“工具”被使用。
• 如果模型中有两个以上的随机解释变量 与随机误差项相关,就必须找到两个以上 的工具变量但是,一旦工具变量选定, 它们在估计过程被使用的次序不影响估计 结果为什么?• OLS可以看作工具变量法的一种特殊情 况为什么?四、案例:消费模型1、OLS估计结果2、IV估计结果。