第12多重共线性课件－金锄头文库

资源描述

《第12多重共线性课件》由会员分享，可在线阅读，更多相关《第12多重共线性课件（46页珍藏版）》请在金锄头文库上搜索。

1、第12章多重共线性:解释变量相关会有什么后果,Multi-Collinearity,一、多重共线性的概念二、实际经济问题中的多重共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的方法六、案例, 多重共线性,引子：发展农业和建筑业会减少财政收入吗？,为了分析各主要因素对财政收入的影响，建立财政收入模型: 其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2003年（资料来源：中国统计年鉴2004，中国

2、统计出版社2004年版）采用普通最小二乘法得到以下估计结果,财政收入模型的EViews估计结果,可决系数为0.995，校正的可决系数为0.993，模型拟合很好。模型对财政收入的解释程度高达99.5%。 F统计量为632.10，说明0.05水平下回归方程整体上显著。 t 检验结果表明，除了工业增加值和总人口以外，其他因素对财政收入的影响均不显著。农业增加值和建筑业增加值的回归系数是负数。农业和建筑业的发展反而会使财政收入减少吗？! 这样的异常结果显然与理论分析和实践经验不相符。若模型设定和数据真实性没问题，问题出在哪里呢？,模型估计与检验结果分析,12.1、多重共线性的性质,对于模型 Y

3、i=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了相关性，则称为多重共线性(Multicollinearity)。,如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中: ci不全为0，则称为解释变量间存在完全共线性（perfect multicollinearity）。,如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0，vi为随机误差项，则称为近似共线性（approximate multicollinearity）或交互相关(intercorrelat

4、ed)。,在矩阵表示的线性回归模型 Y=X+中，完全共线性指：秩(X)k+1，即,中，至少有一列向量可由其他列向量（不包括第一列）线性表出。,如：X2= X1，则X2对Y的作用可由X1代替。,当然完全的多重共线性的情况并不多见，往往出现的是一定程度上地近似共线性，即,在进行经济计量分析时，如果模型地设定出现失误，则容易导致完全共线性,例如：设定居民消费对工资收入和非劳动收入N及总收入T的回归模型为,则出现了多重共线性，这是因为总收入=工资收入+非劳动收入，这个糟糕的设定导致了完全共线性!,在实践中，许多经济变量之间往往存在着一定的相互联系，但各自又受到一些随机因素的影响，从而表现为高度相关，但

5、又不是完全相关。,如：影响家庭消费支出的家庭收入及家庭财富两个变量就存在明显的高度相关；,又如：影响企业产出的劳动投入和资本投入二者之间也往往具有相当高的相关关系，这是因为这两个投入要素与产出成正比，产出高的企业，投入的要素自然多，这就导致投入要素线性呈相关性；,再如：建立一个服装需求模型，影响服装需求量q的收入I，服装价格p，即其其他商品的价格往往存在一定的相关性，按常规判断，收入和价格之间不应该相关。但细致地分析后发现，高收入者经常在高档商场购买服装，低收入者往往在低档商场购买，而同样的服装在高档商场和低档商场的价格是不同的，这样就产生了多重共线性。,多重共线性的后果,1、完全共线性时的参

6、数估计不存在,这是因为参数估计为：,而当完全共线性时，由于，故不存在。,2、一般共线性（近似）下OLS法的参数估计量非有效性,由于此时，而，此时将引起的主对角元素变大，从而导致对应的估计量非有效。,4、变量的显著性失去意义。,5、模型的预测功能失效。,3、参数估计量的经济含义不合理或不清晰,例如：如果x1和x2 之间存在某种相关性，则其中一个变量可以由另一个变量来表征。于是x1和x2的系数并不能反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响，因而失去各自参数的应有经济含义，当这种状况出现时，其模型常出现反常现象，如本该出现正的系数，结果却是负系数等。,

7、4、变量的显著性检验失去意义,存在多重共线性时,参数估计值的方差与标准差变大,容易使通过样本计算的t值小于临界值，误导作出参数为0的推断,可能将重要的解释变量排除在模型之外,注意：,除非是完全共线性，多重共线性并不意味着任何基本假设的违背；因此，即使出现较高程度的多重共线性，OLS估计量仍具有线性性等良好的统计性质。问题在于，即使OLS法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。,多重共线性的原因,（1）经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生

8、产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。,（2）滞后变量的引入,在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入）显然，两期收入间有较强的线性相关性。,（3）样本资料的限制,由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。一般经验：时间序列数据样本：简单线性模型，往往存在多重共线性。截面数据样本：问题不那么严重，但多重共线性仍然是存在的。,多重共线性检验的任务是：（1）检验多重共线性是否存在；（2）估计多重共线性的范围，即判断哪些变量之间存在共线性。,多

9、重共线性表现为解释变量之间具有相关关系，所以用于多重共线性的检验方法主要是统计方法：如判定系数检验法、逐步回归检验法等。,三、多重共线性的检验,一、直观判断法,1. 当增加或剔除一个解释变量，或者改变一个观测值时，回归参数的估计值发生较大变化，回归方程可能存在严重的多重共线性。 2. 从定性分析认为，一些重要的解释变量的回归系数的标准误差较大，在回归方程中没有通过显著性检验时，可初步判断可能存在严重的多重共线性。,3. 有些解释变量的回归系数所带正负号与定性分析结果违背时，很可能存在多重共线性。 4. 解释变量的相关矩阵中，自变量之间的相关系数较大时，可能会存在多重共线性问题。,二、相关系数法

10、,(1)对两个解释变量的模型，采用简单相关系数法求出X1与X2的简单相关系数r，若|r|接近1，则说明两变量存在较强的多重共线性。判断规则：一般而言，如果每两个解释变量的简单相关系数(零阶相关系数)比较高，例如大于0.8，则可认为存在着较严重的多重共线性。偏回归系数：在其它变量保持不变的条件下，两个变量之间的关系。,注意：较高的简单相关系数只是多重共线性存在的充分条件，而不是必要条件。特别是在多于两个解释变量的回归模型中，有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。,三、对多个解释变量的模型，采用综合统计检验法,若在OLS法下：R

11、2与F值较大，但t检验值较小，说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨，故t检验不显著。,四、方差扩大（膨胀）因子法,经验规则,方差膨胀因子越大，表明解释变量之间的多重共性越严重。反过来，方差膨胀因子越接近于1，多重共线性越弱。经验表明，方差膨胀因子10时，说明解释变量与其余解释变量之间有严重的多重共线性，且这种多重共线性可能会过度地影响最小二乘估计。,判明存在多重共线性的范围,如果存在多重共线性，需进一步确定究竟由哪些变量引起。 (1) 判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。

12、如果某一种回归 Xji=1X1i+2X2i+LXLi 的判定系数较大，说明Xj与其他X间存在共线性。,具体可进一步对上述回归方程作F检验：,式中：Rj2为第j个解释变量对其他解释变量的回归方程的决定系数，若存在较强的共线性，则Rj2较大且接近于1，这时（1- Rj2 ）较小，从而Fj的值较大。因此，给定显著性水平，计算F值，并与相应的临界值比较，来判定是否存在相关性。,构造如下F统计量,在模型中排除某一个解释变量Xj，估计模型；如果拟合优度与包含Xj时十分接近，则说明Xj与其它解释变量之间存在共线性。,另一等价的检验是:,(2)逐步回归法,以Y为被解释变量，逐个引入解释变量，构成回归模型

13、，进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著，则说明新引入的变量是一个独立解释变量；如果拟合优度变化很不显著，则说明新引入的变量与其它变量之间存在共线性关系。,修正多重共线性的经验方法,1. 剔除变量法把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程，直至回归方程中不再存在严重的多重共线性。注意: 若剔除了重要变量，可能引起模型的设定误差。,2. 增大样本容量如果样本容量增加，会减小回归参数的方差，标准误差也同样会减小。因此尽可能地收集足够多的样本数据可以改进模型参数的估计。问题：增加样本数据在实际计量分析中常面临许多困

14、难。,3. 变换模型形式一般而言，差分后变量之间的相关性要比差分前弱得多，所以差分后的模型可能降低出现共线性的可能性，此时可直接估计差分方程。问题：差分会丢失一些信息，差分模型的误差项可能存在序列相关，可能会违背经典线性回归模型的相关假设，在具体运用时要慎重。,4. 利用非样本先验信息通过经济理论分析能够得到某些参数之间的关系，可以将这种关系作为约束条件，将此约束条件和样本信息结合起来进行约束最小二乘估计。,5. 横截面数据与时序数据并用首先利用横截面数据估计出部分参数，再利用时序数据估计出另外的部分参数，最后得到整个方程参数的估计。注意：这里包含着假设，即参数的横

15、截面估计和从纯粹时间序列分析中得到的估计是一样的。,6. 变量变换变量变换的主要方法： (1)计算相对指标 (2)将名义数据转换为实际数据 (3)将小类指标合并成大类指标变量数据的变换有时可得到较好的结果，但无法保证一定可以得到很好的结果。,二、逐步回归法,（1）用被解释变量对每一个所考虑的解释变量做简单回归。（2）以对被解释变量贡献最大的解释变量所对应的回归方程为基础，按对被解释变量贡献大小的顺序逐个引入其余的解释变量。若新变量的引入改进了和检验，且回归参数的t 检验在统计上也是显著的，则在模型中保留该变量。,若新变量的引入未能改进和检验，且对其他回归参数估计值的t

16、检验也未带来什么影响，则认为该变量是多余变量。若新变量的引入未能改进和检验，且显著地影响了其他回归参数估计值的数值或符号，同时本身的回归参数也通不过t 检验，说明出现了严重的多重共线性。,案例分析,一、研究的目的要求提出研究的问题为了规划中国未来国内旅游产业的发展，需要定量地分析影响中国国内旅游市场发展的主要因素。二、模型设定及其估计影响因素分析与确定影响因素主要有国内旅游人数，城镇居民人均旅游支出，农村居民人均旅游支出，并以公路里程次和铁路里程作为相关基础设施的代表理论模型的设定其中：第 t 年全国国内旅游收入,数据的收集与处理,数据来源:中国统计年鉴2004,该模型,，,可决系数很高，F检验值 173.3525,明显显著。但是当,时,、,不仅、系数的t

展开阅读全文