最新多重共线性PPT课件

资源描述

《最新多重共线性PPT课件》由会员分享，可在线阅读，更多相关《最新多重共线性PPT课件（63页珍藏版）》请在金锄头文库上搜索。

1、多重共线性多重共线性一、多重共线性的概念一、多重共线性的概念二、多重共线性的原因二、多重共线性的原因三、多重共线性的后果三、多重共线性的后果四、多重共线性的检验四、多重共线性的检验五、多重共线性的解决办法五、多重共线性的解决办法六、案例六、案例第第6 6章章多重共线性多重共线性 2 2 经济变量之间的内在联系经济变量之间的内在联系在经济计量模型中，引入的经济变量之间存在经济计量模型中，引入的经济变量之间存在内在联系。在内在联系。例例如如，农农业业生生产产函函数数中中，影影响响农农业业产产量量Y的的因因素素有有耕耕地地面面积积X1和和施施肥肥量量X2等等因因素素，其其模模型型

2、可可写为写为一般来说，土地面积与施肥量有密切关系，面一般来说，土地面积与施肥量有密切关系，面积越大，施肥量越多，二者存在着一定的线性依积越大，施肥量越多，二者存在着一定的线性依存关系。存关系。 3 3 滞后变量的引入滞后变量的引入在经济计量模型中，往往需要引入滞后经济在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。变量来反映真实的经济关系。例如例如，消费，消费=f(当期收入当期收入, 前期收入）前期收入）显然，两期收入间有较强的线性相关性。显然，两期收入间有较强的线性相关性。再再如如，固固定定资资产产存存量量不不仅仅与与本本期期投投资资有有关关，还还与与以以前前有有关

3、关。同同一一变变量量的的前前后后期期值值可可能能高高度度线线性相关性相关。 4 4 样本资料的限制样本资料的限制由由于于完完全全符符合合理理论论模模型型所所要要求求的的样样本本数数据据较较难难收收集集，只只能能被被动动接接受受，而而且且只只能能获获得得一一个个有有限限范范围围观观察察值值，无无法法进进行行重重复复试试验验，如如果果解解释释变变量量个个数数大大于于观观测测次次数数，就就会会出出现现过过度度拟拟合合的的模模型型。特特定定样样本本可可能存在某种程度的多重共线性。能存在某种程度的多重共线性。如如医医疗疗研研究究中中，可可能能只只有有少少数数病病人人，却却要要收收集集大大量变量的信息

4、，这些变量之间就会出现相关性。量变量的信息，这些变量之间就会出现相关性。从从方方程程组组的的角角度度看看，是是方方程程个个数数少少于于变变量量的的个个数数，则则方方程程组组有有无无数数组组解解，其其中中部部分分解解可可以以用用其其他他解解线线性表示，即变量之间存在相关性。性表示，即变量之间存在相关性。三、多重共线性的后果三、多重共线性的后果 1 1、完全共线性下参数估计量不存在、完全共线性下参数估计量不存在如果存在如果存在完全共线性完全共线性，则，则(XX)-1不存在，无法得不存在，无法得到参数的估计量。到参数的估计量。的的OLS估计量为估计量为：如果解释变量之间是相关的，当一个发生变化

5、时，如果解释变量之间是相关的，当一个发生变化时，与其高度相关的变量的观测值也会以相似的方式变与其高度相关的变量的观测值也会以相似的方式变化，这时参数的大小就不再具有原来的意义，而且化，这时参数的大小就不再具有原来的意义，而且参数的意义难以解释。参数的意义难以解释。l例如，在农业生产函数中例如，在农业生产函数中如果耕地面积如果耕地面积和施肥量和施肥量之间存在完全的共线性，之间存在完全的共线性，比如比如 (k为一非零常数为一非零常数)，我们再引入，我们再引入一个任意非零常数一个任意非零常数，则，则代入代入模型中则有模型中则有l虽然完全等价，但回归系数却显然不同虽然完全等价，但回归系数

6、却显然不同 ,说明这时说明这时参数值的估计不唯一确定参数值的估计不唯一确定 .l 从经济意义上讲，如果取从经济意义上讲，如果取，那么（，那么（） 0 这表明，随耕地面积的增加农产量将会减少，这显这表明，随耕地面积的增加农产量将会减少，这显然是十分荒谬的结论。然是十分荒谬的结论。完全多重共线性的后果完全多重共线性的后果l对于二元线性回归模对于二元线性回归模型型其参数其参数 1的的OLS估计式为：估计式为：由由得得 ,则则完全多重共线性的后果完全多重共线性的后果(一般一般)因此，因此， 2.2.参数估计量经济含义不合理参数估计量经济含义不合理如如果果模模型型中中两两个个解解释释变

7、变量量具具有有线线性性相相关关性性，例如例如 X2= kX1 ，这这时时，X1和和X2前前的的参参数数 1、 2并并不不反反映映各各自自与与被被解解释释变变量量之之间间的的结结构构关关系系，而而是是反反映映它它们们对对被被解释变量的共同影响。解释变量的共同影响。 1、 2已已经经失失去去了了应应有有的的偏偏回回归归系系数数经经济济含含义义，甚甚至至经经常常表表现现出出似似乎乎反反常常的的现现象象：例例如如 1本本来来应应该是正的，结果却是负的。该是正的，结果却是负的。 3 3. .不完全共线性下不完全共线性下OLS估计量非有效估计量非有效不完全共线性下不完全共线性下，可以得到，可以得到OL

8、S参数估计量。参数估计量。对于二元线性回归模型对于二元线性回归模型可见可见X1与与X2不完全的共线时，参数是可以估计的。不完全的共线时，参数是可以估计的。设设X1与与X2不完全的共线性关系为不完全的共线性关系为其中，其中，,则有有代入参数估计式代入参数估计式得得: 3 3. .不完全共线性下不完全共线性下OLS估计量非有效估计量非有效不完全共线性下，虽然可以得到不完全共线性下，虽然可以得到OLS参数估计量，参数估计量，但参数估计量但参数估计量方差方差的表达式为的表达式为由由于于|XX| 0，引引起起(XX) -1主主对对角角线线元元素素较较大大，使使参参数数估估计计值值的的方方差差

9、增增大大，OLS参参数数估估计计量量非非有有效。效。仍以二元线性模型仍以二元线性模型 Y=0+ 1X1+ 2X2+ 为为例例: 恰为恰为X1与与X2的线性相关系数的平方的线性相关系数的平方r2由于 r2 1，故 1/(1- r2 )1其中其中多重共线性使参数估计值的方差增大重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子方差膨胀因子(Variance Inflation Factor, VIF)，它表明它表明OLS的估计量的方差随着是多重共线性的的估计量的方差随着是多重共线性的增加而增加而“膨胀膨胀”起来。起来。当当完全不共线完全不共线时时, r2 =0 当当不完全共线不完全共线

10、时时, 0 r2 1当当完全共线完全共线时，时， r2=1， 4 4、参数的置信区间明显扩大、参数的置信区间明显扩大由于存在多重共线性，变大的方差容易使参数由于存在多重共线性，变大的方差容易使参数估计量有较大的标准差，因此参数真值的置信区间估计量有较大的标准差，因此参数真值的置信区间也将增大。也将增大。此置信区间将随此置信区间将随的增大而增大。的增大而增大。而置信区间愈大而置信区间愈大,对真值的估计愈不准确。对真值的估计愈不准确。 5 5、变量的显著性检验失去意义、变量的显著性检验失去意义存在多重共线性时存在多重共线性时参数估计值的方差与标准差变大参数估计值的方差与标准差变大容易使通过样

11、本计算的容易使通过样本计算的t值小于临界值，值小于临界值，误导作出参数为误导作出参数为0的推断的推断可能将重要的解释变量排除在模型之外可能将重要的解释变量排除在模型之外 6 6、参数估计量及其标准误差对于样本、参数估计量及其标准误差对于样本波动非常敏感波动非常敏感l数据即使出现轻微变动，它们都将发生较大数据即使出现轻微变动，它们都将发生较大变化，使回归模型缺乏稳定性。这可从二元线变化，使回归模型缺乏稳定性。这可从二元线性回归模型中看出，性回归模型中看出，l故当样本数据的轻微变动引起故当样本数据的轻微变动引起的轻微变的轻微变动时，动时，将会发生较大的变动，即将会发生较大的变动，即将将会发

12、生较大的变动。会发生较大的变动。注意：注意：当当模模型型存存在在多多重重共共线线性性时时，OLS估估计计仍仍然然为为最最佳佳线线性性无无偏偏估估计计（BLUE）。如如果果我我们们的的目目的的仅仅仅仅是是预预测测的的未未来来值值，且且预预计计解解释释变变量量之之间间的的多多重重共共线线关关系系在在预预测测期期不不发发生生变变化化，那那么么，多重共线性对多重共线性对Y的预测就没有明显影响。的预测就没有明显影响。问问题题在在于于，即即使使OLS法法仍仍是是最最好好的的估估计计方方法法，它它却却不不是是“完完美美的的”，尤尤其其是是在在统统计计推推断断上上无法给出真正有用的信息。无法给出真正有用

13、的信息。l多重共线性表现为一种样本现象，即使总体不存多重共线性表现为一种样本现象，即使总体不存在多重共线性，所得样本也可能出现多重共线性。在多重共线性，所得样本也可能出现多重共线性。而且由于抽样波动，对于同一总体，不同样本的共而且由于抽样波动，对于同一总体，不同样本的共线性程度也不相同。因此，对于多重共线性的检验，线性程度也不相同。因此，对于多重共线性的检验，可以直接对所得样本进行分析做出判断。可以直接对所得样本进行分析做出判断。 l多多重重共共线线性性表表现现为为解解释释变变量量之之间间具具有有相相关关关关系系，所所以以用用于于多多重重共共线线性性的的检检验验方方法法主主要要是是统统计计方方

14、法法：如如简简单单相相关关系系数数检检验验法法、判判定定系系数数检检验验法法、方方差差扩大（膨胀）因子法扩大（膨胀）因子法等等。四、多重共线性的检验四、多重共线性的检验1.简单相关系数检验法简单相关系数检验法含义：含义：简单相关系数检验法是利用解释变量之间的简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的线性相关程度去判断是否存在严重多重共线性的一种简便方法。一种简便方法。判断规则：判断规则：一般而言，如果每两个解释变量的简单一般而言，如果每两个解释变量的简单相关系数相关系数(零阶相关系数零阶相关系数)比较高，例如大于比较高，例如大于0.8，则可认为存在着

15、较严重的多重共线性。则可认为存在着较严重的多重共线性。较高的简单相关系数只是多重共线性存在的充分较高的简单相关系数只是多重共线性存在的充分条件，而不是必要条件。特别是在多于两个解释条件，而不是必要条件。特别是在多于两个解释变量的回归模型中，有时较低的简单相关系数也变量的回归模型中，有时较低的简单相关系数也可能存在多重共线性。因此，并不能简单地依据可能存在多重共线性。因此，并不能简单地依据相关系数进行多重共线性的准确判断。相关系数进行多重共线性的准确判断。命令方式命令方式COR 各个解释变量名各个解释变量名，得两两简单相关，得两两简单相关系数矩阵如下系数矩阵如下注意：注意：2.根据可决系数

16、根据可决系数R2 、F检验、检验、t检验的结果判断检验的结果判断l经经验验表表明明，多多重重共共线线性性存存在在的的一一个个标标志志是是模模型型结结果果具具有有较较大大的的标标准准误误差差和和较较小小的的t统统计计量量。如如果果模模型型的的可可决决系系数数很很大大，检检验验高高度度显显著著，但但是是偏偏回回归归系系数数的的t检检验验几几乎乎都都不不显显著著（ t检检验验值值较较小小），则模型很可能存在多重共线性。则模型很可能存在多重共线性。l因因为为通通过过检检验验，虽虽然然各各解解释释变变量量对对的的联联合合线线性性影影响响高高度度显显著著，但但每每个个解解释释变变量量的的单单独独影影

17、响响却却都都不不显显著著，就就无无法法辨辨别别哪哪个个解解释释变变量量对对被被解解释释变变量量的的影影响响更更大大。这这种种矛矛盾盾结结果果可可能能是是由由于于较较大大引引起的，这时很有可能存在严重的多重共线性。起的，这时很有可能存在严重的多重共线性。 3 3、判定系数检验法、判定系数检验法如如果果存存在在多多重重共共线线性性，需需进进一一步步确确定定究究竟竟由由哪哪些些变变量量引引起起。使使模模型型中中每每一一个个解解释释变变量量分分别别以以其其余余解解释释变变量量为为解解释释变变量量进进行行回回归归，并并计计算算相相应应的的拟合优度。拟合优度。如果某一种回归如果某一种回归 Xji=1

18、X1i+2X2i+kXki的的判判定定系系数数较较大大，说说明明Xj与与其其他他X间间存存在在共共线线性性。（其中其中称为称为复相关系数复相关系数）具体可进一步对上述回归方程作具体可进一步对上述回归方程作F F检验：检验：式中：式中：Rj2为第为第j个解释变量对其他解释变量的回个解释变量对其他解释变量的回归方程的决定系数，归方程的决定系数，若存在较强的共线性，则若存在较强的共线性，则Rj2较大且接近于较大且接近于1，这，这时（时（1- Rj2 ）较小，从而）较小，从而Fj的值较大。的值较大。因此，给定显著性水平因此，给定显著性水平，计算，计算F值，并与相应的值，并与相应的临界值

19、比较，来判定是否存在相关性。临界值比较，来判定是否存在相关性。构造如下构造如下F统计量统计量在模型中排除某一个解释变量在模型中排除某一个解释变量Xj，估计模，估计模型型；如果拟合优度与包含如果拟合优度与包含Xj时十分接近，则时十分接近，则说明说明Xj与其它解释变量之间存在共线性。与其它解释变量之间存在共线性。另一等价的检验另一等价的检验是: 4 4、方差扩大（膨胀）因子法、方差扩大（膨胀）因子法统计上可以上可以证明，解明，解释变量量的参数估的参数估计式式的方差可表示的方差可表示为其中的其中的是是变量量(Variance Inflation Factor)，即，即的方差扩大因子的方差

20、扩大因子其中其中是第是第j个解个解释变量量辅助回助回归的可决系数的可决系数经验规则经验规则l方差膨胀因子越大，表明解释变量之间的多重共方差膨胀因子越大，表明解释变量之间的多重共性越严重。反过来，方差膨胀因子越接近于性越严重。反过来，方差膨胀因子越接近于1，多，多重共线性越弱，因此，可以用作为衡量多重共线重共线性越弱，因此，可以用作为衡量多重共线性的一个指标。性的一个指标。 l经验表明，方差膨胀因子经验表明，方差膨胀因子VIF 10时，说明解释时，说明解释变量与其余解释变量之间有严重的多重共线性，变量与其余解释变量之间有严重的多重共线性，且这种多重共线性可能会过度地影响最小二乘估且这种多重共

21、线性可能会过度地影响最小二乘估计。计。与与等价的指标是等价的指标是“容许度容许度”（Tolerance），其定义），其定义为：为：另一等价的检验另一等价的检验是是:显显然然，0TOLj1；当当Xj与与其其他他解解释释变变量量高高度度相相关关时时，TOLj0。因因此此，一一般般当当TOLj0.1时时，认认为为模模型存在较严重的多重共线性。型存在较严重的多重共线性。5.5.条件数检验条件数检验(1)(1)特征值特征值：考察解释变量的样本数据矩阵考察解释变量的样本数据矩阵当模型存在完全多重共线性时当模型存在完全多重共线性时,rank(X)k+1,而当模型存在严重的多重共线性时而当模型存在严重

22、的多重共线性时，根据矩阵代数知识，根据矩阵代数知识，为矩阵为矩阵的的个个若若0 特征值，则有：特征值，则有：5.5.条件数检验条件数检验( (特征值特征值) ，这表明特征值中至少有一个近似地等于这表明特征值中至少有一个近似地等于0。若。若c是是对应于特征值对应于特征值的单位特征向量，则的单位特征向量，则，，，更具体地更具体地这说明矩阵这说明矩阵列向量之间存在多重共线性，并且列向量之间存在多重共线性，并且这些多重共线性关系的系数向量就等于接近于这些多重共线性关系的系数向量就等于接近于0的那个特征根对应的特征向量。因此，可以利用的那个特征根对应的特征向量。因此，可以利用的特征值来检

23、验模型的多重共线性的特征值来检验模型的多重共线性 5.5.条件数检验条件数检验（2 2）条件指数条件指数（Condition Index）将将矩阵的每一列矩阵的每一列用其模用其模相除相除以实现标准化，然后再求以实现标准化，然后再求矩阵的特征值，矩阵的特征值，取其中最大的除以最小的后再求平方根，得到取其中最大的除以最小的后再求平方根，得到该矩阵的该矩阵的“条件数条件数”，记为：，记为：通常当通常当大于大于1010或或2020时，认为存在较明显时，认为存在较明显的多重共线性。的多重共线性。附：回归系数方差分解附：回归系数方差分解: :如果如果V V是对角化是对角化的的( (K K

24、+1) (+1) (K K+1)+1)对角矩阵：即对角矩阵：即其中其中是是的特征值构成的对角矩阵。的特征值构成的对角矩阵。从而从而两种理解：如果特征值之和反映对被解释变量解释两种理解：如果特征值之和反映对被解释变量解释程度，倒数之和反映引起估计量方差的比重。程度，倒数之和反映引起估计量方差的比重。首先明确建立模型的目的：经济预测、结构分析首先明确建立模型的目的：经济预测、结构分析或政策评价。如果建立模型的目的是进行预测，就或政策评价。如果建立模型的目的是进行预测，就可以忽略多重共线性。可以忽略多重共线性。 1、直接剔除次要或可替代的变量、直接剔除次要或可替代的变量剔除时剔除时需注意产

25、生新的问题需注意产生新的问题: : 当模型存在共线性，若将某个共线性变量去掉，当模型存在共线性，若将某个共线性变量去掉，模型的经济意义不合理；模型的经济意义不合理；可能使模型产生异方差性或自相关性；可能使模型产生异方差性或自相关性；若剔除不当若剔除不当,可能会产生模型设定误差，造成参数可能会产生模型设定误差，造成参数估计严重有偏估计严重有偏四、多重共线性的解决方法四、多重共线性的解决方法 2、减小参数估计量的方差、减小参数估计量的方差多多重重共共线线性性的的主主要要后后果果是是参参数数估估计计量量具具有有较较大大的的方方差差，所所以以，采采取取适适当当方方法法减减小小参参数数估估计计量

26、量的的方方差差，虽虽然然没没有有消消除除模模型型中中的的多多重重共共线线性性，但但确确能消除多重共线性造成的后果。能消除多重共线性造成的后果。例例如如：增增加加样样本本容容量量，可可使使参参数数估估计计量量的的方方差减小，因为：差减小，因为：此此外外，获获取取新新的的样样本本，或或许许有有助助于于消消除除多多重重共共线线性性。因因为为多多重重共共线线性性是是一一个个样样本本现现象象，在在包包括括同同样样变变量量的的另另一一个个样样本本中中，共共线线性性程程度度或或许许会会降降低低。关键是能否获得另一个样本。关键是能否获得另一个样本。利用附加信息：利用附加信息：“事前信息事前信息”也称也称

27、“先验信息先验信息”，是指，是指根据经济理论及实际的统计资料所获得的解释变量根据经济理论及实际的统计资料所获得的解释变量之间的关系。之间的关系。例如，例如，消费函数模型为消费函数模型为容易理解，收入容易理解，收入和财产和财产之间是高度相关的，之间是高度相关的，所以模型存在多重共线性。所以模型存在多重共线性。如果根据如果根据“事前信息事前信息”已经知道已经知道大约是大约是的的 1/10，即，即利用这一信息，可将模型转化为利用这一信息，可将模型转化为若是令若是令则有则有该模型已无多重共线性。该模型已无多重共线性。 3、间接剔除重要的解释变量、间接剔除重要的解释变量利用附加信

28、息利用附加信息再如：再如：生产函数生产函数，L L与与K K通常高度相关，通常高度相关，若已知附加信息：若已知附加信息： +=1 +=1 （规模报酬不变）（规模报酬不变）或或记记 y=Y/L , k=K/L y=Y/L , k=K/L则则C-DC-D生产函数可以表示成生产函数可以表示成: : y=Aky=Ak，此时二元模型转此时二元模型转化成一元模型化成一元模型，可利用可利用OLSOLS法估计法估计，进而得到，进而得到则则3、间接剔除重要的解释变量、间接剔除重要的解释变量（2 2）变换模型的形式）变换模型的形式变换模型的变换模型的函数函数形式：形式：如将线性模型转换成双对如将线

29、性模型转换成双对数模型、半对数模型、多项式模型等；数模型、半对数模型、多项式模型等；变换模型的变换模型的变量变量形式形式例如，某种商品的需求函数为：例如，某种商品的需求函数为：如果只要求知道两种商品的相对价格（如果只要求知道两种商品的相对价格（）变）变动对需求量的影响，并不一定要求分析商品价格的绝动对需求量的影响，并不一定要求分析商品价格的绝对变动对需求量的影响，则可把需求函数变换为：对变动对需求量的影响，则可把需求函数变换为：改变变量的统计指标改变变量的统计指标例如：消费函数：例如：消费函数：可变换为可变换为与与的相关程度远小于的相关程度远小于与与的相关程度。的相关程度。

30、 (3) 综合使用时序数据与横截面数据综合使用时序数据与横截面数据可以看出，最终还是通过减少模型中解释变量个可以看出，最终还是通过减少模型中解释变量个数的方式来消除多重共线性的影响，但并不是直数的方式来消除多重共线性的影响，但并不是直接剔除有重要影响的解释变量。接剔除有重要影响的解释变量。例如，某商品的需求函数为例如，某商品的需求函数为若若和和很高度正相关，很高度正相关，先根据截面数据估计出先根据截面数据估计出参数参数，然后再根据估计的对原模型作变换：然后再根据估计的对原模型作变换：再利用原来的时间序列数据估计出再利用原来的时间序列数据估计出，前提条件，前提条件，就是就是在整个

31、时期的波动不大在整个时期的波动不大。得得4、FrischFrisch综合分析法综合分析法基本原理：基本原理：从所有解释变量中间先选择影响从所有解释变量中间先选择影响最为显著的变量建立模型，然后再将模型之外的最为显著的变量建立模型，然后再将模型之外的变量逐个引入模型；每引入一个变量，就对模型变量逐个引入模型；每引入一个变量，就对模型中的所有变量进行一次显著性检验，并从中剔除中的所有变量进行一次显著性检验，并从中剔除不显著的变量；逐步引入不显著的变量；逐步引入剔除剔除引入，直到模引入，直到模型之外所有变量均不显著时为止。型之外所有变量均不显著时为止。基基本本步步骤骤：将将被被解解释释变变量量

32、Y对对每每一一个个解解释释变变量量Xj(j=1,2, k)分分别别进进行行回回归归，对对每每一一个个回回归归方方程程根根据据经经济济理理论论和和统统计计检检验验进进行行综综合合判判断断分分析析，从从中中选选出出一一个个最最优优的的基基本本回回归归方方程程。在在此此基基础础上上，再再逐逐一一引引入入其其它它解解释释变变量量，重重新新作作回回归归，逐逐步步扩扩大大模模型型的的规规模模，直直至至从从综综合合情情况况看看出出现现最好的模型估计形式。最好的模型估计形式。（1）如果新解释变量在符合经济意义的前提下，能使）如果新解释变量在符合经济意义的前提下，能使拟拟合优度合优度有所有所提高提高，并且，并

33、且每个参数统计检验显著每个参数统计检验显著，则，则采纳采纳该变量。（说明该解释变量是一个独立解释变量）该变量。（说明该解释变量是一个独立解释变量）（2）如果新解释变量）如果新解释变量不能改善拟合优度不能改善拟合优度，同时，同时对其它参对其它参数无明显影响数无明显影响，则可，则可舍弃舍弃该变量。（说明它可以用其它变该变量。（说明它可以用其它变量的线性组合代替）量的线性组合代替）（3）如果新解释变量能使拟合优度有所改变，）如果新解释变量能使拟合优度有所改变，提高提高，但但对其它参数的符号和数值有明显的影响，统计检验也不对其它参数的符号和数值有明显的影响，统计检验也不显著显著，可以判定，可以判定新

34、解释变量引起了共线性新解释变量引起了共线性。此时需按照前。此时需按照前述的检验方法，考察变量间线性相关的形式和程度，并进述的检验方法，考察变量间线性相关的形式和程度，并进行经济意义的判断，在共线性程度最高的两个变量中，舍行经济意义的判断，在共线性程度最高的两个变量中，舍去对被解释变量影响较小、经济意义相对次要的一个，保去对被解释变量影响较小、经济意义相对次要的一个，保留影响较大、经济意义相对重要的一个。留影响较大、经济意义相对重要的一个。引进新解释变量进入回归方程时，注意：引进新解释变量进入回归方程时，注意：设一个多元线性回归模型为设一个多元线性回归模型为普通最小二乘估计的公式为普通最小二乘

35、估计的公式为当解释变量间存在严重的多重共线性时，当解释变量间存在严重的多重共线性时，矩阵矩阵接近于奇异接近于奇异, , 。则。则用用代替代替代入最小二乘估计的公式，代入最小二乘估计的公式，使得使得0的可能性比的可能性比 0的可能性更小。从而，有效地的可能性更小。从而，有效地避免了因避免了因 0造成的方差变大。故岭回归估计量为：造成的方差变大。故岭回归估计量为：其中其中称为称为“岭回归参数岭回归参数”，一般，一般，当时当时，就是普通最小二乘估计。当就是普通最小二乘估计。当时，所有时，所有的系数估计值都向零趋近。的系数估计值都向零趋近。 5. 岭回归法岭回归法（Ridge Regr

36、ession）0 会增大会增大（1）从从式式容容易易看看出出，在在岭岭回回归归参参数数与与Y无无关关的的情情形形下下，是是最最小小二二乘乘估估计计的的一一个线性变换，也是理论值个线性变换，也是理论值Y的线性函数的线性函数. （2）估计量的数学期望为：）估计量的数学期望为： 5. 岭回归估计量的性质岭回归估计量的性质岭回归估计量岭回归估计量不再是不再是的无偏估计，的无偏估计， l（3）由于）由于的方差为的方差为 5. 岭回归岭回归估计量的性质岭回归岭回归估计量的性质而而的方差为的方差为可以证明，可以证明，比比要小要小而且而且越大，越大，越小，但是越小，但是的偏误的偏误同时

37、也增大，所以只能寻找一个同时也增大，所以只能寻找一个，使，使即可即可。l也就是说，运用岭回归估计参数是牺牲了无偏性也就是说，运用岭回归估计参数是牺牲了无偏性来寻求参数估计的最小方差性。但该方法为我们来寻求参数估计的最小方差性。但该方法为我们寻求参数估计的最小方差性提供了新的思路。寻求参数估计的最小方差性提供了新的思路。如何选择如何选择是一个复杂的问题，是一个复杂的问题， lHoerl和和Kennard于于1975年提出一种估计方法。年提出一种估计方法。该方法是首先对原模型的解释变量与被解释变量该方法是首先对原模型的解释变量与被解释变量进行标准化处理：进行标准化处理：l得到下列模型：

38、得到下列模型：l用用OLS法估计该模型，得到参数与随机误差项方法估计该模型，得到参数与随机误差项方差的估计值差的估计值和和。选择。选择作为作为的估计值的估计值。l常用的方法还有岭迹法、逐步搜索的方法等常用的方法还有岭迹法、逐步搜索的方法等 l（1 1）前进法）前进法 l前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。具体做法是首先将全部m个自变量,分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,记为,l选其最大者记为6.逐步回归方法逐步回归方法l给定显著性水平，若 l则首先将引入回归方程,为了方便,设就是 l再对因变

39、量y分别与l建立m-1个二元线性回归方程,对这m -1个回归方程中的回归系数进行F检验,计算F值,记为 l选其最大的记为 l若则接着将引入回归方程l依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于时为止。这时,得到的回归方程就是最终确定的方程。 l（2 2）后退法）后退法l后退法与前进法相反后退法与前进法相反,首先用全部首先用全部m个变量建立个变量建立一个回归方程一个回归方程,然后在这然后在这m个变量中选择一个最不个变量中选择一个最不重要的变量重要的变量,将它从方程中剔除将它从方程中剔除，即，即把回归系数把回归系数检验的检验的F值最小者对应的自变量剔除。设对值最小者对应的

40、自变量剔除。设对m个个回归系数进行回归系数进行F检验检验,记求得的记求得的F值为值为 l选其最小者记为选其最小者记为l给定显著性水平，l则首先将Xj从回归方程中剔除,为方便,设Xj就是Xm,l接着对剩下的m-1个自变量重新建立回归方程,进行回归系数的显著性检验,像上面那样计算出 ,如果又有 ,则剔除Xj,重新建立y关于m-2个自变量的回归方程,依此下去,直至回归方程中所剩余的 p个自变量的 F检验值均大于临界值 ,没有可剔除的自变量为止。这时,得到的回归方程就是最终确定的方程。l前前进进法法可可能能存存在在这这样样的的问问题题, ,即即不不能能反反映映引引

41、进进新新的的自自变变量量后后的的变变化化情情况况。因因为为某某个个自自变变量量开开始始可可能能是是显显著著的的, ,但但当当引引入入其其他他自自变变量量后后它它变变得得并并不不显显著著了了, ,却却又又没没有有机机会会将将其其剔剔除除, ,即即一一旦旦引引入入, ,就就是是“终终身身制制”的的；这这种种只只考考虑虑引引入入, ,而而没有考虑剔除的做法显然是不全面的。没有考虑剔除的做法显然是不全面的。l而而且且, ,我我们们在在许许多多例例子子中中会会发发现现可可能能最最先先引引入入的的某某个个自自变变量量, ,当当其其他他自自变变量量相相继继引引入入后后, ,它它会会变得对因变量变得对因变量y

42、 y很不显著。很不显著。前进法和后退法述评前进法和后退法述评l后后退退法法的的明明显显不不足足是是,一一开开始始把把全全部部自自变变量量引引入入回回归归方方程程,这这样样计计算算量量很很大大。如如果果有有些些自自变变量量不不太太重重要要,一一开开始始就就不不引引入入,就就可可减减少少一一些些计计算算量量；再再就就是是一一旦旦某某个个自自变变量量被被剔剔除除,“一一棍棍子子就就把把它它打死了打死了”,它再也没有机会重新进入回归方程。它再也没有机会重新进入回归方程。 l如果涉及的自变量如果涉及的自变量是完全独立的是完全独立的(或不相关或不相关),那么在那么在取时取时,前进法与后退法所建的回归方

43、程是相同的。前进法与后退法所建的回归方程是相同的。 l（3）逐步回归法l逐步回归的基本思想是有进有出。具体做法是将变量一个一个引入,当每引入一个自变量后,对己选人的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。l这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集。 l在逐步回归法中需要注意的一个问题是引入自变量和

44、剔除自变量的显著性水平值是不相同的,要求引入自变量的显著性水平小于剔除自变量的显著性水平 ,否则可能产生“死循环”。也就是当时,如果某个自变量的显著性P值在与之间,那么这个自变量将被引入、剔除、再引入、再剔除循环往复,以至无穷。l逐步回归的计算参阅应用回归分析 *七、分部回归与多重共线性七、分部回归与多重共线性1 1、分部回归法、分部回归法(Partitioned Regression)(Partitioned Regression)对于模型在满足解释变量与随机误差项不相关的情况下，可以写出关于参数估计量的方程组：将解释变量分为两部分，对应的参数也分为两部分：如果存在则有同样有这就

45、是仅以这就是仅以X X2 2作为解释变量时的参数估计量作为解释变量时的参数估计量。这就是仅以这就是仅以X X1 1作为解释变量时的参数估计量作为解释变量时的参数估计量2 2、由分部回归法导出、由分部回归法导出如果一个多元线性模型的解释变量之间完全正交，如果一个多元线性模型的解释变量之间完全正交，可以将该多元模型分为多个一元模型、二元模型、可以将该多元模型分为多个一元模型、二元模型、进行估计，参数估计结果不变；进行估计，参数估计结果不变；实际模型由于存在或轻或重的共线性，如果将它实际模型由于存在或轻或重的共线性，如果将它们分为多个一元模型、二元模型、们分为多个一元模型、二元模型、进行估计，进行估计，参数估计结果将发生变化；参数估计结果将发生变化；结束语结束语谢谢大家聆听！谢谢大家聆听！63

展开阅读全文

最新多重共线性PPT课件

最新文档