计量经济学第六讲vvv

资源描述

《计量经济学第六讲vvv》由会员分享，可在线阅读，更多相关《计量经济学第六讲vvv（21页珍藏版）》请在金锄头文库上搜索。

1、浙江工商高校金融学院姚耀军讲义系列第六讲多重共线一、数学打算：FWL定理对于多元线性回来模型：（1）在OLS法下，各系数估计通过求解四个正规方程而获得。事实上，假如只关注某一个斜率系数的估计结果，则通过构造一系列简洁线性回来模型就能获得所关注的斜率系数的估计。假设我们现在关注，那么构造系列简洁线性回来模型的过程是：第一步：把对其他说明变量进行回来（请留意，截距所对应的说明变量为1），即有：（2）其次步：把也对（2）中的说明变量进行回来，即有：（3）第三步：把对进行回来（因为与其均值都为零，所以该回来模型不必带有截距项），即有：（4）现在有两个结论，即，结论一：；结论二：残差等于多元

2、回来中的残差。这两个结论就是闻名的FWL定理（Frisch-Waugh-Lovell theorem）。关于FWL定理的一个简洁证明见附录1。附录2涉及到该定理的应用。笔记：所反映的是，在限制其他因素后对的影响（与“偏导数”概念对应）。与的相关关系可能是由于它们共同的“亲戚” 与所带来的。在限制共同“亲戚”对及其的影响后，我们所发觉的与的相关关系被称为偏相关关系。在前述步骤中，第一步与其次步事实上是在剔除共同“亲戚”的影响。练习：基于简洁线性回来模型：验证FWL定理。假如我们只须要结论一，则上述三步骤可以被简化为两步骤：首先把对其他说明变量进行回来，得到残差，其次把对进行回来：可以验证：，但

3、应当留意此时并不能保证成立。笔记：在这里对所进行的是无截距回来。事实上，此时是否增加截距项并不影响斜率估计结果。这是因为，由于，故，而该等式右边正是有截距状况下斜率的估计结果。练习：（1）针对上述例子，利用OLS法的代数学问，证明：并说明此时为何不能保证成立。（2）对进行OLS估计，利用前述学问证明：在这里，、分别是与及其的样本相关系数。笔记：一些有用的结论：1、当与及其样本无关时则。留意，仅仅与样本无关不能保证。2、当与样本无关时，多元线性回来中的等于简洁线性回来中的，两者皆等于。二、考察的方差是多少呢？ OLS法保证了，因此由于我们假定是非随机的，进而也是非随机的。假定，则有：留意到

4、，是（2）中的残差平方和，我们已知道：其中是依据（2）计算的确定系数。因此有：通常被称为方差膨胀因子（VIF），而被称为容忍度（Tolerence）。另外，由于为的样本方差，因此有：（6）依据（6）式，一个总结是，保持其他影响因素不变，的方差（或者标准差）将：（1）随着样本容量的增加而削减；（2）随着样本方差的增加而削减；（3）随着增加而增加；（4）随着误差项方差的增加而增加；笔记：样本容量越大则信息越多；样本方差越大意味着在说明y时我们驾驭的样本覆盖面广，故信息越多。信息越多将提高估计精度。越大表示说明变量所蕴含信息的重叠度高，因此有效信息较少，故降低估计精度。误差项方差大即y的方差大，这

5、意味着被说明对象更加捉摸不定，从而估计面临着更大的困难，估计精度下降。一般是未知的，须要估计。从而的标准误为：其中。因此，考虑初始模型（1），明显有：因此，有：（7）特殊要留意，是随机的（在（7）式中，是随机的，其随机性来源于y的随机性）。既然是随机的，那么我们再也不能像对（6）式那样总结了！然而在大样本下，由于标准误在概率上收敛于标准差，故此时有关标准差的一些结论可以应用于标准误。思索题：针对特定的样本，依据（7）式可以计算出一个确定性的值。假如在模型（1）上再增加一个说明变量，明显一般是增加的，因此将增加的标准差，但肯定会增加的标准误吗？三、多重共线及其后果当越大，我们称说明变量共线性

6、程度越严峻（针对模型（1），这样的判定系数有三个）。当，被完全拟合，换句话说，存在：其中不为零。那么依据公式：有：。此时，我们称说明变量完全共线性。说明变量完全共线违反了高斯-马尔科夫假定。当说明变量其共线性程度并未达到完全共线性时，我们称说明变量多重共线。留意，多重共线并未违反高斯-马尔科夫假定，只要其他高斯-马尔科夫假定成立，OLS估计量仍保持全部的良好性质。那么为什么我们还要探讨多重共线呢？明显这是因为，正如前面所探讨的，多重共线程度较高可能导致OLS估计量的标准差或者标准误较大。假如状况的确如此，那么有：（1）t检验的牢靠性降低，犯其次类错误的概率较大；（2）置信区间更宽，以致我们不

7、能很好地揣测b1的取值。思索题：为什么此时t检验犯其次类错误的概率较大？四、多重共线肯定会带来后果吗？考虑模型，现在，与的相关性很大，因此，在OLS法下，与的方差或许很大。但与的相关性很大并不肯定意味着、及其常变量1能够很好地拟合，因此，的方差并不肯定大。总体来看，尽管由于与的相关性很大导致模型出现严峻的多重共线性，然而由于我们关注的是对b1的估计，而的方差并不肯定大，故就我们的关注点来说，多重性共线或许并未产生严峻的后果。另外从公式可以看出，影响的因素许多，因此，即使很大也并不肯定使得就很大。而依据Kliens rule of thumb，当大于初始模型的时，多重共线问题才值得关注。当利用

8、估计模型以作预料之用时，我们常常对整个模型的拟合度较为关注，而并不关注个别系数是否显著。此时，多重共线也并不值得我们忧虑。五、如何推断多重共线的严峻程度？（一）利用典型症状来推断。这些典型症状是：1、模型整体拟合较好但许多说明变量不显著。为理解这种症状出现的逻辑，考虑在初始模型增加一个说明变量。明显，新模型其判定系数一般是更大的（相应的是，新模型F值可能较大）。然而，增加说明变量很可能导致严峻的多重共线性，进而可能导致OLS估计量的标准误很大，结果使得许多说明变量不显著。2、系数估计的符号不符合理论预期，但往往不显著。在经典线性模型假定下，OLS估计量听从正态分布。假定依据某种经济学理论，真

9、实参数是一个正分数。假如多重共性严峻导致真实参数的OLS估计量标准差很大，则尽管OLS估计量的期望值等于真实参数，但它的概率密度曲线很大一部分将落入其次象限，于是，OLS估计值很可能出现负值，导致估计结果的符号不符合预期（预期的符号是正号）。然而我们知道，假如与很大的标准差相一样，OLS估计量的标准误也很大，则t检验的结果很可能是系数估计与0没有显著差异。笔记：系数估计的符号不符合理论预期，且又是显著的，这是说明变量与误差项相关的一个信号。3、增加样本容量或者删除一些变量导致估计结果发生了很大的改变。为理解这种症状出现的逻辑，考虑一个简洁的极端状况。假定说明变量矩阵是X，而增加一次观测后说明变

10、量矩阵是X1，删除一个说明变量后说明变量矩阵是X2。其中X、X1、X2如下所示：明显，当说明变量矩阵是X时说明变量完全共线，此时我们根本无法获得估计结果。而当说明变量矩阵是X1与X2时，无论如何，我们可以获得估计结果。（二）考察说明变量两两相关系数。假如存在取值较大的相关系数，那么这意味着多重共线性程度严峻。然而也应当留意到，即使两两相关系数都很小，多重共性性仍可能是严峻的。思索题：为什么即使两两相关系数都很小，多重共线性仍可能是严峻的？（三）考察VIF或者。假如VIF大于10，一般认为存在较严峻的多重共线性（当然也可考察容忍度）。依据VIF的定义，明显，当VIF大于10时，必有一个说明变量对

11、其他说明变量回来所得到的超过90%，而这是一个很高的判定系数。（四）特征根检验。当完全共线时，不存在，当存在严峻的多重共线时，。假设的特征根是，依据矩阵代数学问：，因此，假如的特征根中至少有一个近似为0，则。因此可以依据的特征根来推断多重共线的严峻程度。笔记：在实践中，通常基于标准化变量回来模型（每一个说明变量的每一次视察值都减去样本均值，然后再除以样本标准差，此即变量的标准化处理。标准化变量回来模型再也不含截距。）来利用特征根方法。记标准化变量回来模型的说明变量矩阵为，则即为说明变量的相关系数矩阵（你能够验证吗？）。接下来我们可以依据这个相关系数矩阵的特征根（特征根个数为k）来推断原模型的多

12、重共线性的严峻性。定义病态数CN（Condition Number）=最大特征根/最小特征根、病态指数CI（Condition Index），当CI大于30或者CN大于1000时，一般认为多重共线程度严峻。六、多重共线的处理方法多重共线假如产生了令我们忧虑的后果，我们该怎么办？（一）无为而治一般认为，多重共线是一个样本问题，你手中样本恰好有这样的表现！假如多重共线导致了估计精度问题，那说明你驾驭的数据所包含的信息含量很低，因此，“遇到多重共线我该怎么办？”这个问题无异于“假如我没有许多的观测值该怎么办？”(Goldberger,1991)。假如你不能增加样本容量，那么实行一些治疗多重共线的

13、方法（如逐步回来等），反而可能带来灾难性的后果（Leamer,1961）（例如，假如采纳逐步回来，或许这将导致遗漏一些重要的变量，结果使得OLS估计量不满意一样性）。因此，当无法增加样本容量的状况下，无为而治可能是最恰当的方式！（二）重新建模例一：初始模型是一个包含人口变量的多元回来模型，假如初始模型表现出的多重共线性令你担心，那么你可以重新建立一个涉及到人均变量的模型，在该模型中，人口变量并不作为一个单独的说明变量而出现。例二：时间序列变量通常具有相像的时间趋势从而共线性程度可能较高，你或许可以对这些变量取差分，利用差分变量进行建模。例三：对一些变量取对数有时也是一种好方法。例四：有时在重新

14、建模时会运用相关变量的线性组合作为说明变量，而不是把每个变量单独作为说明变量。问题是如何确定线性组合的权重。主成分分析法是解决这个问题的好方法，见附录3。（三）运用先验信息考虑模型，假如与其他说明变量相关性很高，从而模型多重共线性严峻。假如某个理论或者从前的探讨表明，是一已知常数。那么我们可以试着重新估计一模型：明显，先验信息的牢靠性是非常重要的。（四）其他方法，参见相关教科书，要留意相关方法的缺陷（例如逐步回来法的缺陷）。附录1：FWL定理的一个简洁证明及其推广由下述三式：有：即：由于分别与、样本不相关，故。证明：定义，则另外，由于、与其均值都为零，故于是：推广：对必有：其中分别是各自对进

15、行带截距回来所得到的残差。附录2：简洁相关、偏相关与复相关；有何种联系？x1与x2具有简洁相关系数r12，然而这种相关性可能是由于x1与x2分别与x3相关造成的。在限制了x3（保持x3不变）之后，x1与x2的相关性被称为偏相关。另外，x1与（x2，x3）的相关关系被称为复相关。样本复相关系数的平方就是回来模型的判定系数R2。这些基于样本的相关系数具有何种联系呢？一、样本偏相关系数rsample12.3的计算步骤：第1步：把对进行回来有：（1）记x1的拟合值为。第2步：把对进行回来，即有：（2）记x2的拟合值为。第3步：计算与的简洁相关系数。则有：可以证明，见第三讲附录3。二、R2与简洁相关系数与偏相关系数的联系把对进行回来，有：而对于回来模型，其判定系数是：依据第一讲无截距回来的代数学问，我们知道，又因为皆为0，因此。另外，依据判定系数

展开阅读全文