五章节模型建立与估计中问题及对策学习资料

资源描述

《五章节模型建立与估计中问题及对策学习资料》由会员分享，可在线阅读，更多相关《五章节模型建立与估计中问题及对策学习资料（85页珍藏版）》请在金锄头文库上搜索。

1、第五章模型的建立与估计中的问题及对策,我们已学到了许多有用的计量经济分析方法，如建立模型、估计参数、假设检验、预测、非线性模型的线性化，用虚拟变量将定性因素引入模型等。可是，我们所使用的最小二乘法，以及由此而得到的OLS估计量令人满意的性质，是根据一组假设条件而得到的。在实践中，如果某些假设条件不能满足，则OLS就不再适用于模型的估计。在这种情况下，分析方法就需要改变。下面列出实践中可能碰到的一些常见问题： l误设定（Misspecification 或specification error） l多重共线性（Multicollinearity） l异方差性（Heteroscedastici

2、ty） l自相关（Autocorrelation）本章将对上述问题作简要讨论，主要介绍问题的后果、检测方法和解决途径。,第一节误设定采用OLS法估计模型时，实际上有一个隐含的假设，即模型是正确设定的。这包括两方面的含义：函数形式正确和解释变量选择正确。在实践中，这样一个假设或许从来也不现实。我们可能犯下列三个方面的错误：选择错误的函数形式遗漏有关的解释变量包括无关的解释变量从而造成所谓的“误设定”问题。,一. 选择错误的函数形式这类错误中比较常见的是将非线性关系作为线性关系处理。函数形式选择错误，所建立的模型当然无法反映所研究现象的实际情况，后果是显而易见的。因此，我们应当根据

3、实际问题，选择正确的函数形式。我们在前面各章的介绍中采用的函数形式以线性函数为主，上一章介绍了应变量和解释变量都采用对数的双对数模型，下面再介绍几种比较常见的函数形式的模型，为读者的回归实践多提供几种选择方案。这几种模型是：半对数模型双曲函数模型多项式回归模型,这表明，斜率度量的是解释变量X的单位变动所引起的应变量Y的相对变动。将此相对变动乘以100，就得到Y的百分比变动，或者说得到Y的增长率。由于对数-线性模型中斜率系数的这一含义，因而也叫增长模型 (growth model)。增长模型通常用于测度所关心的经济变量（如GDP）的增长率。例如，我们可以通过估计下面的半对数模型得到一国

4、GDP的年增长率的估计值，这里t为时间趋势变量。,线性-对数模型的形式如下：与前面类似，我们可用微分得到因此这表明,上式表明，Y的绝对变动量等于乘以X的相对变动量。因此, 线性-对数模型通常用于研究解释变量每变动1%引起的因变量的绝对变动量是多少这类问题。,2. 双曲函数模型双曲函数模型的形式为：不难看出，这是一个仅存在变量非线性的模型，很容易用重新定义的方法将其线性化。双曲函数模型的特点是，当X趋向无穷时，Y趋向，反映到图上，就是当X趋向无穷时，Y将无限靠近其渐近线（Y= ）。双曲函数模型通常用于描述著名的恩格尔曲线和菲利普斯曲线。,3. 多项式回归模型多项式回归模型通常

5、用于描述生产成本函数，其一般形式为：其中Y表示总成本，X表示产出，P为多项式的阶数，一般不超过四阶。多项式回归模型中，解释变量X以不同幂次出现在方程的右端。这类模型也仅存在变量非线性，因而很容易线性化，可用OLS法估计模型。,二. 遗漏有关的解释变量模型中遗漏了对因变量有显著影响的解释变量的后果是：将使模型参数估计量不再是无偏估计量。三. 包括无关的解释变量模型中包括无关的解释变量，参数估计量仍无偏，但会增大估计量的方差，即增大误差。注有关上述两点结论的说明请参见教科书P101-102。,四. 解决解释变量误设定问题的原则在模型设定中的一般原则是尽量不漏掉有关的解释变量。因为估

6、计量有偏比增大误差更严重。但如果方差很大，得到的无偏估计量也就没有多大意义了，因此也不宜随意乱增加解释变量。在回归实践中，有时要对某个变量是否应该作为解释变量包括在方程中作出准确的判断确实不是一件容易的事，因为目前还没有行之有效的方法可供使用。尽管如此，还是有一些有助于我们进行判断的准则可用，它们是：,选择解释变量的四条准则 1. 理论：从理论上看，该变量是否应该作为解释变量包括在方程中？ 2. t检验：该变量的系数估计值是否显著？ 3. ：该变量加进方程中后，是否增大？ 4. 偏倚：该变量加进方程中后，其它变量的系数估计值是否显著变化？,如果对四个问题的回答都是肯定的，则该变量

7、应该包括在方程中；如果对四个问题的回答都是“否”，则该变量是无关变量，可以安全地从方程中删掉它。这是两种容易决策的情形。,但根据以上准则判断并不总是这么简单。在很多情况下，这四项准则的判断结果会出现不一致。例如，有可能某个变量加进方程后，增大，但该变量不显著。,在选择变量的问题上，应当坚定不移地根据理论而不是满意的拟合结果来作决定，对于是否将一个变量包括在回归方程中的问题，理论是最重要的判断准则。如果不这样做，产生不正确结果的风险很大。,在这种情况下，作出正确判断不是一件容易的事，处理的原则是将理论准则放在第一位，再多的统计证据也不能将一个理论上很重要的变量变成“无关”变量。,五. 检验误

8、设定的RESET方法上面给出了选择解释变量的四条准则。可是，有时这些准则不能提供足够的信息使研究人员确信其设定是最恰当的，在这种情况下，可考虑使用一些更正规的检验方法来比较不同估计方程的性质。这类方法相当多，这里就不一一列出，仅介绍拉姆齐（J. B. Ramsey）的回归设定误差检验法（RESET法）。,RESET检验法的思路 RESET检验法的思路是在要检验的回归方程中加进等项作为解释变量，然后看结果是否有显著改善。如有，则可判断原方程存在遗漏有关变量的问题或其它的误设定问题。直观地看，这些添加的项是任何可能的遗漏变量或错误的函数形式的替身，如果这些替身能够通过F检验, 表明它们改善了

9、原方程的拟合状况，则我们有理由说原方程存在误设定问题。等项形成多项式函数形式，多项式是一种强有力的曲线拟合装置，因而如果存在误设定，则用这样一个装置可以很好地代表它们。,RESET检验法的步骤拉姆齐RESET检验的具体步骤是： (1) 用OLS法估计要检验的方程，得到 (2) 由上一步得到的值（i=1,2,n），计算，然后用OLS法估计： (3) 用F检验比较两个方程的拟合情况（类似于上一章中联合假设检验采用的方法），如果两方程总体拟合情况显著不同，则我们得出原方程可能存在误设定的结论。使用的检验统计量为：,其中：RSSM为第一步中回归（有约束回归）的残差平方和， RSS为第二步中回归

10、（无约束回归）的残差平方和， M为约束条件的个数，这里是M=3。应该指出的是，拉姆齐RESET检验仅能检验误设定的存在，而不能告诉我们到底是哪一类的误设定，或者说，不能告诉我们正确的模型是什么。但该方法毕竟能给出模型误设定的信号，以便我们去进一步查找问题。另一方面，如果模型设定正确，RESET检验使我们能够排除误设定的存在，转而去查找其它方面的问题。,第二节多重共线性应用OLS法的一个假设条件是；矩阵X的秩=K+1N。即自变量之间不存在严格的线性关系，观测值个数大于待估计的参数的个数。这两条无论哪一条不满足，则OLS估计值的计算无法进行，估计过程由于数学原因而中断，就象分母为0一样。

11、这两种情况都很罕见。然而，自变量之间存在近似的线性关系则是很可能的事。事实上，在经济变量之间，这种近似的线性关系是很常见的。当某些解释变量高度相关时，尽管估计过程不会中断，但会产生严重的估计问题，我们称这种现象为多重共线性。解释变量间存在严格线性相关关系时，称为完全的多重共线性。,一定义在实践中，若两个或多个解释变量高度线性相关，我们就说模型中存在多重共线性。二后果 1. 不改变参数估计量的无偏性；事实上，对于不完全多重共线性，参数估计量仍为BLUE。这是因为，尽管解释变量之间存在多重共线性，但并不影响扰动项和解释变量观测值的性质，故仍有,2. 但各共线变量的参数的OLS估计值方差很

12、大，即估计值精度很低。（BLUE表明在各线性无偏估计量中方差最小，但不等于方差的值很小。） 3 由于若干个X变量共变，它们各自对因变量的影响无法确定。 4. 各共线变量系数估计量的t值低，使得犯第类错误的可能性增加。由于各共线变量的参数的OLS估计值方差大，因而系数估计量的t值低，使得我们犯第类错误（接受错误的原假设H0: j=0）的可能性增加，容易将本应保留在模型中的解释变量舍弃了。,三多重共线性的判别和检验 1根据回归结果判别判别是否存在多重共线性的最简单方法是分析回归结果。如果发现: 系数估计值的符号不对；某些重要的解释变量t值低，而R2不低；当一不太重要的解释变量被删除后

13、，回归结果显著变化。则可能存在多重共线性。其中上述第二种现象是多重共线性存在的典型迹象。此方法简便易行，因而是实践中最常用的方法，缺点是无法确诊。,2使用相关矩阵检验统计软件一般提供各解释变量两两之间的相关系数矩阵，如发现某些相关系数高（绝对值高于0.8或0.90），则表明多重共线性存在。但即使解释变量两两之间的相关系数都低，也不能排除存在多重共线性的可能性。 3通过条件指数检验条件指数（Condition index）或条件数Condition number）是XX矩阵的最大和最小特征根之比的平方根，条件指数高，表明存在多重共线性。至于什么程度算高，也没有一个绝对的标准。通常认为

14、大于10即存在多重共线性，大于30表明存在严重多重共线性。大多数统计软件提供此检验值。,4. 使用VIF检验 VIF是方差膨胀因子的英文 (Variance Inflation Factors) 缩写, 这是一种比较正规的检验方法。该方法通过检查指定的解释变量能够被回归方程中其它全部解释变量所解释的程度来检测多重共线性。,方程中每个解释变量有一个VIF，该VIF是关于多重共线性使相应的系数估计值的方差增大了多少的一个估计值。高VIF表明多重共线性增大了系数估计值的方差，从而产生一个减小了的t值。,VIF检验的具体步骤如下：设原方程为： Y = 0 + 1X1 + 2X2 + + kXk +

15、u 我们需要计算K个不同的VIF，每个Xi一个。为指定Xi计算VIF涉及以下三步：（1）Xi 对原方程中其它全部解释变量进行OLS回归，例如，若i =1，则回归下面的方程： X1 = 1 + 2X2 + 3X3 + + kXk +v （2）计算方差膨胀因子(VIF)：其中Ri2是第一步辅助回归的决定系数。,（3）分析多重共线性的程度 VIF越高, 多重共线性的影响越严重。由于没有VIF临界值表，我们只能使用经验法则：若，则存在严重多重共线性。也有人建议用VIF10作为存在严重多重共线性的标准, 特别在解释变量多的情形应当如此。需要指出的是，所有VIF值都低，并不能排除严重多重共线

16、性的存在，这与使用相关系数矩阵检验的情况相似。,四解决多重共线性的方法思路；加入额外信息。具体方法有以下几种：增加数据对模型施加某些约束条件删除一个或几个共线变量将模型适当变形,1增加数据多重共线性实质上是数据问题，因此，增加数据就有可能消除或减缓多重共线性，具体方法包括增加观测值、利用不同的数据集或采用新的样本。,例：需求函数Yt = 1+2Xt+3Pt+ ut 在时间序列数据中，收入（X）和价格（P）往往是高度相关的，用时间序列数据估计往往会产生多重共线性。然而，在横截面数据中，则不存在这个问题，因为某个特定时点P为常数。如果取一横截面样本（如从5000个家庭取得的数据），则可用来估计 Yi = 1+2Xi+ ui 然后将得到的估计值作为一个约束条件（2 = ）施加于时间序列数据的回归计算中，即估计 Yt - Xt

展开阅读全文