计量经济学-第三章-多元线性回归的简化模型

资源描述

《计量经济学-第三章-多元线性回归的简化模型》由会员分享，可在线阅读，更多相关《计量经济学-第三章-多元线性回归的简化模型（65页珍藏版）》请在金锄头文库上搜索。

1、第三章经典单方程计量经济学模型：多元线性回归模型,第一节为何要用多元模型,考虑下面的例子：某人试图解释一个人的工资水平的决定，为此，他找到的解释变量为受教育水平，于是他构造了如下的计量模型： wagei=+edui+i （1）这里：wagei-第i个人的工资水平，edui第i个人的受教育水平，i-随机扰动项。考虑一下，如果要满足最基本的一致性，这个模型有何缺陷？,分析：显然，除受教育水平外，影响工资水平的还有一个人的工作经历。而工作经历则与受教育水平又相关。,压力仅是砖头1的吗？,砖头1,砖头2,如果为了测定砖头1对桌面的压力，应如何做呢？,解决办法：只要在模型（1）中加入新的变量

2、即可，即模型变成如下形式： wagei=+1edui+2 experi+i （2）这里：experi-第i个人的工作经历。,应用多元线性回归模型的几个原因：第一，即使我们所关注的仅是一个解释变量X1对被解释变量Y的影响，但如果还存在其它解释变量X2、X3等也对Y有影响，且同时与X1相关，那么此时就应将X2、X3等一并引入模型，即建立如下新模型： Yi=+1X1i+ 2X2i+ 3X3i+i （3）,第二，提高预测准确度。如果我们要试图解释被解释变量Y的波动，显然，引入更多的解释变量可以使解释更准确，即预测Y更准确。第三，提高假设检验中所用“仪器”的准确度。比如，有时一个因素虽然与已有的

3、解释变量无关，但你不将其“揪出来”放到模型中去，而将它看作随机扰动项的一部分，它就可能造成扰动项的异方差、自相关等问题。,需思考的问题,为什么只要加入另外一些与已有解释变量相关的新解释变量就可保证我们所关注参数的一致性呢？由于这些新加入的新解释变量与原解释变量是相关的，这不会对原解释变量的参数估计形成影响吗？如果直观的理解上述问题，留待后面章节。,第二节多元线性回模型的参数估计,1.基本模型设定 Yi=+1X1i+ 2X2i+ 3X3i+kXki+i （3）这里：Yi-被解释变量，Xji-第j(j=1，2 k）个解释变量， iN（0，2）。 2.要估计的参数、 1、 2、 3 k，还

4、有2。,特别要注意：第一，万不可忘记，我们同时要估计参数2。（回想一下，为什么？）第二，要估计的参数，并不一定是我们实际应用中所一定关注的参数。比如，实际中，我们可能只关注x1的参数1，因而其他参数估计的准确性，我们并不关心。,3.估计的方法普通最小二乘法（OLS）最大似然法（ML）广义矩估计（GMM）我们只关注OLS法。,4.最小二乘估计结果,要求：尽可能看懂课本P58-59页的推导过程；但必须要记住这个结果。,这里,这里，Y1、X11等是你调查所得的样本，我们即用它们进行估计。 X中的第一列全为1，记为向量I，它实际上指的是常数项后面的变量，显然无论你哪次调查，它都取1。,5

5、.多元线性回归模型的矩阵样本表达式 Y=X+ （5）这里：=（1， 2 n)T =(,1,2k),最小二乘法的几何解释,Y,X1,X2,e,含义：解释变量x1、x2组成一个向量空间，OLS法实际是在寻找被解释变量到这个空间的最短距离。,从图上可见，残差项e与解释变量、被解释变量的估计值均是垂直的。在统计上，垂直即表示不相关，或相关系数为0。,第三节估计参数的优劣与推断,一.模型估计出来后面临的两个问题（1）估计出的参数的“精确度”；（2）从实际应用来看，某一个或某几个解释变量是否真的对被解释变量具有重要影响。回忆一下，这与一元的情形是否相同？各自要做的具体工作是什么？,二.模型的假

6、设 1.一个完美多元模型的条件（1）回想一下，一元模型的条件有哪几条假设？（2）多元情形的条件各个解释变量之间不能完全相关（即不能出现某一个解释变量是另外其他解释变量线性组合的情形）,例如，为了研究一国的吉尼系数，某人在两部门经济中建立了如下模型： jct=+1yt+2ct+ 3It+ t 这里：jc是t时期的吉尼系数，y、c、I分别为产出、消费与投资。试分析一下，这个模型有何问题？,扰动项无条件均值为0、扰动项同方差、扰动项序列不相关。即：E(i)=0，D (i)=2，cov(i,j)=0 （I,j=1,2n) 任何一个解释变量均与扰动项不相关。即：cov(Xji,j)=0,i=

7、1k；j=1n 注意，这里的不相关，指的是样本意义上的。扰动项服从正态分布。此条在大样本情形下可以不考虑，实际应用中，大部分情况下不予考虑。,2.满足上述条件的结果（1）用OLS法估计出的参数是：无偏、一致和有效的（2）所有的常规假设检验也是有效的。,要求：最好能了解一下课本P63页中关于估计参数性质的推导；但必须对上述两条记住。,三.估计参数的一致性问题 1.OLS估计的参数满足一致性的条件（1）再重复一次：一致性是对估计参数的最基本与实际应用中最通常的要求，但样本必须足够大。（2）所有的关于无偏、一致、有效的直观解释与一元的情形完全相同。（3）只要、两个假设成立，且样本数量足

8、够大，那么参数就会满足一致性。,（4）注意，这与课本有区别，课本要求各解释变量间不相关，实际只要不完全相关即可。 2.为何即使各个解释变量间存在一定程度相关，参数仍会满足一致性呢？数学解释：,注：最后一步利用大数定律。,直观解释：首先，一致性要求的是，随着调查样本容量的增大，我们的参数估计量具有“越来越靠近”真实值的特征，或统计意义上说，具有偏离真实值的可能性越来越小的特征。而只要解释变量间不是完全相关，一般来说，随着样本容量的增大，我们总能发现关于所关注的解释变量对被解释变量进行解释的更多信息，或说将某一个解释变量的作用越来越清楚的分离出来，即对这个解释变量作用的认识越来越清晰，这就是一

9、致性。,四.假设检验问题 1.模型的形式及检验的内容（1）假定模型具有如下形式： Y=+1X1+ 2X2+ 3X3+kXk+（6）（2）与一元线性回归模型的区别假设检验多了一个对多个解释变量的联合显著性检验，即几个解释变量合起来，是否对被解释变量具有显著影响。即使对单个解释变量的显著性进行检验，T检验这个“仪器”的构造也有所不同了。也存在其他的参数检验形式，比如： 1+ 2是否为1,2.拟合优度或方程总体显著性检验（1）二者具有相当强的一致性，故一般检验均是针对于后者的，对于前者，只给出一个具体值。（2）检验目的：观察一下解释变量作为一个总体，是否对被解释变量的波动具有明显的影响

10、，或形成了显著的解释能力。,（3）拟合优度（可决系数）回想一下，一元线性回归模型是哪个指标？多元线性回归模型与一元的一样：,该统计量越接近于1，模型的拟合优度越高。,问题：在应用过程中发现，如果在模型中增加一个解释变量， R2往往增大（Why?) 这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。但是，现实情况往往是，由增加解释变量个数引起的R2的增大与拟合好坏无关，R2需调整。,直观解释：新引入的解释变量与原来的被解释变量无非只有两种关系：一是相关；二是无关。如果相关，那么说明新引入的解释变量对被解释变量具有解释能力，此时R2将增大；如果无关，说明没有解释能力，因而对原模

11、型的解释能力无影响，从而R2不变。,调整后的可决系数,其中：n-k-1为残差平方和的自由度，n-1为总体平方和的自由度。在eviews估计结果中，是Adjusted R-squared这一指标，比通常的R2小，应用中可记作ADR。这里各个平方和、平方和关系，以及平方和的自由度必须记住,（4）解释变量联合显著性检验 H0： =1=2= =k=0（原假设） H1：、 j不全为0 （备择假设）所用“仪器”：,服从自由度为(k , n-k-1)的F分布,给定显著性水平，可得到临界值F(k,n-k-1)，由样本求出统计量F的数值，通过 F F(k,n-k-1) 或 FF(k,n-k-1) 来拒绝

12、或接受原假设H0。,直观解释,被解释变量的波动（总平方和）=已解释的被解释变量估计值的波动（回归平方和）+未解释的残差的波动（残差平方和），具体推导过程见课本66页。 “仪器”的构造思想是这样的：如果这些解释变量联合起来真的对被解释变量的波动具有显著的解释能力，那么，已解释的波动与未解释的波动之比应比较大。但无论是已解释的波动也好，未解释的波动也罢，这种波动受组成“仪器”的模块的可自由变动的随机变量个数的影响。显然，自由变动的随机变量越多，波动就越大，故要去掉这种个数所带来的影响。,小概率事件的判断,x,y,Y=f(x)：密度函数,F(k,n-k-1),想一下，这个小概率事件的面积所处位置可

13、以任意选择吗？为何选择尾部？,要从两点思考上述问题：一是直观上“仪器”的构造；二是“密度”的含义。,Eviews上的判断，见前页。,3.单个解释变量系数的显著性检验（1）检验目的：仍与一元的一样，看一下某一个解释变量是否对被解释变量真的具有重要影响？（2）检验原假设H0：i=0，i=1k。（3）检验所用的“准确”的“仪器”：,服从于标准正态分布。,这里,其直观含义是：你所调查的第i个解释变量的变异程度。也就是说，你调查的第i个解释变量样本的差异程度。比如，如果你在调查一个城市人群的消费行为时，如果你仅集中于某一个具有共同人群特征的小区，那么你的样本的差异程度就小。它所带来的问题是，如果

14、你研究的是一个城市的总体，那么实际你这样调查是得不到多少信息的。,R2i的含义是，第i个解释变量与其他解释变量之间的相关程度。可见，解释变量之间的相关程度虽不会影响参数估计的准确性，但会影响假设检验的有效性。,注：这个“仪器”须记住，与一元线性模型相比，多了什么？,（4）相对不太准确的“仪器” 即是用2的估计值来代替2。此时得到的“仪器”的分布，服从于自由度为n-k-1的T分布。,这里n是样本数量，k是解释变量的个数。,这个“仪器”也要记住,（5）检验的标准不太严格的来看，如果T的绝对值大于等于2，那么就可认为小概率事件发生，即拒绝原假设。它的经济含义就是说，第i个解释变量对被解释变量在统

15、计上有着显著的影响，即它是影响被解释变量的重要因素。,样本容量问题：一个原则是，样本越多越好，但最小不能小于未知参数的个数。见课本64页。,考虑一下，如果你试图提高T的值，有哪一些方法？,第四节非线性模型的线性化,回想一下，我们所说的“模型是线性的”指的是相对什么的？是相对于解释变量吗？还是相对于未知参数？要注意，未来我们学习的eviews软件，完全可以很方便的对非线性模型进行估计，所以，并非所有的非线性模型都必须先转化成线性模型。,在实际经济活动中，经济变量的关系是复杂的，直接表现为线性关系的情况并不多见。,如著名的恩格尔曲线(Engle curves)表现为幂函数曲线形式、宏观经济学中的菲利普斯曲线（Pillips cuves）表现为双曲线形式等。但是，大部分非线性关系又可以通过一些简单的数学处理，使之化为数学上的线性关系，从而可以运用线性回归的方法进行计量经济学方面的处理。,在实际经济活动中，经济变量的关系是复杂的，直接表现为线性关系的情况并不多见。,如著名的恩格尔曲线(Engle curves)表现为幂函数曲线形式、宏观经济学中的菲利普斯曲线（Pillips cuves）表现为双曲线形式等。但是，大部分非线性关系又可以通过一些简单的数学处理，使之化为数学上的线性关系，从而可以运用线性回归的方法进行计量经济学方面的处理。,一、模型的类型与变换,1、倒数模型、多

展开阅读全文