2008级本科计量经济学--第一讲辅助参考课件

资源描述

《2008级本科计量经济学--第一讲辅助参考课件》由会员分享，可在线阅读，更多相关《2008级本科计量经济学--第一讲辅助参考课件（100页珍藏版）》请在金锄头文库上搜索。

1、第三章双变量线性回归模型,（简单线性回归模型）（Simple Linear Regression Model）,第一节双变量线性回归模型的估计第二节最小二乘估计量的性质第三节拟合优度的测度第四节双变量回归中的区间估计和假设检验第五节预测第六节有关最小二乘法的进一步讨论,第一节双变量线性回归模型的估计一. 双变量线性回归模型的概念设 Y = 消费, X = 收入, 我们根据数据画出散点图 Y * 这意味着 * Y = + X (1) * 写出计量经济模型 * Y = + X + u (2) * 其中 u = 扰动项或误差项 Y为因变量或被解释变量图1 X X

2、为自变量或解释变量和为未知参数,设我们有Y和X的n对观测值数据，则根据(2)式，变量Y的每个观测值应由下式决定： Yi = + Xi + ui , i = 1, 2, .,n (3) (3)式称为双变量线性回归模型或简单线性回归模型。其中和为未知的总体参数，也称为回归模型的系数（ coefficients）。下标 i是观测值的序号。当数据为时间序列时，往往用下标 t来表示观测值的序号，从而（3）式变成 Yt = + Xt + ut , t = 1, 2, .,n (3),为何要在模型中包括扰动项u 我们在上一章中已初步介绍了为什么要在模型中包括扰动项u，下面进一步说明之：（1）真正

3、的关系是Y = f (X1， X2， )，但X2, X3, 相对不重要，用u代表之。（2）两变量之间的关系可能不是严格线性的，u反映了与直线的偏差。（3）经济行为是随机的，我们能够用 Y=+X 解释“典型”的行为，而用u来表示个体偏差。（4）总会出现测量误差，使得任何精确的关系不可能存在。,二. 普通最小二乘法(OLS法, Ordinary Least squares) 1.双变量线性回归模型的统计假设我们的模型是： Yt = + Xt + ut , t = 1, 2, .,n 这里和为未知总体参数，下一步的任务是应用统计学的方法，由Y和X的观测值（即样本数据）来估计和的总体值

4、，常用的估计方法就是最小二乘法。为了应用最小二乘法，得到好的估计量，双变量线性回归模型需要满足一些统计假设条件，这些统计假设是：,双变量线性回归模型的统计假设 (1). E(ut) = 0, t= 1, 2, .,n 即各期扰动项的均值(期望值)为0. (2). E(uiuj) = 0 i j 即各期扰动项互不相关. (3). E(ut2 ) = 2 , t= 1, 2, .,n 即各期扰动项方差是一常数. (4). 解释变量Xt 为非随机量即Xt的取值是确定的, 而不是随机的. (5). ut N( 0, 2 ) , t= 1, 2, .,n 即各期扰动项服从正态分布。,下面简单讨论一下上

5、述假设条件。（1）E(ut) = 0, t=1,2,n 即各期扰动项的均值（期望值）均为0。均值为0的假设反映了这样一个事实：扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响。没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小。因此扰动项均值为0的假设是合理的。,（2）E(uiuj) = 0, ij 即各期扰动项互不相关。也就是假定它们之间无自相关或无序列相关。实际上该假设等同于： cov( ui, uj) = 0, ij 这是因为：cov(ui, uj) = Eui - E(ui)uj - E(uj) = E(uiuj) 根据假设（1）,（3）E(ut2)= 2,

6、t=1,2,n 即各期扰动项的方差是一常数，也就是假定各扰动项具有同方差性。实际上该假设等同于： Var( ut) = 2, t=1,2,n 这是因为： Var(ut)=Eut-E(ut)2= E(ut2) 根据假设（1）,（4） Xt为非随机量即Xt的取值是确定的, 而不是随机的。事实上，我们后面证明无偏性和时仅需要解释变量X与扰动项u不相关，但不容易验证之，因而通常采用非随机量的假设。（5）ut N( 0, 2 ) , t= 1, 2, .,n 即扰动项服从正态分布。满足条件（1）（4）的线性回归模型称为古典线性回归模型（CLR模型）。,2.最小二乘原理我们的任务是，在给定X

7、和Y的一组观测值 (X1 , Y1), (X2 , Y2) , ., (Xn , Yn) 的情况下, 求出 Yt = + Xt + ut 中和的估计值和 , 使得拟合的直线为最佳。直观上看，也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线，如下图所示。,* * * * * et * * * * * * * * * * * *,Y,X,Xt,图 2,Yt,残差拟合的直线称为拟合的回归线. 对于任何数据点 (Xt, Yt), 此直线将Yt 的总值分成两部分。第一部分是Yt的拟合值或预测值： , t=1,2,n 第二部分，et ，代表观测点对于回归线的误差，称为拟合或预

8、测的残差（residuals）： t=1,2,n 即 t=1,2,n,15,残差平方和我们的目标是使拟合出来的直线在某种意义上是最佳的，直观地看，也就是要求估计直线尽可能地靠近各观测点，这意味着应使残差总体上尽可能地小。要做到这一点，就必须用某种方法将每个点相应的残差加在一起，使其达到最小。理想的测度是残差平方和，即,最小二乘法最小二乘法就是选择一条直线，使其残差平方和达到最小值的方法。即选择和，使得,达到最小值。,运用微积分知识，使上式达到最小值的必要条件为：,即,整理，得：,此二式称为正规方程。解此二方程，得：,其中：,样本均值离差,（5）式和（6）式给出了OLS法计算和的

9、公式，和称为线性回归模型 Yt = + Xt + ut 的参数和的普通最小二乘估计量 (OLS estimators）。这两个公式可用于任意一组观测值数据，以求出截距和斜率的OLS估计值（estimates)，估计值是从一组具体观测值用公式计算出的数值。一般说来，好的估计量所产生的估计值将相当接近参数的真值，即好的估计值。可以证明，对于CLR模型，普通最小二乘估计量正是这样一个好估计量。,3 例子,例1 估计自变量X，因变量Y，若根据数据得到： n = 10 , =23, =20,则有,因而,例2 设Y和X的5期观测值如下表所示，试估计方程 Yt = + Xt + ut 序号 1

10、2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解：我们采用列表法计算。计算过程如下：,110,150,0,0,390,1000,估计方程为,第二节最小二乘估计量的性质一. 和的均值,由于,从而,即两边取期望值，有：假设（4） = 假设（1）这表明，是的无偏估计量。在证明无偏性的过程中, 我们仅用到(1)和(4)两条假设条件。,由，我们有：,即是的无偏估计量。,二. 和的方差根据定义由无偏性,我们有：,两边取期望值，得：,由于根据假设（3）根据假设（2）所以,即,与此类似，可得出,三. 高斯-马尔柯夫定理（Gauss-

11、Markov Theorem）对于满足统计假设条件(1)-(4)的线性回归模型 Yt = + Xt + ut , ，普通最小二乘估计量 ( OLS估计量) 是最佳线性无偏估计量（BLUE, The Best Linear Unbiased Estimator）。或对于古典线性回归模型（CLR模型） Yt= + Xt + ut ，普通最小二乘估计量（OLS估计量）是最佳线性无偏估计量（BLUE）。,我们已在前面证明了无偏性，此外，由于：由上段结果， = 其中这表明，是诸样本观测值Yt（t=1,2,n）的线性函数，故是线性估计量。剩下的就是最佳性了，即的方差小于等于的其他任何线性

12、无偏估计量的方差，我们可以证明这一点，但由于时间关系，从略。有兴趣的同学请参见教科书 P46-47。,四、和的分布我们在前面列出的假设条件（5）表明， ut N( 0, 2 ) , t= 1, 2, .,n 即各期扰动项服从均值为0、方差为2的正态分布。考虑到假设条件（4），即Xt为非随机量，则由前面结果： = 其中，,这表明，是N个正态分布变量u1，u2，,un的线性函数，因而亦为正态分布变量，即类似的有： ,第三节拟合优度的测度一、拟合优度(Goodness of fit)的概念用最小二乘法得到的回归直线至少从残差平方和为最小这一意义上来说是所有可能直线中最佳的拟合线。

13、它是对Y和X之间关系的一种描述，但该直线是不是Y和X之间关系的一种恰当的描述呢？如果各观测点紧密地聚集在这条直线的周围，则表明该直线对Y和X之间关系的描述是好的；否则，用直线来描述这两个变量之间的关系就未必恰当，如下图所示：,（a）恰当描述（b）不恰当描述图2-3,应该指出，对于任意两个变量的一组观测值，我们总是可以运用最小二乘法得到一条直线，问题是该直线能否较好地拟合所给定的观测值，这就是拟合优度问题。拟合优度是两变量之间关系强度的测度。在这里，指的是两变量间线性关系强度的测度。如果所有观测值都落在回归直线上，则称为“完全拟合”，这种情况是罕见的。在一般情况下，总会出现正负残差（et）

14、，通过对这些残差的分析，有助于衡量回归直线拟合样本数据点的程度。,二、Y的变差的组成让我们来考察一下Y的变差的组成情况。我们有Y的N个观测值，Y的总变差的一个测度是，Y的变差（）中有一部分是可以由X的取值变动所解释的。还有一部分是不能由X所解释的变差，如下图所示：,对于第t个观测值，有：对于全部N项观测值平方求和，有：,(7),由于,（7）式中最后一项变为：,由(1)式、(2)式（书P41 3.8 和3.9式）和残差的定义，显然有：和因此，（7）式中最后一项为0，我们得到如下结果：（8）即总变差 = 由X解释的变差 + 未解释变差,三. 拟合优度的测度 1. 决定系数不难看出，总变差中由X解释的变差比例越大，则就越小，各观测值聚集在回归直线周围的紧密程度就越大，说明直线与观测值的拟合越好。我们将（8）式两端都除以总变差，得：并定义决定系数(coefficient of determination) 为： = =

展开阅读全文