计量经济学第二章-经典线性回归模型课件

上传人:F****n 文档编号:88292409 上传时间:2019-04-23 格式:PPT 页数:118 大小:854.50KB
返回 下载 相关 举报
计量经济学第二章-经典线性回归模型课件_第1页
第1页 / 共118页
计量经济学第二章-经典线性回归模型课件_第2页
第2页 / 共118页
计量经济学第二章-经典线性回归模型课件_第3页
第3页 / 共118页
计量经济学第二章-经典线性回归模型课件_第4页
第4页 / 共118页
计量经济学第二章-经典线性回归模型课件_第5页
第5页 / 共118页
点击查看更多>>
资源描述

《计量经济学第二章-经典线性回归模型课件》由会员分享,可在线阅读,更多相关《计量经济学第二章-经典线性回归模型课件(118页珍藏版)》请在金锄头文库上搜索。

1、第二章 经典线性回归模型,(Classical Linear Regression Model),第一节 线性回归模型的概念 第二节 线性回归模型的估计 第三节 拟合优度 第四节 非线性关系的处理 第五节 假设检验 第六节 预测 第七节 虚拟变量,第一节 线性回归模型的概念 一. 双变量线性回归模型,我们在上一章给出的需求函数的例子 Q =+P + u (2.1) 是一个双变量线性回归模型,模型中只有两个变量,一个因变量,一个解释变量,由解释变量的变动来解释因变量的变动,或者说用因变量对解释变量进行线性回归,因而称为双变量线性回归模型,亦称简单线性回归模型。让我们再看一个例子。 C =+D +

2、 u (2.2) 这是凯恩斯消费函数,其中C为消费支出,D为个人可支配收入,u为扰动项(或误差项)。,此模型中,方程左端的消费支出(C)为因变量(或被解释变量),方程右端的个人可支配收入(D)为解释变量(或自变量)。和是未知参数,由于双变量线性回归模型的图形是一条直线,因而和习惯上又分别称为截距和斜率。这里斜率的含义是解释变量增加一个单位所引起的因变量的变动。例如在(2.2)式中,的含义是个人可支配收入增加一个单位所引起的消费的增加量,经济学中称之为边际消费倾向(MPC)。截距的含义是解释变量为0时的值。截距有时有经济含义,但大多数情况下没有,因此,在计量经济分析中,通常不大关注的取值如何。,

3、在教学中,我们习惯上采用Y表示因变量,X表示解释变量,双变量线性回归模型的一般形式为: Y =+X + u 在实践中,此模型被应用于因变量和解释变量的一组具体观测值 和 (t=1,2,n),因而模型表示为: =+ + ut t =1,2,n (2.3) 它表明,对于n个时期t =1,2,n,该模型成立。更一般的形式为: = + + ui , i = 1, 2, .,n (2.4) 即模型对X和Y的n对观测值(i=1,2,n)成立。 (2.3)式一般用于观测值为时间序列的情形,在横截面数据的情形,通常采用(2.4) 式。,二、 多元线性回归模型 在许多实际问题中,我们所研究的因变量的变动可能不仅

4、与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型: t=1,2,n 在这个模型中,Y由X1、X2、X3、 XK所解释,有K+1个未知参数0、1、2、K 。 这里,“斜率”j的含义是其它变量不变的情况下,Xj改变一个单位对因变量所产生的影响。,例2.2 食品需求方程 其中,Y=在食品上的总支出 X=个人可支配收入 P=食品价格指数 用美国1959-1983年的数据,得到如下回归结果(括号中数字为标准误差):,Y和X的计量单位为10亿美元 (按1972不变价格计算).,多元线性回归模型中斜率系数的含义 上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上

5、升10亿美元(1个billion),食品消费支出增加1.12亿元(0.112个 billion)。 收入不变的情况下,价格指数每上升一个点, 食品消费支出减少7.39亿元(0.739个billion),回到一般模型 t=1,2, ,n 即对于n组观测值,有,其矩阵形式为: 其中,第二节 线性回归模型的估计 一经典线性回归模型的统计假设 (1)E(ut)=0, t=1,2,n 即各期扰动项的均值(期望值)均为0。均值为0的假设反映了这样一个事实:扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响。没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小。因此扰动项均值为0的假设是合理

6、的。,(2)E(ui uj)=0, ij 即各期扰动项互不相关。也就是假定它们之间无自相关或无序列相关。 实际上该假设等同于: cov( ui, uj) = 0, ij 这是因为: cov(ui, uj) = Eui - E(ui)uj - E(uj) = E(uiuj) 根据假设(1) (3)E(ut2)=2, t=1,2,n 即各期扰动项的方差是一常数,也就是假定各扰动项具有同方差性。 这是因为: Var(ut)=Eut-E(ut)2= E(ut2) 根据假设(1),(4)Xjt是非随机量, j=1,2, k t=1,2, n (5)(K+1) n; 即观测值的数目要大于待估计的参数的个数

7、 (要有足够数量的数据来拟合回归线)。 (6)各解释变量之间不存在严格的线性关系。 上述假设条件可用矩阵表示为以下四个条件:,A1. E(u)=0 A2. 由于 显然, 仅当 E(ui uj)=0 , ij E(ut2) = 2, t=1,2,n 这两个条件成立时才成立,因此, 此条件相当前面条件(2), (3)两条,即各期扰动项互不相关,并具有常数方差。,A3. X 是一个非随机元素矩阵。 A4. Rank(X) = (K+1) n. -相当于前面 (5) (6) 两 条 即矩阵X的秩 =(K+1) n 满足条件(A1)(A4)的线性回归模型称为经典线性回归模型或古典线性回归模型(CLR模型

8、)。 当然,为了后面区间估计和假设检验的需要,还要加上一条: A5.各期扰动项服从正态分布。 ,t=1,2,n,二、最小二乘估计 1. 最小二乘原理 为了便于理解最小二乘法的原理,我们用双 变量线性回归模型作出说明。 对于双变量线性回归模型Y = +X + u, 我们 的任务是,在给定X和Y的一组观测值 (X1 , Y1), (X2 , Y2) , ., (Xn , Yn) 的情况下, 如何求出 Yt = + Xt + ut 中 和 的估计值 和 , 使得拟合的直线为“最佳”。 直观上看,也就是要求在X和Y的散点图上穿 过各观测点画出一条“最佳”直线,如下图所示。,* * * * * et *

9、 * * * * * * * * * * *,Y,X,Xt,图 2.2,Yt,残差 拟合的直线 称为拟合的回归线. 对于任何数据点 (Xt, Yt), 此直线将Yt 的总值 分成两部分。 第一部分是Yt的拟合值或预测值 : , t=1,2,n 第二部分,et ,代表观测点对于回归线的误差,称为拟合或预测的残差 (residuals): t=1,2,n 即 t=1,2,n,残差平方和 我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使残差总体上尽可能地小。要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测

10、度是残差平方和,即,最小二乘法 最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择 和 ,使得,达到最小值。,运用微积分知识,使上式达到最小值的必要条件为:,即,整理,得:,此二式称为正规方程。解此二方程,得:,其中:,样本均值 离差,2多元线性回归模型的最小二乘估计 在多元线性回归模型的情况下,我们的模型是: 问题是选择 ,使得残差平方和最小。 残差为:,要使残差平方和 为最小,则应有: 我们得到如下K+1个方程(即正规方程):,按矩阵形式,上述方程组可表示为:,=,即,三. 最小二乘估计量 的性质 我们的模型为 估计式为 1 的均值,(由假设3) (由假设1),即 这表明,

11、OLS估计量 是无偏估计量。,2 的方差 为求Var( ),我们考虑,不难看出,这是 的方差-协方差矩阵,它是一个(K+1)(K+1)矩阵,其主对角线上元素为各系数估计量的方差,非主对角线上元素为各系数估计量的协方差。,由上一段的(2.19)式,我们有 因此,请注意,我们得到的实际上不仅是 的方差,而且是一个方差-协方差矩阵,为了反映这一事实,我们用下面的符号表示之:,为方便起见,我们也常用 表示 的方差-协方差矩阵,因此上式亦可写作:,需要注意的是,这里 不表示方差向量,而是方差-协方差矩阵。,4 高斯-马尔科夫定理 对于 以及标准假设条件A1A4,普通最小二乘估计量(OLS估计量)是最佳线

12、性无偏估计量(BLUE)。 我们已在上一段中证明了无偏性,下面证明线性和最小方差性。,由OLS估计量 的公式 可知, 可表示为一个矩阵和因变量观测值向量 的乘积: 其中 是一个 (K+1)*n 非随机元素矩阵。 因而 是线性估计量。,现设 为 的任意一个线性无偏估计量,即 其中 是一个(K+1)*n非随机元素矩阵。则 显然,若要 为无偏估计量,即 ,只有 , 为(K+1)阶单位矩阵。,的方差为: 我们可将 写成 从而将 的任意线性无偏估计量 与OLS估计量 联系起来。,由 可推出: 即 因而有 由 从而 ,因此上式中间两项为0,我们有,因此 最后的不等号成立是因为 为半正定矩阵。这就证明了OL

13、S估计量 是 的所有线性无偏估计量中方差最小的。 至此,我们证明了高斯-马尔科夫定理。,4 的分布 我们在前面列出的假设条件(A5)表明, N (0, ), t=1,2,n 即各期扰动项服从均值为0、方差为 的正态分布。 考虑到假设条件(A3),即 是一个非随机元素矩阵,则由前面(2.20)式: 我们有:,这表明, 是N个正态分布变量 的线性函数,因而亦为正态分布变量,即 (2.22) 由此可知,系数估计量向量的每个元素都是正态分布的,即 j0,1,k (2.23) 其中cjj为矩阵中 的(j1, j1)元素(主对角线上第j1个元素)。,第三节 拟合优度 一决定系数R2 在估计了线性回归模型之

14、后,一个很自然的问题是,估计出的回归线与观测值拟合得好不好?这就是拟合优度要解决的问题。拟合优度的一个通行的测度是因变量Y的(样本)变差被模型所解释的比例,也就是因变量Y的变差被诸解释变量所解释的比例。这个统计量称为决定系数(coefficient of determination),记做 ,定义为:,其中, =残差平方和,ESS为Explained Sum of Squares的缩写; RSS为Residual Sum of Squares的缩写; TSS为Total Sum of Squares的缩写。,决定系数 R2 计量了Y的总变差中可以归因于X和Y之间关系的比例,或者说Y的变动中可以由X的变动来解释的比例。它是回归线对各观测点拟合紧密程度的测度。 我们有: : 完全拟合, :X与Y完全不存在线性关系,,的值越高,拟合得越好。但什么是高?并没有绝对的标准,要根据具体问题而定。此外,回归中使用时间序列数据还是横截面数据也有不同的标准。对时间序列数据来说, 的值在0.8、0.9 以上是很常见的事, 而在横截面数据的情况下,0.4、0.5的 值也不能算低。 为方便计算,我

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号