双变量线性回归模型(计量经济学西财任栋)

上传人:F****n 文档编号:88213177 上传时间:2019-04-21 格式:PPT 页数:78 大小:929KB
返回 下载 相关 举报
双变量线性回归模型(计量经济学西财任栋)_第1页
第1页 / 共78页
双变量线性回归模型(计量经济学西财任栋)_第2页
第2页 / 共78页
双变量线性回归模型(计量经济学西财任栋)_第3页
第3页 / 共78页
双变量线性回归模型(计量经济学西财任栋)_第4页
第4页 / 共78页
双变量线性回归模型(计量经济学西财任栋)_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《双变量线性回归模型(计量经济学西财任栋)》由会员分享,可在线阅读,更多相关《双变量线性回归模型(计量经济学西财任栋)(78页珍藏版)》请在金锄头文库上搜索。

1、第三章 双变量线性回归模型,(简单线性回归模型) (Simple Linear Regression Model),这意味着 Y = + X (1) 我们写出计量经济模型 如下 Y = + X + u (2) 其中 u = 扰动项或 误差项 Y为因变量或被解释变量, X为自变量或解释变量。 .和 为未知参数。,第一节 双变量线性回归模型的估计,一、 双变量线性回归模型的概念,设 Y = 消费, X = 收入, 我们根据数据画出散点图如下,(3)式称为双变量线性回归模型或简单线性回归模型或一元线性回归模型。其中 和 为未知的总体参数,也称为回归模型的系数( coefficients)。 下标 i

2、是观测值的序号。,设我们有Y和X的n对观测值数据,则根据(2)式,变量Y的每个观测值应由下式决定:,Yi = + Xi + ui , i = 1, 2, .,n (3),当数据为时间序列时,往往用下标 t来表示观测值的序号,从而(3)式变成 Yt = + Xt + ut , t = 1, 2, .,n (3*),二、 普通最小二乘法(OLS法, Ordinary Least squares),这个优良的、探索经济变量间数量规律的方法正是本章介绍的最小二乘法。由最小二乘法所得的、表现变量之间线性关系的直线有些什么特性?用此直线代表所有观察点可靠吗?怎样衡量此直线的可靠性?如何运用所得变量的线性关

3、系回归(最小二乘)方程?,(一)关于最小二乘法的历史回顾,最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)达尔文的表弟所创。早年,道尔顿致力于化学和遗传学领域的研究。道尔顿研究英国男子中父亲们的身高与儿子们的身高之间的关系时,创立了回归分析法。,1. F.Gallton关于父亲们的身高与儿子们的身高之间关系的研究,1889年F.Gallton和他的朋友K.Pearson收集了1078个家庭的身高、臂长和腿长的记录。企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式。,“回归”一词的由来:从家庭的散点图可看出,个子高的父亲确有生出个子高的儿子的倾向,同

4、样地,个子矮的父亲确有生出个子矮的儿子的倾向。得到的具体规律如下:高的后代伸进天,矮的后代缩入地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高是回复于全体男子的平均身高,即“回归”见1889年F.Gallton的论文普用回归定律。后人将此种方法普遍用于寻找变量之间的规律。,2. 最小二乘法的地位与作用,(1)现在回归分析法已远非道尔顿的本意(儿子身高向平均身高回归,以保持种族身高的稳定性),已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。 (2)后来,回归分析法从其方法的数学原理残差平方和最小(平方乃二乘也)出发,改称为最小二乘法

5、。,(二)最小二乘法的思路,1为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以“点”概面(作到同步与全面)。,2Y与X之间是否是直线关系(用协方差或相关系数衡量)?若是,将用一条直线描述它们之间的关系。,3在Y与X的散点图上找出一条能够最好地描述Y与X(代表所有点)之间关系的直线。,4什么是最好?找出判断“最好”的原则。 最好指的是找这么一条直线,使得所有点到该直线的纵向距离的和(平方和)最小。,我们的模型是: Yt = + Xt + ut , t = 1, 2, .,n 这里 .和 为未知总体参数,下一步的任务是应用统计学的方法,由Y和X的观测值(即样本数据)来估

6、计.和 的总体值,常用的估计方法就是最小二乘法。为了应用最小二乘法,得到好的估计量,双变量线性回归模型需要满足一些统计假设条件,这些统计假设是:,1. 双变量线性回归模型的统计假设,(三)最小二乘法原理,(1). E(ut) = 0, t= 1, 2, .,n 即各期扰动项的均值(期望值)为0. (2). COV(ui, uj) = E(ui, uj) = 0 i j 即各期扰动项互不相关. (3). Var(ut ) = E(ut2 ) = 2 , t= 1, 2, .,n 即各期扰动项方差是一常数. (4). 解释变量Xt 为非随机量 即Xt的取值是确定的, 而不是随机的. (5). ut

7、 N( 0, 2 ) , t= 1, 2, .,n 即各期扰动项服从正态分布. 满足条件(1)-(4)的线性回归模型称为古典线性回归模型 (CLR模型),双变量线性回归模型的统计假设,我们的任务是, 在给定X和Y的一组观测值 (X1, Y1), (X2, Y2) , ., (Xn, Yn) 的情况下, 如何求出 Yt = + Xt + ut 中 和 的估计值,使得拟合的直线为最佳。,2.最小二乘原理,直观上看,也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线,如下图所示。,拟合的直线 称为拟合的回归线. 对于任何数据点 (Xt, Yt), 此直线将Yt 的总值 分成两部分。 第一部

8、分是Yt的拟合值或预测值 : , t=1,2,n 第二部分,et 代表观测点对于回归线的误差,称为拟合或预测的残差 (residuals): t=1,2,n 即 t=1,2,n,残差,我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使各残差尽可能地小。要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测度是残差平方和,即 最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择 和 ,使得,如何决定估计值 和 ?,运用微积分知识,使上式达到最小值的必要条件为:,即,达到最小值。,整理,得:,此二

9、式称为正规方程。解此二方程,得:,.,其中:,离差,样本均值,估计量,拟合直线的性质,1. 残差和为零,2. Y的真实值和拟合值有共同的均值,3. 残差与自变量不相关,4. 残差与拟合值不相关,3 例子,例1 对于第一段中的消费函数,若根据数据得到: n = 10 , =23, =20,则有,因而,例2 设Y和X的5期观测值如下表所示,试估计方程 Yt = + Xt + ut 序号 1 2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解:我们采用列表法计算。计算过程如下:,表31,估计方程为:,又解表32,对于满足统计假设条件(1)-(4)的线性回归模型

10、 Yt = + Xt + ut , ,普通最小二乘估计量 ( OLS估计量) 是最佳线性无偏估计量(BLUE)。 或 对于古典线性回归模型(CLR模型)Yt=+Xt ,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE)。,3. 高斯-马尔柯夫定理(Gauss-Markov Theorem),我们已在前面证明了无偏性,此外,由于: 由上段结果, = 其中 这表明, 是诸样本观测值Yt(t=1,2,n)的线性函数,故 是线性估计量。 剩下的就是最佳性了,即 的方差小于等于的其他任何线性无偏估计量的方差,我们可以证明这一点,但由于时间关系,从略。有兴趣的同学请参见教科书(P45-47

11、),我们在前面列出的假设条件(5)表明, ut N( 0, 2 ) , t= 1, 2, .,n 即各期扰动项服从均值为0、方差为2的正态分布。 考虑到假设条件(4),即Xt为非随机量,则由前面结果: = 其中,,4. 和 的分布,这表明, 是N个正态分布变量u1,u2,,un的线性函数,因而亦为正态分布变量,即 类似的有: ,用最小二乘法得到的回归直线 至少从残差平方和为最小这一意义上来说是所有可能直线中最佳的拟合线。它是对Y和X之间关系的一种描述,但该直线是不是Y和X之间关系的一种恰当的描述呢?如果各观测点紧密地聚集在这条直线的周围,则表明该直线对Y和X之间关系的描述是好的;否则,用直线来

12、描述这两个变量之间的关系就未必恰当,如下图所示:,四、拟合优度的测度,1. 拟合优度(Goodness of fit)的概念,(a)恰当描述 (b)不恰当描述 图2-3,应该指出,对于任意两个变量的一组观测值,我们总是可以运用最小二乘法得到一条直线,问题是该直线能否较好地拟合所给定的观测值,这就是拟合优度问题。拟合优度是两变量之间关系强度的测度。在这里,指的是两变量间线性关系强度的测度。,让我们来考察一下Y的变差的组成情况。我们有Y的N个观测值,Y的总变差的一个测度是 ,Y的变差( )中有一部分是可以由X的取值变动所解释的,还有一部分是不能由X所解释的变差: Y的变差自变量X引起Y的变动部分除

13、X以外的因素引起Y的变动部分,2. Y的变差(离差)的组成,如下图所示:,对于第t个观测值,有:,由于,对于全部N项观测值平方求和,有:,其中,ESSExplained Sum of Squares RSSResidual Sum of Squares TSSTotal Sum of Squares,:总变差(TSS),度量Y自身的差异程度。TSS除以自由度n-1因变量的方差。,:回归变差(解释变差ESS),度量Y的拟合值自身的差异程度 ,ESS除以自由度k(自变量个数)=回归方差,度量由自变量的变化引起的因变量变化部分。,:度量实际值与拟合值之间的差异程度,称为残差变差。RSS除以自由度(n

14、-k-1)=残差(误差)方差,度量由非自变量的变化引起的因变量变化部分。,(1)决定系数R2 决定系数是反映估计的回归曲线对观测的数据的解释能力或者说是反映两者拟合优度的尺度。 我们将(8)式两端都除以总变差 ,得:,3.拟合优度的测度,用符号表示为: 决定系数 R2 计量了Y的总变差中可以归因于X和Y之间关系的比例,或者说Y的变动中可以由X的变动来解释的比例。它是回归线对各观测点拟合紧密程度的测度。,我们有: R2 =1:完全拟合, R2 =0:X与Y完全不存在线性关系, = R2的值越高,拟合得越好。但什么是高?回归中使用时间序列数据还是横截面数据有不同的标准。,(4)相关系数 r 由 R

15、2 很容易联想到我们在统计中学过的相关系数。相关系数r与决定系数的关系为: R2 =(r2),相关系数的计算公式为: 相关系数r也是拟合优度的测度,其符号取决于 的符号(即 的符号) 我们有: -1 r 1 r = 1:完全正相关 r = -1:完全负相关 r = 0:无线性关系,相关系数和决定系数的计算很简单,事实上,我们只要在原列表计算 的表格中加上一个计算 的栏目就行了。对于 我们前面的例子,列表计算得: = 154,因此: r = R2 =(0.9938)2 = 0.9876 它表明,在我们的例子中,X与Y存在着很强的线性关系,拟合甚佳,但由于观测点很少(5个),因而对此结论应持谨慎态度。,我们在上一节中已得出,在5条假设条件成立的情况下,有 与估计量相联系的概率分布的标准差,通常称为标准误差,用 Se表示。 的标准误差为:Se( ) = 如果为已知,则我们可以立即给出总体参数的95%的置信区间为: 1.96 或

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号