第二章 一元线性回归课件

上传人:我*** 文档编号:141121414 上传时间:2020-08-04 格式:PPT 页数:56 大小:244.50KB
返回 下载 相关 举报
第二章 一元线性回归课件_第1页
第1页 / 共56页
第二章 一元线性回归课件_第2页
第2页 / 共56页
第二章 一元线性回归课件_第3页
第3页 / 共56页
第二章 一元线性回归课件_第4页
第4页 / 共56页
第二章 一元线性回归课件_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《第二章 一元线性回归课件》由会员分享,可在线阅读,更多相关《第二章 一元线性回归课件(56页珍藏版)》请在金锄头文库上搜索。

1、Econometrics计 量 经 济 学,第二章 一元线性回归,2.1 最小二乘法的基本思想及参数估计,一、问题的提出必要性 如果两个变量之间存在线性变化关系,那么这种关系的具体表现形式是什么? 最好用数学表达式将这种关系尽可能准确、严谨的表示出来y=a+bx+u把它们之间的内在联系挖掘出来。也就是直线中的截距a=?;直线的斜率b=?,二、解决问题的思路可能性,寻找变量之间直线关系的方法很多。于是如何从众多方法中,寻找一种优良的方法求出线性模型y=a+bx+u中的截距a=?;直线的斜率b=? 根据该方法所得,即表现变量之间线性关系的直线有些什么特性? 所得直线可靠吗?怎样衡量所得直线的可靠性

2、?,三、最小二乘法的数学原理,纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。,数学推证过程,拟合直线的性质,拟合直线过Y和X的平均数点 估计残差和为零 Y的真实值和拟合值有共同的均值 估计残差与自变量不相关 估计残差与拟合值不相关,估计残差与自变量不相关,估计残差与拟合值不相关,2.2 线性回归模型的基本假设,自变量(解释变量)是非随机的确定性的变量,而且彼此之间不相关(对于多个自变量),即 解释

3、变量与随机误差项之间不相关。 随机误差项具有零均值和同方差,即 随机误差项之间不相关,即 (当样本容量趋于无强大时,由中心极限定理,对于任何实际模型都是满足),以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(Classical Linear Regression Model, CLRM)。,几个补充问题,(1)样本序列的正态性检验 检验样本序列的正态性可采用Jarque-Bera检验。该检验的零假设是样本服从正态分布,检验统计量为 其中m是产生样本序列时用到的估计系数的个数。在零假设下JB统计量服从2(2) 分布。,Jarque-

4、Bera检验 总体分布的正态性检验一般采取Jarque-Bera检验。正态分布的偏度(三阶矩)S=0,峰度(四阶矩)K=3,若样本来自正态总体,则他们分别在0,3附近。基于此构造一个包含x2(卡方)统计量: n为样本容量,k为自由度. Jarque和Bera证明了在正态性假定下,如果J-B统计量的相伴概率值小于设定的概率水平,则拒绝原假设,不认样本概率服从正态分布;反之,则接受原假设。 Matlab实现:h=jbtest(female(2,:); %正态性检验 若h=0 接受正态性假设 Matlab命令:h =jbtest(x),h,p,jbstat,cv =jbtest(x,alpha)。,

5、例如:样本序列取2002年我国30个地区以1978年为基衡量的实际人均GDP,采用Eviews软件计算有 S2.32 K=8.53 JB=65.29 p-value=0.00 则2002年各地区人均GDP呈现右偏、尖峰的分布形态,并且在99%的置信水平下拒绝零假设,即序列不服从正态分布。,(2)检验的显著性水平 虚拟假设:H0;对立假设:H1。在假设检验中存在两类错误:拒绝一个其实是真的虚拟假设,即第类错误;第 类错误是指H0实际上是错误的,但没有拒绝它。 检验的显著性水平(significance level)则定义为第类错误的概率,用符号表示为: P(拒绝H0 | H0) 即当H0为真时拒

6、绝H0的概率。,(3)检验的p值 检验的p值(p-value)是指给定t统计量的观测值,能拒绝虚拟假设的最小显著性水平。小的p值是拒绝虚拟假设的证据。 例:df=40, t=1.85(检验统计量的数值),则针对双侧对立假设来检验虚拟假设 的p值为,以上p值意味着,如果虚拟假设正确,那么我们约有7.2%次观察到t统计量的绝对值至少和1.85一样大。可以看出, p值越小,对应的统计量值t应该越大,越可能拒绝H0。,面积0.0359,如果用表示检验的显著性水平(小数形式),那么p值时,则拒绝虚拟假设,否则在100 %显著性水平下,不能拒绝H0。 注意 (1) 对于线性回归方程,一般软件包报告了回归系

7、数及标准误,并且给出了针对双侧对立假设的p值,将其除以2,即可得到单侧对立假设的p值; (2) 随着样本容量的扩大,一般使用较小的显著性水平,以作为抵偿标准误越来越小的一种办法;对于小样本容量,可以接受较大的显著性水平,可以让大到0.20,2.3 最小二乘估计量的性质,当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。 考察标准 (1)线性性,即是否是另一随机变量的线性函数; (2)无偏性,即均值或期望值是否等于总体的真实值; (3)有效性,即是否在所有线性无偏估计量中具有最小方差。 这三个准则也称作估计量的小样本性质。拥有这类性质的估计

8、量称为最佳线性无偏估计量(best liner unbiased estimator, BLUE)。,当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质: (4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值; (5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值; (6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。,高斯马尔可夫定理(Gauss-Markov theorem) 在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。,最小二乘估计量,(1)线性性,即估计量 是Yi的线性组合,证:,

9、易知,故,同样地,容易得出,(2)无偏性,即估计量 的均值等于总体回归参数真值,(3)有效性(最小方差性,即在所有线性无偏估计量中,最小二乘估计量 具有最小方差,先求 的方差,证明最小方差性,其中,ci=ki+di,di为不全为零的常数,则容易证明,普通最小二乘估计量(ordinary least Squares Estimators)称为最佳线性无偏估计量(best linear unbiased estimator, BLUE),由于最小二乘估计量拥有一个“好”的估计量所应具备的小样本特性,它自然也拥有大样本特性。,如考察的 一致性,(4)随机误差项估计量的无偏性问题 由前面随机误差项 的

10、方差估计量为: 其中 为残差 通过变化可得:,2.4 一元线性回归模型的检验,一、模型的拟合优度检验,由最小二乘法所得直线究竟能够对这些点之间的关系加以反映吗?对这些点之间的关系或趋势反映到了何种程度? 必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。,(1)平方和的分解,(a)总平方和(TSS)、回归平方和(ESS)、残差平方和(RSS)的定义 (b)平方和的分解 (c)自由度的分解,(a)总平方和、回归平方和、残差平方和,TSS为总体平方和,反映样本观测值总体离差的大小;ESS为回归平方和,反映由模型中解释变量所解释的那部分离差的大小;RSS为残

11、差平方和,反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。,(b) 平方和的分解,平方和分解的意义,TSS=ESS+RSS 被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异) +除X以外的因素引起的变动(差异) 如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。,(c)自由度的分解,总自由度: dfT=n-1 回归自由度:dfE=k=1( k为自变量的个数) 残差自由度:dfR=n-k-1=n-2 自由度分解:dfT=dfR+dfE,(2) 拟合优度(或称判决定系数),拟合优度的定义: 意义:拟合优度越大,自变量对

12、因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。 取值范围:0-1,修正的,在应用过程中,如果在模型中增加一个解释变量,模型的解释功能增强了,回归平方和增大了, 也增大了。从而给人一个错觉:要使得模型拟合得好,就必须增加解释变量,但是在样本容量一定的情况下,增加解释变量必定使得自由度减少,于是实际应用中引进修正的决定系数 ,具体表达式为(其中n是样本容量,n-k-1n-1-1为残差平方和的自由度,n-1为总体平方和的自由度):,例子:收入与消费模型,例如在分析收入对消费的影响的模型中,任意增加一个变量,例如X1, 2, ,23,则 增加,F检验通过,但X系

13、数的t检验未通过。,(3) 拟合优度等于实际值与拟合值之间简单相关系数的平方,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否成立作出推断。即检验方程中的参数是否显著不为0,零假设如下 由于Yi服从正态分布,则有解释(回归)平方和(explained sum of squares) 而残差平方和(residual sum of squares),二、方程的显著性检验(F检验),由此构造统计量,F值小意味着X与Y之间(线性)关系很弱,而F值大意味X与Y之间(线性)关系很强。根据变量的样本观测值和估计值,计算F统计量的数值,给定一个显著性水平,查F分布表,若F大于临界值Fa(1,n-2)

14、,则拒绝零假设,则认为在显著性水平a下回归方程显著,反之则不显著,三、变量的显著性检验(t检验) 主要对多元线性回归模型而言,在方程的总体线性关系呈显著性时,并不能说明每个解释变量对被解释变量的影响是显著的,必须对每个解释变量进行显著性检验,以决定是否作为解释变量保留在模型中。其检验的思路与方程显著性检验相似,应用最为普遍的为t检验。 如果变量x显著与y线性相关的,则参数b应该是显著的。于是在变量的显著性检验中即检验零假设,构造检验用统计量: 统计量t服从自由度为n-2的t分布,对于给定的显著性水平 ,查t分布表,得临界值 若|t|小于临界值 ,则未通过检验,大于临界值则通过检验。,2.5 实

15、例与Eviews应用,例一 考察中国居民收入与消费支出的关系GDPP: 人均国内生产总值(1990年不变价) CONSP:人均居民消费 (以居民消费价格指数(1990=100)缩减)。,该两组数据是19782000年的时间序列数据(time series data), 拟建立如下一元回归模型 采用Eviews软件进行回归分析的结果见下表,模型构建,一般可写出如下回归分析结果:,(13.51) (53.47) R2=0.9927 F=2859.23 DW=0.5503,模型检验,R2=0.9927 T值:C:13.51, GDPP:53.47 临界值: t0.05/2(21)=2.08 斜率项:

16、00.38621,符合绝对收入假说,预测,2001年:GDPP=4033.1(元)(90年不变价) 点估计:CONSP2001=201.107 + 0.38624033.1 = 1758.7(元) 2001年实测的CONSP(1990年价):1782.2元, 相对误差: -1.32%。,例一 首席执行官(CEO)的薪水和净资产回报率,对于CEO构成的总体,薪水(salary)以千美元为单位,roe表示某个CEO的公司在过去三年里的平均净资产回报率,它被定义为纯收入占普通净资产的百分比。这样为了研究公司业绩和CEO薪水之间的关系,建立以下简单模型: salary=0+1roe+u,例一 首席执行官(CEO)的薪水和净资产回报率,利用来自Wooldridge(2003)中的数据集CEOSAL1.RAW的数据,采用Eviews进行回归得到以下结果: salary=963.191+18.501roe,例二

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号