最小二乘法和线性回归

上传人:lizhe****0001 文档编号:48547095 上传时间:2018-07-17 格式:PPT 页数:90 大小:699.50KB
返回 下载 相关 举报
最小二乘法和线性回归_第1页
第1页 / 共90页
最小二乘法和线性回归_第2页
第2页 / 共90页
最小二乘法和线性回归_第3页
第3页 / 共90页
最小二乘法和线性回归_第4页
第4页 / 共90页
最小二乘法和线性回归_第5页
第5页 / 共90页
点击查看更多>>
资源描述

《最小二乘法和线性回归》由会员分享,可在线阅读,更多相关《最小二乘法和线性回归(90页珍藏版)》请在金锄头文库上搜索。

1、第二章最小二乘法(OLS) 和线性回归模型1本章要点 最小二乘法的基本原理和计算方法 经典线性回归模型的基本假定 BLUE统计量的性质 t检验和置信区间检验的原理及步骤 多变量模型的回归系数的F检验 预测的类型及评判预测的标准 好模型具有的特征2第一节 最小二乘法的基本属性 一、有关回归的基本介绍金融、经济变量之间的关系,大体上可以分为两种:(1)函数关系:Y=f(X1,X2,.,XP),其中 Y的值是由Xi(i=1,2.p)所唯一确定的。(2)相关关系: Y=f(X1,X2,.,XP) ,这里 Y的值不能由Xi(i=1,2.p)精确的唯一确定。3图2-1 货币供应量和GDP散点图4 图2-1

2、表示的是我国货币供应量M2(y)与经过季节调整的GDP(x)之间的关系(数据为1995年第一季度到2004年第二季度的季度数据)。5 但有时候我们想知道当x变化一单位时,y平均变化多少,可以看到,由于图中所有的点都相对的集中在图中直线周围,因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线,我们就可以用直线的斜率来表示当x变化一单位时y的变化程度,由图中的点确定线的过程就是回归。 6 对于变量间的相关关系,我们可以根据大量的统计资料,找出它们在数量变化方面的规律(即“平均”的规律),这种统计规律所揭示的关系就是回归关系(regressive relationship),所

3、表示的数学方程就是回归方程(regression equation)或回归模型(regression model)。7 图2-1中的直线可表示为 (2.1)根据上式,在确定、的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据式(2.1)得到的y值与实际的y值存在一个误差(即图2-1中点到直线的距离)。 8 如果我们以表示误差,则方程(2.1)变 为: 即: 其中t(=1,2,3,T)表示观测数。 (2.2)(2.3)式(2.3)即为一个简单的双变量回归模型(因其仅具有两个变量x, y)的基本形式。 9 其中yt被称作因变量(dependent variable)、被解释变量(exp

4、lained variable)、结果变量(effect variable); xt被称作自变量(independent variable)、解释变量(explanatory variable)、原因变量(causal variable)10 、为参数(parameters),或称回归系数(regression coefficients); t通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项, 在回归模型中它是不确定的,服从随机分布(相应的,yt也是不确定的,服从随机分布)。 11 为什么将t 包含在

5、模型中? (1)有些变量是观测不到的或者是无法度量的,又或者影响因变量yt的因素太多; (2)在yt的度量过程中会发生偏误,这些偏误在模型中是表示不出来的; (3)外界随机因素对yt的影响也很难模型化,比如:恐怖事件、自然灾害、设备故障等。12 二、参数的最小二乘估计 (一) 方法介绍 本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS); 最小二乘法的基本原则是:最优拟合直线应 该使各点到直线的距离的和最小,也可表述 为距离的平方和最小。 假定根据这一原理得到的、估计值为 、 ,则直线可表示为 。13 直线上的yt值,记为 ,称为拟合值( fitted v

6、alue),实际值与拟合值的差,记 为 ,称为残差(residual) ,可以看作是随机误差项 的估计值。 根据OLS的基本原则,使直线与各散点的距离的平方和最小,实际上是使残差 平方和(residual sum of squares, 简记 RSS) 最小,即最小化:RSS= = (2.4) 14 根据最小化的一阶条件,将式2.4分别对、求偏导,并令其为零,即可求得结果如下 :(2.5) (2.6) 15 (二)一些基本概念 1.总体(the population)和样本(the sample) 总体是指待研究变量的所有数据集合,可以 是有限的,也可以是无限的;而样本是总体 的一个子集。 2

7、、总体回归方程(the population regression function,简记PRF),样本回 归方程(the sample regression function, 简记SRF)。16 总体回归方程(PRF)表示变量之间的真实关系,有时也被称为数据生成过程( DGP),PRF中的、值是真实值,方程为:+(2. 7) 样本回归方程(SRF)是根据所选样本估算的变量之间的关系函数,方程为: 注意:SRF中没有误差项,根据这一方程得到 的是总体因变量的期望值(2.8) 17于是方程(2.7)可以写为: (2.9) 总体y值被分解为两部分:模型拟合值( )和残差项( )。18 3.线性关

8、系 对线性的第一种解释是指:y是x的线性函数 ,比如,y= 。 对线性的第二种解释是指:y是参数的一个 线性函数,它可以不是变量x的线性函数。 比如,y= 就是一个线性回归模型, 但 则不是。 在本课程中,线性回归一词总是对指参数为线性的一种回归(即参数只以一次方出现 ),对解释变量x则可以是或不是线性的。19 有些模型看起来不是线性回归,但经过一些 基本代数变换可以转换成线性回归模型。例 如, (2.10 ) 可以进行如下变换:(2.11) 令 、 、 ,则方程(2. 11)变为: (2.12) 可以看到,模型2.12即为一线性模型。 20 4.估计量(estimator)和估计值(esti

9、mate) 估计量是指计算系数的方程;而估计值是指估计出来的系数的数值。21 三、最小二乘估计量的性质和分布 (一) 经典线性回归模型的基本假设 (1) ,即残差具有零均值; (2)var ,即残差具有常数方差, 且对于所有x值是有限的; (3)cov ,即残差项之间在统计意义上是相互独立的; (4)cov ,即残差项与变量x无关; (5)tN ,即残差项服从正态分布22 (二)最小二乘估计量的性质 如果满足假设(1)(4),由最小二乘法得到的估计量 、 具有一些特性,它们是最优线性无偏估计量(Best Linear Unbiased Estimators,简记BLUE)。23 估计量(est

10、imator):意味着 、 是包含 着真实、值的估计量; 线性(linear):意味着 、 与随机变量y之间是线性函数关系; 无偏(unbiased):意味着平均而言,实际得到的 、 值与其真实值是一致的; 最优(best):意味着在所有线性无偏估计 量里,OLS估计量 具有最小方差。 24 (三) OLS估计量的方差、标准差和其概率分布 1.OLS估计量的方差、标准差。给定假设(1)(4),估计量的标准差计算方 程如下 :其中, 是残差的估计标准差。 (2.21) (2.22)25 参数估计量的标准差具有如下的性质: (1)样本容量T越大,参数估计值的标准差越小; (2) 和 都取决于s2。

11、 s2是残差的方差估计量。 s2越大,残差的分布就越分散,这样模型的不确定性也就越大。如果s2很大,这意味着估计直线不能很好地拟合散点;26 (3)参数估计值的方差与 成反比。 其值越小,散点越集中,这样就越难准确地估计拟合直线;相反,如果 越大,散点越分散,这样就可以容易地估计出拟合直线,并且可信度也大得多。 比较图22就可以清楚地看到这点。 27图22 直线拟合和散点集中度的关系28 (4) 项只影响截距的标准差,不影响斜率的标准差。理由是: 衡量的是散点与y轴的距离。 越大,散点离y轴越远,就越难准确地估计出拟合直线与y轴的交点(即截距);反之,则相反。29 2OLS估计量的概率分布 给

12、定假设条件(5),即 ,则 也服从正态分布 系数估计量也是服从正态分布的:(2.30) (2.31)30 需要注意的是:如果残差不服从正态分布,即假设(5)不成立,但只要CLRM的其他假设条件还成立,且样本容量足够大,则通常认为系数估计量还是服从正态分布的。 其标准正态分布为: (2.32) (2.33)31 但是,总体回归方程中的系数的真实标准差 是得不到的,只能得到样本的系数标准差( 、 )。用样本的标准差去替代总体标准 差会产生不确定性,并且 、 将不再服从正态分布,而 服从自由度为T-2的t分布,其中T为样本容量 即: (2.34) (2.35 )323.正态分布和t分布的关系图2-3

13、 正态分布和t分布形状比较33从图形上来看,t分布的尾比较厚,均值处的最大值小于正态分布。随着t分布自由度的增大,其对应临界值 显著减小,当自由度趋向于无穷时,t分布就服从标准正态分布了。所以正态分布可以看作是t分布的一个特例。34第二节 一元线性回归模型的统计 检验一、拟合优度(goodness of fit statistics) 检验拟合优度可用R2 表示:模型所要解释的是y相对于其均值的波动性,即 (总平方和,the total sum of squares,简记TSS),这一平方和可以分成两部分:35= + (2.36)是被模型所解释的部分,称为回归平方和(the explained

14、 sum of squares,简记ESS);是不能被模型所解释的残差平方和(RSS),即 =36 TSS、ESS、RSS的关系以下图来表示更加 直观一些: 图24 TSS、ESS、RSS的关系37 拟合优度 因为 TSS=ESS+RSS 所以 R2 (2.39)(2.37)(2.38) R2越大,说明回归线拟合程度越好;R2越小,说 明回归线拟合程度越差。由上可知,通过考察R2的大小,我们就能粗略地看出回归线的优劣。38 但是,R2作为拟合优度的一个衡量标准也存在一些问题:(1)如果模型被重新组合,被解释变量发生了变化,那么R2也将随之改变,因此具有不同被解释变量的模型之间是无法来比较 R2的大小的。39(2)增加了一个解释变量以后, R2只会增大而不会减小,除非增加的那个解释变量之 前的系数为零,但在通常情况下该系数是不 为零的,因此只要增加解释变量, R2就会不断的增大,这样我们就无法判断出这些解 释变量是否应该包含在模型中。(3)R2的值经常会很高,达到0.9或更高,所以我们无法判断模型之间到底孰优孰劣。40 为了解决上面第二个问题,我们通常用调整过的R2来代替未调整过的R2 。对R2进行调整主要

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号