计量经济学 第4章 一元线性回归模型

上传人:wt****50 文档编号:55695076 上传时间:2018-10-04 格式:PPT 页数:55 大小:1,022.50KB
返回 下载 相关 举报
计量经济学 第4章 一元线性回归模型_第1页
第1页 / 共55页
计量经济学 第4章 一元线性回归模型_第2页
第2页 / 共55页
计量经济学 第4章 一元线性回归模型_第3页
第3页 / 共55页
计量经济学 第4章 一元线性回归模型_第4页
第4页 / 共55页
计量经济学 第4章 一元线性回归模型_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《计量经济学 第4章 一元线性回归模型》由会员分享,可在线阅读,更多相关《计量经济学 第4章 一元线性回归模型(55页珍藏版)》请在金锄头文库上搜索。

1、第4章 一元线性回归模型,回归模型的一般描述 最小二乘估计量的统计特性 一元线性回归模型的参数估计 统计显著性检验 预测与控制 案例分析,第一节 回归模型的一般描述,(1)确定性关系或函数关系:变量之间 有唯一确定性的函数关系。其一般表现形式为:,一、回归模型的一般形式,1、变量间的关系经济变量之间的关系,大体可分为两类:,(4.1),(2)统计关系或相关关系:变量之间为非确定 性依赖关系。其一般表现形式为:,(4.2),统计依赖关系/统计相关关系:,函数关系与相关关系的区别,确定的函数关系可以直接用于经济活动,无需分析。,不确定的相关关系,隐含着某种经济规律,是有关研究的重点,2、回归分析与

2、相关分析,若x和y之间确有因果关系,则称(4.2)为总体回归 模型,x(一个或几个)为自变量(或解释变量或外生 变量),y为因变量(或被解释变量或内生变量),u 为随机项,是没有包含在模型中的自变量和其他一些 随机因素对y的总影响。,一般说来,随机项来自以下几个方面:一般说来, 随机项来自以下几个方面:,1、变量的省略。由于人们认识的局限不能穷尽所有的 影响因素或由于受时间、费用、数据质量等制约而没有引入模型之中的对被解释变量有一定影响的自变量。,2、统计误差。数据搜集中由于计量、计算、记录等 导致的登记误差;或由样本信息推断总体信息时产生 的代表性误差。,3、模型的设定误差。如在模型构造时,

3、非线性关系 用线性模型描述了;复杂关系用简单模型描述了;此 非线性关系用彼非线性模型描述了等等。,4、随机误差。被解释变量还受一些不可控制的众多 的、细小的偶然因素的影响。,若相互依赖的变量间没有因果关系,则称其有相关 关系。,二、一元线性回归模型,回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。这里:前一个变量被称为被解释变量(Explained Variable)或因变量(Dependent Variable),后一个(些)变量被称为解释变量(Exp

4、lanatory Variable)或自变量(Independent Variable)。,对于总体回归模型, 特别地,当只有一个自变量且 时,则有:,(4.3),其中 和 为两个待定参数, 为直线的截距, 为直 线的斜率。我们称(4.3)为一元线性总体回归模型。,若给定的n次观察值, (1,2,3,n)代入模型 (4.3),得,(1,2,3,n) (4.4),线性回归模型”中的“线性”一词在这里有两重含义:,一是被解释变量y与解释变量x之间为线性关系,即解释 变量x仅以一次方的形式出现在模型之中。用数学语言 表示为:,二是被解释变量y 与参数 之间为线性关系,即参数 仅以一次方的形式出现在模

5、型之中。用数学语言表示为:,在经济计量学中,我们更关心被解释变量y与参数 之 间的线性关系。因为只要被解释变量y与参数 之间,为线性关系,即使被解释变量y与解释变量x之间不为 线性关系,我们也可以通过变量替换方便地将其化为 线性。例如, 模型就属于被解释变量y 与解释变量x之间不为线性关系的情形,如果我们令,此时非线性模型 就变成线性 模型 了 。,三、一元线性回归模型中随机项的假定,在给定样本观测值(样本值) ,1,2,3,n后,为 了估计(4.4)式的参数 和 ,必须对随机项做出 某些合理的假定。这些假定通常称为古典假设。,假设1、解释变量X是确定性变量,不是随机变量; 假设2、随机误差项

6、具有零均值、同方差和不序列相关性:E(i)=0 i=1,2, ,nVar (i)=2 i=1,2, ,nCov(i, j)=0 ij i,j= 1,2, ,n假设3、随机误差项与解释变量X之间不相关:Cov(Xi, i)=0 i=1,2, ,n假设4、服从零均值、同方差、零协方差的正态分布iN(0, 2 ) i=1,2, ,n,注意:,1、如果假设1、2满足,则假设3也满足; 2、如果假设4满足,则假设2也满足,以上假设也称为线性回归模型的经典假设或高斯 (Gauss)假设,满足该假设的线性回归模型,也 称为经典线性回归模型(Classical Linear RegressionModel,

7、CLRM)。,第二节 最小二乘法(OLS),利用OLS来估计(4.3)式,可以得到所谓的估计回归直线,,(一),公式的推导方法,1、设残差为,残差=实际值估计值,2、计算残差的2次方的和,即残差平方和(RSS),得,寻找能够使残差平方和最小的,值,就是OLS的基本原理。,为了求残差平方和关于,的最小值,,对残差平方和关于,求偏导,将两个方程式整理,得联立方程;,正规方程式,整理得,例题: 利用下面的数据,对回归模型,进行最小二乘法估计,例2.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费

8、支出水平。,为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。,(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的, 如: P(Y=561|X=800)=1/4。,因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation):E(Y|X=Xi),该例中:E(Y | X=800)=56

9、1,分析:,描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为回归线。,例2.2.1:在上述家庭可支配收入-消费支出例中,对于所抽出的一 组样本数,参数估计的计算可通过下面的表2.2.1进行。,因此,由该样本估计的回归方程为:,最小二乘估计量的统计特性,当模型参数估计出后,需考虑参数估计值的精度,即 是否能代表总体参数的真值,或者说需考察参数估计量 的统计性质。,一个用于考察总体的估计量,可从如下几个方面考察其 优劣性,(1)线性性,即它是否是另一变量的线性函数;,(2)无偏性,即它的均值或期望值是否等于总体的真实值;,3)有效性,即

10、它是否在所有线性无偏估计量中具有最小方差。,这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(best liner unbiased estimator, BLUE)。,当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:,高斯马尔可夫定理(Gauss-Markov theorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。,证:,易知,故,同样地,容易得出,(2)证明最小方差性,其中,ci=ki+di,di为不全为零的常数 则容易证明,普通最小二乘估计量(ordinary least Squares Estimators)

11、称为最佳线性无偏估计量(best linear unbiased estimator, BLUE),由于最小二乘估计量拥有一个“好”的估计量所应具备的小样本特性,它自然也拥有大样本特性。,4、随机干扰项方差的估计,2又称为总体方差。,由于随机项i不可观测,只能从i的估计残差 ei出发,对总体方差进行估计。,可以证明,2的最小二乘估计量为,它是关于2的无偏估计量。,5、回归系数的区间估计,为了反映回归系数的估计精度,需给出其区间估计,即在置信水平为 下的置信区间。置信区间长度越短,说明估计值 与参数 和 就越接近,估计值就越精确;反之,就越不精确。,可以证明, 在置信水平为 下的置信区间为,(

12、,,(2.3.13),在置信水平为 下的置信区间为,(2.3.14),其中,=,为置信度为 ,自由度为n-2的t分布临界值,对于例2.2.1,从输出结果2.2.1可见: 在置信水平为95下的置信区间为(224.5299891,502.8481466),对于例2.2.1,从输出结果2.2.1可见: 在置信水平为95 下的置信区间为(1.802588122,2.255158812),第3节 统计显著性检验,一、拟合优度检验 二、变量的显著性检验,回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。,尽管从统计性质上已知,如果有足够多的重复 抽样,参数的估计值的

13、期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。,一、拟合优度检验(Goodness of Fit Test),拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。度量拟合优度的指标:样本决定系数R2,问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?,1、总离差平方和的分解,已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回归直线,如果Yi=i 即实际观

14、测值落在样本回归“线”上,则拟合最好。 可认为,“离差”全部来自回归线,而与“残差”无关。,残差的重要性质,(1),残差的总和为零。(2),残差与解释变量不相关。(3),残差与估计值 不相关。,对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:,记,总离差平方和(Total Sum of Squares),可解释平方和(Explained Sum of Squares),残差平方和(Residual Sum of Squares ),TSS=ESS+RSS,Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机

15、势力(RSS)。,在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此拟合优度:回归平方和ESS/Y的总离差TSS,2、样本决定系数R2统计量,称 R2 为(样本)决定系数/判定系数(coefficient of determination)。,可决系数的取值范围:0,1R2越接近1,说明实际观测点离样本线越近,拟合优度越高。,在例2.1.1的收入-消费支出例中,,注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。,以例2-3为例(假设一个由100个家庭构成的总体,并假设这100个家庭的月可支配收入水平只限于1300元、1800元、2300元、2800元、3300元、800元、4300元、4800元、5300元、5800元10种情况,每个家庭的月可支配收入与消费数据如表2-1所示,要研究这一总体的家庭月消费支出Y与家庭月可支配收入X之间的关系,以便根据已知的家庭月可支配收入水平测算该总体的家庭月消费支出平均水平。),

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号