《部分线性回归》由会员分享,可在线阅读,更多相关《部分线性回归(47页珍藏版)》请在金锄头文库上搜索。
1、第二部分 线性回归(一)一元线性回归 一、基本思想及参数的估计问题的提出必要性通过协方差或相关系数证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质正(负)相关和相关程度的大小。既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么?最好用数学表达式将这种关系尽可能准确、严谨的表示出来y=a+bx+u把它们之间的内在联系挖掘出来。也就是直线中的截距a=?;直线的斜率b=?解决问题的思路可能性寻找变量之间直线关系的方法很多。于是,再接下来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型y=a+bx+u中的截距a=?;直线的斜率b=?正是是本章介绍的最小二乘法。根据
2、该方法所得,即表现变量之间线性关系的直线有些什么特性?所得直线可靠吗?怎样衡量所得直线的可靠性?最后才是如何运用所得规律变量的线性关系?最小二乘法产生的历史最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)达尔文的表弟所创。早年,道尔顿致力于化学和遗传学领域的研究。他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。最小二乘法的地位与作用现在回归分析法已远非道尔顿的本意已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。后来,回归分析法从其方法的数学原理误差平方和最小(平方即二乘)出发,改称为最小二乘法。父亲们的身高与儿子
3、们的身高之间关系的研究1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图)160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定“回归”一词的由来从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论
4、:儿子们的身高回复于全体男子的平均身高,即“回归”见1889年F.Gallton的论文普用回归定律。后人将此种方法普遍用于寻找变量之间的规律 最小二乘法的思路1为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面(作到全面)。2Y与X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。3在Y与X的散点图上画出直线的方法很多。任务?找出一条能够最好地描述Y与X(代表所有点)之间的直线。4什么是最好?找出判断“最好”的原则。最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。三种距离yx纵向距离横向距离距离A为实际点,B为拟合
5、直线上与之对应的点距离是度量实际值与拟合值 是否相符的有效手段点到直线的距离点到直线的垂直线的长度。横向距离点沿(平行)X轴方向到直线的距离。纵向距离点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。这个差数以后称为误差残差(剩余)。最小二乘法的数学原理纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。数学推证过程关于所得直线方程的结论结论之一:由(5)式,得
6、即拟合直线过y和x的平均数点。结论之二:由(2)式,得残差与自变量x的乘积和等于0,即两者不相关。 拟合直线的性质1估计残差和为零2Y的真实值和拟合值有共同的均值3估计残差与自变量不相关4估计残差与拟合值不相关1估计残差和为零(Residuals Sum to zero)由(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。2Y的真实值和拟合值有共同的均值3估计残差与自变量不相关4估计残差与拟合值不相关关于回归直线性质的总结关于回归直线性质的总结 残差和=0平均数相等拟合值与残差不相关自变量与残差不相关注意:这里的残差与注意:这里的残差与随机扰动项不是一个随机扰动项不是一个概念。随机扰
7、动项是概念。随机扰动项是总体的残差。总体的残差。实例教材P92-94例5.1 美国家庭收入与支付税收的关系例5.2 5.3 男女学生数学分数与词汇分数的关系例5.5及5.6通过实例进一步理解一元回归线性模型的经济含义二、一元线性回归模型的检验(一)线性回归模型的基本假设(严格来说是针对普通最小二乘法)(二)参数估计量的性质(包括回归系数、随机误差项):线性、无偏性和有效性(三)模型的检验,包括方程的显著性检验和变量的显著性检验。(一)线性回归模型的基本假设1、自变量(解释变量)是非随机的确定性的变量,而且彼此之间不相关即,2、解释变量与随机误差项之间不相关。3、随机误差项具有零均值和同方差,即
8、4、随机误差项之间不相关,即5、 (当样本容量趋于无强大时,由中心极限定理,对于任何实际模型都是满足) (二)参数估计量的性质1、模型参数估计主要包括:一是结构参数的估计量,即回归系数的估计量;二是随机误差项的分布参数,包括均值和方程。 由前面得回归系数的估计量为: 而对于随机误差项其均值已被假定为0,则只估计方差了,对于随机误差项方差的估计量为: 2、参数估计量的性质:(1)线性。即 是y的线性函数,这可从表达式可看出。(2) 无偏性。即(3) 有效性(最小方差性)。我们可得到:(4) (5) 由高斯马尔可夫(G-M)定理:在满足线性回归模型的基本假定上,则在所有的无偏估计量中,OLS估计量
9、具有最小方差性,给OLS估计量是最优线性无偏估计量(BLUE)。可知上述无偏估计量具有最小方差,即有效性估计量。(4)随机误差项估计量的无偏性问题 由前面随机误差项 的方差估计量为: 通过变化可得: (三)模型的检验1、方程的显著性检验(F检验) 旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否成立作出推断。 用以进行方程的显著性检验的方法主要有三种:F检验、t检验、r检验。他们的区别在于构造的统计量不同。而在目前使用的计量经济学软件包中都有关于F统计量的计算结果,我们只介绍F检验。即检验方程中的参数是否显著不为0,即检验零假设:2、变量的显著性检验(t检验) 主要对多元线性回归模型
10、而言,在方程的总体线性关系呈显著性时,并不能说明每个解释变量对被解释变量的影响是显著的,必须对每个解释变量进行显著性检验,以决定是否作为解释变量保留在模型中。其检验的思路与方程显著性检验相似,用以检验的方法主要有三种:F检验、t检验、z检验。它们区别于方程显著性检验在于构造统计量不同,其中应用最为普遍的为t检验。如果变量x是显著的,则参数b应该是显著的。于是在变量的显著性检验中即检验零假设,构造检验用统计量:统计量t服从自由度为n-2的t分布,对于给定的显著性水平 ,查t分布表,得临界值 若|t|小于临界值 ,则未通过检验,大于临界值则通过检验。 (四)模型的评价(在不同模型之间择优,拟和优度
11、检验)由最小二乘法所得直线究竟能够对这些点之间的关系加以反映吗?对这些点之间的关系或趋势反映到了何种程度?于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。1、平方和的分解(1)、总平方和(TSS)、回归平方和(ESS)、残差平方和(RSS)的定义(2)、平方和的分解(3)、自由度的分解(1)总平方和、回归平方和、残差平方和TSS为总体平方和,反映样本观测值总体离差的大小;ESS为回归平方和,反映由模型中解释变量所解释的那部分离差的大小;RSS为残差平方和,反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。(2) 平方和
12、的分解平方和分解的意义TSS=ESS+RSS被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异) +除X以外的因素引起的变动(差异)如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。平方和分解图正交分解正交分解(3)自由度的分解 总自由度: dfT=n-1 回归自由度:dfE=k=1( k为自变量的个数) 残差自由度:dfR=n-k-1=n-2 自由度分解:dfT=dfR+dfE2、拟合优度(或称判决定系数)目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣。拟合优度的定义:意义:拟合优度越大,自变量对因变量的解释程度越高,自变
13、量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。取值范围:0-1 修正的在应用过程中,如果在模型中增加一个解释变量,模型的解释功能增强了,回归平方和增大了, 也增大了。从而给人一个错觉:要使得模型拟合得好,就必须增加解释变量,但是在样本容量一定的情况下,增加解释变量必定使得自由度减少,于是实际应用中引进修正的决定系数 ,具体表达式为(其中n是样本容量,n-k-1n-1-1为残差平方和的自由度,n-1为总体平方和的自由度):3、拟合优度等于实际值与拟合值之间简单相关系数的平方(五)预测计量经济学模型的一个重要应用是经济预测,对于模型如果给定样本以外的解释变量的观测值,可以得到被解释变
14、量的预测值 。但严格来说我们得到的仅是预测值的一个估计值,预测值仅以某一个置信水平处于以该估计为中心的一个区间中。预测区间的推导(六)正态性检验在回归模型的参数和统计检验中都是建立在随机误差项服从正态分布的基础之上,在实际中如何检验随机误差项服从正态分布。一般的检验方法有三种:残差直方图、正态概率图、J-B检验,其中主要用J-B检验。正态性的J-B(Jarque-Bera)检验它是依据OLS残差,对大样本的一种检验方法。是建立统计量实例例1:美国的进口支出实例例2:MBA毕业生的年薪与GMAT分数之 间的关系 复习与提高 y=a+bx+uxn+1 yn+1xn yn x2 y2x1 y1根据已知样本采用LS得一拟合直线 拟合直线性质:残差和=0残差与自变量无关拟合值与残差值无关两个平均数均值相等R20TSS RSS ESSR2R21用直线反映总体Good ?noYes