第3章多元线性回归

上传人:bin****86 文档编号:55417702 上传时间:2018-09-29 格式:PPT 页数:74 大小:653.01KB
返回 下载 相关 举报
第3章多元线性回归_第1页
第1页 / 共74页
第3章多元线性回归_第2页
第2页 / 共74页
第3章多元线性回归_第3页
第3页 / 共74页
第3章多元线性回归_第4页
第4页 / 共74页
第3章多元线性回归_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《第3章多元线性回归》由会员分享,可在线阅读,更多相关《第3章多元线性回归(74页珍藏版)》请在金锄头文库上搜索。

1、第三章 多元线性回归,3.1 多元线性回归模型 3.2 回归参数的估计 3.3 参数估计量的性质 3.4 回归方程的显著性检验 3.5 中心化和标准化 3.6 相关阵与偏相关系数 3.7 本章小结与评注,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,y = b0 + b1x1 + b2x2 + + bpxp +e,设随机变量 y 与一般变量x1,x2,xp的线性回归模型为,其中,b1,b2,bp 是 p+1 个未知参数,b0 称为回归常数,b1,b2,bp 称为回归系数。y 称为被解释变量(因变量),而 x1, x2, , xp 是 p 个可以精确测量并可控制的一般变量,称为解释变

2、量(自变量)。,e 是随机误差,对随机误差项我们常假定,E(y) = b0 + b1x1 + b2x2 + + bpxp,称,为理论回归方程。,对一个实际问题,我们获得 n 组观测数据 (xi1,xi2,xip; yi), i=1,2,n, 则线性回归模型表示为:,写成矩阵形式为: y=Xb +, 其中,二、多元线性回归模型的基本假定,1. 解释变量x1,x2,xp是确定性变量,不是随机变量, 且要求rank(X)=p+1n。 表明设计矩阵X中的自变量列之间不相关,样本容量的个数应大于解释变量的个数,X是一满秩矩阵。,2 .随机误差项具有0均值和等方差,即,这个假定称为Gauss-Markov

3、条件 。,3. 正态分布的假定条件为:,用矩阵形式(3.5)式表示为:,N(0, s2 In),在正态假定下:,yN(Xb, s 2In),E(y)=Xb var(y)= s 2In ,三、多元线性回归方程的解释,y表示空调机的销售量, x1表示空调机的价格, x2表示消费者可用于支配的收入。,y=0+1x1+2x2+ E(y)=0+1x1+2x2,在x2保持不变时,有,在x1保持不变时,有,b1可解释为在消费者收入x2保持不变时,空调机价格x1每增加一个单位,对空调机销售量y的平均增加程度。,三、多元线性回归方程的解释,考虑国内生产总值GDP和三次产业增加值的关系, GDP=x1 + x2+

4、 x3,现在做GDP对第二产业增加值 x2 的一元线性回归,得回归方程,在这里GDP=x1 + x2+ x3是一个确定性的函数关系,可以看做误差项为0的特殊的回归关系。3个回归系数都为1,对b 2=1解释为第二产业增加值x2每增加一亿元GDP也增加1亿元。,三、多元线性回归方程的解释,建立GDP对x1和x2的回归,得二元回归方程,=2 914.6+0.607 x1+1.709 x2,你能够合理地解释两个回归系数吗 ?,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,最小二乘估计要寻找,对于矩阵形式表示的回归模型 y = Xb + e,,求出的 就称为回归参数b0 , b1, , bp的

5、最小二乘估计。,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,3.2 回归参数的估计,经整理后得用矩阵形式表示的正规方程组,移项得,存在时,即得回归参数的最小二乘估计为:,为经验回归方程。,3.2 回归参数的估计,二、回归值与残差,为观测值yi(i=1,2,n)回归拟合值。,称为帽子矩阵,其主对角线元素记为hii ,则,3.2 回归参数的估计,二、回归值与残差,此式的证明只需根据迹的性质tr(AB)=tr(BA),因而,3.2 回归参数的估计,二、回归值与残差,cov(e,e)=cov(I-H)y,(I-H)y)=(I-H)cov(y,y)(I-H)=s 2(I-H) In (I-H

6、)=s 2(I-H),得 D(ei)=(1-hii)2,i=1,2,n,3.2 回归参数的估计,二、回归值与残差,是2的无偏估计,三 、回归参数的最大似然估计,即 e 遵从多变量正态分布,那么 y 的分布yN(Xb ,s 2In),多元线性回归参数的MLE与一元线性回归时MLE的思想一致。多元线性回归模型为 y = Xb + e e N (0, s2In),等价于使 (y-Xb) (y-Xb) 达到最小,这又完全与OLSE一样。故在正态假设情况下,回归参数b 的MLE与OLSE完全相同,即,似然函数为,误差项方差s 2的MLE为,这是s 2的有偏估计,但它满足一致性。在大样本的情况下,是s 2

7、的渐进无偏估计。,3.2 回归参数的估计,例3.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因

8、变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。,3.2 回归参数的估计,例3.2,一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据. 试建立不良贷款(y)与贷款余额(x1)、累计应收贷款 (x2)、贷款项目个数 (x3) 和固定资产投资额 (x4) 的线性回归方程,并解释各回归系数的含义. 解:由 Excel 给出的多元回归结果见下表. 得不良贷款(y) 与贷款余额 (x1)、累计应收贷款 (x2)、贷款项目个数(x3) 和固定资产投资额 (x4) 的线性回归方程如下,用Exce

9、l进行回归分析的步骤,Excel输出的回归分析结果,3.3 参数估计量的性质,性质1 是随机向量 y 的一个线性变换。,性质2,是的无偏估计。,3.3 参数估计量的性质,3.3 参数估计量的性质,当p =1时即为一元线性回归的情况,此时,3.3 参数估计量的性质,性质4 Gauss-Markov定理,预测函数,是 的线性函数,我们希望 的线性函数的波动越小越好。设c 为任一 p+1 维常数向量,我们希望回归系数向量 b 的估计值 具有如下性质:,Gauss-Markov定理 在假定 E(y)=Xb , D(y)=b 2In时, b 的任一线性函数 的最小方差线性无偏估计(Best Lnear

10、Unbiased Estimator简记为BLUE)为c,其中c是任一 p+1 维向量, 是的最小二乘估计。,最小方差性,最小方差性: 证明: 对b 的任一线性无偏估计b 0,,因为所以得证,第一,取常数向量c的第j(j=0,1,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。第二,可能存在y1, y2 , , yn的非线性函数,作为 的无偏估计,比最小二乘估计 的方差更小。第三,可能存在 的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计 更好。第四,在正态假定下, 是 的最小方差无偏估计。也就是说,既不可能存在y1, y2 , , yn的非

11、线性函数,也不可能存在y1, y2 , , yn的其它线性函数,作为 的无偏估计,比最小二乘估计 方差更小。,高斯-马尔科夫定理说明了用OLSE估计得到的估计量 是理想的估计量。注意点:,性质5 cov(,,e)=0,此性质说明 与e不相关,在正态假定下等价于与e独立,从而与 独立。,性质6 在正态假设,(1),(2),3.4 回归方程的显著性检验,在实际问题的研究中,我们事先并不能断定随机变量 y 与变量x1, x2, xp 之间确有线性关系,在进行回归参数的估计前,我们用多元线性回归方程拟合随机变量 y与随机变 量x1, x2, xp 之间的关系,只是根据一些定性分析所作的一种假设。因此,

12、当求出线性回归方程后,还需对回归方程进行显著性检验。多元线性回归方程的显著性检验与一元线性回归方程的显著性检验既有相同之处,也有不同之处。,一、F 检验,H0:1=2=p=0,SST = SSR + SSE,当H0成立时服从,对多元线性回归方程的显著性检验就是要看自变量x1, x2, , xp从整体上对随机变量 y 是否有明显的影响。,可以利用 F 统计量对回归方程的总体显著性进行检验。对给定的数据,计算出SSR与SSE,进而可以得到 F 的值,其计算过程在下面的方差分析表中,再由给定的显著性水平 a,查 F 分布表,得临界值 Fa ( p, n p 1 ).,方差分析表,二、回归系数的显著性

13、检验,H0j : b j=0, j=1,2,p,在多元线性回归方程中,回归方程显著并不意味着每个自变量对y的影响都显著,因此我们需要剔除次要的、可有可无的变量,重新建立更为简单的回归方程。所以我们就需要对每个自变量进行显著性检验。,显然,如果某个自变量 xj 对 y 的作用不显著,那么在回归模型中,它的系数bj 就取值为0.因此,检验变量 xj 是否显著,等价于检验假设,记 (X)-1=(cij) i,j=0,1,2, , p,构造 t 统计量,其中,二、回归系数的显著性检验 (剔除x1),二、回归系数的显著性检验,二、回归系数的显著性检验,从另外一个角度考虑自变量xj的显著性。 y对自变量x

14、1,x2,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的 p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则 自变量xj对回归的贡献为SSR(j)=SSR-SSR(j), 称为xj的偏回归平方和。由此构造偏F 统计量,当原假设H0j :j=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj2,三、回归系数的置信区间,可得j的置信度为1-的置信区间为:,四、拟合优度,决定系数为:,y关于x1,x2,xp的样本复相关系数,3.5 中心化和标

15、准化,在多元线性回归分析中,因为涉及多个自变量,自变量的单位往往不同,给利用回归方程进行结构分析带来了一定的困难;再因为多元回归涉及的数据量很大,就可能由于舍入误差而使计算结果不理想。尽管计算机能使我们保留更多位的小数,但舍入误差肯定还会出现。因此,对原始数据进行一些处理,尽量避免大的误差是有实际意义的。产生舍入误差有两个主要原因:一是回归分析计算中数据量级有很大差异;二是设计矩阵 X 的列向量近似线性相关时,XX为病态矩阵,其逆矩阵(XX)-1就会产生较大的误差.,一、中心化,经验回归方程,经过样本中心,将坐标原点移至样本中心,即做坐标变换:,回归方程转变为:,回归常数项为,二、标准化回归系数,当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:,其中x1的单位是吨, x2的单位是公斤,二、标准化回归系数,样本数据的标准化公式为:,得标准化的回归方程,二、标准化回归系数,标准化 回归系数,3.6 相关阵与偏相关系数,一、样本相关阵,自变量样本相关阵,增广的样本相关阵为:,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号