第二章多元线性回归.doc

上传人:bao****ty 文档编号:132306746 上传时间:2020-05-14 格式:DOC 页数:33 大小:1.66MB
返回 下载 相关 举报
第二章多元线性回归.doc_第1页
第1页 / 共33页
第二章多元线性回归.doc_第2页
第2页 / 共33页
第二章多元线性回归.doc_第3页
第3页 / 共33页
第二章多元线性回归.doc_第4页
第4页 / 共33页
第二章多元线性回归.doc_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《第二章多元线性回归.doc》由会员分享,可在线阅读,更多相关《第二章多元线性回归.doc(33页珍藏版)》请在金锄头文库上搜索。

1、第二章 多元线性回归2.1 基本概述一、回归的任务 多元线性回归(MLR)(multiple linear regression)是分析一个随机变量与多个变量之间线性关系的统计方法。 回归(Regression)起源于19世纪生物学家F高尔顿进行的遗传学研究。其核心是“普通最小平方法”(Ordinary Least Squares)OLS。多元回归将所研究的变量分为:“被解释变量”(或因变量dependent variable)用Y表示“解释变量”(或自变量,independent variable)。分别和X1,X2表示.确定自变量和因变量的关系是回归分析的主要任务:(1) 根据实测数据求解

2、某一模型的各个参数;(2) 评价回归模型是否较好地拟合实例数据;(3)利用模型进行预测。需要注意的是: (1) 因变量必须是间距测度等级以上的变量(有时也包含定性变量。见应用回归分析)(也称为连续变量)。自变量可以是任意等级的变量。(2)既使模型正确通过检验,也不能确定X、Y之间的因果关系,而只能确认存在着统计关系。例 不同地区的人均食品支出与人均收入的关系(图21);汽车重量与每加仑燃料行驶英里值的关系;(图22)。图21图22二、一元线性回归的回顾1 模型 (2.1) 当获得n组样本观测值(x1 , y1),(x2 , y2),(xn ,yn)的数据时,如果符合2.1式,则有 (2.2)

3、2.1式称为理论回归模型;2.2式称为样本回归模型。有时不加以区分地将两者称为一元线性回归模型。 通过n组观测值,用OLS法对进行估计,得,则称 为Y关于X的一元线性方程。 其中: 回归系数,说明X与Y之间的变化关系。2普通最小二乘法估计的统计性质(OLSE Estimation) (1)残差:,用来说明拟合效果,可以看作误差项i 的估计值。 因为 ,所以 但很麻烦,经常用来说明。 (2) (3)的平均值等于Y的平均值 (4)X与e相互独立 (5)与e相互独立 (6)直线通过n个散点的重心()点3模型的假设条件(assumption) (1) 高斯假设条件 (C.F.Gauss)德国数学家 零

4、均值性; 即在自变量取一定估计的条件下,其总体各误差项的条件平均值为0。 等方差性 (为一常数) 误差项之间相互独立,(即不相关) 误差项与自变量之间相互独立性。上述假设称为标准古典假设条件。符合条件的回归模型称为普通线性回归模型(general linear regression model)。如果仅为点估计则由OLSE计算的分别是和的无偏估计量;如果需要进行区间估计,需要以下假设: (2)正态误差假定 同时, 另外,还可推出即 是无偏估计量且 其中:估计标准误差其中:X0 是给定值。 则 2.2 多元线性回归模型一、多元线性回归方程及其假设 设模型为:将n组独立观察的样本数据 代入方程:

5、根据OLS,使。求的估计值 ,可得回归方程:称为多元线性回归方程。上述模型用矩阵形式来表示,即:其中: 假定1:自变量是确定性变量,且是一个n(p+1)的矩阵。称为回归设计矩阵或资料矩阵。矩阵的秩 rank()=p+1是一个满秩矩阵。即p+1n,表明自变量列之间不相关。假定2:随机误差项具有0均值和等方差。假定3:正态分布。根据上述假设即多元正态分布的性质可知,随机向量遵从n维正态分布。则有 , 因此:二、回归平面和回归系数的意义估计回归方程: 是一个超平面。其中:分别称为超平面的回归系数。为截距;表示其他变量固定时,每变化一个单位,的平均变化。 例:以二元线性回归方程为例,如图2-3YX1X

6、2为负值为正值图2-3 例 由1991年我国分地区家庭年人均食品支出(Y)和年人均收入(X1)及粮食单价(X2)数据可得: Coefficients(a)Model Unstandardized CoefficientsStandardized CoefficientstSig. BStd. ErrorBeta 1(Constant)-87.37862.452 -1.399.173 人均收入.354.039.7739.081.000 粮食单价206.53875.212.2342.746.011a Dependent Variable: 食品支出表明:当价格固定时,收入每上升1元,食品支出上升0

7、.35元;当人均收入固定时,价格每上升1元,食品支出上升206.54元。例 用1998年世界若干国家的粗死亡率(Y)对其65岁以上人口占总人口的比例(x1)和人均国民生产总值(x2)做回归,得到:即x1对Y有提高作用,x2对Y有降低作用。 特别是当多项式模型(以二元为例)X1变化一个单位,Y的平均变化为:这种情况难以解释!3多元回归模型的估计(1)回归系数的估计 将 代入中,分别对求偏导数,得到正规方程组。用矩阵表示如下:移项得: 当存在时,即是一个非奇异矩阵,则有:例一元方程时, 已知: 则 有伴随阵: 逆阵:其中: (2)因变量的估计已知 有 ,令 则 是n阶对称阵,形象地称为帽子矩阵。该

8、矩阵的诸对角线元素记为(杠杆率)。杠杆率:观测第i个观测值离其余n1个观测值的距离有多远。对一元回归来说,其杠杆率为:三、方程的解释能力 1决定系数 R2(coefficient of determination)(拟合优度)图2-4 矩阵形式表示如下:其中: I 为n阶单位阵; J 表示元素全为1的n阶方阵。可得: 如图2-4 说明:(1)R20,1之间; (2)是选择不同模型的标准; (3)R2=0,X Y不存在相关关系! 但是R2的数值大小并不表示模型选择是否正确。应再结合其它指标(工具)进一步判断。如:1973年安斯库姆(Anscombe)构造了四组数据如表:第一组第二组第三组第四组x

9、yxyxyxy45678910111213144.265.687.244.826.958.818.048.3310.847.589.9645678910111213143.104.746.137.268.148.779.149.269.138.748.1045678910111213145.395.736.086.446.777.117.467.818.1512.748.848888888888196.585.767.718.848.477.045.255.567.916.8912.5四组计算结果得: 如图2-5所示 (a) (b)(c) (d)图2-5 在图25中,可以看出: (a)图是规范

10、的回归; (b)图应通过变换可以得到更好的拟合; (c)图应剔除异常值 ( 剔除后 R21 )(d)图应进一步搜集数据(实际只有,8,19这二点)。2调整的决定系数 R2adj (Adjusted multiple coefficient of determination)当增加自变量个数时,SSE逐渐减少。R2则随之增长。即R2受自变量个数与样本规模之比(p:n)的影响。一般的常规是1:10以上为好;当这个比值小于1:5时,R2会倾向高估拟合优度。因此用R2adj代替R2。 从公式中可以看出:p增加时,R2adj变得更小。当p接近n时,R2adjp时,R2adjR23多元相关系数R (mul

11、tiple correlation) 对R2开方,即得R,称为复相关系数。因为各自变量与Y的相关方向不一定相同,因此在多元线性回归中,R只求R2的正方根。R是总体多元相关函数的估计。4偏决定系数 (partial coefficient of determination) 方程中某一个变量xi对减少剩余平方和(SSE)的边际贡献,它表示xi对y的边际解释能力。 公式:以二元回归为例,也可表示为:(应用回归分析)值域:0,1其中:Ry2.1 是指x2对y的边际影响。 SSR(1,2):含有两个自变量的回归平方和 SSR(1):含有x1的回归平方和 SSE(1):只含有x1的剩余平方和 前式是用绝对误差表示的百分比,后式是用相对误差表示的百分比。但反映的都是新加入回归的变量所解释的百分比!但是这一百分比是以前一步回归(即变量较少的回归)所未能解释的部分为整体。而不是以Y的总

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号