第5讲一元线性回归23

上传人:bin****86 文档编号:54909471 上传时间:2018-09-21 格式:PPT 页数:52 大小:672.01KB
返回 下载 相关 举报
第5讲一元线性回归23_第1页
第1页 / 共52页
第5讲一元线性回归23_第2页
第2页 / 共52页
第5讲一元线性回归23_第3页
第3页 / 共52页
第5讲一元线性回归23_第4页
第4页 / 共52页
第5讲一元线性回归23_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《第5讲一元线性回归23》由会员分享,可在线阅读,更多相关《第5讲一元线性回归23(52页珍藏版)》请在金锄头文库上搜索。

1、一、回归结果的显著性检验,1.线性关系的检验,检验自变量与因变量之间的线性关系是否显著 将回归均方(MSR)同残差均方(MSE)加以比较,应用F 检验来分析二者之间的差别是否显著 回归均方:回归平方和SSR除以相应的自由度(自变量的个数) 残差均方(MSE) :残差平方和SSE除以相应的自由度(n-2).,线性关系的检验的步骤,提出假设 H0:1=0 线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 作出决策:若FF ,拒绝H0;若FF ,拒绝H0,线性关系显著,方差分析表 Excel 输出的方差分析表,2.回归系数的检验,在一元线性回归

2、中,等价于线性关系的显著性检验,检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数 的抽样分布,样本统计量 的分布,是根据最小二乘法求出的样本统计量,它有自己的分布的分布具有如下性质(线性、无偏、最小方差) 分布形式:正态分布 数学期望:标准差:由于 未知,需用其估计量sy来 代替得到 的估计的标准差,回归系数的检验检验步骤,提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量,确定显著性水平,并进行决策 tt,拒绝H0; tt=2.201,拒绝H0,表明不良贷款与贷款余额之间有线性关

3、系,回归系数的检验例题分析表,P 值的应用,P=0.000000=0.05,拒绝原假设,不良贷款与贷 款余额之间有线性关系,3、三种检验的关系,在一元线性回归分析中,回归系数显著性的t检验、回归方程显著性的F检验,相关系数显著性 t检验,三者等价的,检验结果是完全一致的。 对一元线性回归,只做其中的一种检验即可。,二、 回归分析结果的评价,建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手 所估计的回归系数 的符号是否与理论或事先预期相一致 在不良贷款与贷款余额的回归中,可以预期贷款余额越多不良贷款也可能会越多,也就是说,回归系数的值应该是正的,在上面

4、建立的回归方程中,我们得到的回归系数 为正值 如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此 在不良贷款与贷款余额的回归中,二者之间为正的线性关系,而且,对回归系数的t检验结果表明二者之间的线性关系是统计上显著的,回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题 在不良贷款与贷款余额的回归中,得到的R2=71.16%,解释了不良贷款变差的2/3以上,说明拟合的效果还算不错 考察关于误差项的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项服从正态分布,否则,我们所用的检验程序将是无效

5、的。正态性的简单方法是画出残差的直方图或正态概率图 计量单位的讨论,因果模型的特征,Excel输出的部分回归结果,R2),残差分析,1 用残差证实模型的假定 2 用残差检测异常值和有影响的观测值,残差图(residual plot),表示残差的图形 关于x的残差图 关于y的残差图 标准化残差图 用于判断误差的假定是否成立 检测有影响的观测值,残差图(形态及判别),残差图(例题分析),标准化残差(standardized residual), 残差除以它的标准差后得到的数值。计算公式为sei是第i个残差的标准差,其计算公式为,标准化残差图, 用以直观地判断误差项服从正态分布这一假定是否成立 若假

6、定成立,标准化残差的分布也应服从正态分布 在标准化残差图中,大约有95%的标准化残差在-2到+2之间,标准化残差图 (例题分析),异常值,如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点. 如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果 如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型 如果完全是由于随机因素而造成的异常值,则应该保留该数据 在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除.,异常值识别,异常值也可以通过标准化残差来识别 如果某一个观测值所对

7、应的标准化残差较大,就可以识别为异常值 一般情况下,当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值,有影响的观测值,如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值 一个有影响的观测值可能是 一个异常值,即有一个值远远偏离了散点图中的趋势线 对应一个远离自变量平均值的观测值 或者是这二者组合而形成的观测值,有影响的观测值图示,不存在影响值的趋势,有影响的观测值,存在影响值的趋势,小 结,一、变量间关系的种类 二、相关系数的计算、评价及检验 三、回归模型、回归方程、估计回归方程的概念,回归方程参数的最小二乘估计 四、判定系数、

8、估计标准误差的计算,及线性关系检验及回归系数的检验 五、回归分析结果的评价,26,利用回归方程进行估计和预测,根据自变量 x 的取值估计或预测因变量 y的取值 估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计,27,利用回归方程进行估计和预测 (点估计),2. 点估计值有 y 的平均值的点估计 y 的个别值的点估计 3. 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值,28, y 的平均值的点估计 利

9、用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计 在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。根据估计的回归方程得,29, y 的个别值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计,2. 比如,如果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方程得,30,点估计不能给出估计的精度,点估计值与实际值之间是有误

10、差的,因此需要进行区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型 置信区间估计 预测区间估计,31,参数最小二乘估计量的协方差分析 均是无偏估计 均是正态分布 协方差,32, y 的平均值的置信区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区间称为置信区间E(y0) 在1-置信水平下的置信区间为,式中:Sy为估计标准误差,33,【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间解:根据前面的计算结果712.57,Sy=14.9

11、5,t(13-2)2.201,n=13 置信区间为:,712.5710.265,人均消费金额95%的置信区间为702.305元722.835元之间,34, y 的个别值的预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间 y0在1-置信水平下的预测区间为,35,【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间解:根据前面的计算结果有712.57,Sy=14.95,t(13-2)2.201,n=13置信区间为,712.5734.469,人均消费金额95%的预测区间为678

12、.101元747.039元之间,36,影响区间宽度的因素,1. 置信水平 (1 - ) 区间宽度随置信水平的增大而增大 2. 数据的离散程度 (s) 区间宽度随离散程度的增大而增大 3. 样本容量 区间宽度随样本容量的增大而减小 4. 用于预测的 xp与x的差异程度 区间宽度随 xp与x 的差异程度的增大而增大,37,置信区间、预测区间、回归方程,38,多元线性回归,1 多元线性回归模型 2 回归方程的拟合优度 3 显著性检验,39,学习目标,1.回归模型、回归方程、估计的回归方程 2.回归方程的拟合优度 3.回归方程的显著性检验4.用 Excel 进行回归分析,40,目的要求 :1.掌握多元

13、线性回归模型的概念2. 掌握多元线性回归模型的最小二乘估计3.掌握多元线性回归模型的最小二乘估计量的统计性质4.掌握多元线性回归模型的统计检验 5.会用多元线性回归模型分析简单经济问题,41,多元回归分析模型,y = b0 + b1x1 + b2x2 + . . . bkxk + u,42,与简单回归的相似点,b0 仍然是截距b1 到 bk 都成为斜率参数u 仍然是误差项(或称扰动项) 仍然需要做一个条件期望为0的假设,现在假设:E(u|x1,x2, ,xk) = 0仍然最小化残差的平方和,43,现实经济问题是复杂的,用一个解释变量去说明往往是不够的。随着解释变量数目的增多,由一元线性回归模型

14、可以引申出多元线性回归模型。我们可以将多元线性回归模型用如下方式表述:,假定因变量Y与解释变量X1,X2 ,Xk具有线性关系,它们之间的线性模型可表示为: Yi= 0+ 1X1+ 2X2+k Xk +ui,经济学看:,44,例:商品的需求量Q,不仅取决价格P,还取决收入Y、其它商品的价格P1等因素。如果用线性回归模型表示:,这就是一个多元(三元)线性回归模型,为了简化起见,以下将考察多元线性回归模型的特例,即二元线性回归模型。,45,1 多元线性回归模型,多元回归模型与回归方程 估计的多元回归方程 参数的最小二乘估计,46,多元回归模型与回归方程,47,多元回归模型 (multiple reg

15、ression model),一个因变量与两个及两个以上自变量的回归 描述因变量 y 如何依赖于自变量 x1 , x2 , xp 和误差项 的方程,称为多元回归模型 涉及 p 个自变量的多元回归模型可表示为,b0 ,b1,b2 ,bp是参数 是被称为误差项的随机变量y 是x1,,x2 , ,xp 的线性函数加上误差项 包含在y里面但不能被p个自变量的线性关系所解释的变异性,48,多元回归模型 (基本假定),误差项是一个期望值为0的随机变量,即E()=0 对于自变量x1,x2,xp的所有值,的方差2都相同 误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立,49,多元回归方程 (multiple regression equation),描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,xp的方程 多元线性回归方程的形式为E( y ) = 0+ 1 x1 + 2 x2 + p xp,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号