整理:多元线性回归过程

上传人:今*** 文档编号:110877411 上传时间:2019-10-31 格式:PPT 页数:86 大小:6.56MB
返回 下载 相关 举报
整理:多元线性回归过程_第1页
第1页 / 共86页
整理:多元线性回归过程_第2页
第2页 / 共86页
整理:多元线性回归过程_第3页
第3页 / 共86页
整理:多元线性回归过程_第4页
第4页 / 共86页
整理:多元线性回归过程_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《整理:多元线性回归过程》由会员分享,可在线阅读,更多相关《整理:多元线性回归过程(86页珍藏版)》请在金锄头文库上搜索。

1、1,第三章 回归分析预测法,2,第一部分:多元线性回归经典假设,3,假设1. 解释变量X是确定性变量,不是随机变量,并且不存在多重共线性; 假设2. 随机误差项具有零均值、同方差和无自相关,不存在异方差性,序列相关性: E(i)=0 i=1,2, ,n Var (i)=2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n,4,异方差,5,随机误差项包含众多因素对因变里的影响,如果其中某一个或多个因素随 着自变量观侧值的变化而对因变量产生不同的影响,往往会导致异方差性。一 般情况下,用截面数据作样本时出现异方差性的可能较大,或者说一般都存在 异方差性。而当随机误差项存在

2、异方差性时,它的方差往往与主要的自变量之 间存在某种联系。,6,序列自相关,X,7,一般说来,经济时间序列中自相关现象较为常见。这主要是由经济变量的滞后性带来的。许多经济变量都会产生滞后影响。 自相关的产生违背了回归的基本假设,若仍用OLS法估计,将导致参数估计值虽是无偏的,但不是有效的.显著性检验失效。预测失效等。,8,假设3. 随机误差项与解释变量X之间不相关: Cov(Xi, i)=0 i=1,2, ,n 假设4. 服从零均值、同方差、零协方差的正态分布 iN(0, 2 ) i=1,2, ,n,9,多重共线性,10,第二部分:多元线性回归经典假设检验,11,12,13,14,15,VIF

3、如果大于5,则说明有多重共线性,这个值越大,共线性越严重; 解决方法:岭回归,主成份分析,16,变量间关系分析 计算相关系数,17,经验,DW值如果在2附近,不太可能有序列自相关 可以查表获得,其中m表示自变量的个数(包含常数项)m=3,因为,两个x,一个截距,18,实际应用中:存在多重共线性,需要消除多重共线性,不能直接建立多元线性回归方程。,19,序列自相关 计算结果为1.956,查表,结果发现不存在序列自相关,20,异方差检验 怀特检验,21,第三部分:多元线性回归建模过程,22,F检验:检验函数整体上是否可行,如果sig.列小于0.05,说明函数整体上看可行。,23,每个系数的检验:t

4、检验 Sig列小等于0.05,说明对应行的变量通过检验,可接受,对应的系数,就是B列的值; Sig列只要有一个大于0.05,则说明这个函数还不能用,要改进,24,改进:逐个按照Sig从大到小,去掉Sig大于0.05行对应的变量,重新建模 这个过程叫做逐步回归,这个过程用spss自动完成,25,到此,如果检验都通过,说明:这个模型是可以用的 如果有多个都可以,那个更好,26,多元线性回归方程的评价 评价回归方程的优劣、好坏可用确定系数R2和剩余标准差Sy,x1,2p 。 Sy,x1,2. p SQRT(SS误差n-p-1) 如用于预测,重要的是组外回代结果。,27,R检验 一般接近1的好 估计标

5、准误,小一些好,28,确定系数: 简记为R2,即回归平方和SS回归与总离均差平方和SS总的比例。 R2 SS回归 SS总 可用来定量评价在Y的总变异中,由P个X变量建立的线性回归方程所能解释的比例。,29,残差平方和,小的好,30,二、预测的评价标准 、平均预测误差平方和(mean squared error,简记MSE)平均预测误差绝对值(mean absolute error,简记MAE)。 变量的MSE定义为: MSE= (2.66) 其中 的预测值, 实际值,T时段数,31,变量的MAE定义如下: MAE= ,变量的定义同前 (2.67) 可以看到,MSE和MAE度量的是误差的绝对大小

6、,只能通过与该变量平均值的比较来判断误差的大小,误差越大,说明模型的预测效果越不理想。,32,2、Theil不相等系数 其定义为: (2.68) 注意,U的分子就是MSE的平方根,而分母使得U总在0与1之间。如果U=0,则对所有的t, 完全拟合;如果U=1,则模型的预测能力最差。因此,Theil不等系数度量的是误差的相对大小。,33,Theil不等系数可以分解成如下有用的形式: 其中 分别是序列 和 的平均值和标准差, 是它们的相关系数,即:,(2.69),34,定义不相等比例如下:,(2.70),(2.71),(2.72),35,偏误比例 表示系统误差,因为它度量的是模拟序列与实际序列之间的

7、偏离程度。 方差比例 表示的是模型中的变量重复其实际变化程度的能力。 协方差比例 度量的是非系统误差,即反映的是考虑了与平均值的离差之后剩下的误差。 理想的不相等比例的分布是 。,比例 分别称为U的偏误比例,方差比例,协方差比例。它们是将模型误差按特征来源分解的有效方法( )。,36,第五节:模型选择,一、“好”模型具有的特性 1、节省性(parsimony) 一个好的模型应在相对精确反应现实的基础上尽可能的简单。 2、可识别性(identifiability) 对于给定的一组数据,估计的参数要有唯一确定值。,37,3、高拟合性(goodness of fit) 回归分析的基本思想是用模型中包

8、含的变量来解释被解释变量的变化,因此解释能力的高低就成为衡量模型好坏的重要的标准。 4、理论一致性(theoretical consistency) 即使模型的拟合性很高,但是如果模型中某一变量系数的估计值符号与经济理论不符,那么这个模型就是失败的。,38,5、预测能力(predictive power) 著名经济学家弗里德曼(M.Friedman)认为:“对假设(模型)的真实性唯一有效的检验就是将预测值与经验值相比较”。因此一个好的模型必须有对未来的较强的预测能力。,39,二、用于预测的模型的选择 因为R2将随着模型解释变量的增多而不断增加,按照此标准我们将不会得到最佳的预测模型。 因此必须

9、对由于解释变量增多而造成自由度丢失施加一个惩罚项,其中的一个标准就是:,40,对自由度丢失惩罚更为严格的标准: Akaike的信息准则(Akaike information criterion,简记为AIC)和Schwarz的信息准则(Schwarz information criterion,简记为SC),41,其中 是方程随机误差项方差的估计值,k是解释变量的个数,T是样本容量。 可以看到,AIC和SC 的惩罚项 、 比 更为严厉,而且相对来说SC标准对自由度的惩罚比AIC更为严厉。无论是AIC标准还是SC标准,从预测的角度来看,度量值越低,模型的预测会更好。,42,标准化偏回归系数和确定

10、系数,标准化偏回归系数: 在比较各自变量对应变量相对贡献大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。 bj = bj (sj / sy),43,第四部分:多元线性回归手工建模过程,44,一元线性回归计算过程,1、系数估计:,45,多元线性回归计算过程,1、系数估计:,方程的矩阵形式为 这里:y是T1矩阵,X是Tk矩阵,是k1矩阵,u是T1矩阵,46,可以得到多变量回归系数的估计表达式,47,MATLAB录入操作,在excel数据中添加一个列,值都是1(如图所示) 复制如图所示所示选中的列,48,在matlab的命令窗口中输入命令行: (1)如图1所示

11、 (2)鼠标移到两个中括号之间,然后黏贴前面所选中3列数据,结果如下图,49,X=,X=,50,在matlab中输入命令行,然后按回车 XX=X*X,51,52,在matlab中输入INVXX=inv(XX),然后按回车(注意大小写),53,从excel中复制y这列的数据,54,在matlab命令行中 输入:Y=,然后鼠标移到中括号中间 然后,黏贴复制的y数据,55,在matlab中输入XY=X*Y,然后按回车(注意大小写),56,在matlab命令行中输入: Beta=INVXX*XY,57,中间结算结果,58,R检验,1、可决系数与调整的可决系数,总离差平方和的分解,可决系数,该统计量越接

12、近于1,模型的拟合优度越高。,59,=0.9988 公式中: 分别和前面计算的结果对应,60,R相关表,61,R查表过程,总共N=12条记录,3个变量(含截距),所以查表参数:M=3,N-M=9临界值为:,62,R=0.9988临界值0.697 说明:相关性显著,63,问题: 在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大(Why?) 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。,64,调整的可决系数(adjusted coefficient of determination)

13、,在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:,其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。k,表示变量格数(不含截距),=1-(1-0.9988*0.9988)*(12-1)/(12-3),65,F检验:计算过程,66,F检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS,如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。 因此,可通过该比值的大小对总体线性关系进行推断。,67,根据数理统计学中的知

14、识,在原假设H0成立的条件下,统计量,服从自由度为(k , n-k-1)的F分布,给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过 F F(k,n-k-1) 或 FF(k,n-k-1) 来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。,68,由,可推出:,与,或,69,F计算,70,F分布表,71,F查表过程,总共N=12条记录,3个变量(含截距),所以查表参数:M-1=2,N-M=9临界值为:,72,T检验:S计算过程,其中Cii,73,XX的逆矩阵和样本标准差,其中Cii,表示XX的逆矩阵的对角元,74,计算t统计量,其中分子分别是前面计算

15、的三个系数,75,t查表过程,总共N=12条记录,3个变量(含截距),所以查表参数:N-M=9 临界值为:,76,三个系数的t统计量都大于临界值2.26,说明可以通过系数检验,77,预测过程,用系数和X计算Y的预测值:,78,预测结果,79,计算残差,80,DW公式,81,DW计算中间过程,82,DW计算,代入公式:,=4.058/2.0849=1.9548,83,DW查表,84,M=3,表示3个变量,包含截距 N=12,记录数12条,12年的数据,小于15,取n=15。查表得到:,85,0.82 1.75 4-1.75 4-0.82,86,可以得到多变量回归系数的估计表达式,(2.49),同样我们可以得到多变量回归模型残差的样本方差,(2.50),参数的协方差矩阵 (2.51),

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号