回归分析方法 副本

上传人:豆浆 文档编号:50889628 上传时间:2018-08-11 格式:PPT 页数:56 大小:1.03MB
返回 下载 相关 举报
回归分析方法 副本_第1页
第1页 / 共56页
回归分析方法 副本_第2页
第2页 / 共56页
回归分析方法 副本_第3页
第3页 / 共56页
回归分析方法 副本_第4页
第4页 / 共56页
回归分析方法 副本_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《回归分析方法 副本》由会员分享,可在线阅读,更多相关《回归分析方法 副本(56页珍藏版)》请在金锄头文库上搜索。

1、变量之间的关系确定性关系相关关系确定性关系 身高和体重相关关系相关关系的特征是:变量之间的关系很难用一 种精确的方法表示出来.1.1 引言1.回归分析方法确定性关系和相关关系的联系由于存在测量误差等原因,确定性关系在实际 问题中往往通过相关关系表示出来;另一方面,当对 事物内部规律了解得更加深刻时,相关关系也有可 能转化为确定性关系.回归分析处理变量之间的相关关系的一 种数学方法,它是最常用的数理统计方法.回归分析的任务根据试验数据估计回归 函数;讨论回归函数中参数的点估计、区间估计; 对回归函数中的参数或者回归函数本身进行假设 检验;利用回归函数进行预测与控制等等.一元线性回归多元线性回归回

2、归分析方法数学模型及定义模型参数估计检验、预测与控制可线性化的一元非线 性回归(曲线回归)数学模型及定义模型参数估计多元线性回归中的 检验与预测逐步回归分析1.2一元线性回归分析例1 测16名成年女子的身高与腿长所得数据如下:以身高x为横坐标,以腿长y为纵坐标将这些数据点(xi,yi) 在平面直角坐标系上标出.散点图解答身高143145146147149150153154155156157158159160162164腿长长88858891929393959698979698991001021.2.1 数学模型一元线性回归分析的主要任务是:、1、用试验值(样本值)对0b1b和s作点估计;、2、

3、对回归系数0b1b作假设检验;1.2.2 模型参数估计(1)回归系数的最小二乘估计其中称Qe为残差平方和或剩余平方和. 可以证明: 1.2.3 回归方程的显著性检验F检验法可以用三种不同方法进行检验,它们的本质 是相同的这里介绍回归系数的置信区间1.2.4 预测与控制(1)预测:对固定的x值预测相应的y值(2)控制1.3 可线性化的一元非线性回归曲线回归例2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关 系.对一钢包作试验,测得的数据列于下表:解答散 点 图此即非线性回归或曲线回归问题(需要配曲线)配曲线的一般方法是:通常选择的六类

4、曲线如下:返回1.4 多元线性回归多元线性回归在工程上更为有用。1.4.1数学模型及定义1.4.2模型参数估计解得估计值1.4.4多元线性回归中的检验与预测(残差平方和 )F检验法(2)预测(A)点预测(B)区间预测1.5 逐步回归分析实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量 选择的问题。逐步回归是一种从众多变量中有效地选择重要变量的方法。它是在多元线性回归的基础上派生出来的一种 算法技巧。“最优”的回归方程就是包含所有对Y有影响的变量, 而不 包含对Y影响不显著的变量回归方程。如果采用的自变量越多,则回归平方和越大,残差平方 和越小

5、,然而较多的变量来拟合回归方程,得到的防策划能 够稳定性差,用它作预测可靠性差,精度低另一方面,如 果采用了y 影响较小的变量而遗漏了重要变量,可导致估计量 产生偏崎和不一致性为此,我们希望得到“最优”的回归方 程(4)“有进有出”的逐步回归分析。(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;选择“最优”的回归方程有以下几种方法:以第四种方法,即逐步回归分析法在筛选变量方面较为理想. 这个过程反复进行,直至既无不显著的变量从回归方程中 剔除,又无显著变量可引入回归方程时为止。逐步回归分析法

6、的思想: 从一个自变量开始,视自变量Y作用的显著程度,从大 到小地依次逐个引入回归方程。 当引入的自变量由于后面变量的引入而变得不显著时,要 将其剔除掉。 引入一个自变量或从回归方程中剔除一个自变量,为 逐步回归的一步。 对于每一步都要进行Y值检验,以确保每次引入新的显 著性变量前回归方程中只包含对Y作用显著的变量。1.1多元线性回归b=regress( Y, X )1)确定回归系数的点估计值:1. MATLAB统计工具箱中的回归分析命令对一元线性回归,取p=1即可.3、画出残差及其置信区间: rcoplot(r,rint)2)求回归系数的点估计和区间估计、并检验回归模型:b, bint,r,

7、rint,stats=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量 ,有三个数值: 相关系数r2、F值、与F对应的 概率p置信区间显著性水平 (缺省时为0.05)例1 解:1、输入数据:x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164;X=ones(16,1) x;Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;2、回归分析及检验:b,bint,r,rint,stats=regress(Y,X)b,bint,statsT

8、o MATLAB(liti11)题目3、残差分析,作残差图:rcoplot(r,rint)从残差图可以看出,除第二个数据外,其余数据的残 差离零点均较近,且残差的置信区间均包含零点,这说明 回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第 二个数据可视为异常点. 4、预测及作图: z=b(1)+b(2)*xplot(x,Y,k+,x,z,r)返回To MATLAB(liti12)1.2多 项 式 回 归 (1)一元多项式回归 1)确定多项式系数的命令:p,S=polyfit(x,y,m)2)一元多项式回归命令:polytool(x,y,m)A、回归:y=a1xm+a2xm

9、-1+amx+am+1此命令产生一个交互式的画面,画面中有拟合曲线和y 的置信区间。通过左下方的Export菜单,可以输出回归系数 等。B、预测和预测误差估计: (1)Y=polyval(p,x)求polyfit所得的回归多项式在x处的预测值Y;(2)Y,DELTA=polyconf(p,x,S,alpha)求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-alpha的置信区间Y DELTA;alpha缺省时为0.05.一元多项式回归也可以化为多元线性回归来解。法一直接作二次多项式回归:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69

10、33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;p,S=polyfit(t,s,2)To MATLAB(liti21 )得回归模型为 :法二化为多元线性回归: t=1/30:1/30:14/30; s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48; T=ones(14,1) t (t.2); b,bint,r,rint,stats=regress(s,T); b,statsTo MATLAB

11、(liti22)得回归模型为 :Y=polyconf(p,t,S)plot(t,s,k+,t,Y,r)预测及作图To MATLAB(liti23)1.6.3多元二项式回归命令:rstool(x,y,model, alpha)nm矩阵显著性水平 (缺省时为0.05)n维列向量命令rstool产生一个交互式画面,画面中有m个图形,这m个图形分别给出了一个独立变量xi(另m-1个变量取固定值)与y的拟合曲线,以及y的置信区间。可以通过键入不同的xi值来获得相应的y值。例3 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为800、价格为6时 的商品需求量.解直接

12、用多元二项式回归: x1=1000 600 1200 500 300 400 1300 1100 1300 300; x2=5 7 6 6 8 7 5 4 3 9; y=100 75 80 70 50 65 90 100 110 60; x=x1 x2;rstool(x,y,purequadratic)在画面左下方的下拉式菜单中选”all”, 则beta(回归系数)、rmse (剩余标准差)和residuals(残差)都传送到Matlab工作区中.在左边图形下方的方框中输入800,右边图形下方的方框中输入6。则画面左边的“Predicted Y”下方的数据变为86.3971,即预测出平均收 入

13、为800、价格为6时的商品需求量为86.3971.在Matlab工作区中输入命令: beta, rmseTo MATLAB(liti31)1.非线性回 归 (1)确定回归系数的命令:beta,r,J=nlinfit(x,y,model, beta0)(2)非线性回归命令:nlintool(x,y,model, beta0,alpha)1.1回归:残差Jacobian矩阵,用于 估计预测误差需要 的数据。回归系数 的初值是事先用m-文件定 义的非线性函数估计出的 回归系数输入数据x、y分别为 矩阵和n维列向 量,对一元非线性回 归,x为n维列向量。其中个参数含义同前,alpha为显著性水平,缺省

14、时为0.05。 该命令产生一个交互式的画面,画面中有拟合曲线和y的置信 区间。通过左下方的Export菜单,可以输出回归系数等。1.2、预测和预测误差估计:该命令用于求nlinfit 或nlintool所得的回归函数在x处的预 测值Y及预测值的显著性为1-alpha的置信区间Y DELTA.Y,DELTA=nlpredci(model, x,beta,r,J)例 4 对第一节例2,求解如下:2、输入数据:x=2:16;y=6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.60 10.80 10.60 10.90 10.76;beta0=8 2

15、;3、求回归系数:beta,r ,J=nlinfit(x,y,volum,beta0);beta 得结果:beta =11.6036-1.0641即得回归模型为:To MATLAB(liti41)题目4、预测及作图: YY,delta=nlpredci(volum,x,beta,r ,J);plot(x,y,k+,x,YY,r) To MATLAB(liti42).逐 步 回 归逐步回归的命令是:stepwise(x,y,inmodel,alpha)运行stepwise命令时产生三个图形窗口:Stepwise Plot, Stepwise Table,Stepwise History.在Ste

16、pwise Plot窗口,显示出各项的回归系数及其置信区间.Stepwise Table 窗口中列出了一个统计表,包括回归系数及 其置信区间,以及模型的统计量剩余标准差(RMSE)、相关系 数(R-square)、F值、与F对应的概率P.矩阵的列数的指标,给出初 始模型中包括的子集(缺省 时设定为全部自变量)显著性水平(缺省时为0.5)自变量数据, 阶矩阵因变量数据 , 阶矩阵例6 水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、 x4有关,今测得一组数据如下,试用逐步回归法确定一个 线性模型.1、数据输入: x1=7 1 11 11 7 11 3 1 2 21 1 11 10; x2=26 29 56 31 52 55 71 31 54

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号