统计方法5 回归分析

上传人:人*** 文档编号:557556439 上传时间:2023-03-09 格式:DOCX 页数:22 大小:273.57KB
返回 下载 相关 举报
统计方法5 回归分析_第1页
第1页 / 共22页
统计方法5 回归分析_第2页
第2页 / 共22页
统计方法5 回归分析_第3页
第3页 / 共22页
统计方法5 回归分析_第4页
第4页 / 共22页
统计方法5 回归分析_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《统计方法5 回归分析》由会员分享,可在线阅读,更多相关《统计方法5 回归分析(22页珍藏版)》请在金锄头文库上搜索。

1、统计方法 5 回归分析前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组 数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得 最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由 数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还 有进一步研究的必要吗?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数, 只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至 包含了零点,那么系数的估计值是没有多大意义的。另外也应该对模型的误差进

2、行分析,对 拟合的优劣给出评价。从建模的角度说,回归分析就是对拟合问题作的统计分析。具体地说,回归分析在一组数据的基础上研究这样几个问题:(i) 建立因变量y与自变量x,x,,x之间的回归模型(经验公式);1 2 m(ii) 对回归模型的可信度进行检验;(iii) 判断每个自变量x (i二1,2,m)对y的影响是否显著;i(iv) 诊断回归模型是否适合这组数据;(v) 利用回归模型对y进行预报或控制。1 多元线性回归回归分析中最简单的形式是y = B +P x,x,y均为标量,P ,P为回归系数,称一元0 1 0 1线性回归。它的一个自然推广是x为多元变量,形如y = P+P x + + P

3、x(1)01 1m mm2,或者更一般地y = p +p f (x) + - +p f (x)(2)01 1m m其中x = (x ,x ),f .(j二1,m)是已知函数。这里y对回归系数P = (P ,P,,P )1 m j01 m是线性的,称为多元线性回归。不难看出,对自变量x作变量代换,就可将(2)化为(1) 的形式,所以下面以(1)为多元线性回归的标准型。1.1 模型在回归分析中自变量x二(x ,x ,x )是影响因变量y的主要因素,是人们能控制或12 m能观察的,而 y 还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作y = P + P x + + P

4、 x + 8 m,由(3)得i i 1imy = B +B x + + B x + 8i 0 1 i 1m im i8 N(Oq2), i 二 1,.,niX=1x11 x1m , Y =y.11x xy1n1nmn5)8二88 T,卩二卩卩卩T1nO 1m4)表为Y 二 XP +88 N(Oq 2)6)1.2 参数估计用最小二乘法估计模型(3)中的参数0。由(4)式这组数据的误差平方和为7)Q (卩)=工 8 2 = (Y - X0) t (Y - X0)ii=1求卩使Q(0)最小,得到0的最小二乘估计,记作0,可以推出0= ( XtX )-1 XtY(8)将0代回原模型得到y的估计值八八八

5、y = 0 + 0 x + + 0 x( 9)O 1 1m m而这组数据的拟合值为Y = X0,拟合误差e = Y -Y称为残差,可作为随机误差8的估计,而1O)为残差平方和(或剩余平方和),即Q(0)。1.3 统计分析 不加证明地给出以下结果:G) 0是0的线性无偏最小方差估计。指的是0是Y的线性函数;0的期望等于0;在0的线性无偏估计中, 0的方差最小。ii) 0 服从正态分布11)12)13)0 N(卩Q2(XtX)-i)(iii)对残差平方和Q , EQ = (n m 1)q 2,且QX2(n一m一 1)q 2由此得到Q 2的无偏估计s2 是剩余方差(残差的方差), s 称为剩余标准差

6、。(iv)对总平方和S (y y)2进行分解,有 ii=114)S = Q + U, U =工(y y)2ii=1其中Q是由(io)定义的残差平方和,反映随机误差对y的影响,u称为回归平方和,反 映自变量对 y 的影响。1.4 回归模型的假设检验因变量y与自变量叭,x之间是否存在如模型(1)所示的线性关系是需要检验的,1m显然,如果所有的I 0 J (j = 1,m)都很小,y与x,,x的线性关系就不明显,所以j1 m可令原假设为H : 0 = 0( j = 1,m)oj当H0成立时由分解式(定义的U,Q满足U / mQ /(n 一 m 一 1)F (m, n m 1)(15)在显著性水平下有

7、la分位数F (m,n m 1),若F F (m,n m 1),接受H ; iaia0否则,拒绝。注意 拒绝H只说明y与x,., x的线性关系不明显,可能存在非线性关系,如平 01 m方关系。还有一些衡量y与叭,,x相关程度的指标,如用回归平方和在总平方和中的比值定1mUR2 =(16)SR e 0,1称为相关系数,R越大,y与x,,x相关关系越密切,通常,R大于0.8(或1m0.9)才认为相关关系成立。1.5 回归系数的假设检验和区间估计当上面的H被拒绝时,卩不全为零,但是不排除其中若干个等于零。所以应进一步 0j作如下m个检验(j二1,m):H( j): P = 00j由(11)式,(3N

8、(卩Q2c ),c是(XtX)-1对角线上的元素,用s2代替b 2,jjjjjj由(11) (13)式,当 H (j) 成立时0a /Ft = j jt(n 一m 一 1)(17)jVQ /(n 一 m 一 1)对给定的a ,若11 l t(n-m-1),接受H(j);否则,拒绝。j1-a02(17 )式也可用于对卩作区间估计(j = 0,1,m),在置信水平1 -a下,卩的置信区 jj间为八| 八!卩t(n m l)s C ,卩 +1(n m l)s c j1av jj j , a飞 jj218)1-21.6 利用回归模型进行预测当回归模型和系数通过检验后,可由给定的x0 = (x01,,X

9、0 m )预测y。yo是随机的显然其预测值(点估计)为y =0 + 3x h3 x1 01m 0 m0019)给定-可以算出y的预测区间(区间估计),结果较复杂,但当n较大且x0i接近平均值xi时, y 的预测区间可简化为0y u s, y + u s (20)01 a 01 a1 122其中u1a是标准正态分布的1诗分位数。2对y的区间估计方法可用于给出已知数据残差e = y - y (i二1,n)的置信区间,0i i ie服从均值为零的正态分布,所以若某个e的置信区间不包含零点,则认为这个数据是异 ii常的,可予以剔除。1.7 Matlab 实现Matlab 统计工具箱用命令 regres

10、s 实现多元线性回归,用的方法是最小二乘法,用法是: b=regress(Y,X)其中Y,X为按(5)式排列的数据,b为回归系数估计值0 ,0,,0。0 1 mb,bint,r,rint,stats=regress(Y,X,alpha)这里Y,X同上,alpha为显著性水平(缺省时设定为0.05),b,bint为回归系数估计值和它们的置信区间,r,rint为残差(向量)及其置信区间,stats是用于检验回归模型的统计量,有三个数值,第一个是R 2 (见(16)式),第二个是F (见(15)式),第3个是与F对应的概率p,p a拒绝H,回归模型成立。0注 关于R2的说明:一般,R2越接近1,回归

11、方程越显著。残差及其置信区间可以用rcoplot(r,rint)画图。1一元线形回归例1合金的强度y与其中的碳含量x有比较密切的关系,今从生产中收集了一批数据 如下表:x0.100.110.120.130.14 0.150.16 0.170.18y42.041.545.045.545.0 47.549.0 55.050.0试先拟合一个函数y (x),再用回归分析对它进行检验。解 先画出散点图:x=0.1:0.01:0.18;y=42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0;plot(x,y,+)设回归模型为21)用 regress 和 rcoplot 编

12、程如下:clc,clearx1=0.1:0.01:0.18; y=42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0; x=ones(9,1),x1; %原始数据左边加一列1,表示模型包含常数项% b,bint,r,rint,stats=regress(y,x);b,bint,stats,rcoplot(r,rint) 得到b =27.4722 137.5000bint =18.6851 36.259475.7755 199.2245stats =0.7985 27.74690.00121的置信区间是即 0: = 27.4722, 137.5000, 0:的置

13、信区间是18.685136.2594,75.7755,199.2245; R2 = 0.7985 , F = 27.7469 , p = 0.0012 。可知模型(21)成立。画回归直线yhat=x*b; %得到y的预测值plot(x1,yhat,linewidth,3);Residual Case Older Plot123456789Case Number观察命令rcoplot(r,rint)所画的残差分布,若残差的置信区间不包括0点,则该点可视为异 常点。除第 8 个数据外其余残差的置信区间均包含零点,第 8 个点应视为异常点,将其剔除 后重新计算,可得b =30.7820 109.3985bint =26.280535.283476.9014 141.8955stats =0.918867.85340.0002应该用修改后的这个结果。其中红色虚线为调整之后的回归直线2多元线性回归例2某厂生产的一种电器的销售量y与竞争对手的价格xi和本厂的价格x2有关。下x元1120140190130155175125145180150x元10011090150210150250270300250表是

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号