多元线性回归分析—内容提要与案例

上传人:博****1 文档编号:459132049 上传时间:2023-04-14 格式:DOC 页数:13 大小:423.50KB
返回 下载 相关 举报
多元线性回归分析—内容提要与案例_第1页
第1页 / 共13页
多元线性回归分析—内容提要与案例_第2页
第2页 / 共13页
多元线性回归分析—内容提要与案例_第3页
第3页 / 共13页
多元线性回归分析—内容提要与案例_第4页
第4页 / 共13页
多元线性回归分析—内容提要与案例_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《多元线性回归分析—内容提要与案例》由会员分享,可在线阅读,更多相关《多元线性回归分析—内容提要与案例(13页珍藏版)》请在金锄头文库上搜索。

1、多元线性回归分析内容提要1.多元线性回归的数学模型【模型的理论假设】设是个自变量解释变量,是因变量,那么多元线性回归模型的理论假设是,其中,是个未知参数,称为回归常数,称为回归系数,为随机误差.【模型的建立】求元线性函数的经验回归方程,其中,是的统计估计,分别是的统计估计,称为经验回归系数.【模型的数据结构】设对变量向量的次观测得到的样本数据为,.为了今后讨论方便,我们引进矩阵,于是,多元线性回归模型的数据结构为称为多元样本回归方程,其中,且各个相互独立.由于矩阵是样本数据,的数据可以进行设计和控制,因此,矩阵称为回归设计矩阵或资料矩阵.注释 对多元线性回归模型理论假设的进一步说明: 条件说明

2、,是一个满稚矩阵,即矩阵列向量解释变量间线性无关,样本容量的个数应当大于解释变量的个数.反该假设时,称模型存在多重共线性问题. 条件且各个相互独立说明,系统受到零均值齐性方差的正态随机干扰,系统自变量之间不存在序列相关,即,,.当时,称回归模型存在异方差.当时,称回归模型存在自相关.当模型违反上述假设后,就不能使用最小二乘法估计回归系数.解决方法将在后面介绍,先介绍模型符合假设时的参数估计方法.【参数估计的准那么】定义离差平方和,求使得,称称为模型参数的最小二乘估计,称为因变量的回归拟合值,简称回归值或拟合值.称为因变量的残差. 【参数估计的算法】 当满足元线性回归模型理论假设的条件时,模型参

3、数的最小二乘解为.可以证明,,其中.由此可见,是的无偏估计.协方差阵反映出估计量的波动大小,由于是右乘一个矩阵,所以的波动大小可以由抽样过程中进行控制.同一元线性回归分析一样,在多元线性回归中,样本抽样要尽可能的分散.3.回归方程的显著性检验 多元回归方程显著性的整体性检验检验解释变量全体对因变量是否有显著影响,方法是检验,亦称方差分析.【显著性检验根本定理】令 总偏差平方和,自由度. 回归平方和,自由度. 残差平方和,自由度.那么有 . 且. 与相互独立.【显著性检验根本方法 F检验(方差分析)】检验假设.检验统计量及其分布在为真时,与相互独立,于是检验统计量.检验的显著性概率.决策准那么在

4、显著性水平下,当时拒绝,即认为回归方程有显著意义. 当时,称回归方程高度显著,标记为*; 当时,称回归方程显著,标记为*; 当时,称回归方程不显著,不做标记.检验结果的报告方差分析表方差来源偏差平方和自由度值值显著性回归残差总计此外,与一元线性回归分析类似,可用可决系数来测定回归方程对各个观测点的拟合程度,的值越大小说明回归直线对各个观测点的拟合程度越高低. 多元回归方程中每个自变量对因变量影响显著性检验检验解释变量对因变量影响的显著性.检验假设().检验统计量及其分布在为真时,检验统计量检验的显著性概率.决策准那么在显著性水平下,当时拒绝,即认为解释变量对因变量影响显著.假设存在不显著的变量

5、,取,从回归方程中剔除自变量.设从原回归方程中剔除自变量后,重新建立的回归方程中为,那么可以证明,新回归方程的系数与原回归方程的系数有如下关系: ,.对于新建立的回归方程,必须对每一个余下的变量再次进行检验,直至余下变量全部显著为止.4.最优回归方程的选择 最优回归方程选择标准 因子完备的原那么 回归方程中包含所有对因变量有显著影响的自变量. 模型从简的原那么 回归方程中所包含的自变量的个数尽可能的少. 充分拟合的原那么 回归方程的剩余方差到达最小. 最优回归方程选择方法逐步回归法 根据问题所属专业领域的理论和经验提出对因变量可能有影响的所有自变量. 计算每一个自变量对因变量的相关系数,按其绝

6、对值从大到小排序. 取相关系数绝对值最大的那个自变量建立一元线性回归模型,检验所得回归方程的显著性,假设检验说明回归效果显著那么转入,假设检验说明回归效果不显著那么停止建模. 进行变量的追加、剔除和回归方程的更新操作:假设检验说明回归效果显著,那么按相关系数绝对值由大到小的顺序逐一将相应的自变量引入回归方程;每引入一个新的自变量,对新回归方程中每一个自变量都要进行显著性检验.假设检验说明回归效果不显著,那么剔除对因变量影响最小的自变量,更新回归方程;对更新后的回归方程中的每一个自变量仍要进行显著性检验、剔除、更新,直到回归方程中的每一个自变量都显著为止,再引入前面未曾引入的自变量.以此类推,直

7、到无法剔除已经引入的自变量,也无法引入新的自变量为止.注释 逐步回归法不能保证得到真正的最优回归方程,但此法是计算量较小、预测效果较好、有工具软件支持、应用最多欧德一种方法. 逐步回归法受检验的显著性水平影响较大,较大将会有较多的自变量引入回归方程,较小将会导致一些重要的自变量被剔除.5.利用回归方程对系统进行预测 点预测 设预测点为,那么是对的点估计,亦是对,的点预测. 区间预测 可以证明其中剩余方差,.于是,点预测的误差为,即在处的区间预测为即.当较大,时,可取以此来简化计算.多元线性回归分析案例及MATLAB解决【案例】 设某种水泥在凝固时所释放出的热量(卡/克)与水泥中的以下四种化学成

8、分有关:的成分%,的成分%,的成分%,的成分%.共观测了13组数据见下表:序号x1x2x3x4Y12345678910111213 7 11111 711 3 1 221 1111026295631525571315447406668 615 8 8 6 9172218 423 9 86052204733226442226341212试用逐步回归法求出对、和的最优回归方程.注释 数据保存在hald.mat文件中,ingredients为解释变量, heat为因变量 . 1、MATLAB逐步回归法建模的交互式图形环境介绍 【函数名称】 stepwise【函数功能】创立多元线性回归分析的逐步回归法

9、建模的交互式图形环境.【调用格式】stepwise(X,y) stepwise(X,y,inmodel,penter,premove)【参数说明】X p元线性模型解释变量的n个观测值的np矩阵.y p元线性模型因变量的n个观测值的n1向量.inmodel 标量或向量由X的列号构成,用来指明最初引入回归方程的解释变量缺省设置为空.penter 模型检验的显著性水平上限值缺省设置为0.05.premoveb 模型检验的显著性水平下限值缺省设置为0.10.【案例中的应用】load hald stepwise(ingredients, heat) 【交互式图形界面的说明】窗口 Coefficients

10、 with Error Bars绘出各个解释变量回归系数的估计,圆点表示点估计值,横线表示置信区间有色线段表示90%置信区间,黑色线段表示95%置信区间.窗口的右侧给出回归系数的点估计值(Coeff)、显著性检验的t统计量的值(t-stet)和显著性概率p值(p-val).窗口 Model History该窗口绘出的圆点表示历次建模的模型标准差的估计.两个窗口中间输出的是当前模型的有关信息,包括:lntercept 模型截距常数项的估计.RMSE 模型标准差的估计.R-square 可决系数.Adj-R-sq 校正的可决系数.F 模型整体性检验的F统计量的值.p 模型整体性检验的显著性概率.窗

11、口右侧的三个按钮:Next Step 在回归方程中按相关系数绝对值大小逐次引入解释变量,如无解释变量可引入时按钮不可用.All Steps 直接给出“只进不出方式建模的最终结果注意,此时的回归方程未必是最优回归方程.Export 选择向Workspace传输的计算结果有关变量名可由用户自定义.2、MATLAB逐步回归法建模的集成命令介绍 【函数名称】 stepwisefit【函数功能】用逐步回归法创立多元线性回归分析的最优回归方程.【调用格式】b = stepwisefit(X,y)b,se,pval,inmodel,stats,nextstep,history = tepwisefit(.)

12、. = stepwisefit(X,y,Param1,value1,Param2,value2,.)【参数说明】输入参数X与y的意义同函数stepwise. 其它引用参数的用法请用doc命令调阅系统帮助.输出参数b 模型系数 . se 模型系数的标准误差. pval 各个解释变量显著性检验的显著性概率. inmodel 各个解释变量在最终回归方程中地位的说明1表示在方程中,0表示不再方程中.stats 是一个构架数组,包括: source :建模方法的说明,stepwisefit表示逐步回归法;dfe:最优回归方程的剩余自由度;df0:最优回归方程的回归自由度;SStotal:最优回归方程的总

13、偏差平方和;SSresid:最优回归方程的剩余平方和;fstat:最优回归方程的F统计量的值;pval:最优回归方程的显著性概率;rmse:最优回归方程的标准误差估计;B:模型系数;SE:模型系数的标准误差;TSTAT:每个自变量显著性检验的T统计量的值;PVAL:每个自变量显著性检验的显著性概率;intercept:常数项的点估计;等等.nextstep 对是否还有需要引入回归方程的自变量的说明0表示没有history 是一个构架数组,包括: rmse:每一步的模型标准误差估计;df0:每一步引入方程的变量个数;in:记录了按相关系数绝对值大小逐步引入回归方程的变量的次序.【案例中的应用】load hald b,se,pval,inmodel,stats,nextstep,history=stepwisefit(ingredients, heat, penter, .10) Initial columns included: noneFinal columns included: 1 2 Columns 1 through 3 Coeff Std.Err. Status 1.4683 0.1213 In 0.662

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 商业计划书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号