数学建模回归分析教学文稿

上传人:youn****329 文档编号:130260457 上传时间:2020-04-26 格式:PPT 页数:32 大小:453.50KB
返回 下载 相关 举报
数学建模回归分析教学文稿_第1页
第1页 / 共32页
数学建模回归分析教学文稿_第2页
第2页 / 共32页
数学建模回归分析教学文稿_第3页
第3页 / 共32页
数学建模回归分析教学文稿_第4页
第4页 / 共32页
数学建模回归分析教学文稿_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《数学建模回归分析教学文稿》由会员分享,可在线阅读,更多相关《数学建模回归分析教学文稿(32页珍藏版)》请在金锄头文库上搜索。

1、回归分析 山东建筑大学贺长伟 引言 回归分析是处理很难用一种精确方法表示出来的变量之间关系的一种数学方法 它是最常用的数理统计方法 能解决预测 控制 生产工艺优化等问题 它在工农业生产和科学研究各个领域中均有广泛的应用 回归分析一般分为线性回归分析和非线性回归分析 本节着重介绍线性回归分析的基本结论及其在Matlab中的相应命令 线性回归分析是两类回归分析中较简单的一类 也是应用较多的一类 于是我们得到一元线性回归模型为 1 2 其中未知 固定的未知参数称为回归系数 自变量x称为回归变量 1 1 式两边同时取期望得 称为y对x的回归直线方程 在该模型下 第i个观测值可以看作样本 这些样本相互独

2、立但不同分布 i 1 2 n 的实际抽样值 即样本值 一元线性回归分析的主要任务是 a 用实验值 样本值 对作点估计 b 对回归系数作假设检验 c 在处对y作预测 并对y作区间估计 1 回归参数估计假设有n组独立观测值 则由 1 2 有 1 3 其中相互独立 记称为偏离真实直线的偏差平方和 由最小二乘法得到的估计称为的最小二乘估计 其中 经验 回归方程为 1 4 这样我们得到的无偏估计 其中服从正态分布 2模型的假设 预测 控制 1 回归方程的显著性检验在实际问题中 因变量y与自变量x之间是否有线性关系 1 1 只是一种假设 在求出回归方程之后 还必须对这种回归方程同实际观测数据拟合的效果进行

3、检验 由 1 1 可知 越大 y随x变化的趋势就越明显 反之 越小 y随x变化的趋势就越不明显 特别当 0时 则认为y与x之间不存在线性关系 当时 则认为y与x之间有线性关系 因此 问题归结为对假设进行检验 假设 被拒绝 则回归显著 认为y与x之间存在线性关系 所求的线性回归方程有意义 否则回归不显著 y与x的关系不能用一元线性回归模型来描述 所得的回归方程也无意义 此时 可能有如下几种情况 1 x对y没有显著影响 此时应丢掉变量x 2 x对y有显著影响 但这种影响不能用线性关系来表示 应该用非线性回归 3 除x之外 还有其他不可忽略的变量对y有显著影响 从而削弱了x对y的影响 此时应用多元线

4、性回归模型 因此 在接受H0的同时 需要进一步查明原因以便分别处理 检验方法 a F检验法对样本方差进行分解 有上式中的是由实际观测值没有落在回归直线上引起的 否则为零 U是由回归直线引起的 因此 U越大 就越小 表示y与x的线性关系就越显著 否则 U越小 就越大 表示y与x的线性关系就越不显著 这样我们就找到了一种判别回归直线拟合程度好坏的方法 如果U s接近于1 即U 较大时 则对拟合效果感到满意 由F分布有其中r称为相关系数 对给定的显著水平a 有置信水平为1 a的临界值 从而F检验法的检验准则为 当时 拒绝 否则就接受 b t检验法当成立时 由T分布的定义有因此 对于给定的显著水平a

5、用T统计量检验 有置信水平为1 a的临界值 从而t检验法的检验准则为 当时 拒绝 否则就接受 2 预测与控制当检验结果拒绝了 接下来的问题是如何利用回归方程进行预测和控制 预测就是对固定的x值预测相应的y值 控制就是通过控制x的值 以便把y的值控制在制定的范围内 a 预测设y与x满足模型 1 2 令表示x的某个固定值 且假设相互独立 则的预测值和预测区间如下 y的预测值为的回归值 它是的无偏估计 即给定显著水平 的置信水平为1 的预测区间为 其中由上式可知 剩余标准差越小 预测区间越小 预测值越精确 对于给定的样本观测值和置信水平而言 越靠近时 预测精度就越高 b 控制若要的值以1 的概率落在

6、指定区间 c d 之内 变量x应控制在什么范围内的问题就是所谓的控制问题 它是预测问题的反问题 只要控制x满足以下两不等式这要求若方程分别有解a b 则 a b 就是所求的x的控制区间 二可线性化的一元非线性回归 曲线回归 在工程技术中 自变量x与因变量y之间有时呈现出非线性 或曲线 关系 这是通常出现两种情况 一种是呈现多项式的关系 这种情况通过变量替换可化为多元线性回归问题给予解决 另一种是呈现出其它非线性关系 通过变量替换可化为一元线性回归问题给予解决 若匹配曲线 经验公式 为含参量a b的非线性曲线 采用的办法是通过变量替换把非线性回归化为线性回归 通常匹配的含参量a b的非线性曲线有

7、以下六类 具体的替换方法如下 1双曲线作变量替换得2幂函数曲线两边取常用对数 再作代换则幂函数曲线方程就变成直线方程注 对于非线性回归问题的Matlab实现问题 一种方法是化为相应的线性模型实现 另种方法是直接应用Matlab中相应的命令 其结果是一致的 三多元线性回归分析 一般地 在实际问题中影响应变量y的自变量往往不止一个 不妨设有k个为 通过观测得到一组 k 1维 相互独立的试验观测数据 其中n k 1 假设变量y与变量之间有线性关系 1 5 其中是随机变量 一般假设则观测数据满足 1 6 其中互不相关且均是与同分布的随机变量 令则 1 6 可简写为其中X为已知的n k 1 矩阵 称为回

8、归设计矩阵或资料矩阵 Y是n维观察值列向量 为k 1维未知的列向量 是满足的n维随机列向量 一般称 1 7 为k线性回归模型 高斯 马尔科夫线性模型 对 1 7 取数学期望得到称为线性回归方程 对线性模型所要考虑的主要问题是 i 用实验观测数据对未知参数做点估计和假设检验 从而建立因变量y和自变量之间的线性关系 ii 在处对y的值作预测和控制 并对y作区间估计 本部分总是假设n k 1 具体方法略 四 逐步线性回归分析 逐步线性回归分析方法就是一种自动从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法 它是在多元线性回归基础上派生的一种算法技巧 详可参阅相应的文献 其基本思路为

9、从一个自变量开始 视自变量对y作用的显著程度 从大到小依次逐个引入回归方程 当引入的自变量由于后面自变量的引入而变得不显著时 要将其剔除掉 引入一个自变量或从回归方程中剔除一个自变量 为逐步回归的一步 对于每一步 都要进行y值检验 以确保每次引入新的显著性变量前回归方程中只包含对y作用显著的变量 这个过程反复进行 直至即无不显著的变量从回归方程中剔除 又无显著变量可引入回归方程止 五回归分析的Matlab实现 Matlab统计工具箱中提供了一些回归分析的命令 现介绍如下 1 多元线性回归多元线性回归的命令是regress 此命令也可用于一元线性回归 其格式为 1 确定回归系数的点估计 用命令

10、b regress Y X 2 求回归系数的点估计和区间估计 并检验回归模型 用命令 b bint r rint stats regress Y X alpha 3 画出残差及其置信区间 用命令 rcoplot r rint 在上述命令中 各符号的含义为 i Y X的定义同本部分前面所述 对一元线性回归 在 Y X中取k 1即可 ii alpha为显著性水平 缺省时为0 05 iii bint为回归系数的区间估计 iv r与rint分别为残差及其置信区间 v stats是用于检验回归模型的统计量 有三个数值 第一个是 第二个是F值 第三个是与F对应的概率P 其中与F定义同前 值越大 说明回归方

11、程越显著 P a 0 01或0 05 时拒绝 回归模型成立 例1合金的强度y与其中的碳含量x有比较密切的关系 今从生产中收集了一批数据如下表 试先拟合一个函数y x 再用回归分析对它进行检验 x0 100 110 120 130 140 150 160 170 18y42 041 545 045 545 047 549 055 050 0解先画出散点图 x 0 10 0 01 0 18 y 42 0 41 5 45 0 45 5 45 0 47 5 49 0 55 0 50 0 plot x y 可知y与x大致为线性关系 设回归模型为 用regress和rcoplot编程如下 clc clea

12、rx1 0 10 0 01 0 18 y 42 0 41 5 45 0 45 5 45 0 47 5 49 0 55 0 50 0 x ones 9 1 x1 b bint r rint stats regress y x b bint stats rcoplot r rint 得到b 27 4722137 5000bint 18 685136 259475 7755199 2245stats 0 798527 74690 0012即 27 4722 137 5000 的置信区 18 6851 36 2594 的置信区间是 75 7755 199 2245 R2 0 7985 F 27 746

13、9 p 0 0012 可知所设回归模型成立 观察命令rcoplot r rint 所画的残差分布 除第8个数据外其余残差的置信区间均包含零点 第8个点应视为异常点 将其剔除后重新计算 可得b 30 7280109 3985bint 26 280535 283476 9014141 8955stats 0 918867 85340 0002应该用修改后的这个结果 2 多元二项式回归多元二项式回归可用命令 rstool x y model alpha 其中 输入数据x y分别为n m矩阵和n维列向量 alpha为显著性水平 缺省时为0 05 model由下列4个模型中选择1个 用字符串输入 缺省时

14、为线性模型 linear 线性 purequadratic 纯二次 interaction 交叉 quadratic 完全二次 3 非线性回归非线性回归可用命令nlinfit nlintool nlparci nlpredci来实现 命令格式如下 回归 回归可用命令 beta r J nlinfit x y model beta0 或者nlintool x y model beta0 alpha 来实现 其中命令 beta r J nlinfit x y model beta0 的作用为确定回归系数 而命令nlintool x y model beta0 alpha 产生一个交互式的画面 画面

15、中有拟合曲线和y的置信区间 通过左下方的Export下拉式菜单 可以输出回归系数等 这里的输入数据x y分别为n m矩阵和n维列向量 对一元非线性回归 x为n维列向量 model是事先用m 文件定义的非线性函数 beta0是回归系数的初值 Beta是估计出的回归系数 r 残差 J Jacobian矩阵 是估计预测误差需要的数据 alpha为显著性水平 缺省时为0 05 预测和预测误差估计 预测和预测误差估计的命令格式为betaci nlparci beta r J 其用途为记算回归系数的置信区间 Y DELTA nlpredci model x beta r J 其用途为求nlinfit或nl

16、intool所得的回归函数在x处的预测值Y及预测值的显著性为1 alpha的置信区间Y DELTA alpha缺省时为0 05 某些非线性回归也可化为多元线性回归来解 4 逐步回归逐步回归的命令是stepwise 它提供了一个交互式画面 通过此工具可以自由地选择变量 进行统计分析 通常用法是 stepwise x y inmodel alpha 其中x是自变量数据 y是因变量数据 分别为n m和n 1矩阵 inmodel是矩阵的列数指标 给出初始模型中包括的子集 缺省时设定为全部自变量 alpha为显著水平 缺省时为0 05 运行stepwise命令时产生三个图形窗口 StepwisePlot StepwiseTable StepwiseHistory 所有这些图形界面都由热区 即当鼠标移到图形的某个区域时 鼠标的指针会变成一个小圆 点击后会产生交互作用

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号