《刘杰 多元回归分析》由会员分享,可在线阅读,更多相关《刘杰 多元回归分析(18页珍藏版)》请在金锄头文库上搜索。
1、数学建模与数学实验第 9 章:多元回归分析实验目的:1.1.直观了解多元回归分析的基本内容;直观了解多元回归分析的基本内容;2.2.掌握用数学软件求解多元回归分析问题。掌握用数学软件求解多元回归分析问题。实验内容:1.1.多元回归分析的基本理论;多元回归分析的基本理论;2.2.用数学软件求解多元回归分析问题;用数学软件求解多元回归分析问题;3.3.课堂实验练习。课堂实验练习。一、多元线性回归(一)回归模型称如下模型为多元线性回归模型(高斯-马尔可夫线性模型)20,( ,)YXN其中 , , , 。1nyYy MM1112121111kknnkxxxxXxx LLMMLML0k MM1n MM称
2、为回归平面方程。 %Y 必须是列向量011kkyxxL多元线性回归分析的主要任务是:(1)用样本值对未知参数和作点估计;01,kL2(2)对回归系数作假设检验;01,kL(3)在处对 y 作预测与控制,并对 y 作区间估计。01020,kxxxL(二)模型参数估计1.1.回归系数回归系数的最小二乘估计的最小二乘估计01,kL作离差平方和:2 01011 1,(,)()nkiikik iQyxxLL最小二乘法就是选择的估计,使得01,kL01, kL数学建模与数学实验0101,(,)min(,)kkQQLL称为的最小二乘估计(LS 估计) 。01, kL01,kL2. 的无偏估计的无偏估计2残差
3、平方和: 2 01 1,(,)()nekii iQQyyL,22()()eE Qn22/()eeQn则,称为剩余方差,它是的无偏估计。22()eE2e2(三)检验、预测与控制1.1.回归方程的显著性检验回归方程的显著性检验对回归方程的显著性检验,可提出如下原假设:011kkyxxL0010:kHL若假设被拒绝,则回归显著,认为与之间确有线性关系,所求0Hy1,kxxL的线性回归方程有意义;否则回归不显著。 2.2.预测预测(1)点预测:根据回归方程,给定自变量,预测.1*,kxxL*y(2)区间预测:给定自变量,预测的置信区间. 1,kxxLy12,yy(四)回归分析的相关命令1.1.确定回归
4、系数的点估计确定回归系数的点估计: b=regress(Y, X)2.2.求回归系数的点估计和区间估计、并检验回归模型:求回归系数的点估计和区间估计、并检验回归模型:数学建模与数学实验b, bint, r, rint, stats=regress(Y, X, alpha)(1)相关系数越接近 1,说明回归方程越显著;2r(2)时拒绝,值越大,说明回归方程越显著;11( ,)FFk nk0HF(3)时,拒绝,说明回归模型成立。p0H3.3.画出残差及置信区间:画出残差及置信区间: rcoplot(r, rint) %筛选不符合的数据筛选不符合的数据4.4.方程回归系数的检验:方程回归系数的检验:
5、 stepwise(X,Y)【例 9-1】火柴消费与各因素之间的关系分析火柴公司的火柴销售量与各方面因素有很大联系,根据往年的销售情况,收集到了以下的一些数据:年份火柴销售量 y /万件煤气、液化气用 户 x1/万户卷烟销售量 x2 /万箱蚊香销售量 x3 /十万盒打火石销售量 X4/万粒197117.8427.4321.4311.0925.78197218.2729.9524.9614.4828.16197320.2933.5328.3716.9724.26197422.6137.3142.5720.1630.18197526.7141.1645.1626.3917.08197631.194
6、5.7352.4627.047.39197730.5050.5945.323.083.88197829.6358.8246.8024.4610.53197929.6965.2851.1133.8220.09198029.2571.2553.2933.5721.22198131.0573.3755.3639.5912.63198232.2876.6854.0048.4911.17试分析火柴的销售量与各个因素之间的关系。1.1. 回归分析及其检验回归分析及其检验残差的点估计 回归系数的区间估计 残差的区间估计 用于检验回归模型 的四个数:相关系 数 r2、F 值、接受 原假设的概率 p、残 差方差
7、的估计。回归系数的点估计 显著性水平 数学建模与数学实验运行结果如下:数学建模与数学实验从上述分析结果可得:回归方程: 123417 05570 05070 26060 00570 2367.yxxxx相关系数: ,说明线性程度较好;20 9940.R 检验统计量: ,说明回归方程显著;291 938.F 接受原假设的概率:,说明回归方程显著。0 0000.p 2.2. 残差分析,作残差图残差分析,作残差图24681012-1.5-1-0.500.511.5Residual Case Order PlotResidualsCase Number从上图可以看出,第 9 个点和第 11 个点为奇异
8、点,可以舍弃后重新求解回归方程。3.3.对系数进行逐步检验对系数进行逐步检验数学建模与数学实验Coeff. t-stat p-val0.0507253 2.0113 0.08420.260597 8.7917 0.0000-0.00567516 -0.1369 0.8950-0.236696 -10.0838 0.0000123450246Model HistoryRMSE-0.3-0.2-0.100.10.20.3X1X2X3X4Coefficients with Error Bars从上表可以看出系数对影响不显著,可以认为蚊香的销售量与火3y柴的销售量基本无关,删除该变量,重新计算如下:C
9、oeff. t-stat p-val0.0481974 2.9966 0.01720.259254 9.8956 0.0000-0.00567516 -0.1369 0.8950-0.237024 -10.8370 0.00001 2 3 4 5 6 7 8 9 100246Model HistoryRMSE-0.3-0.2-0.100.10.20.3X1X2X3X4Coefficients with Error Bars经过重新计算,可得回归方程如下:12417 09760 04820 25930 2370.yxxx数学建模与数学实验二、一元多项式回归(一)回归1.1.确定多项式系数确定多项
10、式系数格式:p,s=polyfit(x,y,m)功能:利用 m 次多项式对数据 x,y 进行曲线拟合,p 为多项式系数,s 为一个矩阵,用来估计预测误差。2.2.一元多项式回归命令一元多项式回归命令格式:polytool(x,y,m)功能:此命令产生一个交互式的画面,画面中有拟合曲线和 y 的置信区间。(二)预测和预测误差估计格式 1: Y=polyval(p,x)功能:求回归多项式 p 在 x 处的预测值 Y。格式 2:Y,delta=polyconf(p,x,s,alpha)功能:求回归多项式 p 在 x 处的预测值 Y,以及预测值 Y 的置信区间 Ydelta.【例 9-2】观测物体降落
11、的距离 s 与时间 t 的关系,得到数据如下表:t(s)1/302/303/304/305/306/307/30s(cm)11.8615.6720.6026.6933.7141.9351.13t(s)8/309/3010/3011/3012/3013/3014/30s(cm)61.4972.9085.4499.08113.77129.54146.481.1.作二次多项式回归作二次多项式回归数学建模与数学实验运行结果:即回归模型为:2489 294665 88989 1329.stt2.2.预测与作图预测与作图00.050.10.150.20.250.30.350.40.450.50501001
12、50与 与 t与 与 s与 与 与 与 与 与 与 与 与 与 与上图的结果表明二次多项式回归方程效果显著。思考:可否将上例中的一元多项式回归转化为多元线性回归进行分析?思考:可否将上例中的一元多项式回归转化为多元线性回归进行分析?数学建模与数学实验【课堂练习】1.(人口预测)以下是美国人口两个世纪以来的统计数据:(单位:百万)年份18001810182018301840185018601870188018901900人口5.37.29.612.917.123.231.438.650.262.976.0年份1910192019301940195019601970198019902000人口92
13、.0106.5123.2131.7150.7179.3204.0226.5251.4275.0(1)请利用一元多项式回归方法建立美国人口预测模型;(2)试预测 2020 年的美国人口数量。2. 世界卫生组织推荐的“体质指数”BMI(Body Mass Index)的定义为BMI=W/H,其中 W 表示体重(单位:kg) ,H 表示身高(单位:m) 。显然它比体重本身更能反映人的胖瘦,对 30 个人测量他(她)们的血压和体质指数,如下表所示:序 号血压/mmHg年龄体质指 数吸烟习 惯序 号血压/mmHg年龄体质指 数吸烟习 惯11443924.20161304822.2122154731.11
14、171354527.4031384522.60181141818.8041454724.01191162022.6051626525.91201241921.5061424625.10211363625.0071706729.51221425026.2181244219.70231203923.5091586727.21241202120.30101545619.30251604427.11111626428.01261585328.61121505625.80271446328.30131405927.30281302922.01141103420.10291252525.301512842
15、21.70301756927.41(1) 请建立血压与年龄以及体质指数之间的模型,并作回归分析;输入的程序: x=144 39 24.2 0; 215 47 31.1 1;数学建模与数学实验 138 45 22.6 0; 145 47 24.0 1; 162 65 25.9 1; 142 46 25.1 0; 170 67 29.5 1; 124 42 19.7 0; 158 67 27.2 1; 154 56 19.3 0; 162 64 28.0 1; 150 56 25.8 0; 140 59 27.3 0; 110 34 20.1 0; 128 42 21.7 0; 130 48 22.2 1; 135 45 27.4 0; 114 18 18.8 0; 116 20 22.6 0; 124 19 21.5