数据资料与拟合模型

资源描述

《数据资料与拟合模型》由会员分享，可在线阅读，更多相关《数据资料与拟合模型（6页珍藏版）》请在金锄头文库上搜索。

1、13.2 数据资料与拟合模型数据资料是数学模型与实际问题接轨的重要途径和手段，有时还可以直接从数据资料中发现规律组建模型。数据分析和处理是统计学研究的主要内容，也是计算数学的工作领域，近年来随着计算机科学的发展，对“海量”数据的分析形成了一门新的交叉学科“数据挖掘” 。这一章仅介绍用统计学的最小二乘法构造拟合数据模型，以及用计算数学的函数插值方法处理数据解决实际问题。一. 数据资料与数学模型1 数据资料数据资料是在实际问题中收集到的观测数值，是组建数学模型的重要依据和检验数学模型的重要标准。数据获取年鉴报表、学术刊物、网络资源、实验观测等等数据误差观测数据中一般都包含有误差。正确对待和处

2、理这些误差是数学建模中不可回避的问题.系统误差：偏差，来自于系统，有规律，可避免。随机误差：无偏，来自随机因素，无规律，不可免2. 资料与模型10. 数据资料可以直接应用于数学模型的组建。对于情况较复杂的实际问题（因素不易化简，作用机理不详）可直接由数据寻找简单的因果变量之间的数量关系，从而对未知的情形作预报。这样组建的模型为拟合模型。在统计学中有大量的利用数据组建的模型：判别模型、主成分模型、聚类模型、因子模型、趋势面模型、时间序列模型等。2模型的设计、参数估计都依赖于现有的和可能获得的数据资料。当数据资料不全时，数值分析的插值技术就将发挥作用。如信号和图像处理领域就广泛应用插值技术。二.

3、拟合模型拟合模型的组建是通过对有关变量的观测数据的观察、分析，选择恰当的数学表达方式得到的。拟合模型主要是探讨变量间的内在规律，分析的数据具有明显的随机误差。模型侧重于选择规律的简单的数学表达。在简单的数学表达式中选择拟合效果好的。因此，在数据拟合的精度和数学表达式简化程度之间要取一个折中。折中方案的选择将取决于实际问题的需要。例 4.1 人口预测1949 年1994 年我国人口数据资料如下：年份 x i 49 54 59 64 69 74 79 84 89 94人口数 y i 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我国人口增长的规律,

4、预报 1999、2005 年我国人口数。建模分析步骤：1. 在坐标系上作观测数据的散点图。2. 根据散点分布的几何特征提出模型3. 利用数据估计模型的参数4. 计算拟合效果散点图模型 I 人口线性增长模型，假设：人口随时间线性地增加，模型：y = a + b x参数估计2观测值的模型：y i = a + b xi + i ，i = 1,n拟合的精度: Q = i 2 = (yi - a b xi)2, 误差平方和。最小二乘法：求参数 a 和 b，使得误差平方和最小。可以算出：a = 1.93， b = 0.146模型：y = 1.93 + 0.146 x, 拟合精度 Q 1 = 0.29

5、15 模型 II 人口自然增长模型, 模型 y=ae bx 等价形式 ln y=ln a+bx设数据满足 ln y i =ln a+bx I+ i 应用最小二乘法, 求 a 和 b 使得 Q=ii 2= i（ln y i -ln a+bx i） 2 最小计算得到 a=2.33 b=0.0177, 因此 y=2.33e0.0177x 拟合精度 Q=0.7437 (注意此时的随机误差 e i 不设在 y 坐标方向)拟合曲线讨论模型 I 与模型 II 拟合结果比较xi 49 54 59 64 69 74 79 84 89 94yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 1

6、1.3 11.8 yi 5.24 5.97 6.70 7.43 8.16 8.90 9.62 10.36 11.09 11.82i1 0.16 0.03 0.00 -0.43 -0.06 0.20 0.18 -0.06 0.01 -0.02yi 5.55 6.06 6.62 7.23 7.90 8.64 9.44 10.31 11.26 12.31i2 -0.15 0.06 0.08 0.23 0.20 0.46 0.36 0.01 0.13 0.51ii1=0.01 ii2=0.37 Q1 = 0.2915 Q2=0.7437结论1. 与指数模型相比较，线性模型更适合中国人口的增长。2. 预

7、报：1999 年模型 I 12.55 亿，模型 II 13.43 亿3. 人口白皮书：2005 年 13.3 亿， 2010 年 14 亿模型 I 2005 年 13.43 亿，2010 年 14.16 亿模型 II 14.94 亿， 16.33 亿注意：线性最小二乘法模型：y = bx，数据精度：估计：模型：y = a + bx，数据：精度：2iixyb nibxyii ,1,iiiQ2)( iiii xbyy22xyl i ii xbyxbay2)()(ai ,iii b2)(3估计：模型：y = b 1x1+b2x2，数据：精度：估计：模型：y = a+b 1x1+b2x2，数据

8、：精度：估计：3. 可化简的非线性最小二乘法10. y=a+b1f1(x)+b2 f2(x)+bn fn(x)，令 u i= fi(x), 则有 y=a+b 1u1+bnun.20. y=a ebx . 令 z=ln y, 则有 z = ln a + b x = a* + b x .30. y = a xb . 令 z = ln y, u = ln x, 则有 z = ln y = lnb ln x = a*+ b u40. y = 1/(abx)，令 z = 1/y, 则有 z = 1/y = a + bx . 50. y = x/(b+ax) 令 z = 1/y, u=1/x, 则有

9、z = 1/y = a + b/x = a + b u60. y = (1+ax)/(1+bx) ?例 4.2 赛跑的成绩与赛跑距离表列数据为 1977 年以前六个不同距离的中短距离赛跑成绩的世界纪录.距离 x(m) 100 200 400 800 1000 1500时间 t (s) 9.95 19.72 43.86 102.4 133.9 212.1试用这些数据建模分析赛跑的成绩与赛跑距离的关系。散点图线性模型拟合图22)()()( xbayxbyii ii xyiii l yiiibxy212)(iiibyQ )()( 2121 bxyxiiiii1212 iiiii ylbl212iii

10、 iii ybb222111)()(iii xba21)(iii xayQylbl1212 211)(xli 2)(xli22ii)(ylikiky1x4模型 I: t = a + b x参数: a= - 9.99, b = 0.145 t = - 9.99 + 0.145 x Q 1 = 82.04检验: 当 x 68.89 m 时, t 0. 当 x = 100 m 时, t = 4.51 s与实际情形差距较大! 中间数值偏低模型 II: t = a xb, 令 z = ln t, u = ln x , 则有 z = ln t = ln ab ln x = a* + bu参数: a* =

11、 - 0.734, a = exp( a*) = 0.48, b = 1.145, t = 0.48 x 1.145. Q2 = 23.55x 100 200 400 800 1000 1500 t 9.95 19.72 43.86 102.4 133.9 212.1I 4.56 19.10 48.20 106.4 135.5 208.2II 9.39 20.78 45.96 101.68 131.29 208.9讨论1. 经验模型是众多因素作用综合在因果关系上的结论。会因时因地发生变化且不宜在另外的环境下套用和从机理作过多的分析。2. 前面的最小二乘法实质上是近似求解(超定)线性方程组 a

12、+ x k b = yk，k = 1,n, 3. 关于最小二乘计算：MATLAB 程序x=49:5:94; y=5.4 6. 6.7 7. 8.1 ;A=ones(10,1), x; b=Ay，或者 b,r,j=regress(y,A);z=b(1)+b(2).*x;plot(x,z,b,x,y,r*)4. 关于误差：纵轴误差: y k=a+bxk+k, 横轴误差: y k=a+b(xk+k), 距离误差:5. 关于精度：最小二乘精度 Q=2=(yk-a-bxk)2. 最小一乘精度 Q= |= |yk-a-bxk|问题1. 使用你收集的长度面积体积的数据分析它们之间的关系.2. 利用赛艇比赛成

13、绩的数据建模分析运动员的人数 n 与赛艇成绩 t 的关系.n 1 2 4 8t 7.125 6.878 6.340 5.835三. 插值技术当数据量不够，需要补充，且认定已有数据可信时, 通常利用函数插值方法.目标：根据一组观测数据 (xi, yi) i=0,1,2,n. 寻找函数关系 y=(x)，要求满足 yi=(xi) i=0,1,2,n。如果(x) 在每个区间段x i-1,xi上是线性函数，则称(x)是这组数据的分段线性插值函数.例 4.3 设一水库将河道分为上、下游两个河段. 预测上游流量 Q（t）（立方米/秒）为t（时） 8 12 16 24 30 44 48 56 Q（t）

14、3600 5400 7800 9200 10100 3500 2500 1600 已知水库中水的库容量 V(108 立方米)与水位高程 H(米)的数值关系V 23.93 24.06 24.02 24.33 24.47 24.6 24.75H 168.75 168.8 168.85 168.9 168.95 169 169.05降雨的开始时刻为 8 时, 这时水位的高程为 168 米, 水库容量为 21.9*108 立方米. 如果从当日 8 时起,水库一直保持 1000 立方米的泄流量, 请按所给数据,预报当日 20 时水库中水的库容量与水的高程.假设: 1 已知数据准确, 无误差.2 相邻两个时刻之间的流量变化是线性的.3 相邻两个水位高程之间的

展开阅读全文

数据资料与拟合模型

最新文档