最小二乘法[1]

上传人:mg****85 文档编号:49789654 上传时间:2018-08-02 格式:PPT 页数:45 大小:411KB
返回 下载 相关 举报
最小二乘法[1]_第1页
第1页 / 共45页
最小二乘法[1]_第2页
第2页 / 共45页
最小二乘法[1]_第3页
第3页 / 共45页
最小二乘法[1]_第4页
第4页 / 共45页
最小二乘法[1]_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《最小二乘法[1]》由会员分享,可在线阅读,更多相关《最小二乘法[1](45页珍藏版)》请在金锄头文库上搜索。

1、最小二乘法线性拟合朱刚强2010.03.0121n 在处理数据时,常要把实验获得的一 系列数据点描成曲线表反映物理量间的关 系。为了使曲线能代替数据点的分布规律 ,则要求所描曲线是平滑的,既要尽可能 使各数据点对称且均匀分布在曲线两侧。 由于目测有误差,所以,同一组数据点不 同的实验者可能描成几条不同的曲线(或 直线),而且似乎都满足上述平滑的条件 。那么,究竟哪一条是最曲线呢?这一问 题就是“曲线拟合”问题。一般来说,“曲线 拟合”的任务有两个:2n一 是物理量y与x间的函数关系已经确定, 只有其中的常数未定(及具体形式未定) 时,根据数据点拟合出各常数的最佳值。n二 是在物理量y与x间函数

2、关系未知时,从 函数点拟合出y与x函数关系的经验公式以 及求出各个常数的最佳值。3解决问题的办法n寻找变量之间直线关系的方法很多。于是,再接 下来则是从众多方法中,寻找一种优良的方法, 运用方法去求出线性模型y=a+bx+u中的截距 a= ?;直线的斜率b= ? 正是是本章介绍的最小二 乘法。n所得直线可靠吗?怎样衡量所得直线的可靠性?n最后才是如何运用所得规律变量的线性关系 ?4最小二乘法产生的历史n最小二乘法最早称为回归分析法。由著名的 英国生物学家、统计学家道尔顿(F.Gallton )达尔文的表弟所创。n早年,道尔顿致力于化学和遗传学领域的研 究。n他研究父亲们的身高与儿子们的身高之间

3、的 关系时,建立了回归分析法。5父亲的身高与儿子的身高之间关系的研究n1889年F.Gallton和他的朋友K.Pearson收集 了上千个家庭的身高、臂长和腿长的记录n企图寻找出儿子们身高与父亲们身高之间关 系的具体表现形式n下图是根据1078个家庭的调查所作的散点图 (略图)6n从图上虽可看出,个子高的父亲确有生出个子高 的儿子的倾向,同样地,个子低的父亲确有生出 个子低的儿子的倾向。得到的具体规律如下:n如此以来,高的伸进了天,低的缩入了地。他百 思不得其解,同时又发现某人种的平均身高是相 当稳定的。最后得到结论:儿子们的身高回复于 全体男子的平均身高,即“回归”见1889年 F.Gal

4、lton的论文普用回归定律。n后人将此种方法普遍用于寻找变量之间的规律 7最小二乘法的地位与作用n现在回归分析法已远非道尔顿的本意,已经 成为探索变量之间关系最重要的方法,用以 找出变量之间关系的具体表现形式。n后来,回归分析法从其方法的数学原理 误差平方和最小出发,改称为最小二乘法。8最小二乘法的思路n1为了精确地描述Y与X之间的关系,必须使用 这两个变量的每一对观察值,才不至于以点概面 。n2Y与X之间是否是直线关系(协方差或相关系 数)?若是,将用一条直线描述它们之间的关系 。n3什么是最好?找出判断“最好”的原则。最好指的是找一条直线使得这些点到该直线的纵 向距离的和(平方和)最小。9

5、第一节 一元线性拟合10n1.已知函数为线性关系,其形式为:n y=a+bx (1)n式中a, b为要用实验数据确定的常数。此类方 程叫线性回归方程,方程中的待定常数a, b叫 线性回归系数。n由实验测得的数据是n x= x1, x2,. xn 时,n 对应的y值是y= y1,y2,.yn1. 函数形式已知数学推证过程11n由于实验数据总是存在着误差,所以,把各组数 据代入(1)式中,两边并不相等。相应的作图时, 数据点也并不能准确地落在公式对应的直线上, 如图所示。由图一还可以看出第i个数据点与直线 的偏差为:(1)n如果测量时,使x较之y的偏差很小,以致可以忽 略(即xi很小 )时,我们可

6、以认为x的测量是准 确的,而数据的偏差,主要是y的偏差,因而有: 12n我们的目的是根据数据点确定回归常数a和b ,并且希望确定的a和b能使数据点尽量靠近 直线能使v尽量的小。由于偏差v大小不一, 有正有负,所以实际上只能希望总的偏差( )最小。n所谓最小二乘法就是这样一个法则,按照这 个法则,最好地拟合于各数据点的最佳曲线 应使各数据点与曲线偏差的平方和为最小。13n首先,求偏差平方和,将式两边平方后相 加,得: n显然, 是a, b的函数。按最小二乘法,当a, b选择适当,能使为最小时y=a+bx才是最佳 曲线。 由最小二乘法确定a和b 14n根据二元函数求极值法,把式对a和b分 别求出偏

7、导数。得: 15n令等于零,得:n解方程,得: n n 16n公式式中:n从不难求出对a, b的二阶偏导数为: 17n所以式求出的a, b可使为极小值。因而由a, b所确定的曲线y=a+bx就是用最小二乘法拟合 的最佳曲线。n由于已知函数形式为非线性时,可用变量代换 法“曲线改直”使函数变为线性关系,因而最小二 乘法就有更普遍的意义。182. 经验公式的线性回归函数形式未知 n由于经验公式的函数形式是未知的,因而 恰当地选择经验公式的函数形式就成了曲 线拟合中的重要问题。n在进行经验公式的回归时,必须先确定函 数的形式。确定函数形式一般是根据理论 的推断或者从实验数据的变化趋势来推测 判断。n

8、如根据实验得到的一组数据 (或其在x y坐标上的数据点)初步判断经验公式为 线性关系时,即可用最小二乘法按, 式求出b, a值,并进而拟合出直线的线性 关系式: y=a+bx 回归方程。193. 回归方程的精度和相关系数 n用最小二乘法确定a, b存在误差。n总结经验公式时,我们初步分析判断所假 定的函数关系是正确,为了解决这些问题 ,就需要讨论回归方程的精度和相关性。n为了估计回归方程的精度,进一步计算数 据点 偏离最佳直线y=a+bx的大小, 我们引入概念剩余标准差 ,它反映 着回归方程与各数据点的拟合程度。20n剩余标准差 n公式中:21nR称为相关系数。其值可正可负,一般有:na:当R

9、=1时, = ,即各数据点与最佳直线完全重合 。nb:0a是零结果,即a=0. n因此,I-U间为线性关系即所测电阻为一线性电阻。n由表二数据得回归方程为y=bx,即I=1.993u(mA)其 剩余标准差为 =0.06n而且: 31第二节 二元线性回归 n已知函数形式(或判断经验公式的函数形式)为式中,均为独立变量,故是二元线性回归。n若有实验数据: 32n对应的y值是 y= y1,y2,.yn。与一元线 性回归讨论方法类似,求出总偏差:n对a, b1和 b2求偏导数,并令其等于零后, 解方程则可得:33n公式中:34n 分别是y, x1和x2的算术平均值。同样 可证,由 式求出的b2,b1和

10、a所确定 的正是满足 最小二乘法最小条件的最 佳曲线。n相应的剩余标准差:其中:35n 成为全相关系数。且 . 愈 接近于1,则表示所得回归方程比较理想。反 之, 愈接近于0,则说明所得回归方 程没有多大的实际意义。n根据统计方法也可以求出b1,b2及a的标准误差 ,它们分别为:36第三节 非线性回归37设由实验获得了两个变量x,y的一组数据(xi, yi),且 由数据点在x,y坐标中的分布规律可以判断出两 个变量间成非线性关系。怎样用一条曲线(数学 关系式)才能最佳地代替数据点的分布规律呢?(1)根据数据点的分布尽可能准确地绘出一条曲线,并和已有确切数学表示式的曲线相比较,寻找合适的数学关系

11、式(2)进行变量替换,将 使非线性关系线性化,在38(3)用线性关系曲线拟合办法,求相关系数r,斜率B0 和截距A0,求出后反变换,就可计算出数学关系式中的常数,若 ,不能拟合成线性关系曲线,须重新寻找合适的数学关系式数据点的分布应是线性分布,可用来反映分布规律39函数关系式举例40非线性回归方程n步骤:(1) 确定函数的类型(如双曲线、指数曲线、对数曲线等)(2) 求解相关函数中的未知参数 曲线问题 直线问题(变量代换) 回归曲线 回归多项式直线问题-跟前面所讲一致,先计算相关系数R, 判断能否能 拟合线性关系曲线,若可以求最佳直线的斜率B,截距A,然 后再进行反变换,就可以计算出数学关系中的常数,最后得到 最佳曲线。41Back42160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定Back43XYBackYXBack44表二Xu(V)0.001.002.003.004.005.00 YI(mA)0.002.004.016.057.859.60 Xu(V)6.007.008.009.0010.00YI(mA)11.8313.7516.0218.1019.94表一Back45

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号