矩阵投影与最小二乘方法

上传人:小** 文档编号:88608124 上传时间:2019-05-05 格式:PDF 页数:7 大小:667.38KB
返回 下载 相关 举报
矩阵投影与最小二乘方法_第1页
第1页 / 共7页
矩阵投影与最小二乘方法_第2页
第2页 / 共7页
矩阵投影与最小二乘方法_第3页
第3页 / 共7页
矩阵投影与最小二乘方法_第4页
第4页 / 共7页
矩阵投影与最小二乘方法_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《矩阵投影与最小二乘方法》由会员分享,可在线阅读,更多相关《矩阵投影与最小二乘方法(7页珍藏版)》请在金锄头文库上搜索。

1、 题 目: 神奇的矩阵矩阵投影与最小二乘方法 学 校: 哈尔滨工程大学 姓 名: 黎文科 联系方式: QQ 群:53937814 联系方式: 2 矩阵投影与最小二乘方法 最小二乘法(Least Squares Method,简记为 LSE)是一个比较古老的方法, 源于天文学和测 地学上的应用需要。在早期数理统计方法的发展中,这两门科学起了很大的作用。丹麦统计 学家霍尔把它们称为“数理统计学的母亲”。此后近三百年来,它广泛应用于科学实验与工程 技术中。美国统计史学家斯蒂格勒( S. M. Stigler)指出, 最小二乘方法是 19 世纪数理统计学 的压倒一切的主题。1815 年时,这方法已成

2、为法国、意大利和普鲁士在天文和测地学中的标 准工具,到 1825 年时已在英国普遍使用。 追溯到 1801 年,意大利天文学家朱赛普 皮亚齐发现了第一颗小行星谷神星。经过 40 天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世 界的科学家利用皮亚齐的观测数据开始寻找谷神星, 但是根据大多数人计算的结果来寻找谷 神星都没有结果。时年 24 岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希 奥尔 伯斯根据高斯计算出来的轨道重新发现了谷神星。高斯于其 1809 年的著作关于绕日行星 运动的理论中。在此书中声称他自 1799 年以来就使用最小二乘方法,由此爆发了一场

3、与勒 让德的优先权之争。 近代学者经过对原始文献的研究,认为两人可能是独立发明了这个方法,但首先见于书面 形式的,以勒让德为早。然而,现今教科书和著作中,多把这个发明权归功于高斯。其原因,除 了高斯有更大的名气外,主要可能是因为其正态误差理论对这个方法的重要意义。勒让德在 其著作中,对最小二乘方法的优点有所阐述。然而,缺少误差分析。我们不知道,使用这个方法 引起的误差如何,就需建立一种误差分析理论。高斯于 1823 年在误差 e1 , , en 独立同分布 的假定下,证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法 是其中方差最小的!在德国 10 马克的钞票上有高斯像

4、,并配了一条正态曲线。在高斯众多 伟大的数学成就中挑选了这一条,亦可见这一成就对世界文明的影响。 现行的最小二乘法是勒让德( A. M. Legendre)于 1805 年在其著作计算慧星轨道的新方 法中提出的。它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最 小: 22 11 ()() mm i ii Hyy 理论值观测值 3 我们现在看来会觉得这个方法似乎平淡无奇,甚至是理所当然的。这正说明了创造性思 维之可贵和不易。从一些数学大家未能在这个问题上有所突破,可以看出当时这个问题之困 难。欧拉、拉普拉斯在许多很困难的数学问题上有伟大的建树,但在这个问题上未能成功。 在高斯发

5、表其 1809 年著作之前,约在 1780 年左右,拉普拉斯已发现了概率论中的“中心 极限定理”。 根据这个定理, 大量独立的随机变量之和,若每个变量在和中起的作用都比较小, 则和的分布必接近于正态。 测量误差正具有这种性质。 一般地说,随机(而非系统)的测量误差, 是出自大量不显著的来源的叠加。 因此, 中心极限定理给误差的正态性提供了一种合理的理 论解释。 这一点对高斯理论的圆满化很有意义,因为高斯原来的假定(平均数天然合理)总难免 给人一种不自然的感觉。 耐人寻味的是,无论是中心极限定理的发明者拉普拉斯,还是早就了解这一结果的高斯, 都没有从这个结果的启示中去考察误差分布问题。对前者而言

6、,可能是出于思维定势的束缚, 这对拉普拉斯来说可算不幸,他因此失掉了把这个重要分布冠以自己名字的机会(正态分布 这个形式最早是狄莫弗( De Moiv re) 1730 年在研究二项概率的近似计算时得出的。以后也 有其他学者使用过,但都没有被冠以他们的名字。高斯之所以获得这一殊荣,无疑是因为他把 正态分布与误差理论联系了起来) 。 可以说,没有高斯的正态误差理论配合, 最小二乘方法的意义和重要性可能还不到其现 今所具有的十分之一。最小二乘方法方法与高斯误差理论的结合,是数理统计史上最重大的 成就之一,其影响直到今日也尚未过时!由于本文是主要介绍最小二乘法与矩阵投影之间的 关系,对于最小二乘和概

7、率之间的关系,请参看靳志辉的正态分布的前世今生 。 那么,投影矩阵与最小二乘二者有什么必然的联系么,当我开始写这篇文章的时候我 也这样问自己。先说说投影吧,这个想必大家都知道,高中的知识了。一个向量b在另一 个向量a上的投影,实际上就是寻找在a上离b最近的点。 现在我们假设投影点是向量a上的一点 p,可以规定pxa(x 是某个数)。定义 =ebp bxa,称e为误差。因为e与p也就是a垂直,所以有 ()0 T abxa,展 开化简得到: 4 T T a b x a a , T T aa paxb a a 我们发现:如果改变如果改变 b b,那么,那么 p p 相对应改变,然而改变相对应改变,然

8、而改变 a a,p p 无变化。无变化。接下来,我们可 以考虑更高维度的投影,三维空间的投影是怎么样的呢,我们可以想象一个三维空间内的 向量在该空间内的一个平面上的投影: 我们假设这个平面的基(basis)是 a1, a2。那么矩阵 12 ,Aa a的列空间就是该平面。假 设一个不在该平面上的向量b在该平面上的投影是p。我们的任务就是找到合适的 x,使 得 1 122 px ax aAx。这里有一个关键的地方:ebAx 与该平面垂直,所以 T 1 0abAx且 T 2 0abAx。用矩阵的形式表达就是: T 0AbAx。我们把上 边式子展开,得到 1 TT xA AA b , 1 TT pAx

9、A A AA b 有了上面的背景知识,我们可以正式进入主题了,投影矩阵(projection matrix): 1 () TT PA A AA 这里我们最需要关注的是投影矩阵的两个性质: 1)PT = P; 2)P2 = P; 对于第一个,很容易理解,因为 P 本身就是个对称阵。第二个,直观的理解就是投影 到 a 上后再投影一次,显然投影并没有改变,也就是二次投影还是其本身。 这个投影到底有什么用呢?从上面的分析中我们可以看出:投影矩阵投影矩阵 P P 可以吧向量可以吧向量 b b 投影成向量投影成向量 p p!从线性代数的角度来说,Ax=b 并不一定总有解,这在实际情况中会经常遇 到(m n

10、)。所以我们就把 b 投影到向量 p 上,因为 p 在 a1,a2的平面内,所以 Ax =p 是 可以求解的。 5 好了,在此我们先暂别“投影”。下面,开始说一下最小二乘的故事吧:在实际应用 中,线性回归是经常用到的,我们可以在一张散列点图中作一条直线(暂时用直线)来近 似表述这些散列点的关系。比如: 设变量y与t成线性关系,即yCDt.现在已知m个实验点, ii a b (1,2,)im,求 两个未知参数,C D。将, (1,2,) ii a b im代入yCDt得矛盾方程组 11 22 mm bCDa bCDa bCDa 令 1 2 1 1 1 m a a A a , 1 2 m b b

11、b b , 则可写成 C Ab D A xb 从线性代数的角度来看,就是A的列向量的线性组合无法充满整个列空间,也就是说 Ax=b这个方程根本没有解。从图形上也很好理解:根本没有一条直线同时经过所有蓝色的 点!所以为了选取最合适的x,让该等式“尽量成立“,引入残差平方和函数H: 2 2 min()min()=min()HebAx 这也就是最小二乘法的思想。我们知道,当x取最优值的时候,Ax恰好对应图中线上 橙色的点,而b则对应图中蓝色的点,e的值则应红色的线长。 6 看到这里你有没有和之前投影的那部分知识联系在一起呢?最小二乘的思想是想如何最小二乘的思想是想如何 选取参数选取参数x x使得使得

12、H H最小最小。而从向量投影的角度来看这个问题而从向量投影的角度来看这个问题,H H就是向量就是向量e e长度的平方长度的平方,如何如何 才能使才能使e e的长度最小呢的长度最小呢?b b和和a a1 1,a a2 2都是固定的都是固定的,当然是当然是e e垂直垂直a a1 1,a a2 2平面的时候长度最小平面的时候长度最小! 换句话说:最小二乘法的解与矩阵投影时对变量求解的目标是一致的!换句话说:最小二乘法的解与矩阵投影时对变量求解的目标是一致的! 于是,根据矩阵投影的知识,我们可以直接写出最小二乘法问题的解 1 () TT C A AA b D . 其中A称为结构矩阵,b称为数据矩阵,

13、T A A称为信息矩阵, T A b称为常数矩阵。 为了定量地给出yCDt与实验数据之间线性关系的符合程度,可以用相关系数r 来衡量.它定义为 111 22 22 1111 , mmm i iji iji mmmm iiii iiii mabab ra b maambb r值在0 1r中,也就是我们之前介绍的向量夹角。r值越接近 1,x与y的线性关 系越好.r为正时,直线斜率为正,称为正相关;r为负时,直线斜率为负,称为负相关.r接 近于 0 时,测量数据点分散或之间为非线性.不论测量数据好坏都能求出 0 a和 1 a,所以我们 必须有一种判断测量数据好坏的方法,用来判断什么样的测量数据不宜拟

14、合,判断的方法是 0 rr时,测量数据是非线性的. 0 r称为相关系数的起码值,与测量次数n有关。 最小二乘讲到这里似乎已经说完了,但是有一个问题,那就是我们所利用的投影矩阵 1 () TT PA A AA 这里我们假定 ATA 是可逆的,这种假定合理吗?Strang 在最后给我们 作了解答: If A has independent columns, then AA is invertible 写到这里,我想有必要总结一下,为什么最小二乘和投影矩阵要扯到一起,它们有什 么联系:最小二乘是用于数据拟合的一个很霸气的方法,这个拟合的过程我们称之为线性 回归。如果数据点不存在离群点(outlier

15、s),那么该方法总是会显示其简单粗暴的一面。 我们可以把最小二乘的过程用矩阵的形式描述出来,然而,精妙之处就在于,这与我们的 投影矩阵的故事不谋而合,所以,我们又可以借助于投影矩阵的公式,也就是 ATAx = ATb 来加以解决。 7 最小二乘法是从误差拟合角度对回归模型进行参数估计或系统辨识,并在参数估计、系 统辨识以及预测、预报等众多领域中得到极为广泛的应用。在数据拟合领域,最小二乘法及 其各种变形的拟合方法包括:一元线性最小二乘法拟合、多元线性拟合、多项式拟合、非线 性拟合。最小二乘法能将从实验中得出的一大堆看上去杂乱无章的数据中找出一定规律,拟 合成一条曲线来反映所给数据点总趋势,以消除其局部波动。它为科研工作者提供了一种非 常方便实效的数据处理方法。 随着现代电子计算机的普及与发展, 这个占老的方法更加显示 出其强大的生命力。 参考文献 1. 陈希孺院士, 最小二乘法的历史回顾与现状 2. 靳志辉, 正态分布的前世今生 3. 小班得瑞博客,投影矩阵与最小二乘

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号