概率统计正态分布资料

上传人:f****u 文档编号:115243137 上传时间:2019-11-13 格式:PDF 页数:39 大小:1.24MB
返回 下载 相关 举报
概率统计正态分布资料_第1页
第1页 / 共39页
概率统计正态分布资料_第2页
第2页 / 共39页
概率统计正态分布资料_第3页
第3页 / 共39页
概率统计正态分布资料_第4页
第4页 / 共39页
概率统计正态分布资料_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《概率统计正态分布资料》由会员分享,可在线阅读,更多相关《概率统计正态分布资料(39页珍藏版)》请在金锄头文库上搜索。

1、正态分布的前世今生正态分布的前世今生(上上) 2013/01/28 经典理论历史、正态分布 rickjin 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差服从了正态分布。 创世纪数理统计 1. 正态分布,熟悉的陌生人正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉。这个钟形的分布曲线不但形 状优雅,它对应的密度函数写成数学表达式 f(x)=12e(x)222 也非常具有数学的美感。其标准化后的概率密度函数 f(x)=12ex22 更加的简洁漂亮,两个最重要的数学常量 、e 都出现在这公式之中。在我个 人的审美之中,它也属于 top-N 的最美丽的数学公

2、式之一,如果有人问我数理 统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因 为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背 后看到隐隐的秩序。 正态分布曲正态分布曲 线线 正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。 2002 年以前去过德国的兄弟们还会发现,德国 1991 年至 2001 年间发行的的 一款 10 马克的纸币上印着高斯(Carl Friedrich Gauss, 1777-1855)的头像和正 态密度曲线,而 1977 年东德发行的 20 马克的可流通纪念钢镚上,也印着正态 分布曲线和高斯的名字。正态分布被冠名

3、高斯分布,我们也容易认为是高斯发 现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了 决定性的作用。 德国马克和纪念币上的高斯头像和正态分布曲线德国马克和纪念币上的高斯头像和正态分布曲线 正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我们在本科学习数理 统计的时候,课本一上来介绍正态分布就给出分布密度函数,却从来不说明这 个密度函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎 么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。 我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少,正态 分布真是让人感觉既熟悉又陌生。直到我读研究生

4、的时候,我的导师给我介绍 了陈希儒院士的数理统计学简史这本书,看了之后才了解了正态分布曲线 从发现到被人们重视进而广泛应用,也是经过了几百年的历史。 正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面 纱。 2. 邂逅,正态曲线的首次发现邂逅,正态曲线的首次发现 第一个故事和概率论的发展密切相关,主角是棣莫弗(Abraham de Moivre, 1667-1754) 和拉普拉斯 (Pierre-Simon Laplace 1749-1827)。拉普拉斯是个大 科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都应该 很熟悉这个名字,因为我们在高中数学学复数的时候

5、都学过棣莫弗公式 (cos+isin)n=cos(n)+isin(n). 而棣莫弗所写的机遇论(The doctrine of chances)是概率论发展历史中 很重要的一本书。牛顿对棣莫弗十分欣赏,遇到学生向他请教概率方面的问题 时,他就说:“这样的问题应该去找棣莫弗,他对这些问题的研究比我深入得 多。” 棣莫弗和拉普拉斯棣莫弗和拉普拉斯 古典概率论发源于赌博,惠更斯(Christiaan Huygens, 1629-1695)、帕斯卡 (Blaise Pascal, 1623-1662)、费马(Pierre de Fermat, 1601-1665)、雅可比 贝 努利(Jacob Ber

6、noulli, 1654-1705)都是古典概率的奠基人,他们那会研究的概 率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在 1654 年向帕斯卡提 出的如何分赌金的问题。统计学中的总体均值之所以被称为期望 (Expectation), 就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌 桌上可以期望自己赢得多少钱。 有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的问题:A、B 两人在赌场里赌博,A、B 各自的获胜概率是p,q=1p, 赌 n 局。两人约定: 若 A 赢的局数 Xnp, 则 A 付给赌场 Xnp 元;若 Xp+1, 则 得到的线性矛盾方程组,无法直接求解。 所以

7、欧拉和拉普拉斯采用的方法都是 通过对数据的一定的观察,把n个线性方程分为 p+1组,然后把每个组内的 方程线性求和后归并为一个方程,从而就把n个方程的方程组化为p+1个方 程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于 经验化, 无法形成统一处理这一类问题的通用解决框架。 以上求解线性矛盾方程的问题在现在的本科生看来都不困难,这就是统计学中 的线性回归问题,直接用最小二乘法就解决了。可是即便如欧拉、拉普拉斯这 些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究 中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年 发表的,基本思想就是

8、认为测量中有误差,所以所有方程的累积误差为 累积误差累积误差 = ( 观测值观测值 理论值理论值 )2 我们求解出导致累积误差最小的参数 =argmini=1ne2iargmini=1nyi(0+1x1i+pxpi)2.(3) 勒让德勒让德 勒让德在论文中对最小二乘法的优良性做了几点说明: 1. 最小二乘法使得误差平方和最小,并在各个方程的误差之间建立了一种平衡, 从而防止某一个极端误差取得支配地位; 2. 计算中只要求偏导后求解线性方程组,计算过程明确便捷; 3. 最小二乘法可以导出算术平均值作为估计值。 对于最后一点,推理如下:假设真值为 , x1,xn为n次测量值, 每次测量 的误差为e

9、i=xi,按最小二乘法,误差累积为 L()=i=1ne2i=i=1n(xi)2 求解 使得 L()达到最小,正好是算术平均 x =ni=1xin。 由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二 乘法的一个特例,所以从另一个角度说明了最小二乘法的优良性,使我们对最 小二乘法更加有信心。 最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中 被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么 一回事呢。高斯在 1809 年也发表了最小二乘法,并且声称自己已经使用这个 方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘 法进

10、行计算,准确的预测了谷神星的位置。 扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小 二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推 导出最优解,对于解的误差有多大,无法给出有效的分析,而这个就是正态分 布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分 析领域披荆斩棘的好刀,但是刀刃还是不够锋利;而这把刀的打造后来至少一 半功劳被归到高斯,是因为高斯不但独自的给出了造刀的方法,而且把最小二 乘这把刀的刀刃磨得无比锋利,把最小二乘法打造成了一把瑞士军刀。高斯拓 展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统 计误

11、差分析中确立了自己的地位,否则正态分布就不会被称为高斯分布了。 那 高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘法这把瑞 士军刀的呢? 4. 众里寻她千百度众里寻她千百度,误差分布曲线的确立误差分布曲线的确立 第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是寻找随机误差 分布的规律。 天文学是第一个被测量误差困扰的学科,从古代至 18 世纪天文学一直是应用 数学最发达的领域,到 18 世纪,天文学的发展积累了大量的天文学数据需要 分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在 数据处理中经常使用平均的常识性法则,千百来来的数据使用经验说明算术平 均

12、能够消除误差,提高精度。算术平均有如此的魅力,道理何在,之前没有人 做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出 来讨论:测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误 差的分布有怎样的密切联系? 伽利略在他著名的关于两个主要世界系统的对话中,对误差的分布做过一 些定性的描述,主要包括: 1. 观测数据存在误差 2. 误差是对称分布的; 3. 大的误差出现频率低,小的误差出现频率高。 用数学的语言描述,也就是说误差分布的密度函数 f(x) 关于 0 对称分布,概 率密度随|x| 增加而减小,这两个定性的描述都很符合常识。 许多天文学家和数学家开始了寻找误差

13、分布曲线的尝试。 天文学家辛普森 (Thomas Simpson, 1710-1761) 先走出了有意义的一步。设真值 为 , x1,xn 为 n 次测量值, 每次测量的误差为ei=xi,若用算术平 均 x =ni=1xin去估计, 其误差为 e =ni=1ein。 辛普森证明了, 对于如 下的一个概率分布, 辛普森的误差分布曲线辛普森的误差分布曲线 有如下结论 P(|e |x)P(|ei|x). 也就是说,|e | 相比于|ei|取小值的机会更大。 辛普森的这个工作很粗糙, 但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优 良性。 从 1772-1774 年, 拉普拉斯也

14、加入到了寻找误差分布密度函数的队伍中。拉 普拉斯假定误差分布密度函数f(x)对称且满足 f(x)=mf(x) 由此可求得分布密度函数为 f(x)=m2em|x|.(4) 这个概率密度函数现在被称为拉普拉斯分布。 拉普拉斯的误差分布曲线拉普拉斯的误差分布曲线 以该函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参 数的值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝 叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后 验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布密 度函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给

15、出什么有 用的结果。 拉普拉斯可是概率论的大牛,写过在概率发展历史中极有影响力的分析概率 论,不过以我的数学审美,实在无法理解拉普拉斯这样的牛人怎么找了一个 零点不可导的函数作为误差的分布密度函数,拉普拉斯最终还是没能搞定误差 分布的问题。 现在轮到高斯登场了,高斯在数学史中的地位极高,年轻的时候号称数学王 子,后来被称为数学家中的老狐狸,数学家阿贝尔 (Niels Henrik Abel, 1802- 1829) 对他的评论是 :“高斯像一只狐狸,用尾巴将沙地上的足迹抹去(He is like the fox, who effaces his tracks in the sand with

16、his tail) 。” 我们的数学大 师陈省身把黎曼(Georg Friedrich Bernhard Riemann,1826-1866) 和庞加莱 (Jules Henri Poincar, 1854-1912)称为数学家中的菩萨,而称自己为罗汉;高 斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中既 能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见,高斯是数学家 中少有的顶”天“立”地“的人物,它既对纯理论数学有深刻的洞察力,又极其重视 数学在实践中的应用。 在误差分布的处理中,高斯以极其简单的手法确立了随 机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。 高斯的介入首先要从天文学界的一个事件说起。1801 年 1 月,天文学家朱塞 普 皮亚齐 (Giuseppe Piazzi, 1746-1826)发现了一颗从未见过的光度 8 等的星 在移动,这颗现在

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号