正态分布的前世今生

上传人:mg****85 文档编号:45879149 上传时间:2018-06-19 格式:PDF 页数:9 大小:7.30MB
返回 下载 相关 举报
正态分布的前世今生_第1页
第1页 / 共9页
正态分布的前世今生_第2页
第2页 / 共9页
正态分布的前世今生_第3页
第3页 / 共9页
正态分布的前世今生_第4页
第4页 / 共9页
正态分布的前世今生_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《正态分布的前世今生》由会员分享,可在线阅读,更多相关《正态分布的前世今生(9页珍藏版)》请在金锄头文库上搜索。

1、orld of Mathematics数学烟云W数学文化/第4卷第1期36神说,要有正态分布,就有了正态分布。神看正态分布是好的,就让随机误差服从了正态分布。创世纪数理统计一、正态分布熟悉的陌生人学过基础统计学的同学大都对正态分布非常熟悉。这个钟形的分布曲线不但形状优雅,其密度函数写成数学表达式f(x)=1 2e(x)2 22也非常具有数学的美感。其标准化后的概率密度函数 f(x)=1 2ex22更加的简洁漂亮,两个最重要的数学常量 , e 都出现在这公式之中。在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投

2、正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。2002 年以前去过德国的兄弟们还会发现,德国 1991 年至 2001 年间发行的的一款 10 马克的纸币上印着高斯(Carl Friedrich Gauss, 1777-1855)的头像和正态密度曲线,而 1977 年东德发行的 20 马克的可流通纪正态分布曲线靳志辉正态分布的前世今生 ( 上 )orld of Mathematics数学烟云W数学文化/第4卷第1期37念钢镚上,也印着正态分布曲线和高斯的名字。正态分布被冠

3、名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我们在本科学习数理统计的时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量地使用正态分布,却对这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。直到我读研究生的时候,我的导师给我介绍了陈希孺院士的数理统计学简史这本书,看了之后才了解到正态分布曲线从发现到被人

4、们重视进而广泛应用,也是经过了几百年的历史。正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。二、邂逅正态曲线的首次发现第一个故事和概率论的发展密切相关,主角是棣莫弗((Abraham de Moivre, 1667-1754) 和拉普拉斯(Pierre-Simon Laplace, 1749-1827) 。拉普拉斯是个大科学家,被称为法国的牛顿 ; 棣莫弗名气可能不算很大,不过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候都学过棣莫弗公式 (cos+i sin)n cos(n )+i sin(n )。古典概率论发源于赌博,惠更斯(Christiaan Huyge

5、ns, 1629-1695) 、帕斯卡 (Blaise Pascal, 1623-1662)、费马(Pierre de Fermat, 1601-1665) 、雅可比 贝努利(Jacob Bernoulli, 1654-1705)都是古典概率的奠基人,他们那会儿研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654 年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望(Expectation) ,就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的问题 : A、B 两人在赌场里赌

6、博,A、B 各自的获胜概率是 p, q 1p,赌 n 局,两人约定 : 若 A 赢的局数 X np,则 A 付给赌场 Xnp 元,若 X p+1,则得到的线性矛盾方程组无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过对数据一定的观察,把n 个线性方程分为 p+1 组,然后把每个组内的方程线性求和后归并为一个方程,从而就把 n 个方程的方程组化为 p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的通用解决框架。以上求解线性矛盾方程的问题在现在的本科生看来都勒让德(1752-1833)最小二乘法的一个例子orld of Mathem

7、atics数学烟云W数学文化/第4卷第1期40于解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不够锋利 ; 而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不但独自地给出了造刀的方法,而且把最小二乘法这把刀的刀刃磨得无比锋利,把最小二乘法打造成了一把瑞士军刀。高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的 地位,否则正态分布就不会被称为高斯分布了。那高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘法这把瑞士军刀的呢?四、

8、众里寻她千百度: 误差分布曲线的确立第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是寻找随机误差分布的规律。天文学是第一个被测量误差困扰的学科,从古代至十八世纪天文学一直是应用数学最发达的领域,到十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。算术平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论 : 测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误差的

9、分布有怎样的密切联系?伽利略在他著名的 关于两个主要世界系统的对话 中,对误差的分布做过一些定性的描述,主要包括 :不困难,这就是统计学中的线性回归问题,直接用最小二乘法就解决了。可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为累积误差(观测值理论值)2我们求解出导致累积误差最小的参数 :(3)= argmin ei2i=1n= argmin yi(0+1x1i+pxpi) i=1n2勒让德在论文中对最小二乘法的优良

10、性做了几点说明 :* 最小二乘法使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位。* 计算中只要求偏导后求解线性方程组,计算过程明确便捷。* 最小二乘法可以导出算术平均值作为估计值。对于最后一点,推理如下 : 假设真值为 , x1, . , xn 为 n 次测量值,每次测量的误差为 ei xi ,按最小二乘法,误差累积为 L()=ei2i=1n=(xii=1n)2,求解 使得 L( ) 达到最小,正好是算术平均x =1 nxii=1n. 由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘法的一个特例,所以从另一个角度说明了最小二乘

11、法的优良性,使我们对最小二乘法更加有信心。最小二乘法发表之后很快得到了大家的认可接受,并迅速地在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809 年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘法进行计算,准确地预测了谷神星的位置。扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对俄罗斯游行队伍里的正态分布标语orld of Mathematics数学烟云W数学文化/第4卷

12、第2期54六、开疆拓土,正态分布的进一步发展19 世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角,逐步在近代概率论和数理统计学中大放异彩。在概率论中,由于拉普拉斯的推动,中心极限定理发展成为现代概率论的一块基石 ;而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下。1 论剑中心极限定理先来说说正态分布在概率论中的地位,这个主要是由于中心极限定理的影响。1776 年,拉普拉斯开始考虑一个天文学中彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值Sn X1 X2 XnP(a 0, 则有Pi(ei)i=1n

13、 ai2i=1n2 2ex2 22dx.0a 这已经是比棣莫弗 - 拉普拉斯中心极限定理更加深刻的一个结论了,理科专业的本科生学习概率论与数理统计这门课程的时候,通常学习的中心极限定理的一般形式如下 :定理 0.6.2 ( 林德伯格 - 列维中心极限定理 ) 设 X1, , Xn 独立同分布,且具有有限的均值 和方差 2 ,则在 n 时,有靳志辉正态分布的前世今生 ( 下 )orld of Mathematics数学烟云W数学文化/第4卷第2期55n(X ) N(0,1).多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和 ( 或者等价的求算术平均 ) 的操作之下,表现出如此一致的行

14、为,统一地规约到正态分布。概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便 X1, , Xn 并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终归宿仍然是正态分布。一切的纷繁芜杂都在神秘的正态曲线下被消解,这不禁令人浮想联翩。中心极限定理恐怕是概率论中最具有宗教神秘色彩的定理,如果有一位牧师拿着一本圣经向我证明上帝的存在,我是丝毫不会买账 ;可是如果他向我展示中心极限定理并且声称那是神迹,我可能会有点犹豫,从而乐意倾听他的布道。如果我能坐着时光机穿越到一个原始部落中,我也一定带上中心极限定理,并劝说部落的酋长把正态分布作为他们的图腾。中心

15、极限定理虽然表述形式简洁,但是严格证明它却非常困难。中心极限定理就像一张大蜘蛛网,棣莫弗和拉普拉斯编织了它的雏形,可是这张网上漏洞太多,一个多世纪来,数学家们就像蜘蛛一样前赴后继,努力想把所有的漏洞都补上。在 19 世纪,泊松(Simon Denis Poisson, 1781-1840) 、狄利克雷(Gustav Lejeune Dirichlet, 1805-1859) 、柯西(Augustin-Louis Cauchy, 1789-1857) 、 贝 塞 尔(Friedrich Bessel, 1784-1846)这些大蜘蛛都曾经试图把这张网的漏洞补上。从现代概率论的角度来看,整个 19

16、 世纪的经典概率理论并没有能输出一个一般意义下的严格证明。而最终把漏洞补上的是来自俄罗斯的几位蜘蛛侠 :切比雪夫(Pafnuty Chebyshev, 1821-1894) 、 马 尔 可 夫(Andrey Andreyevich Markov, 1856-1922)和李雅普诺夫(Aleksandr Mikhailovich Lyapunov, 1857-1918) 。俄罗斯是一个具有优秀数学传统的民族,产生过几位顶尖的数学家,在现代概率论的发展中,俄罗斯的圣彼得堡学派可以算是顶了大半边天,而切比雪夫正是圣彼得堡数学学派的奠基人和领袖。给中心极限定理补漏的方案雏形是从切比雪夫 1887 年的工作开始的,切比雪夫提出了一个基于矩法的证明,矩法是概率分析中比较传统的方法,使用的数学工具比较

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号