正态分布的前世今生资料

上传人:E**** 文档编号:99952996 上传时间:2019-09-21 格式:PDF 页数:35 大小:851.94KB
返回 下载 相关 举报
正态分布的前世今生资料_第1页
第1页 / 共35页
正态分布的前世今生资料_第2页
第2页 / 共35页
正态分布的前世今生资料_第3页
第3页 / 共35页
正态分布的前世今生资料_第4页
第4页 / 共35页
正态分布的前世今生资料_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《正态分布的前世今生资料》由会员分享,可在线阅读,更多相关《正态分布的前世今生资料(35页珍藏版)》请在金锄头文库上搜索。

1、正态分布的前世今生正态分布的前世今生(上上) 作作 者者: rickjin(靳志辉靳志辉 ) 校校 对对: 汤涛汤涛,香港浸会大学数学讲座教授香港浸会大学数学讲座教授 重新整理一下重新整理一下,把格式调整好把格式调整好,公式重新敲了一下公式重新敲了一下(网上部分是网上部分是无法显示的无法显示的 LaTeX,部分部分 是图片是图片),),整理成整理成 PDF,不敢写名了不敢写名了 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差就服从了正态分布。 创世纪-数理统计 一一、正态分布正态分布 学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅, 其密度函

2、数写成数学表达式: 2 2 2 )( 2 1 )( x exf (1) 也非常具有数学的美感。其标准化后的概率密度函数: 2 2 2 1 )( x exf (2) 更加的简洁漂亮,两个最重要的数学常量、e 都出现在了公式之中。在我个人的审美 之中, 它也属于 top-N 的最美丽的数学公式之一。 如果有人问我数理统计领域哪个公式最能 让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然 界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。 图 1 正态分布的钟形曲线 正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。去过德国 的兄弟们还会发现,德

3、国的钢镚和 10 马克的纸币上都留有高斯的头像和正态密度曲线。正 态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于 正态分布的历史地位的确立是起到了决定性的作用。 图 2 德国 10 马克纸币 图 3 纸币上的正态分布曲线 图 4 德国钢镚 正态曲线虽然看上去很美, 却不是一拍脑袋就能想到的。 我在本科学习数理统计的时候, 课本一上来介绍正态分布就给出密度分布函数, 却从来不说明这个分布函数是通过什么原理 推导出来的。 所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的, 又是怎么发 现误差服从这个奇妙的分布的。 直到我读研究生的时候我的导师给我介绍了陈希

4、儒的 数理 统计简史这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也 是经过了几百年的历史。 正态分布的这段历史是很精彩的,我们通过讲几个故事来揭开她的神秘面纱。 二二、邂逅邂逅,正态曲线的首次发现正态曲线的首次发现 第一个故事和概率论的发展密切相关, 主角是棣莫弗(De Moivre) 和拉普拉斯(Laplace)。 拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该 都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理: )sin()cos()sin(cosnini n (3) 古典概率论发源于赌博,惠更斯、帕斯卡、费马、贝努力

5、都是古典概率的奠基人,他们 那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在 1654 年向帕斯卡提 出的如何分赌金的问题。统计学中的总体均值之所以被称为期望(Expectation),就是源自惠 更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。 有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A、B 两 人在赌场里赌博,A、B 各自的获胜概率是pqp1,。赌 n 局,若 A 赢的局数npX , 则 A 付给赌场npX 元,否则 B 付给赌场Xnp 元。问赌场挣钱的期望值是多少? 问题并不复杂, 本质上是一个二项分布,最后求出的理论结果

6、是 ),(2nppnnpqb (4) 其中 inii n qpCipnb ),( (5) 是常见的二项概率。 但是对具体的 n,要把这个理论结果实际计算出数值结果可不容易, 因为其中的二项公式中有组合数。这就驱动 De Moivre 寻找近似计算的方法计算。 与此相关联的另一个问题, 是遵从二项分布的随机变量 ),(pnBX , 求 X 落在二项分 布中心点一定范围的概率)|(|dnpXPPd是多少。 对于 2 1 p的情形, 棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮, 幸运的是棣莫弗和 Stirling 处在同一个时代,而且二人之间有联系,Stirling 公式是在数学分 析中

7、必学的一个重要公式 (事实上斯特林公式的形式其实是棣莫弗最先发现的, 但是斯特林 改进了这个公式,改进的结果为棣莫弗所用): n e n nn 2! (6) 1733 年, 棣莫弗很快利用 Stirling 公式计算取得了重要的进展。 考虑 n 是偶数的情形, 令二项概率 n i n Cinbib 2 1 , 2 1 ,)( (7) 通过 Stirling 公式做一些简单的计算容易得到: n d n b d n b n n b 2 2 exp 2 22 2 (8) 于是有: n d n d n b 2 2 exp 2 2 2 (9) 使用上式的结果, 并在二项概率累加求和的过程中近似的使用定积

8、分代替求和, 很容易 就能得到: c c c c n i nc nci nc nci dx x nn i n i n i n b n c n X P 2 2 2 2 2 2 2 2 2 exp 2 1 22 2 1 exp 2 1 2 exp 2 2 22 1 (10) 看, 正态分布的密度函数的形式在积分公式中出现了! 这也就是我们在数理统计课本上 学到的二项分布的极限分布是正态分布。 以上只是讨论了 2 1 p的情形, 棣莫弗也对 2 1 p做了一些计算,后来拉普拉斯对 2 1 p的情况做了更多的分析, 并把二项分布的正态近似推广到了任意 p 的情况。 这是第 一次正态密度函数被数学家勾画

9、出来,而且是以二项分布的极限分布的情形被推导出来的。 熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。 De Moivre-Laplace 中心极限定理中心极限定理 设随机变量,.)2 , 1( nXn服从参数为 p 的二 项分布,则对任意的 X,恒有: x pn n dt t x pnp XX P 2 exp 2 1 )1 ( lim 2 (11) 我在大学学习数理统计的时候, 学习的过程都是先学习了正态分布, 然后才学习中心极 限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上很漂 亮,但是当时很困惑数学家们是如何凭空就找到这个分布的。然

10、而读了陈希孺的数理统计 学简史之后,才发现正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理 中。 数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的, 现代的数学课 本都是按照数学内在的逻辑进行组织编排的, 虽然逻辑结构上严谨优美, 却把数学问题研究 的历史痕迹抹得一干二净, 我们难以在数学课本上看到数学家对数学问题是如何研究推进的。 DNA 双螺旋结构的发现者之一 Waston 在他的名著DNA 双螺旋序言中说:“科学的发 现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。” 棣莫弗给出他的发现后 40 年(大约是 1770),拉普拉斯建立了中心极限定理

11、较一般 的形式, 中心极限定理后续又被其它数学家们推广到了其它任意分布的情形, 而不限于二项 分布。后续的统计学家发现,一系列的重要统计量,在样本量 N 趋于无穷的时候, 其极限 分布都有正态的形式, 这构成了数理统计学中大样本理论的基础。 棣莫弗在二项分布的计算中瞥见了正态曲线的模样, 不过他并没有能展现这个曲线的美 妙之处。 棣莫弗的这个工作当时并没有引起人们足够的重视, 原因在于棣莫弗不是个统计学 家,从未从统计学的角度去考虑其工作的意义。正态分布(当时也没有被命名为正态分布) 在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。这也 就是正态分布最终没有被冠名棣

12、莫弗分布的重要原因。 那 Gauss 做了啥工作导致统计学家 把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。下回分解:-) 三三、最小二乘法最小二乘法,数据分析的瑞士军刀数据分析的瑞士军刀 第二个故事的主角是欧拉(Euler)、拉普拉斯(Lapalace)、勒让德(Legendre)和高斯(Gau ss), 故事发生的时间是十八世纪中到十九世纪初。 十七、 十八世纪是科学发展的黄金年代, 微积分的发展和牛顿万有引力定律的建立, 直接的推动了天文学和测地学的迅猛发展。 当时 的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下: 土星和木星是太阳系中的大行星, 由于相

13、互吸引对各自的运动轨道产生了影响, 许 多大数学家, 包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木 星的运行轨道。 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度, 海上航行经纬度的定位。 主要是通过对恒星和月面上的一些定点的观测来确定经纬 度。 这些天文学和测地学的问题,无不涉及到数据的多次测量,数据的计算与分析;十七、 十八世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已 经经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法,虽然缺乏 理论上的论证,也不断的受到一些人的质疑。取平均作为一种异常直观的方式,已经被使用

14、 了千百年, 在多年积累的数据的处理经验中也得到一定的验证, 被认为是一种良好的数据处 理方法。 图 5 勒让德 以上涉及的问题, 我们直接关心的目标量往往无法直接观测, 但是一些相关的量是可以 观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些天文学的问题大体都可 以转换为描述如下的问题:有我们想估计的量 p ,., 0 ,另有若干个可以测量的量 yxx p, ,., 1 ,这些量之间有线性关系 ppx xy. 110 (12) 如何通过多组观测数据求解出参数 p ,., 0 呢? 欧拉和拉普拉斯采用的都是求解线 性方程组的方法。 pnpnnn pp pp xxxy xxxy xx

15、xy . . . 22110 222212102 121211101 (13) 但是面临的一个问题是,有 n 组观测数据,p+1 个变量, 如果 np+1, 则得到的线 性矛盾方程组,无法直接求解。 所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的 观察,把 n 个线性方程分为 p+1 组,然后把每个组内的方程线性求和后归并为一个方程, 从而就把 n 个方程的方程组划归为 p+1 个方程的方程组,进一步解方程求解参数。这些方 法初看有一些道理, 但是都过于经验化, 无法形成统一处理这一类问题的一个通用解决框架。 以上求解线性矛盾方程的问题在现在的本科生看来都不困难, 就是统计学中的线性回归 问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能 对这些问题提出有效的解决方案。可见在科

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号