概率论课程论文长尾分布

上传人:桔**** 文档编号:498235391 上传时间:2023-10-02 格式:DOC 页数:10 大小:279.50KB
返回 下载 相关 举报
概率论课程论文长尾分布_第1页
第1页 / 共10页
概率论课程论文长尾分布_第2页
第2页 / 共10页
概率论课程论文长尾分布_第3页
第3页 / 共10页
概率论课程论文长尾分布_第4页
第4页 / 共10页
概率论课程论文长尾分布_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《概率论课程论文长尾分布》由会员分享,可在线阅读,更多相关《概率论课程论文长尾分布(10页珍藏版)》请在金锄头文库上搜索。

1、哈尔滨工业大学计算机科学与技术学院结课论文课程名称:概率论与数理统计课程类型:必修项目名称:长尾分布、幂律分布的原理与应用概况 目录目录2摘要31 引言32 长尾分布与幂律分布42.1 长尾分布42.2 幂律分布42.3 两种分布的联系43 西蒙模型:幂律分布最基本的产生机制53.1 西蒙模型简介53.2 西蒙模型的主要缺陷64 长尾分布与幂律分布的典型应用74.1 人类行为时间统计特性研究74.2 小世界现象的动力学模型与验证84.3 金融资产收益率的研究95 小结96 参考文献97 致谢9摘要长尾分布是涉及流行性问题的一种常见分布,与之密切相关的还有幂律分布。这两种分布在物理学、生物学、经

2、济学、计算机科学、统计学、社会学等诸多领域得到了广泛应用。本文试图简要介绍长尾分布的概念,同时介绍与之密切相关的幂律分布,展示目前存在的理论模型及其优缺点,最后介绍这两种分布在各种领域的应用。1 引言在概率论与数理统计的课程中,我们先后接触了多种分布;其中正态分布(高斯分布)、2分布、t分布和F分布在生产生活中有着较多的应用。然而仔细观察这些分布,不难发现其研究的对象是同质的 上述分布的概率密度,亦即分布的“本质”,在试验开始前已然确定。但本文主要探讨的长尾分布和幂律分布则不然:尽管有一个确定的结果,但涉及的对象本身是异质的,重复进行相同初始条件的试验也不太可能完全复原此前结果。;但很多时候,

3、我们更需要的却是针对异质对象的一些特殊指标的分布。此外,这些分布所涉及的基本事件,彼此也是独立的;但我们看到的世界并非如此。太阳升起又落下,落下又升起,可是人们却已经经历了欢笑和痛苦,会做出不一样的选择;人们的选择改变着自己,但自己同时也是他人的环境的一部分;于是人们改变了自我的同时也改变了环境,不同的环境下自然不会有重复的条件,不可能有同样的分布。最著名的反面案例也许是马太 “凡有的,还要加给他叫他多余;没有的,连他所有的也要夺过来。”马太福音 15效应:贫者愈贫,富者愈富,而不会随机地发生逆转,游戏不会回归到初始状态。体现上述两点的最典型的过程,便是与流行度有关的过程。以网站音乐的排行榜为

4、例,把曲目按照下载量排序,可近似地得到一条递减曲线。在曲线的始端,曲目被大量下载,而随着流行度排名的降低,下载量急剧下降;然而这一曲线的尾部却不会马上坠落到零。这种特殊的分布便是长尾分布。幂律分布与长尾分布等价,而在理论上更便于探讨,因此对长尾分布的研究也不能脱离幂律分布。对其形成机制最经典的一个解释就是西蒙模型。根据三个基本假设,西蒙模型能够在大量文本的状态下解释大部分幂律分布的形成过程。然而这一模型也并不完美,如有一些多余的假设,解释不了一些特殊情况等。长尾分布和幂律分布绝非单纯的理论;恰好相反,人们是在反复发现这样的分布后才开始针对性的研究,并得出相关的结论。在互联网信息、社会网络、疾病

5、传播、金融市场等方面,幂律分布都发挥了重要的作用。2 长尾分布与幂律分布2.1 长尾分布长尾分布,也称齐普夫定律,在20世纪30年代,由美国哈佛大学语言学家齐普夫发现。将一文本中的词按照它们在文本中的出现(或使用)次数从高到低排列,则序号的某一幂次与使用频率的乘积将在一个常数前后摆动。这一规律可形式化表述为:2.2 幂律分布对于离散型随机变量和连续型随机变量,都有其对应的幂律分布。对离散型幂律分布的定义为:对连续型幂律分布的定义为:2.3 两种分布的联系为探讨两者的联系,此处假设背景为对互联网站点及其入链数的研究。从幂律分布出发,假设f(k)为拥有k个入链的站点个数,并且;记km为入链最多的站

6、点的入链数,则入链数在k和km之间的站点个数为,并且有:此时对这些站点进行排序,可知最后一位站点序号为,拥有入链数为k,即,其中,再令,即可得到长尾分布:以上两式中,称为齐普夫指标,而称为幂律指标。3 西蒙模型:幂律分布最基本的产生机制3.1 西蒙模型简介西蒙是卡内基梅隆大学管理学和计算机科学教授,曾获得诺贝尔经济学奖和图灵奖。西蒙模型发表于1955年出版的英国期刊生物计量学,直到现在仍然备受重视。西蒙以词频分布为背景,根据三个假设建立起西蒙模型。 1长尾分布、幂律的产生机制和西蒙模型-山石、邱红-中国发展进程中的管理科学与工程2008卷I首先令s为一文本当前词数,称为文本长度,N(s)为该文

7、本达到长度s时的词汇,显然N(s)s。文本中未出现的词为新词,反之则称为旧词。令f(k,s)为文本长度达到s时出现了k次的单词个数,以(s)表示文本长度达到s时进入新词的可能性,称为新词的进入率,其中0(s)1:假设一:新词进入率为一个常量,即假设二(富者愈富):新进入文本的词为使用了k次的词的可能性与kf(k,s)成正比。根据西蒙的原文可导出:以及:假设三(稳态假设):以下,首先将假设三应用于假设二中,再令可由递推关系得到:利用史特林逼近式即有。由此可知词频在文本中的分布渐进地服从幂律分布。3.2 西蒙模型的主要缺陷(1)新词进入率为常数的假设过于简单。一般而言,由于词汇数量有限,新词进入率

8、随着文本长度的增加而降低;(2)幂律分布只要求,而西蒙模型中有,则西蒙模型无法解释时的幂律分布;(3)稳态假设要求对s为任意正整数时都成立,但实际上s较小时这一要求很难满足。4 长尾分布与幂律分布的典型应用4.1 人类行为时间统计特性研究人类从事某些事件的行为,可能在短时间内爆发,也可能在长时间里沉默。一些研究显示,幂律能够在一定程度上拟合相应的数据。一个例子 2人类行为与社会系统中的非泊松特性研究-中国科学技术大学 韩筱璞(博士)是短信息通讯中的现象。一群来自中国科学技术大学的研究者们,为了探讨发送端信息时间间隔分布的情况,收集若干个受访者的短信息数据(多数包含接受者与发送时间),并据此绘制

9、发送信息的时间间隔分布图。图4-1 个体发送端信息的时间间隔分布根据拟合,研究者们发现这种分布与幂律分布比较吻合,进而据此提出这种分布可能的动力学模型,如基于自适应兴趣、基于自相似时间等原因的行为方式,增进了对人类行为的理解。4.2 小世界现象的动力学模型与验证1967年,米尔格拉姆进行了著名的“六度分割”实验:将近百封信交给参与者吗,要求其传递信件给熟识的人,并且要尽量确保信件会更接近收信人。实验结束后,研究人员发现,平均每封信只要经过六次传递就能到达收信人的手中。 3Networks, Crowds, and Markets: Reasoning about a Highly Connec

10、ted World, David Easley, Jon Kleinberg这一试验引出了“小世界”假说:人与人之间的联系或许并没有想象中的那么远。各个圈子内都有对这一假说的验证实验。对于这种现象的动力学分析也一直进行着。一个简单的模型是,每个人都具有m个直接好友,那么对于任意一个人来说,他的第n层好友就应该有mn个;这一模型确实可以导出小世界现象,却忽略了朋友圈内共享朋友的事实。而一个保守的模型则是,人与人之间存在某种“距离”,只有在这些“距离”意义上相邻的人才能成为好友。这种模型能部分吻合事实,但却无法解释小世界现象。另一个模型融合了前两种模型,假设两人成为好友的概率与距离的某次幂成反比;

11、这种假设同时融入了上述两个方面的要点。随着统计技术的提升,人们发现人的第若干层的好友数与层数满足幂律分布。再经过理论验证,充分验证了这一模型的合理性。图4-2 间接好友人与好友层数的关系图4.3 金融资产收益率的研究金融市场中包含大量的相互作用单元,相当复杂,因此人们一直试图利用概率和统计的方法研究这一类系统。 4金融市场中幂律分布的经验和理论研究进展:经济物理学研究的一个前沿-张宇 北京大学物理学院20世纪50年代后,经济学家们假设金融资产对数价格变化是独立分布的随机变量,根据中心极限定理,推断价格的对数增量之和监禁于正态分布。然而,由于中心极限定理只在样本容量充分大时才成立,对于有限样本的

12、金融市场,分布的尾部可能偏离高斯分布,这可能影响资产定价和风险评估。此后,陆续又专家在研究过程中发现一些收益率的分布具有长尾的特征。对幂律分布的研究产生了帕累托尾部等有用的性质,对金融市场的实践提供了相当的帮助。5 小结长尾分布与幂律分布,尽管看似简单,却刻画了现实世界相当多的现象;且这种刻画促成的研究,也深化了人们对相关原理的理解。可以相信,这两种分布仍有很大的开发空间,是非常有价值的研究方向。6 参考文献1长尾分布、幂律的产生机制和西蒙模型-山石、邱红-中国发展进程中的管理科学与工程2008卷I2人类行为与社会系统中的非泊松特性研究-中国科学技术大学 韩筱璞(博士)3Networks, Crowds, and Markets: Reasoning about a Highly Connected World, David Easley, Jon Kleinberg4金融市场中幂律分布的经验和理论研究进展:经济物理学研究的一个前沿-张宇 北京大学物理学院7 致谢感谢我的校友、现北大校长助理李晓明先生。您在2013年春季学期开设的网络与社会导论让我获益匪浅,不仅为我此次的论文,也为我对未来的规划提供了很多宝贵的信息。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号