李德毅-游走110428

上传人:m**** 文档编号:569395779 上传时间:2024-07-29 格式:PPT 页数:49 大小:3.55MB
返回 下载 相关 举报
李德毅-游走110428_第1页
第1页 / 共49页
李德毅-游走110428_第2页
第2页 / 共49页
李德毅-游走110428_第3页
第3页 / 共49页
李德毅-游走110428_第4页
第4页 / 共49页
李德毅-游走110428_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《李德毅-游走110428》由会员分享,可在线阅读,更多相关《李德毅-游走110428(49页珍藏版)》请在金锄头文库上搜索。

1、游走在高斯与幂律分布之间的云模型游走在高斯与幂律分布之间的云模型李李 德德 毅毅2011年年年年4 4月月月月2828日日日日Cloud Model Walking on the Way between Cloud Model Walking on the Way between Gaussian and Power Law DistributionsGaussian and Power Law Distributions一、高斯分布和幂律分布的普适性一、高斯分布和幂律分布的普适性高斯分布高斯分布若随机变量若随机变量X的概率密度函数为:的概率密度函数为:则称则称X服从均值为服从均值为,方差为方

2、差为2 2的正态分布。的正态分布。当当=0,=1=0,=1时,时,称称X服从标准正态分布,记为服从标准正态分布,记为X N (0,1)正态分布的正态分布的3准则准则概率密度分布函数:均值决定分布的中心位概率密度分布函数:均值决定分布的中心位置,方差决定分布曲线的置,方差决定分布曲线的“陡峭陡峭”程度程度方差 2的大小与数据分散程度成正比高斯分布高斯分布l个体的尺度在整体的特征尺度附近变化,呈个体的尺度在整体的特征尺度附近变化,呈“中间大,两头小中间大,两头小”的分布。如测量误差、射击的分布。如测量误差、射击偏差、小麦穗长、人体身高、年降雨量、产品偏差、小麦穗长、人体身高、年降雨量、产品寿命等寿

3、命等l高斯分布具有普适性,在概率论和统计学中占高斯分布具有普适性,在概率论和统计学中占统治地位,历史悠久,应用广泛。统治地位,历史悠久,应用广泛。高斯分布的成因高斯分布的成因 中心极限定理中心极限定理:一个变量如果是由:一个变量如果是由大量的、大量的、微小的、独立的微小的、独立的随机因素随机因素叠加叠加的结果,那么的结果,那么这个变量服从或近似服从正态分布。这个变量服从或近似服从正态分布。幂律分布l离散型数据的幂律分布函数定义:离散型数据的幂律分布函数定义:其中,其中,c为常数,为常数, 称为幂指数。称为幂指数。l连续型数据的幂律分布函数定义:连续型数据的幂律分布函数定义:其中,其中,xmin

4、为变量为变量X的最小值,的最小值, 为幂指数。为幂指数。 幂律分布幂律分布反映了自然界和社会现象中的反映了自然界和社会现象中的无尺度无尺度特性以及特性以及自相似自相似现象现象。 幂律分布幂律分布l个体的尺度可以在很大范围内变化,甚至跨越多个数个体的尺度可以在很大范围内变化,甚至跨越多个数量级,整体无明显的特征标度,呈长尾的累积分布曲量级,整体无明显的特征标度,呈长尾的累积分布曲线。如国家线。如国家GDP分布、城市人口分布、互联网节点的分布、城市人口分布、互联网节点的度分布、语言中单词的使用频度分布、行星大小的碎度分布、语言中单词的使用频度分布、行星大小的碎片分布、人类姓氏的分布、论文被引用次数

5、的分布、片分布、人类姓氏的分布、论文被引用次数的分布、生物中物种的分布、图书销售量、名人的粉丝规模等生物中物种的分布、图书销售量、名人的粉丝规模等l越来越多的研究结果体现了幂律分布的普适性。迫切越来越多的研究结果体现了幂律分布的普适性。迫切需要把幂律分布写入概率论教材。需要把幂律分布写入概率论教材。无尺度网络无尺度网络无尺度网络无尺度网络小世界网络小世界网络小世界网络小世界网络随机网络随机网络随机网络随机网络集散型网络集散型网络平均平均平均平均 / / 鲁棒鲁棒鲁棒鲁棒 / / 无序无序无序无序 / /不平均不平均不平均不平均 / / 可控可控可控可控 / / 脆弱脆弱脆弱脆弱星型网络星型网络

6、 泊松分布泊松分布 幂律分布幂律分布 两点分布两点分布现实世界中的复杂网络现实世界中的复杂网络复杂网络中的统计性质复杂网络中的统计性质Node ActivityLocal EffectHeterogeneityPreferential Attachment in Evolution复杂网络呈现幂律分布的物理成因复杂网络呈现幂律分布的物理成因挑战:挑战: 一个特定社群,姚明的加入,并不会太大一个特定社群,姚明的加入,并不会太大改变社群的平均身高,而整个社群却被改变社群的平均身高,而整个社群却被“平均平均”成百万富翁。对幂律而言,平均是没有意义成百万富翁。对幂律而言,平均是没有意义的。高斯分布和幂

7、律分布有什么内在的联系,的。高斯分布和幂律分布有什么内在的联系,可不可以用同一个数学模型去刻画?可不可以用同一个数学模型去刻画?二、云模型发生器算法二、云模型发生器算法l云模型是以概率和统计为基础,刻画人类认知中定云模型是以概率和统计为基础,刻画人类认知中定性概念与定量数据之间转换的模型。这是自然语言性概念与定量数据之间转换的模型。这是自然语言中实现词计算或软计算的基础。中实现词计算或软计算的基础。l正向云模型发生器利用数字特征生成正向云模型发生器利用数字特征生成N个云滴,完成个云滴,完成定性到定量的转换;逆向云模型发生器将定性到定量的转换;逆向云模型发生器将N个样本数个样本数据转换成用数字特

8、征表示的概念,完成定量到定性据转换成用数字特征表示的概念,完成定量到定性的转换。的转换。1阶云模型发生器算法阶云模型发生器算法输入输入: 期望(Ex),方差( En)输出输出: 云滴云滴 xi (i=1 , , Ni=1 , , N)算法算法:Step1: 生成以生成以Ex为期望值,为期望值,En 为标准差的一个正态随机数为标准差的一个正态随机数 xi =NORM( Ex , En ) ,称之为云滴,称之为云滴 ;Step2: 重复重复Step1,直至产生,直至产生N个云滴为止;个云滴为止;1阶云模型产生的云滴服从高斯分布阶云模型产生的云滴服从高斯分布2阶云模型发生器算法阶云模型发生器算法输入

9、输入: 期望( (Ex), 熵(En), 超熵(He)输出输出: 云滴云滴 xi (i=1 , , Ni=1 , , N)算法算法:Step1: 生成以生成以En为期望值,为期望值,He 为标准差的一个正态随机熵为标准差的一个正态随机熵En;Step2:如果如果En En, 返回返回 step1;Step3: 生成以生成以Ex为期望值,为期望值,En 为标准差的一个正态随机数为标准差的一个正态随机数 xi =NORM(Ex, En ),称之为云滴,称之为云滴 ;Step4: 计算每个云滴的确定度计算每个云滴的确定度 yi = Step5: 重复重复Step1到到Step4,直至产生,直至产生N

10、个云滴为止个云滴为止ExEx3En3EnHeHe影响云滴确定度的厚度影响云滴确定度的厚度影响云滴确定度的厚度影响云滴确定度的厚度云滴的确定度分布云滴的确定度分布3阶云模型发生器算法阶云模型发生器算法输入输入: 期望( (Ex), 熵(En), 超熵(He), 超超熵(超超熵(Hee)输出输出: 云滴云滴 xi (i=1 , , Ni=1 , , N)算法算法:Step1: 生成以生成以He为期望值,为期望值,Hee 为标准差的一个正态随机超熵为标准差的一个正态随机超熵He;Step2:如果如果He He, 返回返回 step1;Step3: 生成以生成以En为期望值,为期望值, He为标准差的

11、一个正态随机熵为标准差的一个正态随机熵En;Step4:如果如果En En, 返回返回 step3;Step5: 生成以生成以Ex为期望值,为期望值,En 为标准差的一个正态随机数为标准差的一个正态随机数 xi =NORM(Ex, En ),称之为云滴,称之为云滴 ;Step6: 重复重复Step1到到Step5,直至产生,直至产生N个云滴为止个云滴为止 4阶、5阶、k阶云模型云模型发生器生器的算法依此的算法依此类推推2阶云模型,当HeEn时,是高斯云分布,即泛高斯分布;随着超熵的增大,2阶云模型越来越偏离高斯分布用用2阶云模型生成云滴的一个例子阶云模型生成云滴的一个例子13430223775

12、8111218211124252235444862597275961031321411361681962392182662302562852863112912973193143303443173113243202692602672382372171941851541501409910890689158535947342924291716136104441033011011000001取Ex=0,En=1,He=0.1,用2阶云模型发生器生成10000个云滴,将云滴取值区间等分100份,统计每个区间内的云滴频度:三、峰度三、峰度偏离高斯分布的度量偏离高斯分布的度量 通常人们用峰度来度量实际样本偏

13、离高斯分布的程度。峰度是统计学中描述分布状态的一个重要特征值,用以判断分布曲线相比于正态分布的尖平程度。如果将正态分布视为常峰态,分布曲线的形状比正态分布更高更瘦的称为高峰态,否则称为低峰态。 定定义义: 随机随机变变量量X称称为为是重尾的,如果是重尾的,如果 ,其中其中,分分别为别为X的期望和的期望和标标准差。正准差。正态态分布的峰度分布的峰度为为3,因此,因此该该性性质质被称被称为为超超过过或大于峰度。但是,或大于峰度。但是,该该定定义义只适用于四只适用于四阶阶矩存在的情况。矩存在的情况。 四阶中心矩可以用来计算峰度(kurtosis) 2阶云模型的云滴分布l在在论论域域U上定上定义义均均

14、值为值为En、标标准差准差为为He的高斯的高斯随机随机变变量量 , 即即的概率密度函数的概率密度函数为为l在在= 的条件下,定义在论域的条件下,定义在论域U上的随机变上的随机变量量X的条件概率密度函数为:的条件概率密度函数为: 2阶云模型的云滴阶云模型的云滴分布分布l期望期望l方差(二阶中心距)方差(二阶中心距) 2阶云模型云滴分布的数学性质l三阶中心距三阶中心距 2阶云模型云滴分布的数学性质l四阶中心距四阶中心距 2阶云模型云滴分布的数学性质 2阶云模型的峰度3阶云模型的云滴阶云模型的云滴分布分布3阶云模型云滴分布的数学性质l期望期望:l方差方差:l三阶中心距三阶中心距:l四阶中心距四阶中心

15、距:3阶云模型的峰度 峰度取值与超超熵(峰度取值与超超熵(Hee)的平方取值正相关,因此)的平方取值正相关,因此3阶阶云模型的峰度,比云模型的峰度,比2阶云模型(即阶云模型(即Hee=0)大。)大。l设设Xk表示表示K阶云模型生成的云滴量,则阶云模型生成的云滴量,则K阶云模型的云阶云模型的云滴分布:滴分布:k阶云模型阶云模型云滴分布及其数学特征l期望期望:l方差方差:l三阶中心距三阶中心距:l四阶中心距四阶中心距: 对于K阶云模型,通过计算其四阶中心距可以求得峰度。计算结果表明,3阶云模型比2阶云模型峰度更大,即更偏离高斯分布;随着K的增大,峰度会越来越大,与高斯分布渐行渐远。四、实验验证云滴

16、群分布的游走特性四、实验验证云滴群分布的游走特性实验一:实验一:2阶云模型超熵变化导致的云滴群的分布变化阶云模型超熵变化导致的云滴群的分布变化实验步骤:实验步骤:1.1.取取Ex=0Ex=0, En=1En=1, He=0.1,1,10He=0.1,1,10,用用 2 2阶阶 云云 模模 型型 发发 生生 器器 生生 成成 10,00010,000个云滴个云滴2.2.依据云滴取值,等分依据云滴取值,等分3,0003,000个小区间,统计云滴落入各区间的个小区间,统计云滴落入各区间的频度频度3.3.在双对数坐标系下观察区间编号与区间内云滴数的关系在双对数坐标系下观察区间编号与区间内云滴数的关系实

17、验一:实验一:2阶云模型超熵变化导致的云滴群的分布变化阶云模型超熵变化导致的云滴群的分布变化区间区间12345678910He=0.111111110101010101010He=182656059565353494949He=10112897977716470636357 10,000个云滴分落在个云滴分落在3,000个小区间内;个小区间内; He=0.1时区间长度为时区间长度为0.0045; He=1时区间长度为时区间长度为0.0068; He=10 时区间长度为时区间长度为0.0455 以下列出紧靠期望值的前以下列出紧靠期望值的前10个区间的云滴统计数个区间的云滴统计数实验一:实验一:2

18、阶云模型超熵变化导致的云滴群的分布变化阶云模型超熵变化导致的云滴群的分布变化2阶阶云云模模型型随随着着超超熵熵增增大大,云云滴滴群群分分布布趋趋势势体体现现出出一一定定的的“直直线线”特征特征实验二:阶数增加时云滴群分布的趋势实验二:阶数增加时云滴群分布的趋势实验步骤:实验步骤:1.取取Ex=0,Eni=1(i=2,3,k),He=1,依据,依据3阶、阶、5阶与阶与8阶云模阶云模型发生器生成型发生器生成10,000个云滴个云滴2.根据云滴取值范围,等分根据云滴取值范围,等分3,000个区间,统计个区间,统计3阶、阶、5阶与阶与8阶云滴落入等分区间的频度阶云滴落入等分区间的频度3.在双对数坐标系

19、下观察区间编号与区间内云滴数的在双对数坐标系下观察区间编号与区间内云滴数的关系关系实验二:阶数增加时云滴群分布的趋势实验二:阶数增加时云滴群分布的趋势区间区间index123456789103阶897869676361616055545阶187151143128121118113108105988阶26320518617816111515014213812810,000个云滴分落在个云滴分落在3,000个小区间内;个小区间内;3阶云模型的区间长度为阶云模型的区间长度为0.0045;5阶云模型的区间长度为阶云模型的区间长度为0.0103;8阶云模型的区间长度为阶云模型的区间长度为0.0153;以

20、下列出紧靠期望值的前以下列出紧靠期望值的前10个区间的云滴统计数个区间的云滴统计数实验二:阶数增加时云滴群分布的趋势实验二:阶数增加时云滴群分布的趋势随随着着阶阶数数的的增增加加,云云滴滴群群的的分分布布体体现现出出较较好好的的幂律分布趋势幂律分布趋势3阶5阶8阶 SIAM Review 51, 661 (2009).幂律分布的幂律分布的KS检验方法检验方法实验三:云滴群幂律分布的实验三:云滴群幂律分布的KS检验检验 l文中采用文中采用KS统计,检验采样数据对幂律分布的符合程度统计,检验采样数据对幂律分布的符合程度l对原始数据对原始数据X,以极大似然估计量,以极大似然估计量 a构建检验函数,通

21、过构建检验函数,通过KS检检验,计算最大误差验,计算最大误差D;构建;构建1000个以个以Xmin为最小值,任意为最小值,任意a为为幂指数的分布幂指数的分布Fi,逐个进行,逐个进行KS检验,计算检验,计算Di;依据;依据p的统计值,的统计值,决定原始数据决定原始数据X对幂指数对幂指数a的幂律分布的吻合程度的幂律分布的吻合程度l简言之,简言之,p越趋近于越趋近于1,则原始数据分布越吻合拟合的幂律分布;,则原始数据分布越吻合拟合的幂律分布;反之,反之,p越趋近于越趋近于0,则偏差越大,则偏差越大实验三:云滴群幂律分布的实验三:云滴群幂律分布的KS检验检验 阶数阶数He=1He=10He=100He

22、=1000apapapap2阶1.810.001.810.001.820.001.810.005阶1.730.241.710.201.690.191.710.378阶1.710.991.760.941.720.981.750.8210阶1.710.991.690.971.720.981.730.992阶云模型中,随着超熵的增大,云滴群开始呈现重头肥尾的分布特征,但超熵进一步增大并不导致幂律分布;随着阶数的增大,K阶云模型生成的云滴群,其幂律分布的趋势更加明显。幂幂律律特特性性高斯特性高斯特性00111阶阶2阶阶3阶阶4阶阶2阶阶3阶阶4阶阶2阶阶3阶阶4阶阶Thanks 总结:游走在正态与幂律

23、分布之间的云模型总结:游走在正态与幂律分布之间的云模型 l根据方差的定义,熵、超熵、超超熵等都必须大于等于根据方差的定义,熵、超熵、超超熵等都必须大于等于0,因此,因此,N阶云模型只研究大于等于期望的云滴群的分布特性;阶云模型只研究大于等于期望的云滴群的分布特性;l1阶云模型(即阶云模型(即He=0)产生的云滴服从高斯分布;)产生的云滴服从高斯分布;l2阶云模型,当阶云模型,当HeEn时,是高斯云分布,即泛高斯分布;随着时,是高斯云分布,即泛高斯分布;随着超熵的增大,超熵的增大,2阶云模型越来越偏离高斯分布;阶云模型越来越偏离高斯分布;l通常,人们用峰度来度量实际样本偏离高斯分布的程度;通常,

24、人们用峰度来度量实际样本偏离高斯分布的程度;l对于对于N阶云模型,通过计算其四阶中心距以求得峰度。计算结果表阶云模型,通过计算其四阶中心距以求得峰度。计算结果表明,明,3阶云模型比阶云模型比2阶云模型峰度更大,也就是说,更偏离高斯分布;阶云模型峰度更大,也就是说,更偏离高斯分布;随着随着N增大,峰度会越来越大,与高斯分布渐行渐远;增大,峰度会越来越大,与高斯分布渐行渐远;l用用N阶云模型发生器生成云滴,并统计其区间频度,这样的实验方阶云模型发生器生成云滴,并统计其区间频度,这样的实验方法可验证云滴群的分布特性;法可验证云滴群的分布特性;l2阶云模型中,随着超熵的增大,云滴群开始呈现重头肥尾的分布阶云模型中,随着超熵的增大,云滴群开始呈现重头肥尾的分布特征,但超熵进一步增大并不导致幂律分布;而随着阶数的增大,特征,但超熵进一步增大并不导致幂律分布;而随着阶数的增大,N阶云模型生成的云滴群,其幂律分布的趋势更加明显。阶云模型生成的云滴群,其幂律分布的趋势更加明显。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 试题/考题 > 初中试题/考题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号