文档详情

《信息分布》ppt课件

tia****nde
实名认证
店铺
PPT
439.40KB
约46页
文档ID:69201698
《信息分布》ppt课件_第1页
1/46

第三章 信息分布,3.1 信息产生与分布中的马太效应,3.1.1马太效应的表现和作用形式 核心趋势 高产作者群体的形成 期刊信息密度增大 高频词汇的确立 集中取向 一篇论文多次被引 一个网站被众多用户点击,3.1.2 马太效应的负面影响,信息分布的富集现象 突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益 核心信息源 忽略分布在其他信息源中有价值的信息 马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播3.1.3*马太效应的数学模拟,1普利亚(Polya)分布 普利亚(Polya)分布亦称单缸模型,它基于下述实验:设某一缸中装有若干红色球和黑色球,按一定的规则从缸中取球,取到红球表示成功,取到黑球表示失败假定缸中现有a个红球、b个黑球,取出某个球后(例如红球),则将取出球与c个红球一起放回缸中,取到黑球亦同样处理如果实验重复n次并且假定X表示取出红球的总次数,则X的分布可表示为: P(x)=P(X=x) =,(1)若c=0 P(x)= P(x)为带有参数n,a/(a+b)的二项分布 (2)若c=-1 P(x)= P(x)为带有参数n,a+b,a的超几何分布 (3)若a=b=c P(x)= P(x)为带有参数n,x的均匀分布,(4)若n →∞ ,a(a+b)-1 →0以及c(a+b)-1 →0,P(x)为负二项分布,n a(a+b)-1 和nc(a+b)-1 分别趋向于非零值 和 P(X=x)= 令 =p, P(X=x)=,2.塔格(Tague)分布,塔格(Tague)分布又称多缸模型,是对单缸模型的补充和修正。

实验程序如下: ①设有一系列的缸,每个缸中装有a个红球和b个黑球; ②如果一个红球被取出,则在该缸中另外加进c个红球; ③如果黑球被取出,则不另外加进黑球; ④依次从第一个缸开始取球,一直持续到取出k个球为止 ⑤接着再从第二个缸取球,重复①~④的程序; ⑥程序①~⑤无限地延续,在单缸模型中,x次成功的概率是在第k只黑球取出之前取出x个红球的概率 P(X=x)= 式中,ai0, =k-1 令 = , = ,有 P(x)= 简化得, P(x)=,(1 )如果k=1;满足弗林分布,其平均数为 P(x)= (2)如果 =1,弗林分布对应于瑞利分布或累积优势分布: P(X=x)= 式中,B(·, ·)为贝塔函数 (3)在累积优势分布中,如果 =1 P(x)=,拉维昌德拉·劳在1987年提出累积优势分布的替代形式: 设u和v为两个随机变量(u=1,2,3,…,0≦v1) P(u/v)=(1-v)u-1;P(v)=(α+1)(1-v)α P(v)= P(u/v)v P(v) = (α+1)β(u,α+2) u=1,2,3,…,3.威布尔(Weibull)分布,日本的中川和大崎在1975年讨论了威布尔(Weibull)分布。

由于在对失败的研究中,失败的次数常用失败的周期数来测量,所以一般用连续分布作失败分析而随机变量具有离散性,故又称为离散的威布尔分布中川和大崎提出了如下描述失败的概率函数: P(x)=qx β -q(x+1) β  x=0,1,2,3,…β0,00 平均数为,3.2 信息生产者分布规律,3.2.1洛特卡定律 1926年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院学报》上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献洛特卡选择美国《化学文摘》和德国奥尔巴赫《物理学史一览表》为数据源研究科技工作的论著数量分布他统计分析了《化学文摘》1907~1916年10年累积索引中的部分作者,即姓氏以字母A和B开头的6 891位作者分别列出发表过1篇、2篇,一直到346篇论文的人数《物理学史一览表》包括了1900年前物理学领域内出现的1 325位物理学家及其论著,取其全部数据进行统计,洛特卡定律的图形描述,洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即logx和log yx)作图,两组数据都是直线(如图所示)。

图中虚线表示《化学文摘》数据,实线代表《物理学史一览表》的数据用最小二乘法计算拟合直线的斜率,近似为-2,,,,,Log yx,Log x,10,5,3,2,1,,,,5,1,25,30,,,,,100,20,洛特卡定律的数学描述,根据洛特卡分析,在论文数x和作者数yx之间存在下列关系: xnyx=c 式中,yx 是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动 通过变换可以得到下面的公式: =,令f(yx)= ,实际表示写x篇论文的作 者出现的频率,C= ,表示作者取样 总数的比例,这样可以写成: f(yx)= 两边积分得:1= = , 于是,C=0.6079,3.2.2普赖斯定律,在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写的 该定律可表示为:  = (3-6)   式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数m可由下式确定: = (3-7),如果规定发表了n篇论文的作者人数为a(n) ,则发表n≤N≤n’篇论文的作者人数为: A(n-n’) =a(n)+a(n+1)+…+a(n’) = a(n)名作者一共发表的论文为P(n)=n·a(n) 同理,发表了n≤N≤n’篇论文的作者总共发表的论文数为: P(N) =P(n-n’)=na(n)+(n+1)a(n+1)+…+n’a(n’) = ,若 1/2P(1→nmax) = P(m→nmax) = P(1→m) ,则有: = (3-10) 其中,a(n)= ,a(n)是频数。

P(1→n)= 调和级数和公式变为 P(1→n)=c(lnn+0.577+…+εn),化简得,M=0.749(nmax)1/2 式子表明,高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的平方根的0.749倍 另一方面, K= = = 这个式子表明了高产作者人数同全体作者人数的比例关系3.3信息离散分布规律,3.3.1布拉德福定律 英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradfords Law of Scattering),简称为布拉德福定律或布氏定律:“如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的‘核心’部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1∶a∶a2的关系(a1)这就是布拉德福定律的区域表述形式应用地球物理学论文的布氏分布,布拉德福定律图形描述,如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。

布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线B.C.布鲁克斯用下述模式来表示布拉德福定律: R(n)=αnβ (1≤n≤C)………………(3-15) R(n)=klog (n/s) (C≤n≤N) …………(3-16),曲线上BD部分只是近似地满足(3-16)式式中: R(n)——相关论文累积数 n——杂志等级排列的序号(级) α——第一级杂志中的相关文章数R(1)也就是载文章最高的杂志中的相关文章数 C——“核心区”中的杂志数量 N——等级排列的杂志总数 k,s——待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得当N足够大时,k≈N β——参数,与收藏的杂志(核心中杂志)数量有关,大小等于分布图中曲线部分的曲率,β总小于1 式(3-15)和(3-16)就是布拉德福定律的图形表述形式 ,布拉德福分散曲线,,,,,,,,,,,,,,,,R(n),C,B,D,N,Loge n,R(N’),C,O,A,R(N),n1,R(n1),N’,布拉德福定律数学描述,令m1,m2,m3为一、二、三各区中的论文数量,p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量,则有: r1p1=r2p2=r3p3=m1 p2/p1=r1/r2=a1 p3/p2=r2/r3=a2, 令a1=a2=a, 于是p1:p2:p3=1:a:a2,布氏定律的维克利解释,将杂志分区的数目推广到n3的普遍情形。

设将载有某一学科相关论文的杂志分为m个区,使每一区的论文数量相等,各区中期刊的数量n1,n2,n3,…,nm有如下关系: T1:T2:T3:…:Tm=1:b;b2:…:bm-1 (b为维氏分布系数) Tm=n1+n2+n3+…+nm=N,N为杂志总数,布拉德福定律补充说明,布拉德福定律有两个基本要点: 一是频次等级排序,形成主体来源(期刊)的有序目录; 二是确定相关论文在主体来源中的分布规律 具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但它所揭示的都是论文在期刊中的分散规律 布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究则基本上是空白3.3.2齐夫定律,1.齐夫定律的表述 如果将一篇较长文章(约5 000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有: fr=c………………………………(3-19) 式中c为常数上式称为齐夫定律,,如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线。

如果等级r与频次f都取对数,则双曲线变成一条直线与之等价的数学表达式为:  lgr+lgf=lgc,词频分布,齐夫词频分布曲线及其对数曲线,,,,f,250,200,150,100,50,300,r,1,3,2,5,6,4,,,,,Lg f,Lg r,齐夫定律的修正,图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为: Klg r+lg f=lg c 这一直线由图中的实线表示如果将其改写成(3-19)式的形式就得: frb=c……………………………(3-20)  取b=1,(3-20)式与(3-19)式相同,因此可以将(3-20)式看做是对齐夫定律的修正2.齐夫分布的其他形式,(1)朱斯双参数等级分布 美国学者朱斯指出,在(3-20)式中,不仅c应当是参数,而且b并不总是等于1,也是一个参数,齐夫定律可更为一般地表示为: f(r)=cr-b………………………………(3-21) 式中,b0,c0,对于r=1,2,…,n,f(r)=1 式(3-21)就是朱斯的双参数等级分布定律f(r)表示r位词出现的频率(或概率)2)曼德尔布罗三参数分布,曼德尔布罗将词(包括字母间的空格)看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较。

设r为词的顺序,f(r)为第r个词的频率,(r)为第r个词的词长这时平均词长为: L=Σf(r)m(r) 当给定的熵值H最小或当L最小时,应有: H=- Σf(r) l。

下载提示
相似文档
正为您匹配相似的精品文档