第三章 信息分布3.1 信息产生与分布中的马太效应3.1.1马太效应的表现和作用形式 核心趋势 高产作者群体的形成 期刊信息密度增大 高频词汇的确立 集中取向 一篇论文多次被引 一个网站被众多用户点击3.1.2 马太效应的负面影响 信息分布的富集现象 突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益 核心信息源 忽略分布在其他信息源中有价值的信息 马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播 3.1.3*马太效应的数学模拟 1普利亚(Polya)分布 普利亚(Polya)分布亦称单缸模型,它基于下述实验:设某一缸中装有若干红色球和黑色球,按一定的规则从缸中取球,取到红球表示成功,取到黑球表示失败假定缸中现有a个红球、b个黑球,取出某个球后(例如红球),则将取出球与c个红球一起放回缸中,取到黑球亦同样处理如果实验重复n次并且假定X表示取出红球的总次数,则X的分布可表示为: P(x)=P(X=x) = (1)若c=0 P(x)= P(x)为带有参数n,a/(a+b)的二项分布 (2)若c=1 P(x)= P(x)为带有参数n,a+b,a的超几何分布 (3)若a=b=c P(x)= P(x)为带有参数n,x的均匀分布 (4)若n ,a(a+b)-1 0以及c(a+b)-1 0,P(x)为负二项分布,n a(a+b)-1 和nc(a+b)-1 分别趋向于非零值 和 P(X=x)= 令 p, P(X=x)=2.塔格(Tague)分布 塔格(Tague)分布又称多缸模型,是对单缸模型的补充和修正。
实验程序如下: 设有一系列的缸,每个缸中装有a个红球和b个黑球; 如果一个红球被取出,则在该缸中另外加进c个红球; 如果黑球被取出,则不另外加进黑球; 依次从第一个缸开始取球,一直持续到取出k个球为止 接着再从第二个缸取球,重复的程序; 程序无限地延续 在单缸模型中,x次成功的概率是在第k只黑球取出之前取出x个红球的概率 P(X=x)= 式中,ai0, k-1 令 = , = ,有 P(x)= 简化得, P(x)= (1 )如果k=1;满足弗林分布,其平均数为 P(x)= (2)如果 1,弗林分布对应于瑞利分布或累积优势分布: P(X=x)= 式中,B(, )为贝塔函数 (3)在累积优势分布中,如果 =1 P(x)= 拉维昌德拉劳在1987年提出累积优势分布的替代形式: 设u和v为两个随机变量(u=1,2,3,0v0,0q0 平均数为 3.2 信息生产者分布规律 3.2.1洛特卡定律 1926年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物华盛顿科学院学报上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。
洛特卡选择美国化学文摘和德国奥尔巴赫物理学史一览表为数据源研究科技工作的论著数量分布他统计分析了化学文摘19071916年10年累积索引中的部分作者,即姓氏以字母A和B开头的6 891位作者分别列出发表过1篇、2篇,一直到346篇论文的人数物理学史一览表包括了1900年前物理学领域内出现的1 325位物理学家及其论著,取其全部数据进行统计 洛特卡定律的图形描述 洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即logx和log yx)作图,两组数据都是直线(如图所示)图中虚线表示化学文摘数据,实线代表物理学史一览表的数据用最小二乘法计算拟合直线的斜率,近似为-2Log yxLog x1053215125 3010020洛特卡定律的数学描述 根据洛特卡分析,在论文数x和作者数yx之间存在下列关系:xnyxc 式中,yx 是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动 通过变换可以得到下面的公式: 令f(yx)= ,实际表示写x篇论文的作者出现的频率,C= ,表示作者取样总数的比例,这样可以写成:f(yx)两边积分得:1 , 于是,C0.60793.2.2普赖斯定律 在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写的。
该定律可表示为: (3-6) 式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数m可由下式确定: (3-7) 如果规定发表了n篇论文的作者人数为a(n) ,则发表nNn篇论文的作者人数为: A(n-n) =a(n)+a(n+1)+a(n) = a(n)名作者一共发表的论文为P(n)=na(n) 同理,发表了nNn篇论文的作者总共发表的论文数为: P(N) =P(n-n)=na(n)+(n+1)a(n+1)+na(n) 若 1/2P(1nmax) = P(mnmax) = P(1m) ,则有: = (3-10) 其中,a(n)= ,a(n)是频数 P(1n)= 调和级数和公式变为 P(1n)=c(lnn+0.577+n) 化简得,M=0.749(nmax)1/2 式子表明,高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的平方根的0.749倍 另一方面, K= = = 这个式子表明了高产作者人数同全体作者人数的比例关系3.3信息离散分布规律 3.3.1布拉德福定律 英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。
他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradford s Law of Scattering),简称为布拉德福定律或布氏定律:“如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的核心部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1aa2的关系(a1)这就是布拉德福定律的区域表述形式 应用地球物理学论文的布氏分布分区期刊载文量(篇/年)期刊数量论文数量14942921-45549931258408布拉德福定律图形描述 如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线 布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线B.C.布鲁克斯用下述模式来表示布拉德福定律: R(n)=n (1nC)(3-15) R(n)=klog (n/s) (CnN) (3-16) 曲线上BD部分只是近似地满足(3-16)式式中: R(n)相关论文累积数 n杂志等级排列的序号(级)。
第一级杂志中的相关文章数R(1)也就是载文章最高的杂志中的相关文章数 C“核心区”中的杂志数量 N等级排列的杂志总数 k,s待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得当N足够大时,kN 参数,与收藏的杂志(核心中杂志)数量有关,大小等于分布图中曲线部分的曲率,总小于1 式(3-15)和(3-16)就是布拉德福定律的图形表述形式 布拉德福分散曲线R(n)CBDNLoge nR(N)COAR(N)n1R(n1)N布拉德福定律数学描述 令m1,m2,m3为一、二、三各区中的论文数量,p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量,则有: r1p1=r2p2=r3p3=m1 p2/p1=r1/r2=a1 p3/p2=r2/r3=a2, 令a1=a2=a, 于是p1:p2:p31:a:a2布氏定律的维克利解释 将杂志分区的数目推广到n3的普遍情形设将载有某一学科相关论文的杂志分为m个区,使每一区的论文数量相等,各区中期刊的数量n1,n2,n3,nm有如下关系: T1:T2:T3:Tm=1:b;b2:bm-1(b为维氏分布系数)Tm=n1+n2+n3+nm=N,N为杂志总数布拉德福定律补充说明 布拉德福定律有两个基本要点:一是频次等级排序,形成主体来源(期刊)的有序目录;二是确定相关论文在主体来源中的分布规律。
具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但它所揭示的都是论文在期刊中的分散规律 布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究则基本上是空白3.3.2齐夫定律1.齐夫定律的表述 如果将一篇较长文章(约5 000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有: fr=c(3-19) 式中c为常数上式称为齐夫定律 如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线如果等级r与频次f都取对数,则双曲线变成一条直线与之等价的数学表达式为: lgr+lgf=lgc 词频分布 RfLg rLg f140000.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.69齐夫词频分布曲线及其对数曲线f25020015010050300r132564Lg fLg r齐夫定律的修正 图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为:Klg r+lg f=lg c 这一直线由图中的实线表示。
如果将其改写成(3-19)式的形式就得: frb=c(3-20) 取b=1,(3-20)式与(3-19)式相同,因此可以将(3-20)式看做是对齐夫定律的修正 2.齐夫分布的其他形式(1)朱斯双参数等级分布 美国学者朱斯指出,在(3-20)式中,不仅c应当是参数,而且b并不总是等于1,也是一个参数,齐夫定律可更为一般地表示为: f(r)=cr-b(3-21) 式中,b0,c0,对于r=1,2,n,f(r)=1 式(3-21)就是朱斯的双参数等级分布定律f(r)表示r位词出现的频率(或概率)2)曼德尔布罗三参数分布 曼德尔布罗将词(包括字母间的空格)看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较设r为词的顺序,f(r)为第r个词的频率,(r)为第r个词的词长这时平均词长为:L= f(r)m(r) 当给定的熵值H最小或当L最小时,应有: H=- f(r) lgf(r)=常数,以及f(r)=1根据这些条件,曼德尔布罗从理论上提出了三参数分布公式: f(r)=c(r+a) -b(3-22)式中,0a0,c0a,b,c为参数,具有如下意义: 参数c与出现概率最高的词的概率大小相关或者说与f(1)有关。
当a=0,b=1时,c=f(1) 参数b与高频词数量的多少有关,对于r50的高频词,b是r的非减函数,随着r的增大,参数b并不减少 参数a与词的数量n有关,由于a的选择自由较大,此公式更为灵活,更能够在各种条件下与测定的统计数据拟合 3.4信息对时间的分布规律 3.4.1指数增长律 1.普赖斯曲线 如果我们以文献量为纵轴,以历史年代为横轴,把各不同年代的文献量在坐标图上逐点描绘出来,然后以一光滑曲线连接各点,则可十分近似地表征文献随时间增长的规律这就是著名的普赖斯曲线 普赖斯曲线F(t)1001019001950t1665100001000180017501850 通过对曲线分析,普赖斯最先注意到文献增长与时间成指数函数关系如果用F(t)表示时刻t的文献量,则指数定律可表为下式: F(t)=aebt (3-23) 式中:a是统计的初始时刻(t=0)的文献量; e=2.718; b表示持续增长率 人们还常常用文献量翻一倍的时间来衡量文献的增长速度,即 t=ln。