文档详情

《信息分布》PPT课件.ppt

公****
实名认证
店铺
PPT
244.19KB
约46页
文档ID:577414133
《信息分布》PPT课件.ppt_第1页
1/46

第三章第三章 信息分布信息分布 3.1 信息产生与分布中的马太效应信息产生与分布中的马太效应3.1.13.1.1马太效应的表现和作用形式马太效应的表现和作用形式 • •核心趋势核心趋势– –高产作者群体的形成高产作者群体的形成– –期刊信息密度增大期刊信息密度增大– –高频词汇的确立高频词汇的确立• •集中取向集中取向– –一篇论文多次被引一篇论文多次被引– –一个网站被众多用户点击一个网站被众多用户点击 3.1.2 马太效应的负面影响• •信息分布的富集现象信息分布的富集现象– –突出重点、摒弃平均,为信息源的选择、获突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成取、评价和利用提供依据,降低信息管理成本,提高信息利用效益本,提高信息利用效益• •核心信息源核心信息源– –忽略分布在其他信息源中有价值的信息忽略分布在其他信息源中有价值的信息– –马太效应青睐名人、拒绝新人的习惯势力限马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播制了新思想、新知识和新信息的产生及传播 3.1.3*马太效应的数学模拟• •1 1普利亚(普利亚(PolyaPolya)分布)分布• • 普利亚普利亚(Polya)(Polya)分布亦称单缸模型,它基于分布亦称单缸模型,它基于下述实验:设某一缸中装有若干红色球和黑色下述实验:设某一缸中装有若干红色球和黑色球,按一定的规则从缸中取球,取到红球表示球,按一定的规则从缸中取球,取到红球表示成功,取到黑球表示失败。

假定缸中现有成功,取到黑球表示失败假定缸中现有a a个个红球、红球、b b个黑球,取出某个球后个黑球,取出某个球后( (例如红球例如红球) ),则,则将取出球与将取出球与c c个红球一起放回缸中,取到黑球个红球一起放回缸中,取到黑球亦同样处理如果实验重复亦同样处理如果实验重复n n次并且假定次并且假定X X表示表示取出红球的总次数,则取出红球的总次数,则X X的分布可表示为:的分布可表示为:• • P(x)=P(X=x) P(x)=P(X=x) • • = = • •(1)(1)若若c=0c=0• •P(x)=P(x)=• •P(x)P(x)为带有参数为带有参数n,a/(a+b)n,a/(a+b)的二项分布的二项分布• •(2)(2)若若c=c=--1 1• •P(x)=P(x)=• •P(x)P(x)为带有参数为带有参数n,a+b,an,a+b,a的超几何分布的超几何分布• •(3)(3)若若a=b=ca=b=c• •P(x)=P(x)=• •P(x)P(x)为带有参数为带有参数n,xn,x的均匀分布的均匀分布 • •(4)(4)若若n →∞ n →∞ ,,a(a+b)a(a+b)-1-1 →0 →0以及以及c(a+b)c(a+b)-1-1 →0,P(x)→0,P(x)为负二项分布,为负二项分布,n a(a+b)n a(a+b)-1 -1 和和nc(a+b)nc(a+b)-1-1 分别趋向于非零值分别趋向于非零值 和和 • •P(X=x)=P(X=x)=• •令令 ==p p,,• •P(X=x)=P(X=x)= 2.塔格(Tague)分布• • 塔格塔格( (TagueTague) )分布又称多缸模型,是对单缸模分布又称多缸模型,是对单缸模型的补充和修正。

实验程序如下:型的补充和修正实验程序如下:– –①①设有一系列的缸,每个缸中装有设有一系列的缸,每个缸中装有a a个红球和个红球和b b个黑个黑球;球;– –②②如果一个红球被取出,则在该缸中另外加进如果一个红球被取出,则在该缸中另外加进c c个个红球;红球;– –③③如果黑球被取出,则不另外加进黑球;如果黑球被取出,则不另外加进黑球;– –④④依次从第一个缸开始取球,一直持续到取出依次从第一个缸开始取球,一直持续到取出k k个个球为止球为止– –⑤⑤接着再从第二个缸取球,重复接着再从第二个缸取球,重复①①~~④④的程序;的程序;– –⑥⑥程序程序①①~~⑤⑤无限地延续无限地延续 • •在单缸模型中,在单缸模型中,x x次成功的概率是在第次成功的概率是在第k k只黑球取出之只黑球取出之前取出前取出x x个红球的概率个红球的概率• •P(X=x)=P(X=x)=• •式中,式中,a ai i>0, >0, ==k-1k-1• •令令 = = ,, = = ,有,有• •P(x)=P(x)=• •简化得,简化得,• •P(x)=P(x)= • •(1 )(1 )如果如果k=1;k=1;满足弗林分布,其平均数为满足弗林分布,其平均数为• •P(x)=P(x)=• •(2(2)如果)如果 ==1 1,弗林分布对应于瑞利分布,弗林分布对应于瑞利分布或累积优势分布:或累积优势分布:• •P(X=x)=P(X=x)=• •式中,式中,B(·, ·)B(·, ·)为贝塔函数。

为贝塔函数• •((3 3)在累积优势分布中,如果)在累积优势分布中,如果 =1 =1• •P(x)=P(x)= • •拉维昌德拉拉维昌德拉· ·劳在劳在19871987年提出累积优势分年提出累积优势分布的替代形式:布的替代形式:• •设设u u和和v v为两个随机变量为两个随机变量((u=1,2,3,…,0u=1,2,3,…,0≦ ≦v<1v<1))• •P(u/v)=(1-v)P(u/v)=(1-v)u-1u-1;P(v)=(α+1)(1-v);P(v)=(α+1)(1-v)α α• •P(v)= P(u/v)v P(v)P(v)= P(u/v)v P(v)• • = (α+1)β(u,α+2) = (α+1)β(u,α+2)• • u=1,2,3,… u=1,2,3,… 3.威布尔(Weibull)分布• •日本的中川和大崎在日本的中川和大崎在19751975年讨论了威布尔年讨论了威布尔( (WeibullWeibull) )分布由于在对失败的研究中,失败分布。

由于在对失败的研究中,失败的次数常用失败的周期数来测量,所以一般用的次数常用失败的周期数来测量,所以一般用连续分布作失败分析而随机变量具有离散性,连续分布作失败分析而随机变量具有离散性,故又称为离散的威布尔分布中川和大崎提出故又称为离散的威布尔分布中川和大崎提出了如下描述失败的概率函数:了如下描述失败的概率函数:• • P(x)=qx P(x)=qx β β -q(x+1) -q(x+1) β β • • x=0,1,2,3,… x=0,1,2,3,…β>0,00,00x=0,1,2,3,β>0• •平均数为平均数为  3.2 信息生产者分布规律 3.2.1 3.2.1洛特卡定律洛特卡定律 • • 1926 1926年,统计学家洛特卡经过大量年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物统计和研究,在美国著名的学术刊物《华盛顿科学院学报》上发表了一篇题《华盛顿科学院学报》上发表了一篇题名为名为“ “科学生产率的频率分布科学生产率的频率分布” ”的论文,旨的论文,旨在通过对发表论著的统计来探明科技工在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发作者的生产能力及对科技进步和社会发展所作的贡献。

展所作的贡献 • • 洛特卡选择美国《化学文摘》和德国奥尔巴洛特卡选择美国《化学文摘》和德国奥尔巴赫《物理学史一览表》为数据源研究科技工作赫《物理学史一览表》为数据源研究科技工作的论著数量分布他统计分析了《化学文摘》的论著数量分布他统计分析了《化学文摘》19071907~~19161916年年1010年累积索引中的部分作者,年累积索引中的部分作者,即姓氏以字母即姓氏以字母A A和和B B开头的开头的6 8916 891位作者分别位作者分别列出发表过列出发表过1 1篇、篇、2 2篇,一直到篇,一直到346346篇论文的人篇论文的人数《物理学史一览表》包括了数《物理学史一览表》包括了19001900年前物理年前物理学领域内出现的学领域内出现的1 3251 325位物理学家及其论著,位物理学家及其论著,取其全部数据进行统计取其全部数据进行统计 洛特卡定律的图形描述• • 洛特卡以论文数洛特卡以论文数(x)(x)和作者数和作者数(y(yx x) )的对数为横的对数为横坐标和纵坐标坐标和纵坐标( (即即loglogx x和和log ylog yx x) )作图,两组数据都作图,两组数据都是直线是直线( (如图所示如图所示) )。

图中图中虚线表示《化学文摘》虚线表示《化学文摘》数据,实线代表《物理数据,实线代表《物理学史一览表》的数据学史一览表》的数据用最小二乘法计算拟合用最小二乘法计算拟合直线的斜率,近似为直线的斜率,近似为-2-2Log yxLog x1053215125 3010020 洛特卡定律的数学描述• • 根据洛特卡分析,在论文数根据洛特卡分析,在论文数x x和作者数和作者数yxyx之之间存在下列关系:间存在下列关系:x xn ny yx x==c c• • 式中,式中,y yx x 是发表了论文是发表了论文x x篇的作者数篇的作者数,n,n和和c c是是对应于这一典型数据集合而估计出来的两个常对应于这一典型数据集合而估计出来的两个常数,数,n n的数值在的数值在2 2上下波动上下波动• •通过变换可以得到下面的公式:通过变换可以得到下面的公式:• • == • •令令f(yf(yx x)= ,)= ,实际表示写实际表示写x x篇论文的作篇论文的作者出现的频率,者出现的频率,C= C= ,表示作者取样,表示作者取样总数的比例,这样可以写成:总数的比例,这样可以写成:f(yf(yx x) )==两边积分得:两边积分得:1 1== == ,, 于是,于是,C C==0.60790.6079 3.2.23.2.2普赖斯定律普赖斯定律 在在某某一一特特定定领领域域中中,,全全部部论论文文的的半半数数系系由由该领域中全部作者的平方根的那些人撰写的。

该领域中全部作者的平方根的那些人撰写的 该定律可表示为:该定律可表示为: == (3-6) (3-6)  式式 中中 ,, n(x)n(x)为为 撰撰 写写 x x篇篇 论论 文文 的的 作作 者者 数数 ;;I=nI=nmaxmax为为该该学学科科规规定定时时期期内内最最高高产产的的作作者者数数;;N N为该学科领域全部作者总数为该学科领域全部作者总数m m可由下式确定:可由下式确定: == (3-7)(3-7) • • 如果规定发表了如果规定发表了n n篇论文的作者人数为篇论文的作者人数为a(n) a(n) ,,则发表则发表n≤N≤n’n≤N≤n’篇论文的作者人数为:篇论文的作者人数为:• •A(n-n’) =a(n)+a(n+1)+…+a(n’)A(n-n’) =a(n)+a(n+1)+…+a(n’)• • • • = =• •a(n)a(n)名作者一共发表的论文为名作者一共发表的论文为P(n)=n·a(n)P(n)=n·a(n)• •同理,发表了同理,发表了n≤N≤n’n≤N≤n’篇论文的作者总共发表的篇论文的作者总共发表的论文数为:论文数为:• •P(N) =P(n-P(N) =P(n-n’)=na(n)+(n+1)a(n+1)+…+n’a(n’)n’)=na(n)+(n+1)a(n+1)+…+n’a(n’) • •==• • • •若若 1/2P(1→n 1/2P(1→nmaxmax) = P(m→n) = P(m→nmaxmax) = P(1→m) ) = P(1→m) ,则有:,则有:• • = (3-10) = (3-10)• •其中,其中,a(n)= a(n)= ,,a(n)a(n)是频数。

是频数• •P(1→n)= P(1→n)= • •调和级数和公式变为调和级数和公式变为 P(1→n)=c(lnn+0.577+…+εn)P(1→n)=c(lnn+0.577+…+εn) • •化简得,化简得,M=0.749(nM=0.749(nmaxmax) )1/21/2• •式子表明,高产作者中一位最低产的作者发表式子表明,高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的的论文数量,等于最高产作者所发表论文数的平方根的平方根的0.7490.749倍• •另一方面,另一方面,• •K= = =K= = =• •这个式子表明了高产作者人数同全体作者人数这个式子表明了高产作者人数同全体作者人数的比例关系的比例关系 3.3信息离散分布规律信息离散分布规律 • •3.3.13.3.1布拉德福定律布拉德福定律 英国著名文献信息学家布拉德福发现,某一学科领域英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。

他在长期的观察和统计基础之上,显的集中与分散规律他在长期的观察和统计基础之上,提出了有名的提出了有名的“ “布拉德福分散定律布拉德福分散定律” ”(Bradford(Bradfords Law of s Law of Scattering)Scattering), ,简称为布拉德福定律或布氏定律:简称为布拉德福定律或布氏定律:“ “如果将科如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高排列起来,就可以在所有这些期刊中区分出载文率最高的的‘ ‘核心核心’ ’部分和包含着与核心部分同等数量论文的随后几部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成区,这时核心区和后继各区中所含的期刊数成1 1∶ ∶a a∶ ∶a2a2的的关系关系(a>1)(a>1) ”这就是布拉德福定律的区域表述形式这就是布拉德福定律的区域表述形式 应用地球物理学论文的布氏分布应用地球物理学论文的布氏分布分区期刊载文量(篇/年)期刊数量论文数量1>4942921-45549931258408 布拉德福定律图形描述布拉德福定律图形描述 • • 如果横坐标取期刊按载文量递减排列时的如果横坐标取期刊按载文量递减排列时的顺序号顺序号n n的对数,纵坐标取的对数,纵坐标取1 1至至n n号期刊所载论号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。

福分散曲线 布拉德福分散曲线由三部分构成,布拉德福分散曲线由三部分构成,先是一段上升的曲线先是一段上升的曲线ACAC,然后是一段直线,然后是一段直线CBCB,最后是下垂的曲线最后是下垂的曲线B.C.B.C.布鲁克斯用下述模布鲁克斯用下述模式来表示布拉德福定律:式来表示布拉德福定律:– – R(n)=αn R(n)=αnβ β (1≤n≤C)………………(3-15) (1≤n≤C)………………(3-15)– – R(n)=klog (n/s) (C≤n≤N) …………(3-16) R(n)=klog (n/s) (C≤n≤N) …………(3-16) • • 曲线上曲线上BDBD部分只是近似地满足部分只是近似地满足(3-16)(3-16)式式中:式式中:• •R(n)——R(n)——相关论文累积数相关论文累积数• •n——n——杂志等级排列的序号杂志等级排列的序号( (级级) )• •α——α——第一级杂志中的相关文章数第一级杂志中的相关文章数R(1)R(1)也就是载文章最也就是载文章最高的杂志中的相关文章数。

高的杂志中的相关文章数• •C——“C——“核心区核心区” ”中的杂志数量中的杂志数量• •N——N——等级排列的杂志总数等级排列的杂志总数• •k,s——k,s——待定参数,待定参数,k k等于分布曲线中直线部分的斜率,可等于分布曲线中直线部分的斜率,可用实验方法求得当用实验方法求得当N N足够大时,足够大时,k≈Nk≈N• •β——β——参数,与收藏的杂志参数,与收藏的杂志( (核心中杂志核心中杂志) )数量有关,大小等数量有关,大小等于分布图中曲线部分的曲率,于分布图中曲线部分的曲率,β β总小于总小于1 1• •式式(3-15)(3-15)和和(3-16)(3-16)就是布拉德福定律的图形表述就是布拉德福定律的图形表述形式  布拉德福分散曲线R(n)CBDNLoge nR(N’)COAR(N)n1R(n1)N’ 布拉德福定律数学描述• •令令mm1 1,m,m2 2,m,m3 3为一、二、三各区中的论文数量,为一、二、三各区中的论文数量,p p1 1,p,p2 2,p,p3 3为对应区的杂志数量,为对应区的杂志数量,r r1 1,r ,r2 2,r ,r3 3为各区每为各区每种杂志的平均论文数量,则有:种杂志的平均论文数量,则有:• • r r1 1p p1 1=r=r2 2p p2 2=r=r3 3p p3 3=m=m1 1• • p p2 2/p/p1 1=r=r1 1/r /r2 2=a=a1 1• • p p3 3/p/p2 2=r=r2 2/r /r3 3=a=a2 2, ,• •令令a a1 1=a=a2 2=a,=a,• • 于是于是p p1 1:p:p2 2:p:p3 3==1:a:a1:a:a2 2 布氏定律的维克利解释布氏定律的维克利解释• •将杂志分区的数目推广到将杂志分区的数目推广到n>3n>3的普遍情形。

的普遍情形设将载有某一学科相关论文的杂志分为设将载有某一学科相关论文的杂志分为mm个区,使每一区的论文数量相等,各区个区,使每一区的论文数量相等,各区中期刊的数量中期刊的数量n n1 1,n,n2 2,n,n3 3,…,n,…,nmm有如下关系:有如下关系: T T1 1:T:T2 2:T:T3 3:…:T:…:Tmm=1:b;b=1:b;b2 2:…:b:…:bm-1m-1((b b为维氏分布系数)为维氏分布系数)T Tmm=n=n1 1+n+n2 2+n+n3 3+…+n+…+nmm=N,N=N,N为杂志总数为杂志总数 布拉德福定律补充说明布拉德福定律补充说明• •布拉德福定律有两个基本要点:布拉德福定律有两个基本要点:一是频次等级排序,形成主体来源一是频次等级排序,形成主体来源( (期刊期刊) )的有序目录;的有序目录;二是确定相关论文在主体来源中的分布规律二是确定相关论文在主体来源中的分布规律• • 具体方法则包括区域分析和图形描述,虽具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但它所揭示的都是论文然两者数值并不相等,但它所揭示的都是论文在期刊中的分散规律。

在期刊中的分散规律 • • 布拉德福定律主要揭示的是宏观层次的信布拉德福定律主要揭示的是宏观层次的信息息( (文献文献) )离散分布,而对于微观层次的信息离散分布,而对于微观层次的信息( (内内容单元容单元) )分布的研究则基本上是空白分布的研究则基本上是空白 3.3.2齐夫定律1.1.齐夫定律的表述齐夫定律的表述• • 如果将一篇较长文章如果将一篇较长文章( (约约5 0005 000字以上字以上) )中每中每个词按其出现频次递减排列起来个词按其出现频次递减排列起来( (高频词在前,高频词在前,低频词在后低频词在后) ),并用自然数给这些词编上等级序,并用自然数给这些词编上等级序号,出现频次最高的为号,出现频次最高的为1 1级,其次为级,其次为2 2级级…………这这样一直到样一直到D D级,如果用级,如果用f f表示词在文章中出现的表示词在文章中出现的频次,用频次,用r r表示词的等级序号,则有:表示词的等级序号,则有:• • fr=c………………………………(3-19) fr=c………………………………(3-19) • • 式中式中c c为常数。

上式称为齐夫定律上式称为齐夫定律• • • • 如果建立如果建立f f与与r r的直角坐标系,用纵坐的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线如果等级频次,就得到一条双曲线如果等级r r与与频次频次f f都取对数,则双曲线变成一条直线都取对数,则双曲线变成一条直线与之等价的数学表达式为:与之等价的数学表达式为:• •• •lgr+lgr+lgf=lgf=lgc lgc 词频分布词频分布 RfLg rLg f140000.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.69 齐夫词频分布曲线及其对数曲线齐夫词频分布曲线及其对数曲线f25020015010050300r132564Lg fLg r 齐夫定律的修正齐夫定律的修正• • 图中的虚线表示理想化形式,一般地,斜图中的虚线表示理想化形式,一般地,斜率为率为b b的任一直线可表示为:的任一直线可表示为:Klg r+lg f=lg cKlg r+lg f=lg c• • 这一直线由图中的实线表示。

如果将其改写这一直线由图中的实线表示如果将其改写成成(3-19)(3-19)式的形式就得:式的形式就得:• • frb=c……………………………(3-20) frb=c……………………………(3-20)• • 取取b=1b=1,,(3-20)(3-20)式与式与(3-19)(3-19)式相同,因此式相同,因此可以将可以将(3-20)(3-20)式看做是对齐夫定律的修正式看做是对齐夫定律的修正 2.齐夫分布的其他形式齐夫分布的其他形式((1 1)朱斯双参数等级分布)朱斯双参数等级分布• • 美国学者朱斯指出,在美国学者朱斯指出,在(3-20)(3-20)式中,不仅式中,不仅c c应应当是参数,而且当是参数,而且b b并不总是等于并不总是等于1 1,也是一个参,也是一个参数,齐夫定律可更为一般地表示为:数,齐夫定律可更为一般地表示为:• •f(r)=cr-b………………………………(3-21)f(r)=cr-b………………………………(3-21)• •式中,式中,b>0,c>0,b>0,c>0,对于对于r=1,2r=1,2,,……,,n n,,f(r)=1f(r)=1• •式式(3-21)(3-21)就是朱斯的双参数等级分布定律。

就是朱斯的双参数等级分布定律f(r)f(r)表示表示r r位词出现的频率位词出现的频率( (或概率或概率) ) (2)曼德尔布罗三参数分布• • 曼德尔布罗将词曼德尔布罗将词( (包括字母间的空格包括字母间的空格) )看做有一定顺序的字母看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较序列,并将语言和利用模拟或数学公式表达形式的编码加以比较设设r r为词的顺序,为词的顺序,f(r)f(r)为第为第r r个词的频率,个词的频率,(r)(r)为第为第r r个词的词长这时个词的词长这时平均词长为:平均词长为:L=L= Σf(r)m(r)Σf(r)m(r)• • 当给定的熵值当给定的熵值H H最小或当最小或当L L最小时,应有:最小时,应有:• • H=- Σf(r) lgf(r)= H=- Σf(r) lgf(r)=常数,以及常数,以及Σf(r)=1Σf(r)=1根据这些条件,曼德尔根据这些条件,曼德尔布罗从理论上提出了三参数分布公式:布罗从理论上提出了三参数分布公式:• • f(r)=c(r+a) -b f(r)=c(r+a) -b………………………………………(3-22)………………………………………(3-22)式中,式中,0≤0≤a<1a<1,,b>0b>0,,c>0c>0。

a,b,ca,b,c为参数,具有如下意义:为参数,具有如下意义:• •①①参数参数c c与出现概率最高的词的概率大小相关或者说与与出现概率最高的词的概率大小相关或者说与f(1)f(1)有有关当a=0a=0,,b=1b=1时,时,c=f(1)c=f(1)• • ②②参数参数b b与高频词数量的多少有关,对于与高频词数量的多少有关,对于r<50r<50的高频词,的高频词,b b是是r r的非减函数,随着的非减函数,随着r r的增大,参数的增大,参数b b并不减少并不减少• • ③③参数参数a a与词的数量与词的数量n n有关,由于有关,由于a a的选择自由较大,此公式更的选择自由较大,此公式更为灵活,更能够在各种条件下与测定的统计数据拟合为灵活,更能够在各种条件下与测定的统计数据拟合 3.4信息对时间的分布规律信息对时间的分布规律 3.4.1 3.4.1指数增长律指数增长律 • •1.1.普赖斯曲线普赖斯曲线 如果我们以文献量为纵轴,以历史如果我们以文献量为纵轴,以历史年代为横轴,把各不同年代的文献量在年代为横轴,把各不同年代的文献量在坐标图上逐点描绘出来,然后以一光滑坐标图上逐点描绘出来,然后以一光滑曲线连接各点,则可十分近似地表征文曲线连接各点,则可十分近似地表征文献随时间增长的规律。

这就是著名的普献随时间增长的规律这就是著名的普赖斯曲线赖斯曲线 普赖斯曲线F(t)1001019001950t1665100001000180017501850 • • 通过对曲线分析,普赖斯最先注意到文献通过对曲线分析,普赖斯最先注意到文献增长与时间成指数函数关系如果用增长与时间成指数函数关系如果用F(t)F(t)表示表示时刻时刻t t的文献量,则指数定律可表为下式:的文献量,则指数定律可表为下式:• • F(t)=aebt……………………… (3- F(t)=aebt……………………… (3-23)23)• • 式中:式中:a a是统计的初始时刻是统计的初始时刻(t=0)(t=0)的文献量;的文献量;• • e=2.718 e=2.718;;• • b b表示持续增长率表示持续增长率• • 人们还常常用文献量翻一倍的时间来衡量人们还常常用文献量翻一倍的时间来衡量文献的增长速度,即文献的增长速度,即• • t′= t′=ln 2/b ……………………… (3-24)ln 2/b ……………………… (3-24)• • 式中:式中:t′ t′为文献量翻倍时间,为文献量翻倍时间,b b为持续增长为持续增长率。

率• • • • 实际的统计发现,不同时期、不同级别、实际的统计发现,不同时期、不同级别、不同质量、不同学科领域的文献信息增长态势不同质量、不同学科领域的文献信息增长态势是不一样的勒希尔考察了不同质量级别的文是不一样的勒希尔考察了不同质量级别的文献增长状况,发现它们的增长速度差别很大献增长状况,发现它们的增长速度差别很大勒希尔认为,文献的数量与其质量有关他定勒希尔认为,文献的数量与其质量有关他定义义λ(0≤λ≤1)λ(0≤λ≤1)为文献的质量级别,则不同级别上为文献的质量级别,则不同级别上的文献量为[的文献量为[F(t)F(t)]]λ λ他给λ λ的具体值如下:的具体值如下:– – λ=1 λ=1:至少是一般文献:至少是一般文献( (实际代表所有文献实际代表所有文献) )– – λ=3/4 λ=3/4:至少是有意义的文献:至少是有意义的文献– – λ=1/2 λ=1/2:至少是重要的文献:至少是重要的文献– – λ=1/4 λ=1/4:至少是非常重要的文献:至少是非常重要的文献– – λ=0 λ=0:第一流的文献:第一流的文献 对于第一流的文献对于第一流的文献( (即即λ=0)λ=0),文献数量为,文献数量为lnF(t)lnF(t)。

 2.生长曲线生长曲线 • • 普赖斯指出,考虑物质的、经济的、智普赖斯指出,考虑物质的、经济的、智力的及时间的影响和限制,文献信息的增长更力的及时间的影响和限制,文献信息的增长更趋近于生物的生长曲线趋近于生物的生长曲线( (Logistic CurveLogistic Curve) ),即最,即最初生长或繁殖很快,随着时间推移,其生长速初生长或繁殖很快,随着时间推移,其生长速度越来越慢,以致几乎不增加了其方程为:度越来越慢,以致几乎不增加了其方程为:• • F(t)=k/F(t)=k/((1+ae-kbt1+ae-kbt))…………(3-…………(3-25)25)• • 式中:式中:F(t)F(t)代表时刻代表时刻t t的文献量,的文献量,k k为文献增为文献增长的最大值长的最大值 生长曲线生长曲线F(t)tK/2Ln a/kb 增长率的描述增长率的描述• •一般来说,在不同的阶段科学文献增长的态势是不同的一般来说,在不同的阶段科学文献增长的态势是不同的• • • • 学科处于诞生和发展阶段,文献量指数增长,文献的寿命较短。

学科处于诞生和发展阶段,文献量指数增长,文献的寿命较短• • 学科进入相对成熟阶段,文献增长就不能总保持原有的指数速率,学科进入相对成熟阶段,文献增长就不能总保持原有的指数速率,增长率变小,曲线变得平缓,文献寿命相对变长某一知识领域增长率变小,曲线变得平缓,文献寿命相对变长某一知识领域的研究取得重大进展后进入相对成熟的阶段内容上更新的文献的研究取得重大进展后进入相对成熟的阶段内容上更新的文献又将进入一个新的急剧增长时期又将进入一个新的急剧增长时期( (如指数增长如指数增长) )然后又进入一个稳然后又进入一个稳定时期• • 文献的增长往往会出现几个急剧增长时期和几个相对稳定时期,文献的增长往往会出现几个急剧增长时期和几个相对稳定时期,呈现出错综复杂的格局呈现出错综复杂的格局• •一般说来,对不同的领域,描述其文献增长的生长曲线一般说来,对不同的领域,描述其文献增长的生长曲线中各个常数中各个常数(a,b(a,b和和k)k)也是不相同的也是不相同的 3.4.2逐渐过时律逐渐过时律 • •1.1.文献老化的表现文献老化的表现 文献信息的老化一般指这样四种情形:文献中文献信息的老化一般指这样四种情形:文献中所含信息仍然有用,但现在已被包含在更新的其他论所含信息仍然有用,但现在已被包含在更新的其他论著中;文献中信息仍旧有用,但现在正处于一个人们著中;文献中信息仍旧有用,但现在正处于一个人们对其兴趣下降的学科;文献中的信息仍旧有用,但为对其兴趣下降的学科;文献中的信息仍旧有用,但为后来的著作所超越;信息不再有用。

后来的著作所超越;信息不再有用• •2.2.文献半衰期文献半衰期 所谓文献的半衰期,是指某学科领域现时尚在利所谓文献的半衰期,是指某学科领域现时尚在利用的全部文献中的一半是在多长一段时间内发表的用的全部文献中的一半是在多长一段时间内发表的• •3.3.普赖斯指数普赖斯指数 普赖斯指数,即某一学科领域内,对发表年限不普赖斯指数,即某一学科领域内,对发表年限不超过超过5 5年的文献的引用次数与总的引用次数之比值年的文献的引用次数与总的引用次数之比值一般来说,普赖斯指数越大,半衰期就越小,文献老一般来说,普赖斯指数越大,半衰期就越小,文献老化的速度越快化的速度越快 文献信息老化曲线文献信息老化曲线 用用纵纵坐坐标标表表示示现现在在正正被被利利用用( (引引证证) )的的文文献献的的被被引引量量,,横横坐坐标标表表示示时时间间,,我我们们可可以以绘绘制制出出文文献献的的老老化化曲曲线线相相应的方程可表示为:应的方程可表示为: C(t)=keC(t)=ke- -atat……………………(3-26)(3-26) 式中:式中:C(t)C(t)表示发表示发表了表了t t年的文献的被引次年的文献的被引次数,数,k k是常数,随学科不是常数,随学科不同而异,同而异,a a为老化率。

为老化率 被引证次数C(t)0.5出版年龄tt1t2t3 文献信息老化的影响因素• • (1) (1)文献增长文献的增长和老化是一个事物的文献增长文献的增长和老化是一个事物的两个方面,它们从不同的侧面来描述科学的发展,两个方面,它们从不同的侧面来描述科学的发展,阐明科学知识的修正率阐明科学知识的修正率 • • (2) (2)学科差异世界上学科差异世界上93%93%~~98%98%的科学杂志引的科学杂志引用寿命为用寿命为2020年左右,但并不是所有这些学科的文年左右,但并不是所有这些学科的文献老化速率都大体一致,相反,彼此之间差异甚献老化速率都大体一致,相反,彼此之间差异甚大 • • (3) (3)学科发展阶段的差异即使是同一学科,不学科发展阶段的差异即使是同一学科,不同的时期或阶段,文献的半衰期不尽完全相同同的时期或阶段,文献的半衰期不尽完全相同 • • (4) (4)信息环境和需求不同信息用户对文献的需信息环境和需求不同信息用户对文献的需求是不同的求是不同的 ,因而信息利用者的需求及所处的信,因而信息利用者的需求及所处的信息环境息环境 的研究十分必要。

的研究十分必要 9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdH5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%nWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOH5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#pXlUiQfNcK8H5E-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQe 。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档