布拉德福文献分散－金锄头文库

资源描述

《布拉德福文献分散》由会员分享，可在线阅读，更多相关《布拉德福文献分散（43页珍藏版）》请在金锄头文库上搜索。

1、第四章布拉德福文献分散定律,-专业文献在期刊中的分布规律林熙阳,第一节布拉德福文献分散定律,现象：300种文摘和索引期刊每年摘登的750000篇，由于漏摘、漏标和同时存在的无意义重复，致使仅载有250000篇不同的文章，而两倍于此数量的500000篇文章则全部漏摘，漏标而与读者绝缘。布拉德福猜测，专业文献除密集地登载于相应的专业期刊(约1/3)，还登载于大量的专业边缘(相关的)期刊(约1/3)和更一般化的期刊(约1/3) ，后两者过于分散而难以查找等原因导致文献大量丢失。假设：任何一学科的绝大部分专业文献都集中于少数的相应专业期刊内，但是同时也散布于其它的相关期刊之中，其散布的态势则与

2、该学科研究范围的大小有关。,兰开斯特-琼斯针对应用地球物理学与润滑作用专业文献进行统计分析，统计结果如表4-1所示。这是一张科技期刊按其载文量递减顺序排列的表格。其中: A为期刊数量， B为相应期刊所载的论文数量， C为A项的累积和A， D为B项的累积和B， E为期刊累积量的对数lgC=lgA。,表4-1,(1929-1932),表4-1,布拉德福的两种处理方法：区域表示法(文字表述法) 图形表示法(经验法),(1931-1932),一、区域表示法(文字表述法),布拉德福根据专业论文载于三类不同期刊的设想将表4-1中的数据经加和后按载文累积量划分为a、b、c大致相等的三个区域。,布拉德福发

3、现，在此条件下，相应期刊的累积量(C) 之比近似构成等比数列；即：,二、图形表示法(经验法),期刊累积量的对数为横坐标，以相应论文的积累量为纵坐标，得到了图4-1中的AB两条曲线。通过观察。布拉德福认为这两条曲线除下弯部分外，上半部分可以认为是一条直线。,证明：,设P1为该曲线的直线部分与曲线部分的分界点；且令,则，,因为横轴为对数坐标，所以有：,上式的意义是，如果将某专业刊载文献按载文量的递减顺序排列，并将其划分为三个载文量相等的区域，则相应的期刊累积数量呈等比关系。显然第一区，即P1以下的下弯部分，其载文密度最大，布拉德福将其称为核心区域。,得：,结论： (两个),“如果将科枝期刊按其刊载

4、某专业论文的数量多寡，以递减顺序排列，则可分出一个核心区和相继的几个区域，每区刊载的论文量相等，此时核心期刊和相继区域期刊数量成等比的关系。” 即：这是著名的布拉德福定律的文字表述。由图4-2得出的结论：是该定律的图形表示法得出的。,布拉德福认为造成这种文献分散分布势态的根本原因在于： (1)科学是在时间上先后相继、各个专业间内容相联的整体。作为科学知识载体的各专业文献之间也必然会存在这样的联系，文献的增长与老化是前者的体现而专业文献散布于相关专业期刊中的事实却是后者的反映。布氏将此称为科学的整体性原则。 (2)整体性原则还认为科学中各个学科专业之间联系的紧密程度不一。此在文献中的表现就是

5、刊载文献在相应期刊中的不均匀分布。,第二节布拉德福定律的维克修正,1948年文献学家维克利肯定和高度评价了布拉德福开创性的工作，并首次将布拉德福得到结果称为“布拉德福文献分散定律”而且他也正确地指出了该定律中两部分在数学上存在的矛盾，并且得出了即便不计布拉德福曲线下面的弯曲部分，该定理的文字表述部分所对应的图形也不可能是一条直线的正确结论。,修正式证明：,图4-5中采用期刊累积量的对数(lgN)为纵坐标；横坐标为相应的论文累积量(R)。,且在纵坐标上两点：lgN=1，lgN=2，并令其关于图中直线在横轴上的对应点分别为x，y和y-x=d，,得：,则：,所以：,则：,另外，若,则，,由此可知划

6、分不独为三区，而应将其推广。因为专业文献在期刊中的分布规律是客观存在的现实。区域的划分不过是人们为研究这种分布规律而采取的一种手段。,在维克利的图形表示部分中，将曲线(包括下弯的核心区域和上面的直线两部分)分为多个区域，若：则：,4-11式实际上就是式4-1的推广，b一般称为维氏分散系数或分散系数。同样，维克利也将区域法中的三个区域推广为多个区域，则： a一般被称为布氏分散系数或分散系数。维氏、布氏分散系数皆大于1而且其值越大则该专业论文在相应期刊中的分布越不均匀，换句话说，就是其集中与分散的趋势越大，反之亦然。,布拉德福定律两部分的差别：由式4-10可得：则：得：与式4-12比较，差

7、别仅在第一项，即，核心刊与后面各项的比例不一样。而从第二项起二者的比例形式则完全一样。,从第二项起二者的比例则完全一样由此，布拉德福定律两种不同的表述区别表观在核心期刊所处的特殊地位。由式4-15，可推知，当维氏分散系数b值较大时，会有：但由实际统计数据可知即使区域划分得较少，b值一般也不大，因此，在实际应用中两种表述方法的结果差别还是比较大的。由于a值和b值都是专业文献在相应期刊中集中与分散程度的数量表示，因此一般说来当某学科与其它学科关系比较密切时，其文献集中与分散的程度一般较小，因此a值和b值的大小还可做为学科、专业间交流水下的指征。,布拉德福定律的两种表示法的假设前提,布拉德福在区

8、域法中给出了两点假设 1、每区中所含的论文数相等 2、每区中的期刊数成等比级数但实际上这两点都只是近似成立的图形表示中布拉德福认为除去弯部分外，曲线的上半部“可视为”一条直线。因此，这一结论是通过观察得来的。布拉德福定律两个表述皆来源于具体的统计数据，是近似地揭示了专业论文在相应期刊中的分布规律。,第三节高夫曼的最小核心与最大划分及莱姆库勒公式,一、高夫曼的最小核心与最大划分设载有某专业领域论文的期刊为J；其共载相关论文的数量为A。按递减顺序排列，并将其划分为含有相等论文量的k个区域，令每区含有的期刊量分别为J1，J2，Jk。则：在此，J1代表核心区期刊之数量，ak(ak1)为将J划

9、分为k个区的布拉德福系数(布拉德福乘子)。在A与J给定时，在实际划分中，ak与k总会有一个限度，使得J1在所有的划分中取得最小值，从而每区所拥有的文章数目也达到最小值AmL。高夫曼等人将A和m分别称为最小核心和最大划分区数。 J1的极限值可能为1，即最小核心区只含一种期刊。,在统计数据序列的尾部一定会出现一群载文量仅为一篇的期刊。高夫曼令其数量为Z，并认为一切划分必须满足下式：否则在尾部会出现期刊数目相同且论文数目一样的连续两个区域。实例：,在两例中载文最多的期刊的载文量(j)均小于2。,由此，得到最多的划分区域为：,由上两个实例，高夫曼等得出：当Z2j(载文最多的期刊的载文量)时，最多的

10、划分可由下式决定：其中，Jm为第m区(最后一个区域)的期刊数量(该区含一篇)，P为第m-1区中含两篇的期刊量，Z-Jm为第m-1区中含有一篇的期刊数量。经整理可得：根据以上两例提供的数据，通过统计计算还得出了am g的经验结论(g为两领域中作者的平均发表论文量，因而式(422)，可进一步写为：,二、莱姆库勒公式,1967年莱姆库勒由区域法的维克利修正式(式4-12)出发，引用数理统计的方法得到“布拉德福累积分布数式”,式中：x为前j个区期刊累积数量nj占所有期刊数量N的份数：x=nj/N；F(x)为前j个区论文累积数R(n)点全体论文数R(n)的份数：F(x)=R(nj)/R(n)；为与

11、专业性质和被收集文献的完整程度有关的常数。,例：,由于莱姆库勒公式为单参数统计公式，因此，一旦获得值，就能确定期刊累计量和相应文献累计量之间的数学关系，所以只需再确定所需要的论文覆盖面F(x)，就可唯一地得出所需相应期刊占所有有关期刊的比例数，从而确定所需期刊的具体种数。,经统计知，在1940一1958年期间，有关热物理学性质专业期刊论文的值为269，且已知有关期刊的总数为1282种，共载论文 9810篇，现在问：若需要收集50的有关论文，最少需要相应的期刊多少种?(见图48)解：由于已知269，则：且，F(x)= 50=0.5 则，x=0.057则，所需期刊应到少为12820.057=73(

12、种),第四节布鲁克斯公式,1969年，英国著名的情报学家布鲁克斯根据布拉德福曲线给出了相应的数学表达式（4-48）。该公式由两个数学表达式组成：,n为期刊按载文量递减顺序排列的排列序号(对于载文量相等的期刊可以任意排列)；R(n)为对应于前n种期刊载文量的累积和；为参数，在数值上等于载文量最多期刊的载文量，即R(1) (一般随统计年限的增加而增大)为小于1的参数，大小等于分布图中曲线部分的曲率，在较短的时间内(如二至五年)可视为一常数，但在较长的时间里将会发生变化。C为核心区所含的期刊数，即公式中下弯曲线与上面直线的交点在横轴上的投影(见图49)。N为样本期刊总量；K为直线部分的斜率，当N足

13、够大时，KN；s为参数，其值等于图形直线部分反向延伸与橫轴交点的n值，布鲁克斯认为它与论文所属学科、专业范围有关，在学科范围较窄时，s 1。,例：,表4-7为所收集的有关维生素学论文在相应在期刊中分布的统计数据和以布鲁克斯公式为数学模型的计算值。表中n为按载文量递减顺序排列的期刊序号，R(n)为前n种期刊的论文累积量。,验证实际统计数据是否符合布拉德福定律：由布鲁克斯公式可得：,则：,查表知R(5)=269，若满足布拉德福定律，,查表可知R(25)=537，R(52) R(25) 因此可初步认定上述数据符合布拉德福定律。,查验该项统计的完整性：经统计已知，有关维生素论文在相应期刊中分布的s

14、值为1，在表4-7中，选n=25为参考点，则有：R(25)=Nln25/1=537 所以N=537/ln25=167(种) 则有论文的理论值总量为：R(167)=167ln167/1=853(篇)与表4-7中的实际查到值比较，实际查到期刊总量为146种，实际查到文献总量为730篇，则统计结果的完整性是值怀疑的。,探讨布拉德福定律时应注意的问题：,布拉德福在研究期刊文献于相应期刊中的分布规律时，首次运用了按等级递减顺序排列的方法。所谓的等级是根据某期刊的载文量确定的。在这里，在具体的统计工作中载文量应是某一时间间隔期刊总量的平均值(一般以年为单位)，而不是每本期刊的平均载文量。因为刊有季刊、月刊

15、、半月刊、周刊等，其时间间隔是不一样的。布鲁克斯建议最好以三年为期，然后进行平均。他认为，这样做是为了保证期刊性质的稳定性。,在绘制布拉德福曲线时，常常会在曲线末尾出现下垂的现象(见图410中的BD段)。一般将其称为格鲁斯下降。,研究、应用布拉德福定律时应注意的事项：,1、尽可能地明确学科、专业或课题的范围。2、参照学科、专业或课题的发展情况，恰当地确定统计的时间期限，不宜过长或过短，一般以二三年为宜。3、期刊及论文的统计应尽量充分。,第五节布拉德福定律的应用,布拉德福分散定律应用的步骤 1获取大量的原始数据数据是统计分析的基础只有样本足够大，用统计分析所得的结论去推测全体的规律性才有代表

16、性，才能真正接近于实际。 2等级排列统计数据等级排列，即按某学科载文量的人小顺序排列各种期刊，是布拉德福分散定律应用研究的关键步骤 3 分析统计资料分析方法主要有两种：区域分析法和图像分析法。,布拉德福定律的应用方向,一、核心期刊的确定确定核心期刊的方法有很多，利用布拉德福分布规律来进行此项工作是重要的手段之一。不论是区域法还是图形法都可以用来确定核心期刊。我们以图形法为例来说明这一过程；(1)根据所确定的专业来选择有关论文的目录或文摘目录；(2)在确定适当的时间范围后，利用上述工具统计论文数和相应的期刊数；(3)根据期刊的载文量进行期刊排队，制出如下表格（4-13）,表4-13,(4)作

17、图。纵坐标代表论文累积量，横坐标为期刊累积量的对数(图4l 9)。从该图可以粗略地看出曲线基本符合布拉德福分布规律。,(5)从图中定出C点，其横坐标即为该专业核心期刊的数量。在本例中C10，相应的R(C)1953，N1011种R(N)7368。即占期刊数量不足1的核心期刊共刊载26.5的相关论文，其集中程度是相当高的。 “百分比补偿法”。(某期刊中某专业载文量与该刊载文量之比)在确定核心期刊时，在C点以前的一律入选，C点之后则弃之于核心之外。这样做有一个缺点，那就是丢了一些刊载某专业论文的绝对数量较少，但载文率很高、专业性很强的重要期刊。通常采用“百分比补偿法”纠正这一偏向，使上述期刊入选。,

展开阅读全文