文献信息中的离散分布规律.ppt

上传人:小** 文档编号:93170329 上传时间:2019-07-17 格式:PPT 页数:42 大小:308.79KB
返回 下载 相关 举报
文献信息中的离散分布规律.ppt_第1页
第1页 / 共42页
文献信息中的离散分布规律.ppt_第2页
第2页 / 共42页
文献信息中的离散分布规律.ppt_第3页
第3页 / 共42页
文献信息中的离散分布规律.ppt_第4页
第4页 / 共42页
文献信息中的离散分布规律.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《文献信息中的离散分布规律.ppt》由会员分享,可在线阅读,更多相关《文献信息中的离散分布规律.ppt(42页珍藏版)》请在金锄头文库上搜索。

1、一.布拉德福定律 二.齐普夫定律 三.洛特卡定律 四.布-洛-齐分布系,文献信息中的离散分布规律,一、布拉德福定律,布拉德福定律的产生背景 布拉德福定律的形成 布拉德福定律的基本原理 布拉德福定律的理论发展,1.布拉德福定律 的产生背景,布拉德福Samuel Clement Bradford ,1878-1948 著名的文献学家和化学家 创立了布拉德福文献分散经验法则,是文献计量学的主要奠基人 多产作家,著有大量关于分类理论与实践,编目理论的著作 1948年,完成巨作文献学 文献分散规律的系统概述,1.布拉德福定律 的产生背景,文献分散是普遍的客观现象 一门学科的论文分散在其他学科的期刊杂志上

2、屡见不鲜。如何找出其分散的规律性是关键所在。 科学统一性原则 每一门学科都或多或少与其他任何一门学科相关联 对一个专家有用的论文,不仅出现在这个专家所在学科的专业期刊上,也可以出现在“其他学科”的期刊上。,1.布拉德福定律 的产生背景,现象:300种文摘和索引期刊每年摘登的750000篇文章,由于漏摘、漏标和同时存在的无意义重复,致使仅载有250000篇不同的文章,而两倍于此数量的500000篇文章则全部漏摘、漏标而与读者绝缘。 猜测:专业文献除密集地登载于相应的专业期刊(约1/3),还登载于大量的专业边缘(相关的)期刊(约1/3)和更一般化的期刊(约1/3) ,后两者过于分散而难以查找等原因

3、导致文献大量丢失。 假设:任何一学科的绝大部分专业文献都集中于少数的相应专业期刊内,但是同时也散布于其它的相关期刊之中,其散布的态势则与该学科研究范围的大小有关。,2.布拉德福定律 的形成,1933年,科学博物馆 样本:期刊 应用地球物理学 润滑学领域,2.布拉德福定律 的形成,右表为科技期刊按其载文量 递减顺序排列的表格统计结果 A为期刊数量 B为相应期刊所载的论文 数量 C为A项的累积和A D为B项的累积和B E为期刊累积量的对数 即lgC=lgA。,3.布拉德福定律 的基本原理,布拉德福的两种处理方法: 区域表示法(文字表述法) 图形表示法(经验法),3.布拉德福定律 的基本原理,区域表

4、示法(文字表述法) 布拉德福根据专业论文载于三类不同期刊的设想将表中的数据经加和后按载文累积量划分为a、b、c大致相等的三个区域,即每一区域所包含的相关论文数量相等。,3.布拉德福定律 的基本原理,发现 相应期刊的累积量(C) 之比近似构成等比数列;即: 第一区(核心区):数量不多但效率最高的 种期刊 第二区(相关区):数量较大、效率中等的 种期刊 第三区(边缘区):数量最大而效率最低的 种期刊 三个区域中的期刊数量关系 a为布氏系数,3.布拉德福定律 的基本原理,布氏定律的表示 发现: 各区的期刊数,逐区上升 每种期刊的载文量逐区下降 核心区信息密度最高,每种期刊平均刊载27.5篇论文 相关

5、区次之,每种期刊平均载文5.5篇论文 边缘区最低,每种期刊平均刊载1篇论文,3.布拉德福定律 的基本原理,布氏定律的文字描述 如果将科技期刊按其刊载某专业论文数量多少,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量呈 的关系,3.布拉德福定律 的基本原理,图形表示法 取期刊累积量的对数为横坐标,以相应论文的积累量为纵坐标,得到了图中的AB两条曲线。 通过观察,布拉德福认为这两条曲线除下弯部分外,上半部分可以认为是一条直线。,3.布拉德福定律 的基本原理,设P1为该曲线的直线部分与曲线部分的分界点; 且令 则, 因为横轴为对数坐标,所以有

6、:,3.布拉德福定律 的基本原理,结论 如果将某专业刊载文献按载文量的递减顺序排列,并将其划分为三个载文量相等的区域,则相应的期刊累积数量呈等比关系。显然第一区,即P1以下的下弯部分,其载文密度最大,布拉德福将其称为核心区域。,3.布拉德福定律 的基本原理,布拉德福认为造成这种文献离散分布势态的根本原因在于: 科学的整体性原则 科学是在时间上先后相继、各个专业间内容相联的整体。作为科学知识载体的各专业文献之间也必然会存在这样的联系,文献的增长与老化是前者的体现,而专业文献散布于相关专业期刊中的事实却是后者的反映 学科专业之间联系的紧密程度不一 整体性原则还认为科学中各个学科专业之间联系的紧密程

7、度不一。此在文献中的表现就是刊载文献在相应期刊中的不均匀分布,3.布拉德福定律 的基本原理,格鲁斯下垂: 格鲁斯(Q.V.Groos)认为布氏定律的图形应该为三个部分。 上升的曲线部分直线部分弯曲下垂部分 下垂部分称为布鲁斯下垂 加拿大的波普(Adrew Pope)进行统计分析也证明了图形由三部分组成 反映理论值与实际值的差异 期刊数和文献量统计不足,未能代表全部文献,3.布拉德福定律 的基本原理,区域描述与图形描述的比较 经过数学证明布氏定律的两种形式存在着不能统一的矛盾 从数学和实际观察来看,图像描述更接近于文献的实际分布情况 就文献计量学的规律说明,不论是区域描述还是图像描述,都只能近似

8、的揭示文献分布的规律,无法精确的符合统计数据,4.布拉德福定律的理论发展,创立阶段 1934年,布拉德福的论文特定主题的信息源(Sources of Information on Specific Subject) 1934-1948年,无人问津 1948年,文献学的出版,使其理论开始传播 理论研究阶段(60年代) “布拉德福热”:相关研究空前活跃 形成两个学派:区域派和图像派 全面发展阶段(60年代以后) 由纯粹的理论研究向应用领域渗透 理论与应用并列的全面发展情形,4.布拉德福定律的理论发展,维克立的两个推论 布氏定律不只局限于划分三个区域,其证明可将等级排列的期刊划分为任意多个区域 图像

9、表达式的推论(维氏公式) 为第一区到第k区的期刊累积数量 m为划分的区域数 v为分散系数 布氏公式的推广形式(布氏公式),4.布拉德福定律的理论发展,莱姆库勒对布氏定律的描述 发展了区域描述方法 从布氏定律的文字描述(区域描述)出发,推导出按等级排列的期刊中论文分布的规范式公式 莱姆库勒累积分布函数的推导 F(x)表示在x的比例下,期刊论文数与期刊论文总数的比例。 例如,如果要得到比例为80%的论文,将F(x)=0.8和相应的 的值代入,反求出x,即所需期刊的最少数量 ,a是布拉德福系数, =b-1 x表示用来定义全部期刊中含有某一指定数量相关论文的最少期刊与期刊总数之比,4.布拉德福定律的理

10、论发展,布鲁克斯对布氏定律的描述 1969年,英国著名情报学家布鲁克斯利用数学公式描述了布氏定律 R(n):对应于n的相关论文累积数 n:期刊等级排列的序号 a:第一级期刊中相关论文数R(1) c:核心区的期刊数 N:等级排列的期刊总数 k:参数,分散曲线中直线部分的斜率, 当n足够大时,k=N s:参数,其数值等于图形直线部分反 向延长线与横轴交叉点的n值,4.布拉德福定律的理论发展,例子 右表为所收集的有关维生素学论文 在相应在期刊中分布的统计数据和 以布鲁克斯公式为数学模型的计算 值。表中n为按载文量递减顺序排列 的期刊序号,R(n)为前n种期刊的论 文累积量。,预期的全检数量,4.布拉

11、德福定律的理论发展,验证实际统计数据是否符合布拉德福定律:,由布鲁克斯公式可得:,查表知R(5)=269,若满足布拉德福定律,则,查表可知R(25)=537,R(52) R(25) 因此可初步认定上述数据符合布拉德福定律。,4.布拉德福定律的理论发展,验证查验该项统计的完整性: 经统计已知,有关维生素论文在相应期刊中分布的s值为1,在表中, 选 n=25为参考点,则有: R(25)=Nln25/1=537 所以 N=537/ln25=167(种) 则有论文的理论值总量为: R(167)=167ln167/1=853(篇) 与表中的实际查到值比较,实际查到期刊总量为146种,实际查到文献 总量为

12、730篇,则统计结果的完整性是值怀疑的。,4.布拉德福定律的理论发展,布氏分布理论的发展趋势 主要的研究工作 进行具体分析,验证布氏经验法则,并实际应用 寻求普遍而精确的经验分布公式和理论解释,并取得了较大的发展 当前研究方向和有待解决的问题 运用大量的统计数据、严密的数学方法,确立或寻求更为精确的规范化的数学模型 深入研究布氏分布的机制,寻求科学统一的理论解释 努力结合实际,开展应用研究,提高图书情报服务的效率,二、文献信息词频分布规律齐普夫定律,齐氏定律形成的基础 频率词典(词表) 每一个词在一定长度的文件中出现的频率 两个最基本的数量指标(词的出现频率、词的序号) 艾斯杜(J. Esto

13、up,速记员)1916发现 较长的文章中,词频分布的定量化形式 Nrr=C(常数) 词的序号:1,2,r,D (1:绝对频率最大的词,D:绝对频率最小的词) 词的绝对频率:n1,n2,nr,nD,二、文献信息词频分布规律齐普夫定律,齐氏定律的内容 齐普夫定律 fr r=c fr:频次,r:等级序号 齐普夫定律的“最省力法则”的解释 任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。,二、文献信息词频分布规律齐普夫定律,齐氏定律的图像描述,横坐标:等级序号r 纵坐标:相应的频率f,等级r与频率f均取对数 虚线:lnr+lnf=ln

14、c 实线:blnr+lnf=lnc 斜率为b,二、文献信息词频分布规律齐普夫定律,齐氏定律的应用 文献标引和词表编制 信息检索 在图书情报管理中的应用,三、文献信息作者分布规律洛特卡定律,洛特卡定律概述 诞生 1926年,洛特卡最先研究了科学文献数量与著作数量之间的关系,并创造性地提出“科学生产率”的概念,即指在一定时间内科学工作者在科学上所表现出的能力和工作效果,通常用其生产的科学文献数量来衡量。 在提出科学生产率概念的同时,洛特卡就围绕它进行了统计研究。选用化学文摘与物理学史一览表来研究科学家的著述数量,以此经过数据统计、归纳分析及运用数学工具的推算得出洛特卡定律,即写有x篇论文的作者频率

15、与x的平方呈反比。,频数,频率,三、文献信息作者分布规律洛特卡定律,洛特卡定律公式表述 设f(x)为写x篇论文的作者数占作者总数的比例,c为某主题领域的特性常数,洛特卡统计的指数a大约为2,对于倒幂法则的这个特例式变为 这就是科学生产率的“平方反比定律”的表达式,三、文献信息作者分布规律洛特卡定律,洛特卡定律理论意义 1926年洛特卡(Darka)定律创立至今已整整80年,是文献计量学中创立最早的一个定律,洛特卡定律也是文献信息计量学的经典定律之一。为文献计量学的诞生奠定了一定的基础,其创立是值得纪念的。 洛特卡定律的命运 由于多种原因,洛特卡定律沉睡了30多年,后来由于普赖斯等人的发掘,自6

16、0年代起引起人们的重视。 今天,洛特卡定律仍然经常被科学学家、情报学家等引证和研究。 引自科学的计量研究,三、文献信息作者分布规律洛特卡定律,洛特卡定律的基本应用 反映科技劳动成果状况 可从统计或估算著者数量来预测文献数量的增长速度和文献流向 科学估计劳动规模 预测科学家数量的增长和科学家发展的规模及趋势 掌握科学论文的作者队伍 研究科学家的活动规律,研究人才的著述特征,合理编制著者索引,规划检索刊物体系,四.布-洛-齐分布系,布拉德福定律、齐普夫定律和洛特卡定律是三个最基本的定律, 被人们喻之为文献计量学的“三巨头”,多年来一直受到图书情报工作者的高度重视。值得指出的是, 这三个定律之间有很多相似之处, 存在着一定的联系。 研究对象 期刊上刊载的论文 文章中每个词的出现频次 科学工作者的著述 分析单元 期刊数 单词量 著者群 计量方法 都是通过对文献的调查和统计,取得数据并进行分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号