信息源及其分布规律课件

上传人:hs****ma 文档编号:568310521 上传时间:2024-07-24 格式:PPT 页数:70 大小:2.72MB
返回 下载 相关 举报
信息源及其分布规律课件_第1页
第1页 / 共70页
信息源及其分布规律课件_第2页
第2页 / 共70页
信息源及其分布规律课件_第3页
第3页 / 共70页
信息源及其分布规律课件_第4页
第4页 / 共70页
信息源及其分布规律课件_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《信息源及其分布规律课件》由会员分享,可在线阅读,更多相关《信息源及其分布规律课件(70页珍藏版)》请在金锄头文库上搜索。

1、第第3 3章信息源及其分布章信息源及其分布规律律目的:1理解信息源的类型及特点2掌握信息源分布的规律3掌握引文分析的作用及局限3.1信息源概述信息源:即信息的来源。 一般包括:原始信息源 信息服务机构 信息系统3.2信息源的种类信息源的种类(1)按信息产生的时间顺序)按信息产生的时间顺序 先导信息源先导信息源 信息产生时间先于社会活动,起预警作用,或为信息产生时间先于社会活动,起预警作用,或为决策提供依据,减少决策的不确定性和风险。天气决策提供依据,减少决策的不确定性和风险。天气(地震)预报、股市展望(地震)预报、股市展望 实时信息源实时信息源 实验记录、产品测试报告、股市行情实验记录、产品测

2、试报告、股市行情 滞后信息源滞后信息源 绝大部分信息都是滞后信息,如报刊文章、科技报绝大部分信息都是滞后信息,如报刊文章、科技报告、论文等。告、论文等。(2)按信息的可保存性)按信息的可保存性 正式记录的信息源正式记录的信息源 非正式记录的信息源非正式记录的信息源 (3)按信息的生产过程)按信息的生产过程 原始信息源原始信息源 二次信息源二次信息源 三次信息源三次信息源 精粹信息源精粹信息源 (4)按信息存在的形式)按信息存在的形式 个人信息源个人信息源 及时性、新颖性、主观随意性、职业性及时性、新颖性、主观随意性、职业性 实物信息源实物信息源 年轮、各种展品等年轮、各种展品等 直观性、客观性

3、、隐蔽性直观性、客观性、隐蔽性 文献信息源文献信息源 用文字、图形、符号、声频、视频等技术手段将用文字、图形、符号、声频、视频等技术手段将系统化的信息内容存储在纸张、胶片、磁带和光盘等系统化的信息内容存储在纸张、胶片、磁带和光盘等物质载体上而形成的一类信息源物质载体上而形成的一类信息源 系统性、时滞性、稳定性系统性、时滞性、稳定性 组织机构信息源组织机构信息源 研究机构、信息中心、图书馆、档案馆、标研究机构、信息中心、图书馆、档案馆、标准化组织、学术团体、高校、新闻出版单位等。准化组织、学术团体、高校、新闻出版单位等。 权威性、垄断性权威性、垄断性 数据库信息源数据库信息源 清华同方、重庆维普

4、清华同方、重庆维普 提高了信息检索效率;有利于信息共享提高了信息检索效率;有利于信息共享 动态管理性、多用性、技术依赖性动态管理性、多用性、技术依赖性(5)按信息源的形式)按信息源的形式 文献型信息源文献型信息源 档案型信息源档案型信息源 统计型信息源统计型信息源 图像型信息源图像型信息源 3.3信息源的分布规律3.3.1文献信息的增长规律文献信息的增长规律 解决文献增长同时间的关系。以文献解决文献增长同时间的关系。以文献为计量单位研究科学知识的增长,是建立为计量单位研究科学知识的增长,是建立在两个假设之上:所有的知识都包含在已在两个假设之上:所有的知识都包含在已发表的文献中;每篇文献含有等量

5、的知识。发表的文献中;每篇文献含有等量的知识。(1)指数增长规律)指数增长规律普赖斯曲线普赖斯曲线期刊的增长:期刊的增长: 1750年年 10种种1800年年 100种种1850年年 1000种种1900年年 10000种种 普赖斯曲线普赖斯曲线 F(t)=aebt a统计初始时刻的文献量统计初始时刻的文献量 b文献的持续增长率文献的持续增长率 F(t)t时刻的文献量时刻的文献量 e自然对数的底数,约等于自然对数的底数,约等于2.718(2)逻辑增长规律)逻辑增长规律逻辑曲线逻辑曲线b老化率老化率ktt时科技文献的累计量,即科技文献累积量的最大值,时科技文献的累计量,即科技文献累积量的最大值,

6、 F F(t t)为)为t t年的文献累积量,年的文献累积量, 科技文献逻辑增长曲线呈科技文献逻辑增长曲线呈“S”“S”型。对式中的时间变量型。对式中的时间变量t t二阶求导,二阶求导,并令二阶导数为并令二阶导数为0 0,则可知曲线的,则可知曲线的拐点拐点A A的坐标为(的坐标为(lna/kblna/kb,k/2k/2)。)。 应当指出,在表征科技文献增应当指出,在表征科技文献增长规律方面,逻辑曲线比普莱斯曲长规律方面,逻辑曲线比普莱斯曲线更符合客观实际。但逻辑曲线也线更符合客观实际。但逻辑曲线也其局限性,它表明科学技术发展到其局限性,它表明科学技术发展到一定阶段是,科技文献的增长率趋一定阶段

7、是,科技文献的增长率趋于零科技文献总量将达到不可逾越于零科技文献总量将达到不可逾越的最大值的最大值k k,这显然是与实际情况,这显然是与实际情况不相符的。不相符的。 科技文献逻辑增长曲线(1 1)老化的表现:)老化的表现: l有些文献的内容会被之后的证明是不可靠的或错误有些文献的内容会被之后的证明是不可靠的或错误的的, ,有些文献信息的内容尽管仍是正确的有些文献信息的内容尽管仍是正确的 ,被,被新的新的文献形式所替代,文献形式所替代,导致原有文献逐致原有文献逐渐很少被人使用。很少被人使用。l文献信息尽管仍有用,但正处于一个人们对其兴趣文献信息尽管仍有用,但正处于一个人们对其兴趣下降的时期;下降

8、的时期;l文献信息不再有用。文献信息不再有用。 文献老化文献老化文献没有用文献没有用 科科技技文文献献的的这这种种逐逐渐渐失失去去使使用用价价值值而而不不再再被被人人们们利利用用或或越越来来越越少少地地被被人人利利用用的的现现象象就就是是科科技技文文献献的的老化现象。老化现象。 3.3.2文献信息的老化律 普莱斯经过研究,将科普莱斯经过研究,将科技文献的老化过程用图技文献的老化过程用图2323所示的负指数曲线来描述。所示的负指数曲线来描述。一般来讲,利用半衰期及普一般来讲,利用半衰期及普莱斯指数等具体指标来衡量莱斯指数等具体指标来衡量文献的老化过程,能够比较文献的老化过程,能够比较客观地反映科

9、技文献老化的客观地反映科技文献老化的规律。规律。 普莱斯老化曲线(2)文献老化的量度指标)文献老化的量度指标文献的半衰期:文献的半衰期: 是指某学科领域内,现在尚在利用的全部是指某学科领域内,现在尚在利用的全部文献中的一半是在多长一段时间内发表的。文献中的一半是在多长一段时间内发表的。 半衰期越大,文献老化越慢。半衰期越大,文献老化越慢。 普赖斯指数普赖斯指数 普赖斯把发表时间超过普赖斯把发表时间超过5 5年仍被利用的科技年仍被利用的科技文献定义为文献定义为“档案性文献档案性文献”,把发表时间在,把发表时间在5 5年年之内的之内的“新新”文献定义为文献定义为“现时有用文献现时有用文献”,并,并

10、将将“新新”文献的引用数量与文献的总引用量之比文献的引用数量与文献的总引用量之比为指数,作为衡量科技文献老化的测度。为指数,作为衡量科技文献老化的测度。 “ “普赖斯指数普赖斯指数”的表达式为:的表达式为: 普普赖赖斯斯指指数数 = = “新新”文文献献引引用用量量/ /文文献献总总引引用量用量 普普赖赖斯斯指指数数:某某学学科科领领域域内内,对对发发表表时时间间不不超过超过5 5年的文献的引用次数与总的引用次数之比。年的文献的引用次数与总的引用次数之比。 普赖斯指数越大,文献老化的速度就越快。普赖斯指数越大,文献老化的速度就越快。 剩余有益性 某一年份的某一期刊被用户所利用的文献数某一年份的

11、某一期刊被用户所利用的文献数被称为期刊有益性。剩余有益性是指若干年后,被称为期刊有益性。剩余有益性是指若干年后,期刊还保留的有益性,是期刊老化程度的一个量期刊还保留的有益性,是期刊老化程度的一个量度。剩余有益性只适用于满足一定类型和内容的度。剩余有益性只适用于满足一定类型和内容的信息需求的几种期刊才有用,适用面非常窄。信息需求的几种期刊才有用,适用面非常窄。(2)文献老化模型文献老化模型 如果用纵坐标表示现在正被利用文献的被引如果用纵坐标表示现在正被利用文献的被引量,横坐标表示时间,文献老化规律可以用公式量,横坐标表示时间,文献老化规律可以用公式表示为:表示为: C(t)=ke-at C(t)

12、表示发表表示发表t年的文献的被引次数;年的文献的被引次数;k是常是常数,随学科不同而变化;数,随学科不同而变化;a为老化率。为老化率。 (3)影响文献信息老化的因素影响文献信息老化的因素 文献的增长文献的增长 学科的差异学科的差异 学科发展阶段的差异学科发展阶段的差异 用户需求及信息环境用户需求及信息环境 文献的种类和性质文献的种类和性质 3.3.3文献信息的集中与分散规律(离散规律)文献信息的集中与分散规律(离散规律)-布拉德福定律布拉德福定律 布拉德福认为:科学技术的每一个学科布拉德福认为:科学技术的每一个学科都或多或少,或远或近地与其他任何一个学都或多或少,或远或近地与其他任何一个学科相

13、关联,从而导致一个学科的文献出现在科相关联,从而导致一个学科的文献出现在另一个学科的期刊杂志之中,这就是从学科另一个学科的期刊杂志之中,这就是从学科角度对文献分散规律的描述。角度对文献分散规律的描述。 (1 1)表述:)表述: 若将科学期刊按其刊载某一学科主题论文数若将科学期刊按其刊载某一学科主题论文数量的多少,以递减顺序排列,便可以在这些期刊量的多少,以递减顺序排列,便可以在这些期刊中区分出载文率最高的核心部分及与核心部分包中区分出载文率最高的核心部分及与核心部分包含等数量论文的随后几区。这时,核心区域与后含等数量论文的随后几区。这时,核心区域与后继各区中的期刊数量呈继各区中的期刊数量呈 1

14、 1 :a a :a a2 2 的关的关系。系。 a a是一比例常数,或称布拉德福常数。布氏是一比例常数,或称布拉德福常数。布氏经统计分析得出,经统计分析得出,a a值大约为值大约为5.05.0。对于不同的学。对于不同的学科专业而言,其科专业而言,其a a也不尽相同。也不尽相同。(2)图像和数学模型)图像和数学模型 如果横坐标取期刊按载文量递减排列时的顺序号如果横坐标取期刊按载文量递减排列时的顺序号n的的对数,纵坐标取对数,纵坐标取1至至n号期刊所载论文的累积数,我们将号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。绘制出的曲线称为布拉德福分散曲线。 布拉德福分散曲布拉德福分散

15、曲线由三部分构成,先是一段上升的曲线线由三部分构成,先是一段上升的曲线AC,然后是一,然后是一段直线段直线CB,最后是下垂的曲线。,最后是下垂的曲线。 布鲁克斯用下述模式来表示布拉德福定律:布鲁克斯用下述模式来表示布拉德福定律: R(n)=n (1nC R(n)=klog (n/s) (CnN) R(n)R(n)相关论文累积数。相关论文累积数。nn杂志等级排列的序号杂志等级排列的序号( (级级) )。第一级杂志中的相关文章数第一级杂志中的相关文章数R(1)R(1)。也就是载文章最高的杂。也就是载文章最高的杂志中的相关文章数。志中的相关文章数。C“C“核心区核心区”中的杂志数量。中的杂志数量。N

16、N等级排列的杂志总数。等级排列的杂志总数。k,sk,s待定参数,待定参数,k k等于分布曲线中直线部分的斜率,可用实验等于分布曲线中直线部分的斜率,可用实验方法求得。当方法求得。当N N足够大时,足够大时,kNkN。参数,与收藏的杂志参数,与收藏的杂志( (核心中杂志核心中杂志) )数量有关,大小等于分数量有关,大小等于分布图中曲线部分的曲率,布图中曲线部分的曲率,总小于总小于1 1。(3 3)应用:)应用: 确定核心期刊确定核心期刊 信息存贮量的动态维护信息存贮量的动态维护 信息检索与搜集完整性的测定信息检索与搜集完整性的测定 指导读者指导读者 学科发展幅度的比较学科发展幅度的比较 选择核心

17、出版者选择核心出版者3.3.43.3.4著者分布规律著者分布规律洛特卡定律、平方反比率洛特卡定律、平方反比率 研究著者的生产率问题,即著者和他发表论研究著者的生产率问题,即著者和他发表论文的关系。文的关系。 在某一时间内,写了在某一时间内,写了X篇论文的作者数占篇论文的作者数占作者总数的百分比作者总数的百分比fx与其撰写的论文数与其撰写的论文数X的的平方成反比。平方成反比。 Fx = C / X2 c-常数,c0.60793.3.53.3.5词频分布规律词频分布规律齐普夫定律齐普夫定律 如果某个文献信息单元中含有如果某个文献信息单元中含有N N个词个词(N N5000),统计其中每个词汇出现的

18、频次),统计其中每个词汇出现的频次f f,并按递减顺序排列。给这些词汇编上等级序,并按递减顺序排列。给这些词汇编上等级序号号r r,则每个词汇出现的频次,则每个词汇出现的频次f f与相应的等级序与相应的等级序号号r r之积为常数。之积为常数。 f f*r=c 最省力法则 单一化力 多样化力 只适合中频词的分布3.3.6马太效应马太效应 凡有的,还要加给他,让他多余;没有的,连他凡有的,还要加给他,让他多余;没有的,连他现在有的也要夺过来。美国社会学家罗伯特默顿引现在有的也要夺过来。美国社会学家罗伯特默顿引用这句话,用以论述社会科学中的评价和奖励机制,用这句话,用以论述社会科学中的评价和奖励机制

19、,并将其称为并将其称为“马太效应马太效应”(Matthew Effect)。)。 信息管理中的信息管理中的马太效太效应主要表主要表现为信息分布的核信息分布的核心心趋势和集中取向。和集中取向。马太效太效应和洛特卡定律、和洛特卡定律、齐普普夫定律和布拉德福定律有着夫定律和布拉德福定律有着紧密的密的联系,都是信息系,都是信息源的分布源的分布规律律 。 马太效应的这种核心趋势和集中取向便于马太效应的这种核心趋势和集中取向便于选选取核心信息源,取核心信息源,提高信息选择和筛选的效率,但提高信息选择和筛选的效率,但是马太效应也有一些是马太效应也有一些负面的影响负面的影响。(1)马太效应马太效应描述信息对象

20、的优势和劣势过度集中,容易使信描述信息对象的优势和劣势过度集中,容易使信息工作者按简单的优劣进行信息的选择、评价、息工作者按简单的优劣进行信息的选择、评价、传播和利用,而且使评价工作落入俗套,不利于传播和利用,而且使评价工作落入俗套,不利于评价工作的创新和激励创新人才的发展。评价工作的创新和激励创新人才的发展。(2)马马太效应形成的信息分布有时只是表面的、外在的,太效应形成的信息分布有时只是表面的、外在的,背后还隐藏着许多不为人知的多种因素,会造成背后还隐藏着许多不为人知的多种因素,会造成一些虚假的繁荣现象,使得学术界的评价和信息一些虚假的繁荣现象,使得学术界的评价和信息的选择太过于浮躁。的选

21、择太过于浮躁。(3)不利于年轻学者的发展,不利于年轻学者的发展,过于纵容权威学者等。过于纵容权威学者等。 3.3.7长尾理论长尾理论 2004年,美国人克里斯年,美国人克里斯.安德森提出的安德森提出的“长尾理论长尾理论”,打破了人们的传统思维方式。过去,只关注重要的人,打破了人们的传统思维方式。过去,只关注重要的人或重要的事,本章所讨论的几个信息源的分布规律,都或重要的事,本章所讨论的几个信息源的分布规律,都毫不例外的把重心放在了高频对象,尽管在方法上也关毫不例外的把重心放在了高频对象,尽管在方法上也关注到了低频的对象,但是主要关注点仍是所谓的注到了低频的对象,但是主要关注点仍是所谓的“权威权

22、威”和和“核心核心”。 3.4引文分析3.4.1 引文分析的基本内容和方法引文分析的基本内容和方法l 引文分析法引文分析法是利用各种数学及统计学方法,以是利用各种数学及统计学方法,以及比较、归纳、抽象、概括等逻辑思维方法,对及比较、归纳、抽象、概括等逻辑思维方法,对科学期刊、论文、著者等分析对象的引用和被引科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。的一种信息计量研究方法。 引文分析的基本内容 (1)引文年代分析(2)引文国别分析(3)引文量分析 引用文献的分布类型引用文献的分布类型l 引

23、文按出版年分布:文献半衰期,文献利用的引文按出版年分布:文献半衰期,文献利用的 最佳年限;最佳年限;l 引文按语种的分布:作者掌握和使用外语情况引文按语种的分布:作者掌握和使用外语情况l 引文按期刊的分布:核心期刊评估;引文按期刊的分布:核心期刊评估;l 引文按文献类型的分布:情报源被利用程度的引文按文献类型的分布:情报源被利用程度的 评价评价l 引文按主题(学科)的分布:主题(学科)间引文按主题(学科)的分布:主题(学科)间 的关系的关系l 引文按作者的分布:评价专家引文按作者的分布:评价专家3.4.2 引文分析的测度引文分析的测度 常见的测度指标:l自引率自引率就是对主体本身范围内文献引用

24、的次数与主体引用的文献总数的比值。 l被自引率被自引率就是主体文献被自引的次数与主体被引用的总次数的比值。 l影响因子影响因子即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。 l期刊引证率期刊引证率等于该刊中参考文献量除以期刊载文量。l即年指标即年指标是期刊某年发表的论文当年被引用的次数,除以该刊这一年所发表文章的总数。 l引文分析的局限性l(1)引文关系假联系的影响l(2)文献被引用并不完全等于重要 l(3)著者选用引文受到可获得性的影响l (4)马太效应的影响3.4.3引文分析的作用与局限引文分析的作用引文分析的作用 l研究信息所反映的客观事物之间的关联

25、性及组织研究信息所反映的客观事物之间的关联性及组织结构;结构;l可以追本溯源,展现事物的发展过程,及这一过可以追本溯源,展现事物的发展过程,及这一过程中的相关要素;程中的相关要素;l对引用次数的测度结果可以对信息进行有序化处对引用次数的测度结果可以对信息进行有序化处理,并指导用户利用;理,并指导用户利用;l为研究信息变化的动态规律,建立用户行为图景为研究信息变化的动态规律,建立用户行为图景提供了充分的依据。提供了充分的依据。3.4.4常见的引用关系常见的引用关系l 引文耦合(bibliographic coupling)l 同被引 (Co-citation)l 自引 (self-citaton

26、)(1)文献耦合(引文耦合)文献耦合(引文耦合)l1963M. M. Kessler首次提出首次提出“引文耦合引文耦合”(Bibliographic Coupling,书目对)的书目对)的概念概念l引文耦合引文耦合是指是指两篇或多篇文献同时引用别的文献,两篇或多篇文献同时引用别的文献,则称两篇文献或多篇引文献为则称两篇文献或多篇引文献为“引文耦合引文耦合”l具体具体,如果,如果A和和B两两篇文献共同引用篇文献共同引用一篇一篇或多篇相同的文献,则称或多篇相同的文献,则称A和和B两两文献在引用上文献在引用上具有耦合关系,而称具有耦合关系,而称A与与B为文献耦合。为文献耦合。 引文耦合引文耦合l耦合

27、关系的程可用耦合强(或称耦合频率)的指标衡;耦合强取决于A和B共有的考文献的数量l“引文耦合”理论基本的出发点是,凡共同引用一篇或多篇文献的两篇文献之间必有相互关系l “耦合”的概并仅只局限于同时引用的两篇论文本身之间的关系,并可推广至相对于文献的学科主题、期刊、著者等特定对象的耦合关系。 (2)同被引)同被引 lHenry Small和和I. V. Marshakova分别在研究文献分别在研究文献的引证结构和文献分类时,同时首次提出的引证结构和文献分类时,同时首次提出“同同被引被引” ” (Co-citation) 的概的概l同被引同被引指两篇(或多篇)文献同时被别的文献引指两篇(或多篇)文

28、献同时被别的文献引用时,则称两篇文献或多篇被引文献为用时,则称两篇文献或多篇被引文献为“同被引同被引”l具体来具体来,即,即A和和B两两篇(或多篇)文献,篇(或多篇)文献,管其管其发表的时间如何,只要同时被后发表的时间如何,只要同时被后的一篇或多篇的一篇或多篇文献引用,则称文献引用,则称A和和B具有具有“同被引同被引”关系关系 文献的引用关系PresentFuturePastT i m eSubject文献的引用关系知网节知网节l知识元链接l参考文献l引证文献l共引文献l同被引文献l二级参考文献l二级引证文献l读者推荐文献l相似文献l相关研究机构l相关文献作者l中图法分类文献导航l相关期刊 引

29、证关系谱系图 以文献A为原点B、C:A的参考文献D、E:A的引证文献H、 I: A的同引 (共引)文献F、G:A的同被引文献J、K:A的二级参考文献L、M:A的二级引证文献FGEDBCA AHIJKML引文耦合与同被引的关系引文耦合与同被引的关系联系:联系:l二者均是两篇文献通过第三篇文献建立起来的反映引用规律与结构的一种关系;l都可以用来研究文献之间的主题相似性,从文献被利用的角度进行文献检索。区别:区别:l引文耦合反映两篇引用文献之间的关系;同被引反映两篇被引用文献之间的关系;l 引文耦合强度是固定不变的;同被引强度则时刻有可能发生变化;l文献耦合反映的文献间的关系是一种固定的长久的关系,

30、而同被引反映的则是变化的或暂时的关系。 l引文耦合是回溯性的,同被引是展望性的。(3)自引)自引 (self-citation)自引自引 : 著者引用自己、先前的著作或与他人合作的著作自引发生的机理:自引发生的机理:l信息的可获取性l信息客体的自相关性l信息传递中的马太效应l信息主体的心理因素Web of Knowledge(SCI)收录文献检索被引文献检索检索结果Jiangsu and hosp2006检索结果细览页面检索结果细览页面知网节知网节检索结果细览页面检索结果细览页面知网节知网节检索结果细览页面检索结果细览页面知网节知网节同同/共引文献共引文献CHKD期刊全文数据库 文献文献A文献文献B唐兰,朱西娥,费淑霞,史国珍,唐兰,朱西娥,费淑霞,史国珍,梁乙安梁乙安. 糖尿病神经病变与足坏疽糖尿病神经病变与足坏疽关系的探讨关系的探讨J中国糖尿病杂志中国糖尿病杂志 , 1997, (01) . 同被引文献同被引文献侯玉芬,林宁,宋岳梅,程志新. 糖尿病足危险因素研究进展J中国中西医结合外科杂志 , 2004, (01) . 文献文献A文献文献B江苏医院江苏医院

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号