大数据环境下信息检索与文献计量的共生发展综述杨思

资源描述

《大数据环境下信息检索与文献计量的共生发展综述杨思》由会员分享，可在线阅读，更多相关《大数据环境下信息检索与文献计量的共生发展综述杨思（7页珍藏版）》请在金锄头文库上搜索。

1、2016 年第 8 期（No.8.2016）图书馆 (Library)68综述大数据环境下信息检索与文献计量的共生发展综述*杨思洛程爱娟冯雅（湘潭大学公共管理学院湖南湘潭 411105）摘要文章通过梳理信息检索和文献计量相关理论与应用研究成果，对两者的发展历程、相互关系和共生趋势进行归纳和总结。指出文献计量辅助信息检索，信息检索服务文献计量，两者有内容的并行发展、工具的整合发展以及实践的融合发展三方面的共生发展趋势。关键词大数据信息检索文献计量共生发展中图法分类号 G350引用本文格式杨思洛，程爱娟，冯雅 . 大数据环境下信息检索与文献计量的共生发展综述 J. 图书馆，

2、2016（8）：68-73, 90*本文系全国优博论文作者专项资助项目“网络环境下学者合著与引证行为规律研究”（项目编号：2014094）阶段性成果。1 引言共生又叫互利共生，原指两种不同生物之间所形成的紧密互利关系1。信息检索和文献计量作为情报学的两大分支，由于信息检索偏向于根据用户的需要找出有关信息的过程和技术；文献计量偏向于文献的评估和定量分析，目标的差异使人们忽略了两者之间的联系。从表面上看，两者之间除了同属于情报学之外联系甚少，但透过表面探究实质时，会发现其实两者是互利的，有着非生物意义上的共生关系2。早在1987年，在比利时林堡大学举行的第一届ISSI 会议，就以“Internat

3、ionalConferenceonBibliometricsandTheoreticalAspectsofInformationRetrieval”为主题，试图将信息检索与文献计量相结合3。但是这一提议逐渐被人们淡忘，将两者结合起来的研究也为之甚少。随着计算机、网络技术的发展，各种信息检索、文献计量工具的完善，以及在大数据环境下，高效率获取信息的迫切需要，人们认识到将信息检索与文献计量相结合能达到更好效果。因此，将两者结合的主题被重新讨论。于2013年7月在奥地利维也纳召开的第14届ISSI 会议上，开展了两者结合的研讨会，旨在讨论怎样运用计量学方法来完善检索，提高人们对计量与检索联系的认识，

4、并为检索创造更加科学的模型打下基础4。随后，2014年3月在荷兰阿姆斯特丹开展了主题为“Bibliometric-enhanced InformationRetrieval”的第 36次 ECIR（European ConferenceonInformationRetrieval）会议，提出：随着数字化的发展，传统检索已不能很好的满足用户的需求，因为在网络环境下，检索结果庞大并且复杂，因此，应该把两者相结合，在计量的基础上优化检索5。随着大数据时代的到来，美国政策的战略层面提出：要大力推动与大数据相关的信息收集、组织，改善与大数据相关的分析工具及技术，提高提取、分析信息的能力6。我国“十三五规

5、划”中也将大数据上升到国家战略层面7。为了在价值密度较低的海量数据中挖掘出有意义的信息，需要信息检索，也需要文献计量与评价，更需要两者的互利共生发展。一方面，在互利关系下两者的相互影响和应用程度需要提高；另一方面，在互利关系下两者各自的发展需要有所突破。2 信息检索与文献计量的关系信息检索与文献计量存在着密切联系。首先，两者在发展历程上契合度较高。信息检索起源于 19 世纪下半叶的图书馆参考咨询和文摘索引工作，并在 20 世纪 50 年代，随着计算机技术的发展，逐渐成为独立领域8。文献计量学的产生可回溯到 20 世纪初，并在 20世纪 60 年代成为专门领域。其次，两者研究对象都是文献信息，在

6、起源上同源，同属于情报学。在 1981 年White 和 Griffith 通过作者共被引分析可视化学科结构，把情报学分为了信息检索与文献计量两大组成部分9。而在后续对情报学更新时期的研究中，情报学领域分为计量与信息检索两大块得到了进一步论证10。第三，2016 年第 8 期（No.8.2016）69研究两者的相关人员存在交叉现象。在 1998 年 White 和 McCain 对 24 年间情报学领域学者的可视化动态分析中得出：总体上，在 20 世纪 70 年代研究信息检索的学者高于研究计量的学者，然而研究信息检索的学者在向计量领域偏移，到 20 世纪 90 年代，两者的研究人数达到均衡状态

7、10。最近的研究表明，文献计量研究队伍有进一步扩大趋势11。然而，信息检索与文献计量也存在显著差异：在受众方面，信息检索面向的使用互联网、图书情报档案信息系统等的广大用户，而文献计量针对学术人员、专门机构或政府部门的管理者或决策者；在目标上，信息检索是特定用户通过一定的策略尽可能高效地在广大的知识空间中找出与要求相匹配的信息，而文献计量重在敏锐并精确地评价或描绘出某一知识单元或领域的状态；在规模上，信息检索不仅用于学术交流和文献书目数据库，还与智能化、商业信息、图书馆目录、搜索引擎等相关，而文献计量多与期刊论文管理与评价以及网络中的学术交流相关；在教育途径上，信息检索在计算机科学、I-Scho

8、ols 或者信息学院等都有涉及，甚至作为全校性的信息素养课程出现，而文献计量则集中在图书情报、科技政策与管理等专业课程，在大学课程中较少涉及12。3 文献计量辅助信息检索检索的过程实际上是文献信息相关性匹配的过程，单独的信息检索存在着局限，而文献计量能对信息检索提供较好的辅助。一方面，文献计量中某些定律的运用能在很大程度上弥补信息检索的局限。另一方面，在大数据环境下，用户面对巨大的信息量，会出现一种茫然的状态，而文献计量能够在一定程度上对用户在检索、选择信息时予以指示。3.1检索原理及局限结合已有研究13,14，得到信息检索原理及过程图，如图 1 所示。信息检索包括信息存储与用户检索两大过程。

9、在存储过程中，首先要分析文献信息，找出文献信息特征，著录标引，再形成文献信息标识即检索点，最后将这些标识和检索点输入检索系统。而在检索过程中，用户首先分析需求，形成检索主题，然后构建检索式（检索词），计算机将用户输入的检索词和系统内容进行匹配，得出检索结果。在这一过程中，存在许多缺陷。首先，在构建检索式方面，用户如果不能很准确地描述要检索的问题，在分析问题、形成提问、选用检索词等环节都会受到表达能力不足的影响，如从用户需求到提问是一个内容相关过程，用户受表达能力不足的影响，不能很好地使提问覆盖整个需求；从用户提问到形成检索概念是一个主题相关过程，用户受表达能力限制，不能很好地使形成的检索概念概

10、括提问；从检索概念到确定检索词是一个概念相关过程，用户受表达能力的影响，可能使检索词不能很好地诠释概念。其次，在检索逻辑方面，信息检索存在着二值（是与否）相关性判断的局限，如在输入检索词到检索出文献这一过程中，计算机就对用户输入的检索词与系统中存在的相关文献信息标识进行了二值相关性判断，最终输出判断结论为“是”的内容，这种机器得出的相关性判断结果并不具备能动性，可能会输出大量与用户需求不符的结果或者输出的结果与用户表达的意思不符，因此查全率、查准率得不到保障，不能满足用户的需求。图 1 信息检索原理及过程3.2文献计量对信息检索的辅助3.2.1确定检索点在大数据环境下，海量信息的有序化存储以及

11、合理的归类是信息得以传播利用并发挥价值的重要前提，而这种有序化存储以及合理的归类在某种程度上要借助文献计量的相关知识。在信息检索过程中，文献信息标识即检索点选取是否恰当，不仅关系着一篇文章在海量信息中是否被分配到了合理的位置，并且关系着该文章能否被用户快速检出。那么对文献进行标引时，怎么选取合适的词呢？齐普夫定律在这里就起到了很好的作用。将一篇文章录入系统后，根据该定律：文章中包含的 N 个词按照其频率递减顺序排列，并用自然数从 1 到L 给词编号，若 f 表示某词频次，r 表示该词的序号，则fr=C（C为常数），就能很好地确定中频词。而研究表明，特定学者的用词与所关注的学科领域有很大关系，而

12、该领域学者所关注的学科范围中的词，绝大部分集中在中频词的后段和低频词的前段，大多为长词15。如果根据杨思洛、程爱娟、冯雅：大数据环境下信息检索与文献计量的共生发展综述2016 年第 8 期（No.8.2016）图书馆 (Library)70齐普夫定律来取词，就减少词表取词的盲目性，提高取词效率。并且在大数据环境下，根据该定律还可以实现对文章的自动标引，简化了信息存储的过程。另外该定律对用户挑选检索词有指导意义避免利用高频词和低频词，选取中频词检索。3.2.2缩小检索范围大数据环境下海量的信息使人在检索时无从下手，同时价值量小的单个信息使人在研究问题时力不从心。而将文献计量的相关规律运用到信息检

13、索的过程中，可以在一定程度上缓解这一状态。首先，根据布拉德福定律：将科技期刊按其刊载某学科专业论文的数量多少，以递减顺序排列，可以把期刊分区。各个区的文章数量相等，此时核心区、相关区、非相关区期刊数量成的关系。从而在检索相关文献时，优先选择核心期刊进行检索，缩小检索范围，缓解面对海量文献无从下手的状态。其次，清楚文献的老化规律。随着时间的改变，大量的文献由于种种原因，可能已不适合时代的需要。为了找到更新颖、更合适的信息，将文献老化规律用来限定检索年限，从而排除一些过时的或对目前研究价值不大的内容。最后，为了找到价值量较高的信息，还可以在检索中对引用量进行限定，从而提高检索文献的质量；或者将加

14、菲尔德创建的与以往传统主题法不同的文献检索法引文索引法运用到检索的过程中，充分利用其研发的引文数据库，如 SCI 、SSCI 和 A&HCI16。这种引文数据库中录入的数据能揭示学科发展过程，是追溯学科知识进化的可靠依据；并且这种引文索引体系便捷地组建了特定主题的参考文献网络，便于用户对所研究或感兴趣领域文献的获取；另外，这种引文索引体系还能从文献引证的角度评估文章的学术价值，综合提高文献检索的效率与针对性。3.2.3构建检索模型在大数据环境下，面对海量信息，均衡检索的查全率与查准率是一个重要课题，因此对新检索模型的构建显得十分必要。检索实际上是一个相关性匹配的过程，而文献是否相关的界限是模糊

15、的。在完全相关文献与完全不相关文献之间还存在着大量的文献，这一部分文献是否被采用往往取决于特定检索要求的需要或者用户的行为。为了更好地完成检索任务，必须根据需求调整检索策略，构建合理的检索模型。而在检索模型中添加“计量”成分，往往能达到较好的检索效果。国外已有 Gl nullnzel17和 Zitt18等进行研究，并得出检索模型：其中， 0k , 0, nm 或 0= nm 。这个模型包括两个部分，第一部分是为了确保查准率，利用核心期刊或核心作者等检索到相关性高但查全率不高的文献，即公式中的。第二部分是为了提高查全率，在非核心期刊、非核心作者或与检索目标相关的领域等情况下查找文献，即公式中的，并且这一部分文献在某些方面要与第一部分有联系，即公式中的。此模型在某种程度上超越了传统检索，不仅能够包括所有类型的检索字段，如标题、关键词、期刊名称、作者地址等，还能融入计量方法，如直接引用、共同引用、文献耦合、阈值选定等等18。例如具体检索式可设定如下19：UC1: JournalinWoS=BIOINFORMATICS; UC2:JournalinMEDLINE=INSILICOBIOLOGY; UC3:Keywordsintitle=BIOINFORMATICS; CC1:RecordscitedbyUC1;CC2:RecordscitingUC1;CC3:thres

展开阅读全文