谈论引文分析方法的网络化发展和应用

资源描述

《谈论引文分析方法的网络化发展和应用》由会员分享，可在线阅读，更多相关《谈论引文分析方法的网络化发展和应用（5页珍藏版）》请在金锄头文库上搜索。

1、1谈论引文分析方法的网络化发展和应用论文关键词引文分析网络信息计量网络链接分析论文摘要引文分析是传统文献计量学和科学计量学的一种独特研究方法。主要从网络链接分析研究、基于网页链接分析的搜索引擎排序算法研制和新型网络引文索引工具的编制等方面，分析论述引文分析方法在网络环境下的发展和应用，以期形成对引文分析方法及其价值的合理认知和评价。 1、引言所谓“引文分析(Citation Analysis)”，是指利用各种数学和统计学的方法，以及比较、归纳、抽象、概括等逻辑方法，对学术期刊、论文、著者等各种对象的引用与被引用现象进行分析研究，以便揭示其数量分布特征和内在关联规律的一种文献计量研究方法。

2、追溯引文分析思想的渊源，最初的相关活动都出现在法学领域。特别是 1873年美国出版的专供律师查阅法律判例的检索工具“Shepards Citations”，对后来引文分析工具的研制产生了直接而重要的影响。1927 年，美国的 Gross 夫妇对化学专业期刊论文的参考文献进行统计分析，得出了化学教育方面的核心期刊表，成为文献工作中的第一次引文分析实践。1961 年，E，Garfield 经过多年思考和苦心钻研，开始编制并出版“Science Citation Index(简称 SCI)”，为期刊文献引文分析研究活动的广泛开展提供了强有力的工具保障和数据来源。随后，Social Science

3、Citation Index(简称 SSCI)(1973 年)、ArtsHumanities Citation Index(简称AHCI)(1978 年)、Journal Citation Reports(简称 JcR)(1975 年)、Essential 2Science Indicators(简称 ESI)(2001 年)等系列工具的不断问世，更极大地促进了引文分析研究活动的大规模开展。作为传统文献计量学和科学计量学中一种独具特色的研究方法，自 20 世纪 60年代以后，引文分析方法逐渐发展成熟，并形成比较完备的研究体系，在指标设置、工具开发和应用实践等方面也都取得了丰硕成果。1997

4、年，丹麦学者 T.C.Almind和 P.Ingwersen 首次提出“网络信息计量学(Webometfics)”这一概念。随后各种面向网络信息的计量分析研究活动迅速展开，引文分析的思想和方法在新兴的网络信息计量学领域获得了进一步的发展，并取得了一系列新的理论和应用进展。本文尝试从 3 个不同方面对引文分析方法的网络化拓展及应用进行分析和论述。 2、新研究领域的开拓网络链接分析网络链接不仅是互联网的基本构成要素，也是其最显著的特征。由于网络链接关系普遍存在于网站与网站、网站与网页、网页与网页等之间，它们与传统学术期刊文献之间的引用关系具有一种天然的相似性，于是，研究人员便从这种天然的相似性出

5、发，将引文分析方法广泛应用在网络信息计量研究中，并由此开创、形成了网络信息计量学的一个特色研究领域网络链接分析(Web link analysis)。 10 年来的研究实践证明，在成功借鉴引文分析方法的一系列基本思想、概念、指标等基础上，网络链接分析已成为促进网络信息计量学不断深入发展的重要动力。目前，国内外大量的网络链接分析研究活动，都带有鲜明的“引文分析”烙印。首先从计量指标的设计和使用上来看。早在 1996 年，美国图书馆员G.Mckieman 就根据引文分析中“citation”概念的含义，提出使用“sition”一词来描述网站(site)之间相互链接的行为，即 sitation=c

6、itedsites。此后， “sitation”一词逐渐在3研究同行中得到使用。1998 年，P.Ingwemen 受引文分析中“期刊影响因子”概念的启发，提出了“网络影响因子(Web ImpactFactor)”的概念，用它来分析一定时期内某特定网站或网页的平均链接强度，并以此来评价网站在网络中的影响力。随后，以“文献耦合”、 “共引”、 “自引”等引文分析的重要概念为基础， “Web coupling”、 “Co-sitation”、 “Co-link”、 “Co-authorship”、 “Co-usage”、 “Self-linking”、 “Self-linked”等网络计量概念和指

7、标也陆续被提出。其次从网络链接分析领域开展的主要研究工作上观察， “引文分析”的烙印也是清晰可见。目前，网络链接分析的研究进展主要集中在以下几方面”。：网络链接分析与引文分析的理论比较；网络链接目的、类型及其特殊性分析；学术性网站与电子期刊的网络影响因子研究；核心网站的测定；网络链接分析的工具开发；基于网络计量的学术性机构科研能力评价；搜索引擎检索质量的改进等。从中不难看出，除搜索引擎议题外，其他广受关注的网络链接研究选题与传统的引文分析研究呈现出了较大的相似性。应该说，传统的引文分析思想为网络环境下链接分析研究工作的开展奠定了必要的学术基础，并发挥了重要的影响力。尤其是把引文聚类分析等方

8、法应用到网站或网页的链接分析中，以此观察 Web 网页与网站内容之间的关系，对探讨、解决网络空间(cyber-space)的知识结构以及识别相关站点群落等都具有很大的价值。不过，从目前的研究现状来看，由于传统引文分析思想的局限性及网络链接自身的特殊性和复杂性，网络链接分析的深入研究还面临着很多难题。例如，对搜索引擎的过分依赖，缺乏适用的专门工具；由于(动态)网页开发语言不断增多，链接信息的解析与数据获取越来越复杂；指标设计和研究方法不够完善，无法完全满足网络信息计量和链接分析的需要；研究思路不够开阔，选题过分局限于教育、科研等学术性领域，难以应对当前网络发展对社会的全方位影响和渗透局面。 43

9、、基于网页链接分析的搜索排序算法如果把网络链接分析看作是引文分析思想在网络环境下的一种理论创新和发展，那么，已在搜索引擎中得到广泛使用的各种基于网页链接分析的搜索排序算法的研制，则可以看作是引文分析方法的一种新型网络应用。由于网络搜索技术的局限性，搜索结果排序算法一直是各类搜索引擎关注的核心问题。受传统引文分析研究思想的影响和启发，目前在搜索结果排序方面已产生了一系列基于网页链接分析的有效而成功的算法，其中尤以搜索引擎Google1998 年开发的 PageRank 算法最具影响力。传统的搜索结果排序算法主要建立在网页内容与用户搜索请求相关性判断的基础上，这种方法深受网页关键词作弊的危害

10、。作为一种新型的排序算法，PageRank 的研制直接受到了传统文献计量学引文分析研究思想的影响和启发，两者具有明显的相似之处。引文分析研究的基本前提假设之一是：一篇文献的学术水平、(或质量)可由它被其他文献引用的次数来评定，被引用的次数越多，则它的学术水平(或质量)就越高。于是，PageRank 算法将这种思想推广、应用到了网页链接分析中。PageRank 的基本算法思想可以概括为以下三点：如果一个页面被多次引用(或链接)，那么这个页面很可能是重要的；如果一个页面尽管没有被多次引用，但却被一个重要的页面引用，那么这个页面很可能是重要的；一个页面的重要性被均分，并传递到它所引用(或链接)的页面

11、。据此，对网络中每个 Web 页面的链接状况进行全面分析并赋予它们不同的 PageRank 值(即重要性值)，便可以应用于网页搜索的结果排序。5由于这种排序思想主要建立在网页链接分析的基础上，不仅独立于网页的语言和内容，而且不需要人工干预就能自动发现 Web 上的重要资源，因而提供了一种衡量网页质量的有效方法。 PageRank 算法的研制和应用不仅为 Coogle 赢得了巨大的成功，而且迅速催生了一系列类似的排序算法，例如用于博客搜索结果的 PeopleRank 算法、在网络自由分类法使用过程中的 UserRank 算法、TagRank 算法和 FolkRank 算法等。其中，PeopleR

12、ank 算法主要基于博客用户之间的联系(具体联系方式包括好友链接或朋友列表、博文阅读、回复与评论等)来自动发现重要的博客用户，并依此作为博客搜索结果排序的一个重要因素；UserRank 算法的提出，主要用在基于自由分类法的检索结果显示时，要求按照提出被认可标签的数量多少对用户进行排序；而TagRank 算法则是基于 UserRank 的标签排序；至于 FolkRank 算法的排序机制，则又整合了 UserRank 和 TagRank，认为由重要用户标注的重要标签下的资源是重要的(且用户和标签拥有同等地位)，并以此作为自由分类法检索结果的排序依据。所有这些衍生的排序算法，其基本思想(或出发点)都

13、与 PageRank 算法是一致的，只不过应用场合不同，链接分析的对象也由网页换成了博客用户、标签用户、标签等。 4、网络引文索引工具的研制与使用随着学术研究、信息交流与传播等活动的日益网络化，传统的引文索引工具已无法适应 e-Science 时代引文分析的研究需求。为此，各种网络化引文索引工具的编制逐渐被提到议事日程，并在当前的引文分析研究工作中逐步获得应用。 1998 年，第一个网络引文索引 CiteSeer 开始研制，并于 1999 年正式投入使用。62004 年，CiteSeer 更名为 CiteSeer.IST。作为一个主要面向计算机和信息科学领域学术资源的网络引文索引与检索工具，

14、CiteSeer 主要基于自动引文索引(Autonomous Citation Indefing，简称 ACI)技术编制而成。其主要编制步骤是：使用多个搜索引擎，基于关键词对网络中的学术性文献资源(主要是 PostScript 和PDF 2 种格式的学术论文)进行自动搜索和下载，并通过检查是否存在参考文献或书目来确认其是否为学术性文献；如是学术性文献，则对其进行文本转换和识别，建立全文索引。从文献中自动识别、抽取引文信息，包括引文环境(即上下文)、引文子字段等，特别是对以不同格式标注的相同引文进行归类处理。采用多种文献相似性测度方法，对相关文献和相似文献进行自动识别。在运用 ACI 先进技术的

15、过程中，CiteSeer 的编制还充分借鉴、结合了传统引文分析研究中对文献之间引用和被引用关系的揭示方法，因此在为网络用户提供免费访问和检索使用时，CiteSeer 不仅能够返回一个与检索请求相匹配的结果文献列表，而且对列表文献中包含的引证与被引证关系建立了全面的关联链接，以方便用户对检索结果以及文献引用与被引用数据的查看和跟踪。针对网络学术论文的特点，CiteSeer 主要提供以下 3 项特色的文献引文服务功能：引文上下文(context)信息显示，把文献中引文出现位置前后的若干词组或句子以粗体字标注出来，使用户不需阅读原文就能直接获知引文被引用的上下文环境。相关文献揭示，具体包括基于语句

16、分析的相似文献、基于文本分析的相似文献、动态相关文献书目(Active Bibliogra.phy)和基于共引关系的相关文献(Related Documentsfrom Co-citation)等不同方式。引文图，以图形方式直观地显示文献被引用的时间分布状况。目前，CiteSeer 可在线查询和获取的学术资源数量已接近 100 万。与7SCI、SSCI 等传统引文索引数据库相比，CiteSeer 在全文可获得性、全面性、及时性、费用等方面都具有明显优势。例如，一旦有学术性文献在网络上出现，就能自动进行搜索和索引，并把包括预印本、技术报告、会议录等不同类型学术文献的引证关系考虑进来；提供免费的网上服务，极大地发挥了引文索引的文献检索和评价功能；一些附加的网络服务(如论文修正(correet)链接功能等)可以链接到讨论区，及时查看相关的评论、综述以及新的研究成果等。除了秉承 E，Garfield 博士引文分析思想编制的 CiteSeer 引文索引工具外，2004 年由著名搜索引擎 Coode 推出的学术搜索服务Coog

展开阅读全文