共链分析的缺陷及其解决方案研究

上传人:ldj****22 文档编号:45483350 上传时间:2018-06-17 格式:PDF 页数:5 大小:192.60KB
返回 下载 相关 举报
共链分析的缺陷及其解决方案研究_第1页
第1页 / 共5页
共链分析的缺陷及其解决方案研究_第2页
第2页 / 共5页
共链分析的缺陷及其解决方案研究_第3页
第3页 / 共5页
共链分析的缺陷及其解决方案研究_第4页
第4页 / 共5页
共链分析的缺陷及其解决方案研究_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《共链分析的缺陷及其解决方案研究》由会员分享,可在线阅读,更多相关《共链分析的缺陷及其解决方案研究(5页珍藏版)》请在金锄头文库上搜索。

1、!理论与探索 #ITAp 邱均平,李晔君,李 江 (武汉大学 中国科学评价研究中心, 湖北 武汉 430072)共链分析的缺陷及其解决方案研究*本文为国家自然科学基金项目的研究成果之一, 项目编号:70673071 。摘 要: 共链分析是当前网络计量学中重要的定量研究方法, 其主要目的是使网络结构可视化和挖掘网络群体间的相互关系。然而, 共链分析在产生之初就有着不可忽视的缺陷, 包括继承的缺陷、移植过程中产生的缺陷、工具的缺陷。本文着重分析了这些缺陷各自的产生原因、分类等, 提出了可能的解决方案, 希望共链分析能够逐步完善, 成为情报学重要的研究方法。关键词: 共链分析; 共引分析; 引文;

2、网络计量学Abstract : Colink analysis is an i mportant quantitativemethod inW ebmetrics .Itsmain purpose is to visualizeW eb structure andm ine the interrelations among W eb colonies . However ,it has notable li m itations since its nais -sance , which can be concluded as the follow ings :successive defec

3、ts ,transplantation defects and technicaldefects .This papermainly discusses the origin and classification of these defects and provides so me possible solutions , ho -ping that colink analysiswillbe i mproved gradually and beco me a significantmethod for Infor mation Science .Keywords :colink analy

4、sis ;cocitation analysis ;citation ; W ebmetrics1 共链分析概述共链分析( Colink Analysis) 是网络计量学中特有的分析方法, 它是指两个网页同时被第 3个网页链接或两个网页同时拥有指向第 3个网页的链接 1。它来源于文献计量学中的共引分析( Cocitation Analysis)。在网络计量学的研究中, 由于网络链接与科学文献引文之间天然的相似性, 文献计量学家找到了文献计量和网络的契合点 2。从这些相似性出发, 研究者们将文献计量学中的共引分析应用于网络信息计量研究, 由此产生了共链分析, 其中 /共入链0( Co -inli

5、nk) 相对于 /共引0(Cocitation),/共出链0 ( Co -outlink) 相对于 /引文耦合0 ( Coupling)。共链分析的主要目的是使网络结构可视化和挖掘网络群体间的相互关系, 可以应用于以下几个领域 3 -8: 改进和优化搜索引擎的算法, 以提高检索的命中率与用户满意率; 组织机构关系与交流模式发现与挖掘; 学科交流模式及发展态势研究; 网络结构发现与挖掘研究 (如W eb社区发现等 ); 企业竞争情报定量分析与可视化研究;网络知识发现研究; 等等。2 国内外研究现状最早对互联网上共链现象进行研究的是美国加州大学伯克利分校的情报学家 Larson ,1996年他通过

6、 W eb网页共链关系观察网络空间 ( Cyberspaces) 的结构, 并做了相应的实证分析) ) 利用 A ltavista搜索引擎获取数据并分析了地球科学、地理信息系统、卫星遥感 3个学科的相互关系以及发展趋势5。此后, 对共链分析的研究就络绎不绝。1999年,Boudourides等学者通过研究 10个子域级的网络服务器之间的共链关系, 分析了参加 / 欧洲信息自组织协会0 的机构之间的关系。 2003年,M. Thel wall等人利用共链和耦合理论进行了网络中相似学术网站的发现与识别研究 3 -4。2004年,Vaughan分析了 32家电信企业在/雅虎全球0 和 / 雅虎中国0

7、 上的共链情况,得出各企业在全球和中国两个市场中的相对竞争地位 7。 2006年,A.Zuccala将网络共链分析(W eb ColinkAnalysis , WCA )和作者共引分析(Author Cocitation Analysis ,ACA) 从样本选取、数据搜索策略、构建矩阵、图示化和聚类、对共引共链的解释 5个角度进行了比较分析, 认为二者可称为网络计量学与文献计量学中的姐妹技术, 但因链接分析理论尤其是链接动机分析理论方兴未艾, WCA 的适用性有待深入考证 9。 Leydesdorff则针对共现现象(包括共引、共词、共链 ), 讨论了矩阵的不同统计学含义及适合于不同共现矩阵的统

8、计方法 10, 把对共链分析的研究引向了针对统计方法的新层面。3 共链分析的缺陷尽管共链分析是一种新兴的研究方法, 但自诞生以)170)# 第 31卷 2008年第 2期 # ITA! 理论与探索 #来, 其在网络结构可视化和挖掘网络群体关系等方面的适用性和有效性就已经得到了诸多学者的验证。然而, 共链分析在其产生之初就有着不可忽视的缺陷, 我们将这种缺陷分为三类: 继承的缺点、移植过程中产生的缺陷、工具的缺陷。311 继承的缺陷众所周知共链分析法产生于文献计量学引文分析法中的共引分析和耦合分析。由于引文与链接的相似性, 在借鉴引文分析与共引、耦合等概念时, 也继承了它的缺点。31111 继承

9、引文分析法的缺点 引文分析法是情报学中重要的研究方法。尽管如此, 它也存在固有的缺陷, 产生了许多的学术争论, 如利用引文分析法进行科学评价、计量研究等究竟准不准确, 等等。引文是作者在写作过程中的参考文献, 就算引文能正确反映论文形成过程中 /引用0、 /参考0 等行为,由于引文动机的复杂性,利用引文的相关指标来进行科学研究不见得十分准确合理。况且, 引文还要受语言、心理、学科专业、写作习惯、媒介等因素影响而呈现出差异性; 基于各种原因的引而不用和用而不引等引文不规范行为比比皆是。同时, 值得注意的是, 不同学科的性质与研究内容不同, 其论文数与引文率也不同 11。所以利用引文来研究源文献,

10、 其合理性与准确性一直是讨论的热点。共链分析是针对网络链接的。由于网络链接与文献引文的天然相似性, 所以共链分析很大程度上也继承了引文分析的缺陷, 如由于链接动机的复杂性, 仅仅利用链接来研究互联网结构、网络群体交流, 等等, 也不见得非常合理; 较之引文的不规范, 网络链接的不规范性更是有过之而无不及, 这就导致链接分析的效力大打折扣; 另外, 不同学科不仅在论文和引文上存在差异, 在链接上也存在着差异。这些都可以看出, 共链分析中对网络链接内涵的理解来源于文献引文的理念, 的确给共链分析带来了与生俱来的缺陷。31112 继承共引与耦合分析法的缺陷 共引和耦合是引文分析法中的重要概念, 共引

11、分析法与耦合分析法是学科内结构与研究群体可视化的重要方法 12-14。它们基于以下的前提: 两主体(文献、作者、期刊等 ) 共被引或耦合, 那么两主体主题相关; 共被引或耦合的频率越高, 那么两主体主题的相关度就越高。 Small等人的共引理论, 是基于共引可以反映文献主题内容方面的相似性,及对共引关系的测度可以作为揭示科学结构的一种有效方法这样的假设而提出的15。然而共被引与耦合究竟在多大程度上体现着两主体的相关性, 还是一个涉及较少的论题。所以共被引或耦合分析究竟能够多大程度准确地定量描述主体间的结构与关系仍是一个未知的因素。共链继承了共引与耦合的理念与主要方法, 也继承了其在原理上的不确

12、定。312 移植过程中产生的缺陷引文产生于学术环境中,而链接产生于互联网环境中。尽管它们在某些程度上有着天然的相似性, 但是内涵、环境等的不同仍然使得共引分析的理念移植到共链分析中时会产生一些问题, 导致共链分析的准确性降低。31211 共链分析理论基础的不完备性 共引理论发展得已经比较成熟, 共引理念运用于网络环境而产生的共链分析法还有很多的理论问题需要完善。首先, 在概念 / 共引0 提出后的几十年中, 学者们在大多数问题上已经达成了一致 9,包括最主要的问题) ) 可视化图谱结果中学术结构的分析与解释。W hite早在 1990年就提出的作者同被引解释步骤16,已得到了同行们的广泛认可。

13、然而, 共链分析的理论基础却没有这么成熟, 对于共链结果图谱的解释等方面, 没有既定的得到学术界广泛认可的方法或步骤, 著名的英国情报学家 Zuc -cala认为,/对共链图谱的解释还是一件具有创新性的工作0。其次, 共链分析作为一种表示网站间接关系的方法,其有用性与适用性等在学术界也未达成一致。文献 4利用学术网的域名检验共链分析这种间接方法是否比链接本身更能反映网络实体间的主题相似性, 认为高共链频次并不意味着网络实体间更有可能主题相似; 而文献 7却认为商业网站之间的共链频次可以表示企业之间的相似性, 并用实例验证了共链分析用于企业竞争情报的可行性。从以上分析可以看出, 共链分析理论的不

14、完善已成为共链分析的一大缺陷。31212 大量的非实质性链接影响共链分析的准确性 与科学文献中的引文不同, 互联网中的链接可分为实质性链接和非实质性链接: 实质性链接包括表示推荐和引用的链接等, 非实质性链接包括表示结构、通信或广告的链接等, 且后者数量远大于前者。A1 G1Sm ith根据链接来源页面、目标页面的特点和链接的动机对一组研究型网站的样本进行分类, 并以分类研究的结果为基础, 提出了 / 实质链接0, 认为研究中所涉及的链接中 20 % 是实质链接 17。邱均平、李江等以我国 LIS领域的学术博客为样本, 得到实质性链接占总链接数的比例仅为 171133 % 18。文献 2 将共

15、链分析的假设前提描述为: 如果网页 p和 q同被引,则它们可能是相关的,同被引强度越大, 相关度越大; 如果网页 p和 q耦合, 则它们可能是相关的, 耦合强度越大, 相关度越大。然而, 在针对实质性链接和非实质性链接的全共链分析中, 样本数据里充斥着大量非实质性链接, 这使共链分析的假设前提难以成立, 揭示网络结构与识别网络群体关系时的准确度降低,)171) #情报理论与实践 #!理论与探索 #ITA共链分析时应将这部分加以辨别并剔除。剔除了非实质性链接的共链分析为 /实质性共链分析0。邱均平、李晔君等同样以我国 LIS领域的学术博客为样本, 进行全共链分析与实质性共链分析的对比研究, 证明

16、了实质性共链分析较之全共链分析更具有效性, 并得出了共链分析的有效程度是与链接本身的有效程度密切联系的结论 19。从共链分析的诞生到现在, 虽然许多学者都做过相应的实证研究, 证明了共链分析用于描述网络结构、挖掘不同网络群体关系的适用性, 但这些都是基于 / 全共链分析0 的。可见, 非实质性链接的存在成为了影响共链分析准确性的主要原因, 也是当前共链分析存在的一大缺陷。31213 复杂的链接动机增加了共链分析的复杂性 情报学领域中, 对引文动机的研究进行得较早, 并得到了广泛的认可。Garfield认为, 文献引用的动机大致有 / 对开拓者表示尊重0、/对有关著作给予荣誉0 等 15种 20。 1986年,Brooks根据前人的研究, 将引文的动机分为 7类 21:新颖性、负面证据、操作型信息、说服、正面评价、提醒、社会认同等。 2000年, H1J1K i m 将网络中学术论文的链接动机归纳为 3类( Scholarly ,Socia, lTechnologica

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号