单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,引文分析法、共词分析法浅析,于伟,科学研究前沿代表了科学发展的难点、热点以及发展趋势,从浩瀚的科技信息中探测研究前沿是科技创新的关键任务之一因此,如何能够科学、准确地把握研究前沿已经成为科学研究人员及其管理者关注的焦点科学家提出各种方法与技术用于探测研究前沿,其中以利用,引文分析,和,共词分析,的研究最为常见引文分析,引文分析是利用各种数学、统计学以及逻辑方法,对科技期刊、论文、著作等各种分析对象的引用或被引用现象进行分析研究,以便揭示其数量特征和内在规律,达到评价、预测科学发展趋势的目的近几年主要的关注研究对象或热点集中在“,引文网络,”、“,自引与自引率,”、“,共引分析,”、“,影响因子,”以及“,引文分析和统计中的误差,”等方面,在引文分析中,引文网络得到了学者们的高重视国外方面,将引文看作代表信赖的原型他们认为在虚拟环境中,引文实际上代表了一种信赖当,A,引用,B,的文章时,,A,认为,B,的观点是支持性的,而,B,引用的内容是被协商许可了的,引用内容的同时也就影响了,B,的思维因此,引文网络系统可以被看成是信赖系统,引文索引则可以被看成是一个推荐系统,推荐被引次数多的文章。
引文网络,在引文网络中存在大量的同引和耦合同引,(,或称同被引,),是指两篇或两篇以上文献共同被之后的一篇或多篇文献引用,如图中,5,和,6,同时被之后的,8,和,8,引用,;,引用它们的论文的多少,即同被引程度,称为同被引强度耦合则是指两篇文献共同引用了一篇或多篇文献,如图中,2,和,4,共同引用了,1;,耦合的文献之间总存在着这样或那样的联系,其联系的程度称为耦合强度引文网络的结构特点有,:,引文网络是静态的,不可以在任何已有节点上增加新的代表引用的单向箭头,也不可以随意删除已有的代表引用的单向箭头,因为文献一经出版之后,它的参考文献就一成不变了,;,引文网络中的引用是单向的,即只能是后期的文献引用前期的文献,而前期的文献不能反过来引用后期的文献,;,引文网络中的引文不可以自引,引文不能自己引用自己,在引文分析中,自引主体只能是作者、期刊、学科、机构等,;,引文网络中的引用是有固定时间的,即文献,A,引用文献,B,是有固定时间的,这个固定时间正好是文献,A,的发表时间,且文献,A,的发表时间必然在文献,B,之后,如图,3,中,8,和,8,同时发表,故不存在,8,引用,8,或,8,引用,8;,引文网络中引文间的引用呈现出主题集中,因为引文间引用的正式性和文献出版的质量控制,引文基本来自同一科学领域或关系紧密的领域。
常见的引文网络测度指标可以分为四类,:,引文数量特征测度指标,:,引文数,;,引文分布特征测度指标,:,平均引用数、自引数与自引率、被引次数与引用数的比值,;,期刊,(,论文,),影响力测度指标,:,被引用数、同引和耦合、期刊影响因子即年指标,;,文献老化规律测度指标,:,衰减系数等,自引自引率,关于自引和自引率的研究是引文分析的内容之一目前在国外研究最多的是关于期刊的自引和自引率一般认为,期刊高自引有助于提升其影响因子;也有研究人员研究去除期刊自引数对影响因子的影响,认为未去除影响因子的数据可以采用;还有研究显示期刊自引与自引率与影响因子的负相关性共引(,co-citation,),就是两篇文献同时被其他文献引用一般认为同被引用的文献在主题上具有或多或少的相似性,因此同被引次数即共引强度可以测度文献在内容方面的相关度由此,通过一组文献之间的共引关系可以形成共引网络,该网络内节点之间的远近便可以反映它们主题内容的亲疏关系共引分析方法始于,small,于,1973,年提出的以文献为单位的共引分析,但共引概念可以推广到与文献相关的各种特征对象上,形成各种类型的共引概念,如,词的共引、文献共引、著者共引、期刊共引、主题共引和类的共引,等。
共引的意义,自,1973,年被提出以来,共引分析已成为引文分析里面一种潜在多产的分析方法,它,不仅可以用来揭示科学结构的发展现状乃至变化情况,还可以用来进行前沿分析、领域分析、科研评价等,,进而为宏观科技决策提供先行支持,为科技规划与评估提供基础共引分析的一般过程,共引分析方法的一般过程可以概括为分析领域的确定分析对象的选择及共引矩阵的形成共引数据的处理聚类分析和多维标度结果分析和解释方法的演进过程以分析过程中分析对象的选择和聚类方法中的参数修正为主选择对象,搜索数据,构建,矩阵,聚类分析,/,多维尺度分析,/,计算战略坐标,分析结果,几乎国内外所有学者都是按照统一的方法模式来进行共被引分析,即第一步构造共被引矩阵;第二步将该矩阵转化为相似系数矩阵,方法大多为皮尔逊相关系数法,(PearsonS Correlation Coeficient),;第三步是进行聚类,(Cluster),和多维尺度分析,(MDS),这基本是大家默认的方法,在我国许多相关教材和相关论文中也多是采用这样的方法从,2003,年开始,在科学计量学学者之间又引发了关于共被引分析方法的讨论焦点主要集中在对,皮尔逊相关系数,是否适合应用到共被引分析这一问题,及共被引矩阵,对角线,如何取值这一问题的讨论。
McCain,将其定为:默认值,这也是影响最广泛的一种对角线确定方法;,Ahlgren,等认为应该使用自己与自己实际共被引次数;,White,则建议使用最大值来确定对角线的值邱均平等认为根据共被引原理来看,从临近矩阵的定义来看,,Wh ite,的建议则更正确共被引矩阵本来就是考察各对象之间亲疏关系的临近矩阵,只不过研究的目标选定了有特殊意义的作者、论文、期刊、学科等而已从这点出发,我们自然而然的认为自己和自己的关系最亲近,所以应该是该作者与其他作者共被引频次中最高的表达方式可以是最大值但我们认为为了突出自己与自己的亲密关系,可以用最大值,+l,来凸显所以我们大体倾向于,White,的提法,但可做适当的调整Pearson,s,只是一种测度变量相似性的方法,是为了更好地发现变量之间的关系,而许多方法都可以取代它我们认为,Squared Euclidean distance,是代替它的最好方法理由如下:,Pearson,S,相关系数矩阵自身的确存在问题其不适合对有,0-,模块的矩阵进行转化,虽然,White,等一再强调,共被引矩阵不应该存在,0-,模块,并且给出了许多实例但是我们认为这还是不具有普遍性,难免遇到,0-,模块,尤其是在我国的研究者之间。
在这里,我们再次肯定,Ahlgren,等提出的相似性测度的,两个必要条件(注,)是非常正确的虽然是针对相似性测度提出,但是其原理对于非相似测度同样正确我们用,Squared Euclidean distance,测度方法是满足两个必要条件根据,Squared Euclidean distance,公式可以看出即使在矩阵后加入,0-,模块,,D (X,,,Y),的值保持不变,说明,SquaredEuclidean distance,测度方法具有很好的稳定性注:,两个必要条件:,(1),对于相似性测度,变量,A,和变量,B,的相关系数,s(A,,,B),在加入,0-,模块后不能减小;,(2),未加入,0-,模块前,如果,s(A,,,s(C,,,D),,那么加入,0-,模块后,这种关系也仍要保持返回上一张,注:在战略坐标中,X,轴为向心度,表示领域间相互影响的强度,Y,轴为密度,表示某一领域内部联系强度以向心度和密度为参数绘制成的二维坐标即为战略坐标,它可以概括地表现一个领域内亚领域的结构共引的发展趋势,a.,综合多种分析方法例如研究前沿和热点分析时,将共引分析结果和文献耦合、共词聚类、词频统计等方法的分析结果加以比较分析,;,揭示科学结构时,将共引分析与共词分析相结合,分析结果会更准确可靠。
b.,不断融入新的技术由最初借用多维尺度技术进行降维,到现在用,PFNETS,替代,Pearson,相关系数,引入自组织映射,(Self-Organization Map,SOM),技术、潜在语义索引,(Latent Semantic Indexing,LSI),技术等随着各种技术的发展,共引分析中不断融入其他学科新的技术,真可谓吸众家之长为我所用c.,扩展至网络结构研究网络环境中,站点的链接关系类似于文献的引用关系,因此可以将共引分析方法移植到网络站点共引研究或称其为网页共链分析,(WebColink Analysis,WCA),反映网络本身的结构和网络中知识的结构d.,不断探究共引分析中的一些细节问题这其中包括相似性计算方法的优化,如何对合著者进行所有作者的共引分析等影响因子,影响因子(,Impact Factor,IF),是美国,ISI,(科学信息研究所)的,JCR(,期刊引证报告)中的一项数据即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数这是一个国际上通行的期刊评价指标意义:该指标是相对统计值,可克服大小期刊由于载文量不同所带来的偏差一般来说,影响因子越大,其学术影响力也越大。
附:,IF,值计算方法,(,以,1992,年为例),A,1992,年的全部引文(指定数据库中的记录),B,1992,年某期刊发表在,1990,和,1991,的论文的被引次数,C,某期刊,1990,和,1991,年发表的全部论文的总和,D,(期刊,1992,的影响因子),B/C,例如,某期刊,2005,年影响因子的计算,1.,本刊,2004,年的文章在,2005,年的被引次数:,48,本刊,2004,年的发文量:,187 2.,本刊,2003,年的文章在,2005,年的被引次数:,128,本刊,2003,年的发文量:,154 3.,本刊,2003-2004,的文章在,2005,年的被引次数总计 :,176 4.,本刊,2003-2004,年的发文量总计:,341 5.,本刊,2005,年的影响因子:,0.5161=176341,引文分析和统计中的误差,引文分析以其独特的科学评价功能而备受推崇,然而随着应用的深化,越来越多的人开始对引文分析的有效性与可靠性提出质疑因为无论是引文分析的对象,还是引文分析的方法本身,都存在一些虚假和错误的成份虽然不是很热门,但针对引文分析和统计误差的研究一直伴随着,SCI,的成长历程。
尽管专论相对而言不是很多,但在不少采用引文数据进行研究工作的文献中多少都存在对引文分析中,缺陷和错误的分析和研究,很多文献也以善意的提醒或者警示来告知读者要谨慎地使用引文数据目前,,国内对于引文虚假和误差讨论最多的当属伪引和漏引共词分析法,共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系共词分析就是以此为原理,将文献主题词作为分析对象,利用包容系数、聚类分析等多种统计分析方法,把众多分析对象之间错综复杂的共词网状关系简化为以数值、图形直观地表示出来的过程共词分析法的过程,1,确定分析的问题,2,确定分析单元,3,高频词的选定,4,共词分析中统计方法,5,对共词结果的分析,一、确定分析的问题,利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域、学科的发展过程、特点以及领域或学科之间的关系等等不同的问题有不同的分析过程,采用不同的数学计量方法。
二、确定分析单元,有学者选择文献中的,主题词、关键词,为共词分析的基本单元在共词分析中借助数据库管理软件以及,SPSS,统计软件进行识别统计,对计算机而言同义不同词的词在统计过程中。