引文分析词频分析课件

资源描述

《引文分析词频分析课件》由会员分享，可在线阅读，更多相关《引文分析词频分析课件（41页珍藏版）》请在金锄头文库上搜索。

1、引文分析法、共词分析法浅析,于伟,科学研究前沿代表了科学发展的难点、热点以及发展趋势,从浩瀚的科技信息中探测研究前沿是科技创新的关键任务之一。因此,如何能够科学、准确地把握研究前沿已经成为科学研究人员及其管理者关注的焦点。科学家提出各种方法与技术用于探测研究前沿,其中以利用引文分析和共词分析的研究最为常见。,引文分析,引文分析是利用各种数学、统计学以及逻辑方法，对科技期刊、论文、著作等各种分析对象的引用或被引用现象进行分析研究，以便揭示其数量特征和内在规律，达到评价、预测科学发展趋势的目的。近几年主要的关注研究对象或热点集中在“引文网络”、“自引与自引率”、“共引分析”、“影响因子”以及

2、“引文分析和统计中的误差”等方面。,在引文分析中，引文网络得到了学者们的高重视。国外方面，将引文看作代表信赖的原型。他们认为在虚拟环境中，引文实际上代表了一种信赖。当A 引用B 的文章时，A认为B 的观点是支持性的，而B 引用的内容是被协商许可了的，引用内容的同时也就影响了B 的思维。因此，引文网络系统可以被看成是信赖系统，引文索引则可以被看成是一个推荐系统推荐被引次数多的文章。,引文网络,在引文网络中存在大量的同引和耦合。同引(或称同被引)是指两篇或两篇以上文献共同被之后的一篇或多篇文献引用,如图中5和6同时被之后的8和8引用;引用它们的论文的多少,即同被引程度,称为同被引强度。耦合则是

3、指两篇文献共同引用了一篇或多篇文献,如图中2和4共同引用了1;耦合的文献之间总存在着这样或那样的联系,其联系的程度称为耦合强度。,引文网络的结构特点有: 引文网络是静态的,不可以在任何已有节点上增加新的代表引用的单向箭头,也不可以随意删除已有的代表引用的单向箭头,因为文献一经出版之后,它的参考文献就一成不变了; 引文网络中的引用是单向的,即只能是后期的文献引用前期的文献,而前期的文献不能反过来引用后期的文献; 引文网络中的引文不可以自引,引文不能自己引用自己,在引文分析中,自引主体只能是作者、期刊、学科、机构等; 引文网络中的引用是有固定时间的,即文献A引用文献B是有固定时间的,这个固定时间正

4、好是文献A 的发表时间,且文献A的发表时间必然在文献B之后,如图3中8和8同时发表,故不存在8引用8或8引用8; 引文网络中引文间的引用呈现出主题集中,因为引文间引用的正式性和文献出版的质量控制,引文基本来自同一科学领域或关系紧密的领域。,常见的引文网络测度指标可以分为四类: 引文数量特征测度指标:引文数; 引文分布特征测度指标:平均引用数、自引数与自引率、被引次数与引用数的比值; 期刊(论文)影响力测度指标:被引用数、同引和耦合、期刊影响因子即年指标; 文献老化规律测度指标:衰减系数等,自引自引率,关于自引和自引率的研究是引文分析的内容之一。目前在国外研究最多的是关于期刊的自引和自引率。一般

5、认为，期刊高自引有助于提升其影响因子；也有研究人员研究去除期刊自引数对影响因子的影响，认为未去除影响因子的数据可以采用；还有研究显示期刊自引与自引率与影响因子的负相关性。,共引（co-citation）,就是两篇文献同时被其他文献引用。一般认为同被引用的文献在主题上具有或多或少的相似性, 因此同被引次数即共引强度可以测度文献在内容方面的相关度。由此, 通过一组文献之间的共引关系可以形成共引网络, 该网络内节点之间的远近便可以反映它们主题内容的亲疏关系。,共引分析方法始于small于1973年提出的以文献为单位的共引分析, 但共引概念可以推广到与文献相关的各种特征对象上, 形成各种类型的共引

6、概念,如词的共引、文献共引、著者共引、期刊共引、主题共引和类的共引等。,共引的意义,自1973 年被提出以来，共引分析已成为引文分析里面一种潜在多产的分析方法，它不仅可以用来揭示科学结构的发展现状乃至变化情况，还可以用来进行前沿分析、领域分析、科研评价等，进而为宏观科技决策提供先行支持，为科技规划与评估提供基础。,共引分析的一般过程,共引分析方法的一般过程可以概括为分析领域的确定分析对象的选择及共引矩阵的形成共引数据的处理聚类分析和多维标度结果分析和解释。方法的演进过程以分析过程中分析对象的选择和聚类方法中的参数修正为主。,选择对象搜索数据构建矩阵聚类分析/多维尺度分析/计算战略

7、坐标分析结果,几乎国内外所有学者都是按照统一的方法模式来进行共被引分析，即第一步构造共被引矩阵；第二步将该矩阵转化为相似系数矩阵，方法大多为皮尔逊相关系数法(PearsonS Correlation Coeficient)；第三步是进行聚类(Cluster)和多维尺度分析(MDS)。这基本是大家默认的方法，在我国许多相关教材和相关论文中也多是采用这样的方法。从2003年开始，在科学计量学学者之间又引发了关于共被引分析方法的讨论。焦点主要集中在对皮尔逊相关系数是否适合应用到共被引分析这一问题，及共被引矩阵对角线如何取值这一问题的讨论。,McCain将其定为：默认值，这也是影响最广泛的一种对角

8、线确定方法；Ahlgren等认为应该使用自己与自己实际共被引次数；White则建议使用最大值来确定对角线的值。邱均平等认为根据共被引原理来看，从临近矩阵的定义来看，Wh ite的建议则更正确。共被引矩阵本来就是考察各对象之间亲疏关系的临近矩阵，只不过研究的目标选定了有特殊意义的作者、论文、期刊、学科等而已。从这点出发，我们自然而然的认为自己和自己的关系最亲近，所以应该是该作者与其他作者共被引频次中最高的。表达方式可以是最大值。但我们认为为了突出自己与自己的亲密关系，可以用最大值+l来凸显。所以我们大体倾向于White的提法，但可做适当的调整。,Pearsons只是一种测度变量相似性的方法，是为

9、了更好地发现变量之间的关系，而许多方法都可以取代它。我们认为Squared Euclidean distance是代替它的最好方法。理由如下： PearsonS相关系数矩阵自身的确存在问题。其不适合对有0-模块的矩阵进行转化，虽然White等一再强调，共被引矩阵不应该存在0-模块，并且给出了许多实例。但是我们认为这还是不具有普遍性，难免遇到0-模块，尤其是在我国的研究者之间。在这里，我们再次肯定Ahlgren等提出的相似性测度的两个必要条件（注）是非常正确的。虽然是针对相似性测度提出，但是其原理对于非相似测度同样正确。我们用Squared Euclidean distance测度方法是满足两个

10、必要条件。根据Squared Euclidean distance公式可以看出即使在矩阵后加入0-模块，D (X，Y)的值保持不变，说明SquaredEuclidean distance测度方法具有很好的稳定性。,注：两个必要条件： (1)对于相似性测度，变量A和变量B 的相关系数s(A，B)在加入0-模块后不能减小；(2)未加入0-模块前，如果s(A， s(C，D)，那么加入0-模块后，这种关系也仍要保持。,返回上一张,注：在战略坐标中,X轴为向心度,表示领域间相互影响的强度,Y轴为密度,表示某一领域内部联系强度。以向心度和密度为参数绘制成的二维坐标即为战略坐标,它可以概括地表现一个领域内

11、亚领域的结构。,共引的发展趋势,a. 综合多种分析方法。例如研究前沿和热点分析时,将共引分析结果和文献耦合、共词聚类、词频统计等方法的分析结果加以比较分析;揭示科学结构时,将共引分析与共词分析相结合,分析结果会更准确可靠。b. 不断融入新的技术。由最初借用多维尺度技术进行降维,到现在用PFNETS替代Pearson 相关系数,引入自组织映射( Self - Organization Map ,SOM) 技术、潜在语义索引(Latent Semantic Indexing ,LSI) 技术等。随着各种技术的发展,共引分析中不断融入其他学科新的技术,真可谓吸众家之长为我所用。c. 扩展至网络结构研

12、究。网络环境中,站点的链接关系类似于文献的引用关系,因此可以将共引分析方法移植到网络站点共引研究或称其为网页共链分析(WebColink Analysis ,WCA) ,反映网络本身的结构和网络中知识的结构。d. 不断探究共引分析中的一些细节问题。这其中包括相似性计算方法的优化,如何对合著者进行所有作者的共引分析等。,影响因子,影响因子（Impact Factor,IF)是美国ISI（科学信息研究所）的JCR(期刊引证报告）中的一项数据。即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。这是一个国际上通行的期刊评价指标。意义：该指标是相对统计值，可克服大小期刊

13、由于载文量不同所带来的偏差。一般来说，影响因子越大，其学术影响力也越大。,附：IF值计算方法(以1992年为例） A1992年的全部引文（指定数据库中的记录） B1992年某期刊发表在1990和1991的论文的被引次数 C某期刊1990 和1991 年发表的全部论文的总和 D（期刊1992的影响因子）B/C,例如，某期刊2005年影响因子的计算 1.本刊2004年的文章在2005年的被引次数： 48 本刊2004年的发文量： 187 2.本刊2003年的文章在2005年的被引次数： 128 本刊2003年的发文量： 154 3.本刊2003-2004的文章在2005年的被引次数总计： 176

14、 4.本刊2003-2004年的发文量总计： 341 5.本刊2005年的影响因子：0.5161 = 176341,引文分析和统计中的误差,引文分析以其独特的科学评价功能而备受推崇，然而随着应用的深化，越来越多的人开始对引文分析的有效性与可靠性提出质疑。因为无论是引文分析的对象，还是引文分析的方法本身，都存在一些虚假和错误的成份。虽然不是很热门，但针对引文分析和统计误差的研究一直伴随着SCI 的成长历程。尽管专论相对而言不是很多，但在不少采用引文数据进行研究工作的文献中多少都存在对引文分析中缺陷和错误的分析和研究，很多文献也以善意的提醒或者警示来告知读者要谨慎地使用引文数据。目前，国

15、内对于引文虚假和误差讨论最多的当属伪引和漏引。,共词分析法,共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。共词分析就是以此为原理,将文献主题词作为分析对象,利用包容系数、聚类分析等多种统计分析方法,把众多分析对象之间错综复杂的共词网状关系简化为以数值、图形直观地表示出来的过程。,共词分析法的过程,1确定分析的问题 2确定

16、分析单元 3高频词的选定 4共词分析中统计方法 5对共词结果的分析,一、确定分析的问题,利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域、学科的发展过程、特点以及领域或学科之间的关系等等。不同的问题有不同的分析过程，采用不同的数学计量方法。,二、确定分析单元,有学者选择文献中的主题词、关键词为共词分析的基本单元。在共词分析中借助数据库管理软件以及SPSS统计软件进行识别统计,对计算机而言同义不同词的词在统计过程中,被看作两个完全不相关的词汇,对统计分析的结果产生很大干扰。因此,被分析的词汇最好是受控的、被统一标引的主题词。只有这样,共词分析方法利用文章中词语对的共现频次来反映包含在文章中的概念才能成立。,主题词是规范化的检索语言，它对文献中出现的同义词、近义词、多义词以及同一概念的不同书写形式等进行严格的控制和规范，使每个主题词都含义明确，以便准确检索，防止误检、漏检。如：白介素2、白细胞介素2、IL2、IL-2等表达同一概念的不

展开阅读全文

引文分析词频分析课件

最新文档