国内知识图谱研究的可视化分析-科学网—博客

上传人:206****923 文档编号:90393466 上传时间:2019-06-11 格式:DOC 页数:7 大小:452.51KB
返回 下载 相关 举报
国内知识图谱研究的可视化分析-科学网—博客_第1页
第1页 / 共7页
国内知识图谱研究的可视化分析-科学网—博客_第2页
第2页 / 共7页
国内知识图谱研究的可视化分析-科学网—博客_第3页
第3页 / 共7页
国内知识图谱研究的可视化分析-科学网—博客_第4页
第4页 / 共7页
国内知识图谱研究的可视化分析-科学网—博客_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《国内知识图谱研究的可视化分析-科学网—博客》由会员分享,可在线阅读,更多相关《国内知识图谱研究的可视化分析-科学网—博客(7页珍藏版)》请在金锄头文库上搜索。

1、国内知识图谱研究的可视化分析魏瑞斌(安徽财经大学管理科学与工程学院,蚌埠,233030)摘要:对国内知识图谱期刊论文的外部特征和内容特征进行可视化分析。研究表明:国内知识图谱研究处于起步阶段,研究人员和机构相对集中,研究论文的合著率较高,研究主题鲜明。今后的研究需要加强学科间的合作,加强基础理论研究,创新研究方法,优化数据质量。关键词:知识图谱 可视化 共词分析 Ucinet分类号:G310Visualization Analysis of the Achievements in Mapping Knowledge Domain in ChinaWei Ruibin(School of Man

2、agement Science and Engineering of Anhui University of Finance & Economics, Benbu 233030)Abstract:This paper analyzed the external characteristics and content features of the paper studied the mapping knowledge domain in China. The research shows that domestic research on the mapping knowledge domai

3、n is still at the starting stage, researchers and institutions are more concentrated, the coauthor rate is higher, these paper have distinct theme. The research should strengthen cooperation between different disciplines, pay more attention to basic theory research, promote research method and optim

4、ize data quality in the future.Keywords: Mapping Knowledge Domain; Visualization; Co-words Analysis; Ucinet1引言知识图谱是将以科学学为基础,涉及应用数学、信息科学及计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展。随着统计分析、引文分析和网络分析方法在科学计量学领域的广泛应用,以及计算机图形学和可视化技术的发展,知识图谱研究在20世纪90年代以后得到迅猛发展1。知识图谱的研究发端于美国、荷兰等国。根据刘则渊教授对科学计量学重大变革的三条路径与重要人物的介绍1,笔者认为国外知识

5、图谱的研究主要有三大学派。第一类是科学计量学学派。这个学派主要是以引文分析理论为基础研究不同学科的知识图谱。如加菲尔德等人(1964)手工绘制了DNA领域的历时态图谱2;普赖斯(1965)运用相同的数据完成了他的经典论文“科学论文网络”3;Small(1973)年提出了论文“共被引”的概念和共被引分析方法,并绘制了粒子物理学领域高被引论文的共引图谱4;White、McCain、Noyons等人(1998)将引文分析与多维尺度分析相结合,建立了基于多维尺度分析的知识图谱方法56。第二类是复杂网络学派。这个学派主要是利用复杂网络理论和方法对引文网络、科研合作网络、关键词共现网络等展开研究。如社会学

6、家Hummon(1989)把社会网络分析方法引入了引文网络研究,提出了引文网络中的关键路径算法7;纽曼(2001)用复杂网络方法测定了生物医药、物理学和计算机科学等领域科学合作网络中最有影响力的科学家,并揭示了科学合作结构具有复杂网络的高集聚和小世界等特性8910。第三类是可视化学派。这个学派的研究者将计算机科学的理论、方法和引文分析等有机结合,利用专门软件对大量反映知识结构及发展脉络的数据自动处理,生成可视化的知识图谱。如陈超美提出了探索关键路径的pathfinder算法,并开发了供全球用户免费下载使用的Citespace软件。他(2010)还提出了多视角的共引分析方法,把共引网络分为多个聚

7、类谱,重点关注聚类谱之间的相互关系11。Mane和Brner(2004) 探讨了Kleinberg跳变算法、共词分析和图像展示技术在研究主题和发展趋势中发现中的应用12。阿米德等学者(2004)运用Wilmascope三维动画可视化技术对IEEE InfoVis引文网络进行可视化分析13。Henzinger和Lawrence(2004)基于环球网图表模型和历时时间的聚焦式缓慢动态模型,进行科学研究共同体识别14。总体看,国外学者在知识图谱的理论、方法和可视化软件等方面都处于领先地位。他们的研究内容涉及很多学科领域;科研合作也非常明显。在国内,以刘则渊教授为首的学术团队率先引入的知识图谱的概念,

8、成立了网络信息科学经济计量实验室(WISE LAB),并与鲁索、克雷奇默、陈超美等国外知名专家开展合作研究。本文利用可视化方法对国内知识图谱研究的研究现状进行分析,并提出这个领域今后的需要加强的研究内容。2数据来源与研究方法2.1数据来源本文从知网、万方和维普的期刊全文数据库获取了每篇研究知识图谱论文的题名、作者、机构、发文时间、发文期刊、关键词等相关数据;论文的研究方法、研究工具等数据通过人工采集方式完成。数据的时间范围是2005年1月到2010年8月。检索条件设定为题名或关键词中包含“知识图谱”的期刊论文,共检索到61篇相关文献。知识图谱和知识地图在研究目的、研究方法和工具等方面有相似之处

9、,但笔者认同文献1516的观点,两者之间存在差异。因此,本文没有将国内知识地图的研究成果纳入研究范围。2.2研究方法文献计量方法本文中对表征论文外部特征的时间、发文期刊、作者、机构、研究主题等的数据进行统计、汇总,并通过Excel将数据转换为不同的图形。这样可以直观反映出国内知识图谱研究的成果数量及分布、研究队伍的基本状况、研究主题的分布、数据源分布等基本情况。共词分析共词分析是由卡龙(Callon)和克泰尔(Courtial)等引入情报学领域的一种内容分析和科学绘图法。这种方法不仅能够描绘学科领域的知识结构,还能够结合时间序列揭示学科结构的通过分演变历程17。本文对论文中的关键词、作者、研究

10、方法和研究工具等进行共词分析,通过共词网络来揭示研究对象之间的相互联系,进而去描绘在知识图谱研究的主题结构、作者合作结构等现象。3知识图谱研究成果外部特征的可视化分析3.1知识图谱研究成果的数量从图1看,国内知识图谱研究开始于2005年。近年来,研究论文的数量处于一个快速增长的阶段(2010年只有部分数据)。图1 知识图谱研究发文数量增长趋势图3.2知识图谱研究成果的学科分布 国内知识图谱研究成果发表在31种学术期刊上。从发文期刊看(图2),研究成果主要集中在图书情报学和科学学两个领域。发文3篇以上的期刊有科学学研究、情报学报、图书情报工作、情报科学和情报杂志。图2 知识图谱研究论文的学科分布

11、3.3知识图谱研究的合著网络从统计结果看,国内知识图谱的发文作者已经达到80人。这些作者分布在全国29所高校和科研院所。大连理工大学发文最多,占总体的51%;其次是武汉大学、中国科学院国家科学图书馆兰州分馆、大连海事大学、兰州大学和浙江树人大学。从图3看(图中箭头起点是第一作者,终点是论文的合作者),国内知识图谱研究科研合作现象非常明显,合著率为74%,合作度为2.4人。其中刘则渊、许振亮、侯海燕、陈悦、姜春林等人已经形成了一个规模较大且相对稳定的合作网络。图3 知识图谱研究的合著网络4知识图谱研究成果内容特征的可视化分析国内知识图谱定性研究成果占总体的13%。这些成果又可以分为两类。第一类主

12、要是对知识图谱的概念、类型及其国外研究进展的介绍及综述性文章,如文献1516 18 1920。第二类主要是知识图谱在具体领域的应用前景分析。如文献21探讨了科学知识图谱用于分析学科前沿与热点问题,帮助寻找学科中的盲点,文献22研究了学科知识图谱的绘制及其在学科发展监测与评价中的应用,文献23探讨了利用知识图谱来进行期刊选题策划、遴选审稿专家等。 定量研究的有53篇文献,占总体的87%。它们主要是通过对数据的分析和处理,将某一主题、学科、期刊、机构等对象的研究现状、研究前沿、热点主题等以可视化的方式呈现。下面对定量研究成果做进一步分析。4.1 知识图谱研究依托的数据源及研究数据的时间跨度本文择取

13、了以定量研究为主的研究成果进行分析。从图4看,定量研究文献的数据主要来源于国内外四个不同的数据库,其中国外数据库占67%,而国内数据库占33。这反映出国内知识图谱的研究是以国外数据为主,国内数据的利用相对较弱。从研究数据的时间跨度看(见图5),最长的达到64年,最短的只有一年,最长是10年。时间跨度的长短与数据库收录数据的时间范围有极强的相关性。如CSSCI数据是从1998年开始,直接利用它来进行研究时只能是1998年之后的不同时间段。 图4 研究成果数据源的分布情况 图5 研究成果数据时间跨度的分布情况4.2 知识图谱研究的主题分布关键词是论文作者表达论文的内容和方法的专业术语,它反映了论文

14、的研究主题。本文根据关键词(去重后为114个)的共现数据,利用Ucinet生成一个共词网络。从图6看,知识图谱、科学知识图谱、科学计量学、共词分析、可视化这些关键词在网络中占据着核心的地位。这反映了国内知识图谱研究对象比较广泛,但研究方法、主题相对集中的特点。图6 知识图谱研究的共词网络图7知识图谱实证研究对象的分布情况为进一步分析知识图谱研究的主题,本文将定量研究成果分为三类:主题知识图谱、学科知识图谱和其它图谱。从图7看,这三类当中,主题知识图谱的研究成果最多,占总体的近一半。从表1看,国内知识图谱的研究对象非常丰富,既有自然科学,也有人文社会科学。同时,还可以发现实证对象与研究数据来源有

15、很大的相关性。以web of science等为数据源对国际相关研究领域成果的可视化分析,如国际奥林匹克运动、国际信息政策、国际生物制氢等;而以中国期刊全文数据库、CSSCI等为数据源的成果是对国内相关研究领域研究现状、研究前沿、热点话题等方面的可视化分析。表1 知识图谱定量研究的对象研究内容具体内容主题知识图谱国际奥林匹克运动、国际信息政策、国际科技人力资源、国际旅游、国际生态文明研究、国际生物制氢、国际先进制造技术、国际创新管理、国际创业型大学、国内社区与社区服务、国内生命周期理论、国内自然辩证法、科学传播、国内外企业风险管理、区域创新系统、科学知识图谱、政府绩效管理、创新理论、LED、国际创新管理、引文分析、我国技术创新领域、创新系统、中国技术创新理论、科学传播、独立学院、我国生态可持续发展学科知识图谱国际科学学、国际高等工程教育学、国际生物科学与工程、美国军事医学、力学、管理学、图书情报学、经济学、中国农史、情报学、工程教育、档案学、我国循证医学、认知神经科学、中国科学学其它图谱科学计量学家;科学哲学、中国科技期刊研究、情报科学;卓越科研机构;辽宁高校自然科学学科分布4.3 知识图谱研究方法的共现网络图8知识图谱研究方法的共现网络本文从论文的关键词、摘要、正文等途径获取了定量研究成果使用的研究方法,共涉及到

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号