大数据驱动下的图书情报学科热点领域挖掘——面向wos题录数据的实证视角

上传人:小** 文档编号:34099464 上传时间:2018-02-20 格式:DOC 页数:13 大小:149KB
返回 下载 相关 举报
大数据驱动下的图书情报学科热点领域挖掘——面向wos题录数据的实证视角_第1页
第1页 / 共13页
大数据驱动下的图书情报学科热点领域挖掘——面向wos题录数据的实证视角_第2页
第2页 / 共13页
大数据驱动下的图书情报学科热点领域挖掘——面向wos题录数据的实证视角_第3页
第3页 / 共13页
大数据驱动下的图书情报学科热点领域挖掘——面向wos题录数据的实证视角_第4页
第4页 / 共13页
大数据驱动下的图书情报学科热点领域挖掘——面向wos题录数据的实证视角_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《大数据驱动下的图书情报学科热点领域挖掘——面向wos题录数据的实证视角》由会员分享,可在线阅读,更多相关《大数据驱动下的图书情报学科热点领域挖掘——面向wos题录数据的实证视角(13页珍藏版)》请在金锄头文库上搜索。

1、大数据驱动下的图书情报学科热点领域挖掘面向 WOS 题录数据的实证视角 李信 李旭晖 陆伟 黄薇 武汉大学信息管理学院 武汉市医学科学研究所 摘 要: 文章以 Web of Science TM 核心集中图书情报学科的“大数据”“数据驱动”文献为数据源, 分析大数据驱动下图书情报学科研究的现状和进展;借助 SATI和 SPSS 软件对 507 篇文献的关键词进行共词分析和聚类分析。研究表明:大数据驱动下的图书情报学科研究热点主题主要集中在数字图书馆知识组织与语义互联、社会网络大数据、科研大数据管理与共享、云计算与信息安全、政府数据开放与共享、大数据驱动的知识发现、E-learning 与高等教

2、育、数据挖掘与数字人文等方面。关键词: 大数据; 数据驱动; 图书情报; 共词分析; 聚类分析; 作者简介:李信, 武汉大学信息管理学院博士生;作者简介:李旭晖, 博士, 武汉大学信息管理学院副教授;作者简介:陆伟, 武汉大学信息管理学院教授, 博士生导师;作者简介:黄薇 (通讯作者) , 武汉市医学科学研究所副研究馆员, huangw_。收稿日期:2016-08-08基金:国家自然科学基金面上项目“本体导向的大规模语义信息声明式抽取方法” (项目编号:61272110) ;国家自然科学基金面上项目“面向词汇功能的学术文本语义识别与知识图谱构建” (项目编号:71473183) 和博士后基金面

3、上项目“大数据环境下的知识管理与搜索方法研究” (项目编号:2014M562070) 研究成果Analysis of Progresses and Frontiers of Big Data-driven Library and Information ScienceLI Xin LI Xu-hui LU Wei HUANG Wei Abstract: On the basis of literatures about the subjects of “big data”and “data-driven”from Web of ScienceTM, this article analyzes

4、the present research and progress of big data-driven library and information science. The authors use the co-word analysis and clustering methods to process the all 507 papers with the help of SATI and SPSS software. The results show that knowledge organization for digital library and semantic inter

5、connected, big data from social network, scientific data management and sharing, cloud computing and information security, government information open accessing and sharing, big data-driven knowledge discovery, e-learning and higher education, data mining and digital humanities are the eight frontie

6、rs in this field. Then every hot research topic is analyzed in details.Keyword: big data; data-driven; LIS; co-word analysis; clustering; Received: 2016-08-080 引言随着信息技术发展, 数据密集型科研时代到来1, Gray J 将其称为科学研究的第四范式2。在这种背景下, 大数据成为各学科研究的知识基础3-4, 数据驱动的方法和理念成为大数据利用的引擎, 推动着科研发展5。作为新兴信息科学和计算技术应用的排头兵, 图书情报领域的学者密切关

7、注大数据技术和数据驱动理念在图书情报研究中的应用, 研究成果相继涌现。王春华等6通过共词分析对国内图书情报领域的大数据研究现状进行梳理;刘成山等7对 SCI和 CSSCI 中图书情报领域的大数据研究成果进行对比分析。这些研究具有较大的参考价值, 但在研究数据的获取范围和高频词分析上存在局限性, 也没有深入分析大数据驱动下的国际图书情报领域研究情况。因此, 本文利用“big data”“data-driven”作为主题词进行检索, 全面获取国际上大数据驱动下图书情报研究成果, 并对大数据驱动下的图书情报领域进展进行分析;在此基础上, 结合文献和词频对热点关键词进行筛选, 通过共词分析和聚类分析,

8、 尝试揭示国际大数据驱动下图书情报学科的研究热点。1 数据与方法1.1 数据来源本研究数据源为 Web of Science 核心集合。检索策略为:主题= (“big data”) OR (“data-driven”) , 时间跨度=“1900 年-2016 年”, 语种限定为“English”, 2016 年 6 月 10 日共检索到 44491 篇文献;通过将“Web of Science 类别”限定为“INFORMATION SCIENCE LIBRARY SCI-ENCE”, 精炼得到图书情报研究领域以“大数据”“数据驱动”为主题的记录共 507 条。1.2 研究方法本研究主要采用共词

9、分析和聚类分析的方法。共词分析是内容分析方法的一种, 主要原理是在某一研究领域的文献库中出现频次较高的热点关键词可以表达该领域的研究热点主题和发展动向8;关键词对共现于同一文献的次数越多, 则代表其所表达的两个主题关系越密切9。通过对热点关键词共现矩阵进行聚类分析, 可以将关系密切的多个主题聚成概念相对独立的团簇, 表示某一研究领域的热点分支, 其中同一团簇内主题相似性最大, 团簇与团簇之间的相似性最小10。本文通过文献题录工具 SATI 3.211获得大数据驱动下图书情报领域研究的热点关键词, 并生成热点关键词共现矩阵, 进行共词分析;然后使用SPSS 20.0 进行聚类分析, 梳理大数据驱

10、动下的图书情报领域研究热点主题, 以期为大数据背景下的图书情报研究提供借鉴。2 大数据驱动下的图书情报领域研究概况2.1 年度发文量分布走势年度发文量分布走势是文献量在时间节点上的映射, 也是研究热度随着时间推移的具体表现。将采集到的有效题录中的年份数据录入 Excel 并按照升序排列, 如图 1 所示。图 1 国际图情以“大数据”“数据驱动”为主题的发文量分布走势 下载原图从图 1 可以发现, 图书情报领域“大数据”和“数据驱动”研究总体发展可以分为 3 个时期:1996 年至 2004 年是前期萌芽期 (a1) , 2005 年至 2011 年是中期探索期 (a2) , 2012 年至今是

11、高速发展期 (a3) 。每个时期内的文献分布特征如下:在跨度为 9 年的 a1 时期, 年度文献量均在 10 篇以下, 最早的一篇论文是哥伦比亚大学的 Shea 等12在 1996 年发表在美国医学信息协会杂志上的 A meta-analysis of 16 randomized controlled trials to evaluate computer-based clinical reminder systems for preventive care in the ambulatory setting 一文。在跨度为 7 年的 a2 期, 年度文献量基本保持在 10篇至 20 篇, 其

12、中 2008 年出现一个波峰 (29 篇) , 这正好与“大数据”在学术界被正式提出的时间 (2008 年) 相吻合, 说明图书情报领域的学者敏锐地捕捉到“大数据”动态, 并初步将其应用于图书情报相关研究, 为后续研究的快速发展奠定了扎实的基础。a3 时期 (数据更新至 2016 年 6 月 10 日) 是图书情报领域“大数据”和“数据驱动”研究的热点时区, 年文献量增长迅速。2.2 研究力量国家 (地区) 分布研究力量国家 (地区) 的分布情况可反映一个研究领域的主要研究力量空间分布态势。通过对 507 篇文献进行统计分析可知, 大数据驱动下的图书情报研究力量分布在 58 个国家 (地区)

13、所属的 551 个研究机构中。从统计结果中可以发现如下特征: (1) 发文量大于 2 篇的国家 (地区) 有 40 个, 占 69%, 约 80.8%的研究机构仅贡献 1 篇文献, 发文量大于 2 篇的机构仅有 50 个, 约占 9.1%。 (2) 从发文频次看, 美国贡献最大, 发文量是排名第二的中国大陆的 4.42 倍;发文量大于 11 篇的国家 (地区) 有 11 个, 见表 1。发文量大于 5 篇的研究机构有 10 个, 排名第一的是发有 9 篇论文的英国伦敦大学学院 (UCL) , 见表2。 (3) 从表 2 可知, 发文量排名前十的研究机构中仅有 4 个不是 i Schools成员

14、, 说明 i Schools 成员对大数据驱动下的图书情报研究具有领先优势;发文量前十的研究机构有 8 所属于美国。表 1 大数据驱动下的图情领域的主要研究力量国家 (地区) 分布 下载原表 表 2 大数据驱动下的图书情报领域主要研究机构分布 下载原表 2.3 核心作者分析和主要发文期刊507 篇文献来自 1278 位作者和 169 种学术期刊。发文量最多的作者是田纳西大学的 Nicholas D 教授, 共发表 10 篇文献, 均为第一作者。发文量大于 1 篇的作者 65 位, 占 0.16%。发文量大于 4 篇的作者 6 人, 将题录数据导入 Hist Cite 软件后发现, 6 人发表文

15、献的本地被引总次数 (Total Local Citation Score, TLCS) 均不超过 5 次。以 TLCS 降序对作者进行排列, 得到 TLCS 最高的作者是来自亚利桑那大学的 Hsinchun Chen, 达 13 次, 但他仅发表 1 篇文献。这说明大数据驱动下的图书情报研究尚未有核心作者产生。此外, 对 169 种期刊进行统计分析发现, 载文量最多的期刊是美国医学信息协会杂志 (JOURNAL OF THE AMERICAN MEDICAL IN-FORMATICS ASSOCIATION, JAMIA) , 共 43 篇文献;排名第二的是科学计量学杂志 (SCI-ENTO

16、METRICS) , 27 篇。载文量大于 5 篇的期刊仅有 15 种, 占总数的 11.6% (见表 3) 。从 TLCS来看, 本地被引最多的期刊是管理信息系统季刊 (MIS QUARTERLY) , 达14 次;有 10 种期刊的 TLCS 大于 1 次, 其中美国医学信息协会杂志的本地被引总次数仅为 4 次。表 3 大数据驱动下的图情领域发文量大于 10 篇的期刊 下载原表 3 大数据驱动下图书情报领域研究热点关键词的聚类分析3.1 热点关键词列表的生成笔者将上述 507 篇文献题录导入刘启元等13开发的文献题录信息统计分析工具 SATI3.2 中, 经过去重、转换、提取关键词, 共获得关键词 1448 个, 分别将意思相近或无实际意义的词合并、去除, 并按频次降序排列, 得到频次大于或等于 4 的 42 个关键词, 生成如表 4 所示的热点关键词列表。从表 4 可知, 围绕“big data”“data-dr

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号