基于大数据的主动科研管理模式与优化决策机制

上传人:罗崇****屋 文档编号:170264932 上传时间:2021-03-01 格式:DOCX 页数:13 大小:178.34KB
返回 下载 相关 举报
基于大数据的主动科研管理模式与优化决策机制_第1页
第1页 / 共13页
基于大数据的主动科研管理模式与优化决策机制_第2页
第2页 / 共13页
基于大数据的主动科研管理模式与优化决策机制_第3页
第3页 / 共13页
基于大数据的主动科研管理模式与优化决策机制_第4页
第4页 / 共13页
基于大数据的主动科研管理模式与优化决策机制_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《基于大数据的主动科研管理模式与优化决策机制》由会员分享,可在线阅读,更多相关《基于大数据的主动科研管理模式与优化决策机制(13页珍藏版)》请在金锄头文库上搜索。

1、摘要:在科研管理过程中,从科研人员、项目、成果产出等多维度可获取大量数据。科研管理大数据背后蕴含着丰富的、复杂关联的知识。科研管理大数据中信息与知识的有效、丰富,依赖于科研管理知识图谱的建立。采用开放知识网络模型方法,以构建“专家图谱”为例,融合分析了科研管理大数据中的关联知识和潜在信息,并探讨基于这些技术手段,如何将传统被动的管理模式转变为主动的科研管理模式,进而建立基于大数据的新型管理模式与决策机制。关键词:大数据;开放知识网络;科研知识图谱;主动科研管理;科研管理决策1 引言大数据已成为社会各界关注的新焦点。大数据时代的到来,使得科学研究的管理和组织方式发生了极大的变革。继实验科学、理论

2、科学、计算科学之后,科研范式(即数据密集型范式)进入了大数据驱动的第四范式,各项科学活动产生的数据正在日益增加。与此同时,由这些科学活动、科技成果等构成的科研数据的价值也逐渐受到各领域的关注。对于科研领域,公开科研数据一方面可以帮助科研人员提升自身的科研影响力,另一方面也可以避免由于信息不对等造成的科研活动与科研资金的重复与浪费;对于政府部门,公开科研数据可以为政府响应国家战略号召与满足社会应用需求提供强大的数据支撑。现今,科研数据的大量产生、科研数据价值的迅速凸显等问题迫切需要科研管理者采取措施对其进行妥善管理。大数据具有不同于传统数据工程的5个明显的特征,即5V特性,具体为:大数据规模巨大

3、;大数据类型繁多;产生速度快,处理能力要求高;数据真伪难辨,可靠性要求更严格;价值大,但密度低,挖掘难度大。目前对于科研大数据的管理主要有两种方式,即技术手段和人文手段。其中,人文手段包括制定科研数据管理政策,为科研数据管理提供明确框架和规范,保障科研数据管理的科学性。根据数据产生的时间,科研管理大数据可以分为历史数据和动态数据。其中,历史数据以成果数据(如论文、专利、著作、奖励等)、项目数据为代表,动态数据以科研人员行为(如参加学术会议、进行学术报告等)为代表。使用分类、聚类、统计分析、关联分析等方法对科研管理大数据中的历史数据进行深度挖掘和分析,可以发现数据中隐藏的线索、规律、模式。比如对

4、科研人员影响力的分析可以帮助发现有价值的科研方向和科研项目。如果将这些时间敏感的数据看成一个随机序列,那么根据历史序列值和当前序列值进行合理推断,就可以预测未来序列值,并使用数学模型对这种序列进行近似描述。因此,如果想要从历史数据中挖掘重要信息,并预测未来数据,就需要对历史数据进行因素分析、模式识别、参数估计、假设检验。科研管理大数据的直接表现形式往往是分散的数据和链接,将这些反映相互关系的链接整合起来就是一个网络。这个网络中的数据大多为非结构化数据,且数据具有来源多样化、实时性强、突发性强、高噪声等特点。该网络中包含数据信息、关联信息、网络结构等信息。有效利用科研管理大数据可以有效地对数据进

5、行消歧、去重、挖掘以及深入分析。近年来,工业界和学术界都致力于开放大数据知识库的研究和开发工作。目前,国内外相关知识库和应用系统已达上百种,包括KnowItAll、TextRunner、NELL、Probase、Satori、Prospera、Sofie以及一些基于维基百科等在线百科知识构建的知识库(如DBpedia、YAGO、Omega、WikiTaxonomy)。除此之外,在对开放大数据的管理、计算和分析方面,国内外已经发布许多相关的知识搜索计算平台,如Evi公司的TrueKnowledge知识搜索平台、Google公司的知识图谱(Knowledge Graph)、Facebook公司的实

6、体搜索服务(Graph Search)等。其中影响力较大的有Probase和Google公司的知识图谱。Probase拥有千万级概念,是拥有概念数最多的知识库。Google公司的知识图谱拥有亿级实体和百亿级关系。本文分析了科研管理中的大数据,根据获取方式可以分为历史数据、生成数据和开放数据,并提出了应用开放知识网络对科研管理大数据中的知识进行建模的方法,进一步以科研论文合作为案例,构建了“专家图谱”,通过数据对比,分析了利用科研管理知识图谱可以进行的一系列有效的主动科研管理和优化科研决策等具体应用。2 科研管理中的大数据根据获取方式的不同,可以把科研管理中的大数据分为历史数据、生成数据、开放数

7、据3个类型,在科研管理过程中依据不同的应用需求对这些数据进行融合。2.1 历史数据自20世纪末推行高校和科研机构信息化建设以来,很多机构内部建立了科研管理系统,在科研人员或科研管理人员将相关数据输入系统的被动阶段已经积累了大量的原始数据,如科研课题的立项和结题(含纵向课题、横向课题等)、科研合同经费(含配套经费、经费预算、经费到账等)等信息的录入、修改、查询、统计报表。科研活动进行过程中会产生项目信息(如申报书、审批书、中期报告、结项报告等)、学术论文、学术著作、演示文稿、研究报告、试验数据、软件代码、多媒体资料以及用数字形式表达的想法、观点、经验及诀窍的总结等科研成果和信息资源。尽管管理人员

8、只能通过简单的操作(如排序、统计)获取一些表面信息,但这些原始数据的积累为大数据时代的到来奠定了基础。这些数据使得科研成果的查询和管理更加方便、快速,还可以帮助管理人员掌握科研人员的整体科研情况和重点研究方向等。2.2 生成数据数据的另一个产生途径是科研人员主动发布数据。然而,科研人员很少主动推送数据,因此,科研管理部门需要承担起这个职责,建立相应平台,促进科研人员间的信息交互。具体地,科研管理部门可以在现有系统的基础上,添加信息采集模块,供科研人员自主填写信息。这些信息可以为以后的科研活动和项目提供宝贵的数据基础。除此之外,科研管理部门也要组建学术交流平台,促进科研人员间的学术交流和合作,如

9、组建跨学科科研小组、推广个人科研成果等,避免在研究中出现“闭门造车”的现象。2.3 开放数据开放数据近年来的快速增长主要得益于两个方面。一方面是数字化平台和设备的快速发展,首先学术性社交平台(如学术博客、微博)的快速发展促进了科研人员在公开网络平台中展示个人学术成果、交流学术心得;其次新型移动设备(如智能手机)具有易于携带、可随时接入网络等特点,便于科研人员随时在开放网络中发表个人学术见解。这个阶段数 据的产生方式是主动的。另一方面是科研管理系统与其他数字化平台关联度的增加,不同部门、不同功能的管理系统之间的数据共享和自动匹配可以帮助科研管理系统更方便地进行信息收集和管理。3 科研管理知识图谱

10、构建科研管理知识图谱的构建基于科研管理数据的获取和融合。在构建科研管理知识图谱时,首先要构建知识图谱的基本构成要素,包括概念、实体、属性和关系。知识图谱的构建可以分为手工构建和自动构建。手工构建比较典型的例子是知网(HowNet)、同义词词林、概念层次网络(hierarchical network of concepts, HNC)和OpenCyc等。本节应用开放知识网络(open knowledge network, OpenKN)对科研管理数据进行建模表示,以科研学术数据为例,对专家图谱中的隐性知识挖掘和合作关系推荐等进行研究,为主动科研管理和优化决策提供支持。3.1 科研管理知识的表示本

11、文采用开放知识网络统一表示科研管理知识。首先构建一个以多种类型的科研实体为节点、实体间关系为边的异构开放知识网络。其中,节点类型包括作者(A)、论文(P)、会议(C)、组织(O)和关键词(K),相应地,节点间边的关系类型包括作者间的学术合作(如论文合作、项目合作等)、论文间的引用关系等。网络中的每一个节点和边都包含特定的时间和空间属性信息。在科研学术网络中,这些时空属性信息包括作者的工作地点、合作的产生时间等。具体地,已知时间集合T和空间集合S,已知节点的类型集合为N,边的类型集合为R,在T、S时空属性下的开放知识网络GT,S可以表示为如下的八元组形式:其中,V是网络中节点的集合,E是有向边的

12、集合,即一系列关系对(u,v,r)的集合,其中u,vV,rR ,即每对点都被赋予了一个或多个关系。、 为映射函数,在构建科研管理开放知识网络的过程中,使用映射函数表示集合间的关系。图1展示了一个小规模的科研领域的开放知识网络结构。具体地,网络中不同颜色的节点表示不同类型的实体,该网络的点集合为V=a,b,c,d,e,f,g,h,i,j,k,l,m,n,时间集合为T=t1,t2,t3,t4,空间集合为S=s1,s2,s3,图1中列举了该科研管理网络中点集合和边集合上的映射函数以及相应的函数值。在科研管理网络中, :VN为点集合到点类型的映射函数,对于V中的任意元素v,都可唯一确定其类型(v)N,

13、图1中等式 (a)A表示点a的类型是A。:ER为边集合到关系类型的映射函数,其中边用三元组的形式表示。图1中等式a,b,coauthor=coauthor和a,b,citation=citation表示在节点a、b之间存在合作和引用关系,因此可知每对点之间的关系类型最多有|R|个。:V2T为点集合到时间集合的映射函数,可通过计算点的时间戳来描述点的生命周期,其中2T是集合T的幂集,图1中等式 (a)=t1,t2表示在点a上的时间映射函数。:E2T为边集合到时间集合的映射函数,可通过计算边的时间戳来描述边的存在时间,图1中等式a,b,coauthor=t1,t4表示在边 (a,b,coautho

14、r)上的时间映射函数。:V2S为点集合到空间集合的映射函数,可通过计算点的空间信息来描述点的活动轨迹,图1中等式 (a)=s1,s3表示在点a上的空间映射函数。:E2S表示边集合到空间集合的映射函数,可通过计算边的空间信息来描述边的存在轨迹,图1中等式a,b,coauthor=s2表示在边(a,b,coauthor)上的空间映射函数。图1科研领域开放知识网络结构示意需要指出的是,由于OpenKN的知识库可以是与领域相关的,所以开放知识网络也可以是与领域相关的,即点集合到点类型的映射函数 与边集合到关系类型的映射函数 都与领域相关。3.2 专家图谱本节内容阐释学术网络领域的开放知识网络的自增长过

15、程。笔者从互联网上的开放学术页面中爬取数据,寻找开放知识网络的5类节点(作者、文章、组织、会议、关键词)。笔者从DBLP(database systems and logic programming)书目网、微软学术搜索、Google学术搜索等多种资源中开放式地获取数据。笔者从在1928年到2012年信息检索、数据挖掘、人工智能、机器学习和计算机科学这5个领域的顶级会议上发表超过3篇论文的作者中选取一个子集,作为种子使用者;接下来,寻找这些作者的合著者、隶属的组织以及在他们文章中提到的关键词。这些作者、文章、组织、会议以及关键词的总数分别是2 030、857、920、260和7 004。将这些

16、数字相加得到学术开放知识网络的11 071个顶点。针对这个网络的边,笔者在表1中列举了这些概念间的所有有向关系的类型,其中前两列是概念对和它们间的双向关系,第三列表示关系存在的时间,其中,t表示开始时间,t表示结束时间,表示无穷长。数据集中有如下关系的事例对的总数是29 332。构建好科研学术开放知识网络后,继续确定这个原始的知识网络。事实上,笔者已经证实这个过程可以通过从开放知识网络中抽取特定的三角形(网络中由节点和边构成的三角结构)来完成。因此,笔者从科研学术开放知识网络中找到所有的三角形,从中随机选取150个三角形,并保证这些随机选取的三角形的所有的顶点包含了全部的节点类型。接下来,对于每个三角形,任意去除其一条边,并且使这些去除的边的关系尽可能

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号