研究型科技文献的实验数据自动抽取研究——以药物代谢动力学文献为例

资源描述

《研究型科技文献的实验数据自动抽取研究——以药物代谢动力学文献为例》由会员分享，可在线阅读，更多相关《研究型科技文献的实验数据自动抽取研究——以药物代谢动力学文献为例（10页珍藏版）》请在金锄头文库上搜索。

1、研究型科技文献的实验数据自动抽取研究以药物代谢动力学文献为例赵丹宁牟冬梅斯琴吉林大学公共卫生学院摘要：以研究型科技文献摘要为对象, 结合内容分析、语义分析和语法分析构建研究型科技文献的实验数据自动抽取模型, 并以药物代谢动力学领域文献摘要为自动收取对象, 根据得到的实验数据抽取结果验证该自动抽取模型的应用性。结果发现, 该模型能够有效地对研究型科技文献实验数据进行自动抽取, 在帮助科研人员提高对科技文献的信息获取速度的同时, 也为图书情报领域在未来更好地为其他领域科研人员提供知识服务奠定了基础。关键词：科技文献; 实验数据; 自动识别; 信息抽取; 作者简介：赵丹宁女, 吉林

2、大学公共卫生学院 2015 级医学信息学专业博士研究生, 研究方向为医学数据整合与知识服务。作者简介：牟冬梅女, 吉林大学公共卫生学院教授, 博士生导师, 研究方向为医学数据整合与知识服务。作者简介：斯琴女, 毕业于吉林大学公共卫生学院。收稿日期：2017-09-15基金：国家自然科学基金面上项目“嵌入式知识服务驱动下的领域多维知识库构建”, 项目编号:71573102Research on Experimental Data Automatic Extraction of Scientific and Technological LiteratureA Case Study of Pha

3、rmacokinetic LiteratureAbstract： Experimental data automatic extraction model of scientific and technological literature is constructed with the object of scientific literature abstract, and combined with content analysis, semantic analysis and grammar analysis. The main object is pharmacokinetic li

4、terature. The application of the model is verified by the extracted results. It shows that the model automatically extracted experimental data of scientific literature efficiently. It helps researchers to raise the efficiency of information acquisition, and lays a foundation for researchers in other

5、 fields to offer information service by libarary and information institutions in the future.Keyword： Scientific literature; Experimental data; Automatic identification; Information extraction; Received： 2017-09-151 引言自 2003 年以来, 全球的科研投入呈现迅猛增长态势1, 与科研投入同步增长的还有数量庞大的科技文献, 在 Elsevier 的 Scopus 数据库中, 仅 20

6、13 年经同行评议期刊所发表的文章就达到了 220 万篇2。这些科技文献按题材可分为研究型、综述型和评论型, 其中研究型占发表论文总数的比重最大3。研究型科技文献是科技知识的重要载体, 蕴含了丰富的显性知识和隐性知识, 包含了大量创新型研究实验数据, 包括在研究过程中所使用的方法、条件以及得到的结果, 能够为其他研究人员提供科学的指导和借鉴。但目前对于科技文献往往仅通过分类号、关键词标注其所属研究领域和研究主题, 而对科技文献所包含的科研假设、研究方法、实验、背景、动机、模型、结果和结论等深层次有价值的知识内容缺乏标注和抽取, 更缺少利用这些数据进行知识发现的研究。因此, 如何从大量相关文献中

7、快速、准确地抽取实验数据以利于数据挖掘与知识发现成为了目前亟待解决的问题。实验数据是在科学探究过程中观察并记录的第一手证据, 其作为一种文本信息是信息抽取研究的一个方面。笔者提出了一种针对领域科技文献摘要的实验数据抽取模型, 将内容分析与句法分析相结合, 利用自然语言处理技术对语段、语句、词语进行逐层识别, 使科技文献的实验数据获取更为准确, 帮助科研人员更加高效地获取科技文献中的研究成果, 从而提高图书馆数据管理和数据服务的技术, 使之从传统服务走向以学科服务、数据服务、情报服务等为特点的新型高效智能化服务。2 相关研究信息抽取技术繁荣于 20 世纪 80 年代, 其具体实现方法主要有基于规

8、则方法和自动训练方法两种。基于规则方法在一定程度上促进了信息抽取的进步, 其优点是通过人工制定规则的方法对信息进行提取更为准确, 但主要问题是费时费力、抽取效率低下;而自动训练方法能够较好地解决这一问题, 事先按要求标记一定数量的语料库, 系统通过学习语料库中的样本寻找规律自动处理其余新文本, 但与人工制定规则的方法相比抽取的准确率较低;因此, 本文采用两者相结合的方法, 以提高抽取效率和准确率。近年来, 随着科技文献的大量累积, 一些研究人员开始针对科技文献的信息抽取展开研究。杨中国等综合利用引用分布特征、篇章关系特征、否定情感特征构建具有普适性的信息抽取语义模式, 从论文原始文本中通过匹配

9、定义好的语义模式抽取出问题分析信息, 同时利用引导词特征、语义相似度计算从论文文本中抽取出论文的主要工作信息4。在科技类的实验文献方面, 冷伏海等针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题, 综合运用语义标注技术、规则抽取技术以及正则表达式技术, 提出一种面向科技文献的混合语义信息抽取方法5。朱丽萍等通过手工标注实验语料句总结出目标句子的特征并且构建特征库, 基于特征及机器学习的抽取方式对自然语言类科技文献的实验语料句进行抽取6, 大大提高了抽取性能, 也为后续的技术发展提供了支持和可能。综合国内外研究情况可以发现, 对于信息抽取的研究已经涉及到诸多领域,

10、但在研究型科技文献方面的研究仍然较少, 对科技文献所包含的研究方法、结果和结论等深层次有价值的知识内容缺乏标注和抽取, 且已有的方法尚不能很好地区分研究方法和研究结果中存在的属性交叉问题。3 研究型科技文献摘要实验数据抽取理论模型对研究型科技文献摘要进行信息抽取, 首先需要针对其特定书写方式进行梳理。研究型科技论文摘要的内容通常包括研究背景、研究方法、研究结果和研究结论等, 其中完成研究所需的实验条件和在该条件下得到的实验结果分别记录在研究方法和研究结果中, 因此, 研究方法和研究结果在本文中均作为实验数据进行抽取。为了确保对研究型科技文献实验数据抽取的有效性和准确性, 本文构建了基于内容分

11、析、语义分析和语法分析的 3 层抽取模型, 如图 1 所示。图 1 研究型科技文献实验数据抽取模型下载原图3.1 内容分析层信息自动抽取要解决的关键问题是确保所抽取信息的准确性。在一些领域科技文献中, 研究背景、研究方法和研究结果的表达方式存在一定的交叉, 如在化学、医学等领域中, 研究背景、研究方法和研究结果中均可能涉及实验对象、时间、浓度、温度等属性数据, 直接提取容易造成混淆, 因此, 模型的第一层采用内容分析的方法将摘要按研究背景、研究方法、研究结果和研究结论等进行划分, 为语义分析和语法分析奠定基础。研究型科技文献的摘要格式总体分为结构化和非结构化两类:结构化摘要条理清晰, 结构提

12、示词将摘要按内容划分语段, 如“O B J E C T”“M E T H O D”“R E S U L T”“C O N C L U S I O N”等具体特征词语, 占总体接近半数, 因此可以通过识别结构提示词进行语段划分;而非结构化摘要即指无结构提示词, 但通过对样本的分析可以发现, 其方法和结果的描述性试验语句具有一定位置特征, 研究背景通常写在研究方法之前, 研究方法写在研究结果之前, 研究结论在最后。因此, 可以通过人工标注的方法得到训练集, 采用有监督的机器学习方法找出结构特征词, 进行特征提取, 并加入参数, 将多个特征进行权重分配, 形成非结构化摘要语段划分的标准。为了进行结构

13、特征词提取, 首先需要对词的权重进行判定。TF-IDF (Term Frequency Inverse Document Frequency) 是一种用以评估一个词对于一份文件的重要程度的统计方法, 其主要思想是:如果某个词或短语在一篇文章中出现的频率高, 且在其他文章中很少出现, 则可以认为该词或短语具有很好的与其他文章相区分的能力7。根据这一思想, 可以利用词在摘要中不同位置出现频率的不同作为判定标准, 当一个词语在研究背景中出现频率很低而在研究方法首句中出现频率很高时, 即可认为该词具有指向方法的特异性。同理, 当一个词语在研究背景和研究方法中出现频率均较低, 但在结果首句中的出现频率很

14、高时, 即可认为该词具有指向结果的特异性。根据这一原理, 分别对研究背景、研究方法、研究结果 (研究结论并入研究结果中) 、研究方法首句和研究结果首句 5 个部分进行词频统计, 根据公式 1 和公式 2 对每个词的权重进行计算, 结果按权重值从高到低排列。其中, 公式 1 中u 1, u2, , um表示方法首句中出现的词的集合, m 表示方法首句中出现的词的个数;对于任意一个 ui, i= (1, 2, , m) , FMi表示 ui在方法首句中出现的频率, BM i表示 ui在实验背景中出现的频率, Weight (u i) 表示 ui的权重值。公式 2 中, v 1, v2, , vj表

15、示结果首句中出现的词的集合, n 表示结果首句中出现的词的个数;对于任意一个 vj, j= (1, 2, , n) , FRj表示 vj在结果首句中出现的频率, BR j表示 vj在实验结果前出现的频率, Weight (vj) 表示 vj的权重值。在通过公式 1 和公式 2 计算得到方法首句和结果首句中出现的词的权重后, 对各词的权重值进行排序, 选择权重值高于阈值的词作为特征词。利用结构提示词和结构特征词, 可以分别将结构化和非结构化的摘要划分为研究背景、研究方法、研究结果和研究结论 4 个语段, 为语义分析和语法分析奠定基础。3.2 语义分析层对科技文献实验数据进行抽取, 需要对所要抽

16、取的信息进行定位。由于研究型科技文献的实验数据多为文本与数字的混合, 具有非结构化、多维度、海量、复杂关联等特点, 因此给抽取工作造成一定的困难。为了解决这一问题, 本文将语义分析作为模型的第二层, 利用本体映射技术对命名实体进行识别, 将自然语言编写的非结构化文献数据转化为结构化的、计算机可处理的数据。本体映射的基础是本体的构建, 不同的领域因其研究内容不同, 研究方法和结果的内容及表达形式也有较大差异, 因此本体的构建具有一定的领域特征性。通过构建领域本体, 可以与摘要中的文本数据建立映射关系, 识别研究方法和研究结果中的实验对象、实验模型、实验设备、实验条件、实验结果参数等命名实体, 并利用语法分析层进行进一步的抽取。科技文献的语义描述模型有 Sci Annot Doc8、Core SC9、AZ10。这些模型大同小异, 仍然是旨在揭示论文的发现 (finding) 、假设 (hypothesis) 、方法 (methodology) 、相关工作 (related w

展开阅读全文