基于多重规则的学术定义抽取研究

上传人:E**** 文档编号:117986366 上传时间:2019-12-11 格式:PDF 页数:49 大小:283.33KB
返回 下载 相关 举报
基于多重规则的学术定义抽取研究_第1页
第1页 / 共49页
基于多重规则的学术定义抽取研究_第2页
第2页 / 共49页
基于多重规则的学术定义抽取研究_第3页
第3页 / 共49页
基于多重规则的学术定义抽取研究_第4页
第4页 / 共49页
基于多重规则的学术定义抽取研究_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《基于多重规则的学术定义抽取研究》由会员分享,可在线阅读,更多相关《基于多重规则的学术定义抽取研究(49页珍藏版)》请在金锄头文库上搜索。

1、中国科学技术信息研究所 硕士学位论文 基于多重规则的学术定义抽取研究 姓名:刘一宁 申请学位级别:硕士 专业:情报学 指导教师:郑彦宁 2011-05 I 基于多重规则的学术定义抽取研究基于多重规则的学术定义抽取研究 摘 要摘 要 学术定义是科学研究的基础概念与对象。学术定义明确的界定学术概念的 研究范畴,其内涵丰富,表述严谨,具有高度的概括性。在期刊论文中会大量 出现各种学术概念的定义。将期刊论文中的定义抽取出来,并将关于同一概念 的所有定义汇总起来,不仅可以横向展示于同一概念的不同定义,让用户能够 更好的理解这些概念;还能将检索的粒度由原来的篇为单位,转变成知识集合 为单位。 本文通过总结

2、其他学者关于定义抽取的研究,提出了一种构建多重学术定 义抽取规则构建的方法。该方法首先通过分析定义类语句的结构特征,提出了 模式规则构建方法;然后通过分析定义类语句的语法特征,提出了语法规则构 建方法;最后通过对词频的统计,提出了加权词筛选法。然后以情报理论与 实践2009 年文章为数据,利用该方法构建了一套抽取规则。 本文还设计了一个抽取系统。利用构建出来的规则,该系统可以抽取文本 中的定义语句。该系统主要包括 4 个模块,分别是预处理模块、模式规则抽取 模块、语法规则抽取模块和加权词处理模块。实现该系统的关键技术包括分词 技术、抽取规则导入技术、句子抽取技术和加权词处理技术。 本文主要的创

3、新点为提出一种了基于多重规则的学术定义抽取规则构建方 法,并且在加权词筛选法中,使用了具有负权重的负权词。本文以情报理论 与实践2009 年文章为训练文本构建规则,以情报学报2007 年和 2008 年 的文章为实验文本进行了抽取实验,通过分析实验数据验证了规则构建方法以 及系统的有效性和可行性。 图 4 幅,表 4 张,参考文献 30 篇,其中英文参考文献 12 篇。 关键词:知识抽取;学术定义;模式规则;语法规则;加权词 分类号:分类号:G35 TP391 II Study on Academic Definition Extraction Based on Multiple Rules

4、Abstract Academic definition is the basic concept and object of the scientific research. Definition is the exactly and briefly explanation of the objects essence. Though the length of definition is short, the connotation of definition is rich. Definition extraction can not only display the various d

5、efinitions about the same concept, but also transformed the unit of search from article to knowledge set. By summarizing other scholars research of definition extraction, this paper puts forward a kind of method which can build multiple rules of academic definition extraction. Firstly it puts forwar

6、d a method which can build patterns rules by analyzing the structure characteristics of definition sentences; Then it puts forward a method which can build grammar rules by analyzing the grammatical features of definition sentences; Finally, through the statistics of word frequency, it provides a we

7、ighted word screening method. And then using the method, construct a set of extracting rules by the articles on the Intelligence Theory and Practice in 2009. This paper also designed a definition extraction system. The system uses the rules which are built by multiple rules build method to extractin

8、g definition sentences in the text. This system mainly consists of four modules which are pretreatment module, patterns rules extraction module, grammar rules extraction module and weighted word processing module. The key technologies of the system are segmentation technology, extracting rules impor

9、t technology, sentence extraction technology and weighted word processing technology. The main innovation point of this paper is putting forward a kind of method which can build multiple rules of academic definition extraction and using negative right word. This paper constructs the rules by the art

10、icles on the Intelligence Theory and Practice in 2009 and makes an experiment by using the articles on the “Journal of The China Society for Scientific and Technical Information” in 2007 and 2008. By analyzing the experimental data, it shows that the rules building method and the system are effectiv

11、eness and feasibility. Keywords: Knowledge extraction; academic definition; pattern rules; grammar rules; weighted words V 图目录图目录 图 2.1 规则构建流程图.12 图 2.2 定义语句切分示意图.14 图 3.1 定义抽取流程图.19 图 4.1 匹配流程图.31 VI 表目录表目录 表 2.1 定义模式分类表.13 表 2.2 模式规则表.14 表 2.3 语法规则表.16 表 5.1 抽取实验评测结果.35 独 创 性 声 明 本人郑重声明:所呈交的学位论文,是

12、本人在导师指导下,独立进行研究 工作所取得的成果。尽我所知,论文中除已经加以标注和致谢的地方外,不包 含任何他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个 人和集体,均已在文中明确说明并表示了谢意。 研究生签名: 时间: 年 月 日 关于论文使用授权的说明 本人完全了解中国科学技术信息研究所有关保留、使用学位论文的规定, 即:所里有权保留送交论文的打印稿和电子稿,允许论文被查阅和借阅,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。同意中国科学技术信 息研究所用不同方式在不同媒体上发表、公布论文的全部或部分内容。保密的 论文在解密后遵守此规定。 研究生签名: 时间: 年

13、 月 日 导师签名: 时间: 年 月 日 引 言 1 引 言引 言 信息抽取技术是自然语言处理技术的一个分支内容。文本信息量的爆炸式 增长,让人们越来越难获取到有用的信息。而信息抽取技术的出现,为人们准 确获取需要的信息提供了方便 1。所谓信息抽取是指从文本中抽取出有关某一 主题的某一属性的一系列信息。信息抽取所要抽取的信息可以用一个三元组模 板来表示:T,A,D,其中 T 表示主题、A 表示属性、D 表示信息描述。信 息抽取的核心内容就是用三元组模板来对文本进行匹配,最终抽取出所需要的 信息。 知识抽取是对信息抽取技术的一种升华,它所抽取的对象不再是简单的信 息,而是一系列的知识,这些知识包

14、括相关的概念 、事实等等 2。定义是一类 特殊的知识。在字典中,定义的解释为“对于一种事物的本质特征或一个概念 的内涵和外延的确切而简要的说明。 ” 3学术定义明确的界定学术概念的研究范 畴,其内涵丰富,表述严谨,具有高度的概括性。在期刊论文中会大量出现各 种学术概念的定义。如果将科技论文中的定义集中起来,不仅可以让用户更加 方便的使用这些定义,而且可以将关于同一概念的不同定义横向展示出来,让 用户能够更好的理解这些概念;还能将检索的粒度由原来的篇为单位,转变成 知识集合为单位,使得自动问答、信息检索一类系统的检索精确度大大的得到 提高。 本研究基于国家自然科学基金项目基于句子匹配分析的知识抽取研究

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号