基于本体的信息抽取研究

上传人:卢****6 文档编号:192269100 上传时间:2021-08-16 格式:DOCX 页数:2 大小:13.52KB
返回 下载 相关 举报
基于本体的信息抽取研究_第1页
第1页 / 共2页
基于本体的信息抽取研究_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于本体的信息抽取研究》由会员分享,可在线阅读,更多相关《基于本体的信息抽取研究(2页珍藏版)》请在金锄头文库上搜索。

1、基于本体的信息抽取研究摘要】介绍了信息抽取技术的根本概念和开源软件GATE及其在信息抽取方面的应用,分析了本体的应用和类型,提出了一种基于本体和规那么的信息抽取设计思路。【关键词】GATE;信息抽取;本体随着计算机技术和网络的迅速开展,信息成指数级增长。如何从浩瀚的信息海洋中迅速有效的找到自己所需的信息,成为目前信息技术研究的热点。信息抽取IE,InformationExtraction研究正是在这种背景下产生的。1.信息抽取信息抽取指的是以无结构的自然语言文本文档为输入,产生并输出固定格式的、无歧义的数据的过程。根据MUC定义,信息抽取一共有5种类型,分别是:命名实体识别NE,识别人名、地名

2、等并且进行分类;模板元素构建TE,为命名实体识别结果添加描述信息;模板关系构建TR,在TE的根底上,在实体之间找出关系;情景模板建立ST,把TE和TR的结果放到相应的具体事件情景下;共指消解CO,鉴别文本中的实体之间的恒等关系式,是TE和ST的根底。其中,NE是最简单,也是最有使用价值的一种类型,可以采用基于规那么和基于统计这两种方法来实现。本论文的研究采用基于规那么的方法。2.本体本体Ontology的概念最早起源于哲学领域,是客观存在的一个系统的解释或说明。1993年,Studer等学者对本体提出了一个比较明确的概念,即本体是“共享概念模型的明确的形式化标准说明。目前,本体作为语义根底得到

3、了广泛的应用,如语义网、信息检索、软件工程等领域。3.基于本体的信息抽取研究本文采用基于规那么和本体的抽取技术,用GATE建立规那么库来完成信息抽取,用Protg构建领域本体表示实体及实体关系。语料库采用计算机配件的相关信息。3.1数据收集和文本预处理首先通过爬虫软件收集大量样本文件,然后选定中科院的ICTCLAS作为中文分词组件,完成对采集文本的中文分词以及词性标注,并将ICTCLAS的输出结果进行处理,使之成为GATE可以接受的输入格式,然后发送给GATE组件。3.2领域本体的构建Protg是美国斯坦福大学医学院开发的本体编辑工具,具有图形化的用户界面,使用简单,有详细友好的帮助文档,能支

4、持中文,比较适合本体构建的概念化和形式化阶段。本文采用protg建立计算机配件领域本体。3.3信息抽取在充分调研国内外的系统之后,本文选定开源工程GATE作为信息抽取的开发框架。GATE工程与1995年英国的Sheffield大研究开发的,其全称是GeneralArchitectureforTextEngineering,目前已经被广泛应用于数字图书馆、语义网、知识管理等的研究和工程工程中。GATE框架采用了基于组件的软件开发方式,以及面向对象的编程方式,是基于规那么的信息抽取框架。GATE使用的编码方式是Unicode,可以支持多种语言编码,可以支持XML、HTML、RTF、Email、SG

5、ML以及纯文本文件等文档类型。1词表查询GATE中的词表是一组包含了事物名词的集合,比方数字、日期、地名、姓氏等等,采用Gazetteer程序添加词表,用*.lst文件表示,每个Gazetteer词典可以添加多个词表,但需要同一文件夹下的索引文件*.def进行控制。首先要收集充足的词表,将上一步别离出来的词和词表进行匹配。匹配时,假设待标注文本中含有词表中的某个词,那么Gazetteer将其标注为Lookup类型。由上看出,词表的丰富程度直接关系着语料训练和命名实体识别效果的好坏。GATE中主要提供了3个中文索引文件,分别是实现specialgazetteer的speciallists文件、实

6、现gazetteer的lists文件和实现inferredgazetteer的lists文件。这些词表文件中虽然包括了大量的词汇,但仍然不够完备,例如,digit.lst中,只有一、二、三等中文数字,因而无法识别阿拉伯数字。因此本研究结合实际情况,对GATE原有词表进行了扩充和完善。比方digit.lst中增加了09的阿拉伯数字,使得500、123等数字得到很好的识别。同时,结合计算机配件方面的实际,增加了假设干词表文件,比方cpu_type.lst存放常见CPU型号的词条;Cap_unit.lst存放兆,吉,B,KB,MB等表示容量单位的词条;brand_computer.lst存放了英特尔

7、、华硕、戴尔、联想、神州等表示电脑配件品牌的词条。2规那么修改和定义利用领域本体中的概念和关系,根据本文研究内容,建立规那么。本文采用JAPE书写规那么。存储容量、配件尺寸和价格、传输速率等等是计算机配件中常见数据,用数字加单位来进行识别。以存储容量为例,有的表示成500G,有的表示成400兆,是数字加容量单位组成的。主要JAPE规那么如下:Macro:DIGITToken.kind=igitMacro:NUMBERLookup.majorType=number+Rule:CapaDIGIT|NUMBERLookup.majorType=cap_unit:tag-:tag.Capacity=r

8、ule=Capa配件的品牌也是选购时重要关注的方面,本文增加了相应的规那么如下:Rule:brand_computerLookup.majorType=organization,Lookup.minorType=brand_computer:tag-:tag.Brand=rule=brand_computer3实验结果本文对收集的120篇相关文本进行了实验。从结果来看,本文的方法对实体命名识别具有较好的效果。4.结论GATE是一款优秀的信息抽取开源软件,本文对中文信息抽取系统框架和细节进行了深入的思考,提出了基于本体和规那么进行中文信息抽取的技术研究,并选取了相关语料,进行了实验分析。从实验结

9、果看,本文提出的方法能有效地进行命名实体的识别和抽取,丰富了本体实例。由于个人研究精力有限,仍然存在一些问题以待解决。参考文献【1】程显毅,等.中文信息抽取原理及应用M.北京:科学出版社,2021.【2】HamishCunningham.InformationExtraction-aUserGuideSecondEditionR.:/dcs.shef.ac.uk/hamish/IE/userguide/Gri962021-1-3.【3】陈兰,等.一种新的基于Ontology的信息抽取方法J.计算机应用研究,2021,218:155-157,170.基金工程:南通大学校级自然科学类科研基金工程12Z039。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号