基于本体的信息抽取研究

资源描述

《基于本体的信息抽取研究》由会员分享，可在线阅读，更多相关《基于本体的信息抽取研究（2页珍藏版）》请在金锄头文库上搜索。

1、基于本体的信息抽取研究摘要】介绍了信息抽取技术的根本概念和开源软件GATE及其在信息抽取方面的应用，分析了本体的应用和类型，提出了一种基于本体和规那么的信息抽取设计思路。【关键词】GATE;信息抽取;本体随着计算机技术和网络的迅速开展，信息成指数级增长。如何从浩瀚的信息海洋中迅速有效的找到自己所需的信息，成为目前信息技术研究的热点。信息抽取IE，InformationExtraction研究正是在这种背景下产生的。1.信息抽取信息抽取指的是以无结构的自然语言文本文档为输入，产生并输出固定格式的、无歧义的数据的过程。根据MUC定义，信息抽取一共有5种类型，分别是：命名实体识别NE，识别人名、地名

2、等并且进行分类;模板元素构建TE，为命名实体识别结果添加描述信息;模板关系构建TR，在TE的根底上，在实体之间找出关系;情景模板建立ST，把TE和TR的结果放到相应的具体事件情景下;共指消解CO，鉴别文本中的实体之间的恒等关系式，是TE和ST的根底。其中，NE是最简单，也是最有使用价值的一种类型，可以采用基于规那么和基于统计这两种方法来实现。本论文的研究采用基于规那么的方法。2.本体本体Ontology的概念最早起源于哲学领域，是客观存在的一个系统的解释或说明。1993年，Studer等学者对本体提出了一个比较明确的概念，即本体是“共享概念模型的明确的形式化标准说明。目前，本体作为语义根底得到

3、了广泛的应用，如语义网、信息检索、软件工程等领域。3.基于本体的信息抽取研究本文采用基于规那么和本体的抽取技术，用GATE建立规那么库来完成信息抽取，用Protg构建领域本体表示实体及实体关系。语料库采用计算机配件的相关信息。3.1数据收集和文本预处理首先通过爬虫软件收集大量样本文件，然后选定中科院的ICTCLAS作为中文分词组件，完成对采集文本的中文分词以及词性标注，并将ICTCLAS的输出结果进行处理，使之成为GATE可以接受的输入格式，然后发送给GATE组件。3.2领域本体的构建Protg是美国斯坦福大学医学院开发的本体编辑工具，具有图形化的用户界面，使用简单，有详细友好的帮助文档，能支

4、持中文，比较适合本体构建的概念化和形式化阶段。本文采用protg建立计算机配件领域本体。3.3信息抽取在充分调研国内外的系统之后，本文选定开源工程GATE作为信息抽取的开发框架。GATE工程与1995年英国的Sheffield大研究开发的，其全称是GeneralArchitectureforTextEngineering，目前已经被广泛应用于数字图书馆、语义网、知识管理等的研究和工程工程中。GATE框架采用了基于组件的软件开发方式，以及面向对象的编程方式，是基于规那么的信息抽取框架。GATE使用的编码方式是Unicode，可以支持多种语言编码，可以支持XML、HTML、RTF、Email、SG

5、ML以及纯文本文件等文档类型。1词表查询GATE中的词表是一组包含了事物名词的集合，比方数字、日期、地名、姓氏等等，采用Gazetteer程序添加词表，用*.lst文件表示，每个Gazetteer词典可以添加多个词表，但需要同一文件夹下的索引文件*.def进行控制。首先要收集充足的词表，将上一步别离出来的词和词表进行匹配。匹配时，假设待标注文本中含有词表中的某个词，那么Gazetteer将其标注为Lookup类型。由上看出，词表的丰富程度直接关系着语料训练和命名实体识别效果的好坏。GATE中主要提供了3个中文索引文件，分别是实现specialgazetteer的speciallists文件、实

6、现gazetteer的lists文件和实现inferredgazetteer的lists文件。这些词表文件中虽然包括了大量的词汇，但仍然不够完备，例如，digit.lst中，只有一、二、三等中文数字，因而无法识别阿拉伯数字。因此本研究结合实际情况，对GATE原有词表进行了扩充和完善。比方digit.lst中增加了09的阿拉伯数字，使得500、123等数字得到很好的识别。同时，结合计算机配件方面的实际，增加了假设干词表文件，比方cpu_type.lst存放常见CPU型号的词条;Cap_unit.lst存放兆，吉，B，KB，MB等表示容量单位的词条;brand_computer.lst存放了英特尔

7、、华硕、戴尔、联想、神州等表示电脑配件品牌的词条。2规那么修改和定义利用领域本体中的概念和关系，根据本文研究内容，建立规那么。本文采用JAPE书写规那么。存储容量、配件尺寸和价格、传输速率等等是计算机配件中常见数据，用数字加单位来进行识别。以存储容量为例，有的表示成500G，有的表示成400兆，是数字加容量单位组成的。主要JAPE规那么如下：Macro：DIGITToken.kind=igitMacro：NUMBERLookup.majorType=number+Rule：CapaDIGIT|NUMBERLookup.majorType=cap_unit：tag-：tag.Capacity=r

8、ule=Capa配件的品牌也是选购时重要关注的方面，本文增加了相应的规那么如下：Rule：brand_computerLookup.majorType=organization，Lookup.minorType=brand_computer：tag-：tag.Brand=rule=brand_computer3实验结果本文对收集的120篇相关文本进行了实验。从结果来看，本文的方法对实体命名识别具有较好的效果。4.结论GATE是一款优秀的信息抽取开源软件，本文对中文信息抽取系统框架和细节进行了深入的思考，提出了基于本体和规那么进行中文信息抽取的技术研究，并选取了相关语料，进行了实验分析。从实验结

9、果看，本文提出的方法能有效地进行命名实体的识别和抽取，丰富了本体实例。由于个人研究精力有限，仍然存在一些问题以待解决。参考文献【1】程显毅，等.中文信息抽取原理及应用M.北京：科学出版社，2021.【2】HamishCunningham.InformationExtraction-aUserGuideSecondEditionR.：/dcs.shef.ac.uk/hamish/IE/userguide/Gri962021-1-3.【3】陈兰，等.一种新的基于Ontology的信息抽取方法J.计算机应用研究，2021，218：155-157，170.基金工程：南通大学校级自然科学类科研基金工程12Z039。

展开阅读全文