面向中文的事件抽取的研究与实现

上传人:千****8 文档编号:183251309 上传时间:2021-06-01 格式:DOC 页数:34 大小:685.50KB
返回 下载 相关 举报
面向中文的事件抽取的研究与实现_第1页
第1页 / 共34页
面向中文的事件抽取的研究与实现_第2页
第2页 / 共34页
面向中文的事件抽取的研究与实现_第3页
第3页 / 共34页
面向中文的事件抽取的研究与实现_第4页
第4页 / 共34页
面向中文的事件抽取的研究与实现_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《面向中文的事件抽取的研究与实现》由会员分享,可在线阅读,更多相关《面向中文的事件抽取的研究与实现(34页珍藏版)》请在金锄头文库上搜索。

1、个人收集整理 勿做商业用途摘要事件抽取是信息抽取领域的一个重要研究方向.事件抽取主要把人们用自然语言表达的事件,以结构化的形式表现出来。事件抽取作为信息处理领域的关键技术,在信息检索、自动问答、自动摘要、数据挖掘、文本挖掘等领域有着广泛的应用。本文主要针对中文事件抽取的两大主要任务:事件类别的识别和事件元素的识别进行了学习与探索,并实现了一个简易的中文事件抽取程序。在事件类别识别中,本文采用基于触发词来识别事件类别的方法。首先根据训练语料获取触发词和其对应的候选类别建立字典。然后根据字典和训练语料识别出文档中的触发词和其对应的候选事件类别,以此确定候选事件。再通过使用词法,上下文信息和事件模板

2、等特征,利用分类器对候选事件进行二元分类,从候选事件中提取出真正的事件。在事件元素识别中,本文采用基于事件模板,通过特征提取进行多元分类的方法来识别事件元素。首先通过事件类别可以获得事件模板,事件模板是由事件角色组成的.将事件元素识别看成分类问题,再通过词法,上下文信息和类别信息等特征描述候选元素,针对每一类事件构建分类器进行多元分类,提取出符合要求的事件元素。本文设计并实现了一个简单的中文事件抽取系统,经测试最终结果为18.73.关键词: 事件抽取;事件类别识别;事件元素识别本文转载:脚印论文网http:/www.lunwen315。netAbstractEvent extraction i

3、s an important area of information extraction research. Event extraction explains the events which people use natural language to express with a structured form。 Event extraction as the key technology of information processing, has been widely used in information retrieval, question answering, autom

4、atic summarization, data mining, text mining and other fields. In this paper, we pay attention to two main tasks: Event types recognition and event element recognition. According to this, we go to learn and exploration, and come true a simple extraction procedure of Chinese events。 Recognition of th

5、e event types, we use the triggerwordbased approach to recognition event type。 First of all, according to training data we can get trigger words and their candidate type, building a dictionary. Secondly,according to the dictionary and training data we can recognition the trigger words and the event

6、type of a document。 We use this to confirm the candidate events。 Thirdly, we use classification of binary to classify the candidate events, by lexical, context information and event templates and other features. 文档为个人收集整理,来源于网络个人收集整理,勿做商业用途Recognition of the event element, we use event-templatebased

7、 way to feature extraction for multi-classification methods to recognition the event element. First, using event types we can get the event templates, and we can also gain the elements of the candidate events from the event templates。 The templates are made up of event roles. Elements recognition of

8、 the event is a classification problem.Then, we make construction of each type of event for the classification of multivariate classification, extracted to meet the requirements of the event elements, by using lexical, context information and event templates and other features. 本文为互联网收集,请勿用作商业用途个人收集

9、整理,勿做商业用途This paper designs and implements a simple Chinese event extraction system, tests show that the final F value reached 18.73%。Key words: Event Extraction, Event Type Recognition, Event Argument RecognitionII第1章 绪论1。1 课题背景及研究的目的和意义1。1。1 课题背景随着互联网的高速发展,网络数据的不断增加和信息高速公路的兴起,使得大量的信息以电子文本的形式呈现在人们面

10、前。在这个信息爆炸的时代,如何从大量的信息中迅速、准确地提取出人们所需求的重要信息成为新的挑战。在这个背景下,信息检索(Information Retrieval, IR)和信息抽取(Information Extraction, IE)成为了重要的信息获取手段1。信息抽取是从文本中自动获取信息的一种主要手段。信息抽取的主要目的是将无结构的文本信息,按照人们的需求识别、抽取出来,转化为结构化或半结构化的信息,并采用数据库的形式存储,以便人们查询,进一步分析、利用2。信息以统一的形式集成在一起的好处是方便检查和比较.例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理,例如用数据挖掘

11、方法发现和解释数据模型.信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析.至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。信息抽取既是其他信息获取手段的一种补充,又为其他信息处理技术提供技术支持.面对大量的信息,通过不同层次和精度的信息获取技术可以得到用户需要的相关文档。信息抽取技术可以从相关文档中抽取出粒度更小的关系和事件,以此满足用户的进一步需求。信息抽取作为将非结构化的信息转化为结构化的信息的一种方法,为进一步的数据信息处理,如数据挖掘,数据库查询等打下基础。从广义上讲,信息抽取的处理对象可以是语音、图像、文本、视频等众多类型的数据。从狭义上看,信息

12、抽取可以只针对自然语言文本进行信息的抽取3。本文只讨论狭义的情况,即从给定的自然语言文本中,自动识别出预先设定的实体、关系和事件等类型信息,并将这些信息以结构化的形式存储,其中事件的抽取是本文的研究重点.事件抽取(Event Extraction)是信息抽取的一个重要研究方向4。ACE2005将事件抽取的任务定义为事件的检测与识别(Event detection and recognition, VDR),即识别特定类型的事件,并进行相关信息的确定和抽取。主要的相关信息包括:事件的类型和子类型、事件的元素等。1.1.2 课题的研究目的和意义在信息产业的快速发展和大量需求的推动下,信息抽取已经成

13、为多学科发展和应用的需要,策划能够为自然语言处理的一个前沿课题。信息抽取涉及自然语言处理,数据挖掘,机器学习和数据库等多个学科技术和方法.在理论方面,信息抽取涉及到自然语言处理数据挖掘、机器学习、数据库等多个学科的技术和方法,因此本文的研究不仅对解决事件抽取的关键子任务,以及建立实用的事件抽取系统的理论和方法起到促进作用,而且对于相关学科理论的完善和发展也将产生积极的推进作用。在应用方面,其研究成果将为自然语言处理的多种应用提供重要的支持,主要表现在:智能信息检索的建立,数据库和知识库的自动生成和自然语言的理解。从满足用户信息需求的角度来看,信息抽取是其他信息获取手段的一种补充。随着互联网的发

14、展,如何从海量信息中获取用户所需要的信息,人们根据信息的层次和粒度发明了不同的信息获取技术。信息检索、文本分类、文本过滤,文本聚类等技术可以从一个大的文档集合中找出用户需要的相关文档,而IE技术却可以从相关文档中抽取出粒度更小的关系或事件,满足用户更深层次和更细粒度的信息需求5。从这个意义上说,IE是信息处理技术的一种有益补充。如果把实体抽取、关系抽取看作信息抽取的底层技术,那么事件抽取可以看成是信息抽取的高层技术,事件抽取应用了实体抽取和关系抽取的结果,在自然语言处理的许多领域有广泛的应用。1.2 事件抽取的主要研究内容和研究现状目前事件抽取主要采取两种方法:模式匹配法和机器学习的方法。总的

15、来讲,模式匹配的方法准确率较高(如果模式提取的非常准确),且接近人的思维方式,知识表示直观、自然,便于推理.但是这种方法往往依赖于具体语言,具体领域及文本格式,可移植性差,编制过程费时费力且容易产生错误,需要富有经验的语言学家才能完成。并且抽取的模式不可能涵盖所有的事件类型,当从一种语料转移到另一种语料时,为保证不损失性能,往往还需要花费很多工作在模式的重新提取上,因此性价比不高。和基于模式匹配的方法相比,基于机器学习方法的健壮性和灵活性较好,且比较客观,不需要太多的人工干预和领域知识,召回率较高,但由于语料库规模的影响数据稀疏问题比较严重,准确率较模式匹配的方法低,有时搜索空间很大还会导致巨

16、大的空间开销,效率不高5。另外,它需要大规模的语料库训练。下面,我们就两种方法分别进行叙述。1.2.1 基于模式匹配的事件抽取 模式匹配方法,指对于某类事件的识别和抽取是在一些模式的指导下进行的,而所需的模式需要人工或自动的方式来设定或获取。自然的,采用模式匹配法来进行事件抽取的系统由两个模块组成:模式获取模块和信息抽取模块。而且模式的建立取决于具体的领域和使用的环境,建立起来有困难。但是根据特征提取出来的模式在其应用范围内准确率很高,根据模式匹配出的事件准确性较好。一个采用模式匹配法的事件抽取系统的基本组成如图11所示。图 11 模式匹配法的事件抽取的基本组成采用模式匹配法的事件抽取主要分为两大步骤:(1) 通过局部文本分析从文本中抽取单个的“事实”.然后通过语篇分析将这些“事实”合并为较大的“事实,或通过推理产生新的“事实”。这一阶段主要分为词法分析,句法分析,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 工学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号