典型关系抽取系统的技术方法解析(

资源描述

《典型关系抽取系统的技术方法解析(》由会员分享，可在线阅读，更多相关《典型关系抽取系统的技术方法解析(（9页珍藏版）》请在金锄头文库上搜索。

1、典型关系抽取系统的技术方法解析徐健1 2 3张智雄11 （中国科学院国家科学图书馆，北京100080） 2 （中国科学院研究生院，北京100080）3 （中山大学资讯管理系，广州510275）摘要：实体关系抽取是信息抽取领域中的一项重要任务。关系抽取的思路基本可以归纳为: 基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习算法机制的关系抽取、基于Ontology的抽取以及混合抽取方法。从技术应用特点、核心模块的实现细节以及系统评测结果等方面深入分析了典型的关系抽取系统，它们包括REES关系抽取系统、SVM关系抽取系统、T-Rex关系抽取系统、KMI语义网络门户的混合关系抽取系统

2、。关键词：关系抽取，关系抽取方法，典型系统1引言信息抽取任务在细节和可靠性上有不同的选择，但一般都包括两个普遍存在并且紧密关联的子任务：实体识别和关系抽取。实体识别通过实体抽取技术抽取各个知识要素。抽取出的知识要素以离散的形式存在，只能反映出文本中包含哪些实体，例如人、机构、地点等，却不能反映出知识要素之间的关系，例如机构与人之间的雇用关系、机构与地点之间的位置关系等，而关系抽取则是要解决这一难题。关系抽取技术在很多领域具有应用价值。例如，在自动问答系统中，关系抽取技术能够实现自动地将相关问题和答案进行关联；在检索系统中，关系抽取技术使类似于“找出某个机构所有成员的出版物”这样的语

3、义检索功能的实现成为可能；在本体学习过程中，关系抽取技术一方面可以帮助本体库增加更多的关系实例，另一方面能够通过发现新的实体间关系来丰富本体结构;在语义网标注任务中，关系抽取能够将语义网相关知识单元进行自动关联。关系抽取技术路线经历了从模式、词典等简单方法到机器学习、基于Ontology的关系抽取等复杂方法，从基于分词、句法等匹配的浅表分析到基于语义的深层分析的发展过程。关系抽取性能正在逐步提高，技术也在不断进步和完善。尽管关系抽取技术还未达到普遍应用的成熟度，一些典型关系抽取原型系统的发展仍然值得我们关注。从这些原型系统，我们可以看到关系抽取技术的关键问题、发展趋势，以及广泛的应

4、用前景。本文的第2部分对关系抽取的技术路线进行总结。第3部分选取具有代表性的几个关系抽取系统，从关系抽取的技术特色方面进行了分析。2关系抽取的几种思路通过长期探索和不懈努力，信息抽取领域的学者们已经提出一些关系抽取技术路线，并被应用在各种实验系统当中。这些技术路线所遵循的思路基本可以归纳为：基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习算法机制的关系抽取、基于 Ontology*本文受到国家社会科学基金项目“从数字信息资源中实现知识抽取的理论和方法研究”课题的资助，课题编号为05BTQ006。的关系抽取以及混合抽取方法。（1）基于模式匹配的关系抽取在关系抽取研究领域，普

5、遍使用基于模式匹配的关系抽取方法。这种抽取方法通过运用语言学知识，在执行抽取任务之前，构造出若干基于语词、基于词性或基于语义的模式集合并存储起来。当进行关系抽取时，将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功，就可以认为该语句片段具有对应模式的关系属性。Douglas E. Appelt等人5在MUC-6上提出的FASTUS抽取系统中，通过引入“宏”的概念将各种领域依赖规则以一种具有扩展性的、通用方式表达。用户只需要修改相应“宏” 中的参数设置，就可以快速配置好特定领域任务的关系模式规则。Roman Yangarber等人在MUC-7上提出的Proteus抽取系统采

6、用了基于样本泛化的关系抽取模式构建方法。用户通过Proteus系统提供的模式构建界面，对含有某种关系的例句进行分析，识别出所含关系的要素，并将这些要素泛化，最后经用户确认存储经泛化表达的模式。（2）基于词典驱动的关系抽取与基于模式匹配的关系抽取方法相比，基于词典驱动的关系抽取方法显得非常灵活。新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。用户不需要具备复杂的模式语言知识就可以轻松配置抽取系统。Chinatsu Aone等人在MUC-7上提出了一个快速、灵巧的大规模事件和关系抽取系统 REES （Large-Scale Relation and Event Extractio

7、n System）。该系统采用的词典驱动方法需要对于每一个事件指示词设置一个词典入口，而这个词通常是动词。词典入口具体化了该动词参数的句法和语义限制。基于词典驱动的关系抽取方法的缺点也非常明显。它通常只能识别以动词为中心词的关系，而对于名词同位语之类的关系抽取就很难实现了。另外，使用这种方法无法对系统中没有对应词汇入口的新关系进行探测。（3）基于机器学习算法机制的关系抽取基于机器学习算法机制的关系抽取方法是目前应用比较广泛的方法。该方法实质是将关系抽取看作是一个分类问题。通过具体的学习算法，在人工标引语料的基础上构造分类器，然后将其应用在领域语料关系的类别判断过程中。目前使用最多的

8、是SVM方法。Zhu Zhangs提出的基于SVM的弱监督关系分类系统应用SVM方法进行关系抽取。该系统的核心组件有两个：底层监督学习器和bootstrapping算法。底层监督学习器是一个支持向量分类器，它使用从当前可获得的已标注数据训练而来的模型，对未标记的数据进行分类。 Bootstrapping算法则负责选择最有可能被正确标记的实例，并通过使用它们来增强已标记数据的训练效果。（4）基于Ontology的关系抽取知识管理过程中，利用信息抽取技术抽取的实体以及实体间的关系来构建和丰富本体，是一种行之有效的方法。另一方面，借助已有的本体层次结构和其所描述的概念之间的关系来协助进行关

9、系的抽取，也不失为一种行之有效的关系抽取方法。Jose Iria等人囱提出了一个基于本体的关系抽取通用软件框架一可训练关系抽取框架（Trainable Relation Extraction framework， T-Rex）。该框架的目的是要提供语义网自动化语义标注任务需要的灵活度。T-Rex最具特色的地方是它采用了规范的基于图的数据模型。该数据模型借助本体实现等级层次的表达结构，并允许以一致的方式任意链接子图，例如共指关系链接，语法关系链接，与HTML格式相关的链接等。通过对本体的定义和扩充，可以实现使用该多层次数据模型对于语料的多种特征集表达的一致性。（5）混合抽取方法在关系抽

10、取研究的初期阶段，无论是基于词典的抽取方法还是基于模式的抽取方法，都仅将一种抽取方法作为整个关系抽取过程的核心。随着关系抽取研究的不断深入，研究者逐渐意识到，单纯的抽取方法在识别特征和识别模式方面难以避免地会具有局限性。为了将更多的已有关系识别特征加入到关系抽取过程中来，一些将多种现有关系抽取方法相结合的混合抽取方法被提出来。其中具有代表性的是Lucia Specia和Enrico Motta7提出的一个抽取语义关系的混合方法。该方法通过管道（pipeline）方式引入了解析器（parser），词性标注器（part-of-speech tagger），命名实体识别系统，基于模式的分

11、类器以及词义辨析模块，并用到了领域本体，知识库以及词语数据库等资源。3典型的关系抽取系统解析在关系抽取技术的发展历程中，已经有很多关系抽取系统原型被设计和评测。这些系统在关系抽取的关键技术上进行了多方位的大胆尝试，对关系抽取技术的发展起到了重要的推动作用。我们选取了具有代表性的REES关系抽取系统、SVM关系抽取系统、T-Rex关系抽取系统以及KMI语义网门户的混合关系抽取系统，旨在通过对这些系统的解析，比较各种关系抽取技术在具体系统中灵活的应用方式。3.1 REES关系抽取系统Chinatsu Aone8等人在MUC-7上提出了一个快速、灵活的大规模事件和关系抽取系统 REES （L

12、arge-Scale Relation and Event Extraction System）。该系统采用的基于词典驱动的关系抽取方法旨在能够抽取尽可能多类型的关系和事件，但人工介入的成本最小，准确率高。在REES系统中，当输入语料经过名称标识和名词短语标识阶段的处理，形成基于XML的输出。接着关系识别模块应用词典驱动模型，通过基于句法的一般模式来识别关系和事件。 REES由3个主要组件构成：一个tagging组件，一个co-reference resolution模块以及一个模板生成模块这三个模块依次相连，构成系统的主要框架。REES提出了一种新颖的词典驱动方法来进行关系抽取。该方

13、法需要对于每一个事件指示词设置一个词典入口，而这个词通常是动词。词典入口具体化了该动词参数的句法和语义限制。例如，下面的词典入口对应动词“ attack”。这个表达式指示出动词“ attack”属于 CONFLICT 本体和 ATTACK_TARGET类型。动词“attack”的第一个参数（ARG1_SEM）语义上是一个组织，地点，人物或物品，它在句法上是一个主语（ARG1_SYN）。第二个参数（ARG2_SEM）语义上是一个组织，地点，人物或物品，句法上是一个直接宾语。第三个参数（ARG3_SEM）语义上是一个武器，句法上是一个通过“ with ”引入的前置短语。ATTACK （

14、CATEGORY VERBONTOLOGY CONFLICTTYPE ATTACK_TARGETARGI_SEM ORGANIZATION LOCATIONPERSON ARTIFACT ARGI_SYN SUBJECT ARG2_SEM ORGANIZATION LOCATIONPERSON ARTIFACT ARG2_SYN DO ARG3_SEMWEAPON ARG3_SYN WITH 通过类似这样的词汇入口支持，REES能够抽取出一般的关系、事件及其相关参数。例如： An Iraqi warplane attackedthe frigate Stark with missiles M

15、ay 17, 1987。当前REES通过模块化的，可配置的，可升级的模式，能够处理100种关系和事件。 REES系统使用从12个新闻源获取的文本进行了系统性能的评测，其中训练集为200个文本，测试集为208个文本。每个集合中对于每一种关系和事件包含至少3个样例。这些关系包括了 MUC定义的关系和事件。对于关系而言REES系统实现了召回率74%，准确率74%， F测度73.74%的好成绩。3.2 SVM关系抽取系统密歇根大学的Gumwon Hong9在Zhu Zhang10等人建立的系统基础上提出了一个基于 SVM的关系抽取系统。SVM是从统计学习理论发展而来的监督学习技术，它是由Boser

16、，Guyon，Vapnik11在 COLT-92 (Computational Learning Theory-92)上首次提出，从此迅速发展起来，目前已经在许多智能信息获取与处理领域都取得了成功的应用。运用该算法进行关系抽取的思路是：通过某种事先选择的非线性映射(核函数)将输入向量映射到一个高维特征空间，在这个空间中寻找最优分类超平面，使得它能够尽可能准确地将两类数据点分开，同时使分开的两类数据点距离分类面最远。将SVM应用到关系抽取任务时，作为SVM输入的特征集的选取对于关系抽取的结果至关重要。Gumwon Hong提出的SVM关系抽取系统定义的特征集包括：(1) 分词(Words)。对同一语句中两个实体对应的词和实体间的词进行分词。如果实体由两个或更多词构成

展开阅读全文