修剪和扩充策略在语义关系抽取中的应用

资源描述

《修剪和扩充策略在语义关系抽取中的应用》由会员分享，可在线阅读，更多相关《修剪和扩充策略在语义关系抽取中的应用（5页珍藏版）》请在金锄头文库上搜索。

1、计算机科学2 0 0 8 V o L3 5 N Q 9 A 修剪和扩充策略在语义关系抽取中的应用* ) 潘砷钱龙华朱巧明 ( 苏州大学计算机科学与技术学院苏州2 1 5 0 0 6 ) 摘耍基于树核函数和最短路径包舍树( S P l r ) ，本文提出了一种改进的方法，应用适当的修剪策略，大大减少了冗余和噪音，同时扩充了原有的S 盯，使之包含更丰富的语义信E - 。在A C E R D C 2 0 0 4 基准数据上的实验结果表明该方法起到了很好的作用，与S ”相比，性能有了明显的提高。关键词关系抽取，树核函数，修剪和扩充策略 E x p a n d i n ga n dP r u n

2、i n gS t r a t e g yi nS e m a n t i cR e l a t i o nE x t r a c t i o n P A NS h e nQ I A NL o n g - h u aZ H UQ i a o - m i n g ( S c h o o lo fC o m p u t e rS c i e n c e & T e c h n o l o g y ，S o o c h o wU n i v e r s i t y ，S u z h o u2 1 5 0 0 6 ，C h i n a ) A b t 憎c tT h i sp a p e rp r o

3、p o s e sa r te f f e c t i v ea n de f f i c i e n te x p a n d i n ga n dp r u n i n gs t r a t e g yi ns e m a n t i cr e l a t i o ne x t r a c - - t i o n C o m p a r e d 、，i t l lt h ew i d e l yu s e ds h o r t e s tp a t he n c l o s e dt r e e ( S 盯) ，o u rn e ws t r a t e g yn o to n l ye

4、 x p a n d st h eO - 酬S 盯1 j l ，i t hm o r es e m a n t i ci n f o r m a t i o n ，b u ta l s op r u n e so u tu n n e c e s s a r yn o i s yi n f o r m a t i o n E v a l u a t i o n0 1 2t h e A C ER D C2 0 0 4b e n c h m a r kd a t as h o w st h a to u rs t m t e g ys i g n i f i c a n t l yi m p r

5、o v e st h ep e r f o m 撇o v e rt h es t a n d a r d S P r K e y w o r d s R e l a t i o n e x t r a c t i o n ，T r e ek e r n e l ，E x p a n d i n ga n dp r u n i n gs t r a t e g y 1 引言所谓实体语义关系抽取，其目的就是在命名实体识别和描述的基础上，根据上下文确定和抽取文本实体之间的各种语义关系。语义关系抽取的研究首先在“消息理解会议”( M U C ) 上被提出，继而“自动内容抽取”( A C E

6、) 评测会议又进一步推动着信息抽取研究的发展。根据A C E 项目中信息抽取的有关定义，实体就是现实世界中一个对象或是对象的集合，而语义关系就是这些实体之间显性或隐性的关系。实体一般按照预定义的类别可分为人物 ( P E R ) 、组织( O R G ) 、处所( L O C ) 等等。相应地，它们之间的关系也可预定义为地理位置关系 ( P H Y S ) 、社会关系( P E R - S O C ) 、雇佣关系( E M P - 0 R G ) 等等。本文的语义关系抽取系统基于卷积树核函数。日前最常用的生成实例数据方法采用Z h a n g 等 ( 2 0 0 6 ) 列提出的

7、最短路径包含树S P T ( S h o r t e s t P a t h - e n c l o s e dT r e e ) 关系树( 见第2 节相关内容) 。不过我们通过观察发现，仅仅选择最短路径包含树作为分类实例并不完善，不能包含某些关键信息，且最短路径包含树中通常存在不少的冗余和干扰信息，严重影响分类的性能。为此，本文提出了一种改进方法，应用适当的扩充和修剪策略使得分类性能有了大幅度的提高。本文组织结构如下：第2 节介绍语义关系抽取的相关工作和卷积树核函数的基本原理；第3 节提出了基于最短路径包含树( S P T ) 的扩充与裁剪方法；第4 节给出了详细的实验结

8、果以及深入的数据分析；最后对全文进行了总结，并介绍了将来的研究方向。 2 相关工作早期关系抽取是使用基于规则和知识库C h 2 1 的方法来解决这个问题，但此方法费时又费力，可移植性和自适应性较差。机器学习将关系抽取转化为分类问题。起先，机器学习算法通常构造特征向量形式的训练数据，然后使用各种机器学习算法，如支持向量机( S ) 等作为学习机构造分类器。不过基于特征向量的方法需要大量的特征工程，而且难以有效捕获结构化信息。为了克服这一难题，科学家们提出了基于核函数( K e r n e lF u n c t i o n ) 的学习算 - ) 基金项目：。8 6 3 ”国家

9、高技术研究发展计划资助项目( 2 0 0 6 A A 0 1 2 1 4 7 ) ，国家自然科学基金资助项目( 6 0 6 7 3 0 4 1 ) 潘坤硕士生，主要研究方向为自然语言处理、中文信息处理等。 1 5 0 法，使用核甬数替代特征向量内积运算直接计算两个对象( 如语法结构树) 的相似度，如树 “6 8 9 I ，图 1 2 等。 Z e l e n k o 等( 2 0 0 3 ) ? 8 最早提出了使用核函数的方法来实现关系抽取，在2 0 0 篇新闻文章中测试，取得了令人满意的结果。C u l o t t a 等( 2 0 0 4 ) L 6 J 通过一些转换规则( 如主

10、语依存于谓语、形容词依存于它们所修饰的名词等) 将包含关系中两个实体的解析树转换成依存树，然后定义了基于依存树的核函数并使用s 、厂M 分类器进行关系抽取，在A C E ) c 2 0 0 3 基准数据上的5 个关系大类的抽取中F 指数取得了4 5 8 。B u n e s c u 等( 2 0 0 5 ) 3 进一步提出了基于最短路径依存树的核甬数，在A C ER D C2 0 0 3 基准数据中F 指数取得了5 2 5 ，但其召回率却只有 4 3 8 。 Z h a n g 等( 2 0 0 6 ) 明应用自然语言处理中的卷积核函数( C o l l i n s 等2 0 0

11、 1 ，2 0 0 2 ) ：s 来实现关系抽取，并且提出了多种生成实例方法作为计算对象，结果发现用最短路径包含树( S P T ) 作为实例数据实验测试结果最优。如图1 所示，M C T 表示是一个句子的部分语法树，S P T 表示根据两个实体( E l ，E 2 ) 抽取出来的最短路径包含树。在A C ER D C2 0 0 3 基准数据的5 个关系大类和2 0 0 4 基准数据上的7 个关系大类的抽取中，F 指数分别达到了6 1 9 和6 7 7 。图1 最短路径包含树S P T 2 1 卷积树核函数本文采用卷积核函数 5 来实现关系抽取。所谓卷积核函数，就是通过计算

12、两棵解析树之间的相同子树的数量来比较解析树之间的相似度。例如有两棵解析树T 1 和T 2 ，要计算相似度K c ( T 1 ，T 2 ) ： K 。( 兀，T 2 ) = A ( n l ，挖2 ) n 1 N 1 ，1 2 2 其中M 是T ，的结点集合，A ( n 。，竹2 ) 计算以n ，和 7 l z 为根的共同子树个数，可以按照下面这种递归的计算方法： ( 1 ) 如果九t 和咒z 结点处的产生式不同，则 ( n l ，靠2 ) = 0 ，否则转向( 2 ) ； ( 2 ) 如果行，和n z 都是叶子前的一个结点，则 ( 行1 ，竹2 ) = l 入，否则转向( 3 ) ； (

13、 3 ) 递归地计算A ( n 1 ，璁) ： j t d z ( n 1 ) ( 靠1 ，行2 ) = Al I ( 1 + ( c h ( ，1 1 ，点) ， t 军l c ( 九2 ，点) ) ) 其中# c h ( n 。) 是结点7 z 的孩子结点数目，c h ( n ，志) 是结点，l 的第k 个孩子结点，A ( O A 1 ) 是衰退因子。 3 语义关系树的扩充 3 1 实体属性扩充对于一个实体，A C EE D C 2 0 0 4 基准数据中给出了e n t i t yt y p e ( 实体所属大类) 、e n t i t ys u b t y p e ( 实体所属

14、子类) 、e n t i t yc l a s s ( 实体类别) 、M e n t i o nt y p e ( 引用类型) 等若干属性。通常，实体的语义关系与实体的属性密切相关，例如P E R - S O C 关系描述了人们个体之间的社会关系，拥有这类关系的两个实体必须是P E 联妁N 的实体。图2 语义关系树的扩充每一个属性对正确分类的贡献不尽相同，因而选择合适的属性或属性组合是个问题。在实验部分各个属性会依次加入，以比较各个属性的贡献度。当然实体l 和实体2 都有各自的属性，属性如何在S F r r 中体现也是一个问题，具体做法很多，可以把各自属性组合加在实体结点E

15、 ( E 1 或E 2 ) 上，】5 】也可以把属性作为一个孩子结点挂在实体结点E ( E l 或E 2 ) 下面，也可以像图2 中那样把两个实体的属性作为根结点的孩子结点依次挂在根结点下面，或是其他组合情况。但从卷积树核的原理来看，由于在比较两棵树的相似度时，衰退因子的作用会使得层次越深对整体相似度的贡献越小，因而加在根结点上更有利于分类器的判别，这在我们多次的实验中已经得到了证实。 3 2 上下文结构信息扩充虽然Z h a n g 等( 2 0 0 6 ) C 9 给出的实验数据表明最短路径包含树比上下文路径包含树的性能要好，上下文路径包含树是在最短路径包含树加上基础

16、上前后各多加了一个词，性能不佳的原因可能是绝大多数的实例与上下文信息关系不大，加上反而引进一些噪音，另外上下浮动的窗口大小难以确定。但是从实例分析人手，适当地增加上下文结构信息应该是有作用的。例如图3 ，从图中的结构可以看出，实体一 “m e m b e r “ 和实体二“s u p r e m e ”之间有着“雇佣组织 ( E M P - O R G ) ”关系，但实体二被所有格结构“n t i s S o u r i S 修饰，因而实体“m e m b e r ”和所有格结构中的实体“m i s s o u r i “ 之间就没有关系。如果按照最短路径包含树( S P T ) 的生成方式，抽取出实体“m e m - b e t “ 和实体“m i s s o u r i ”之间的最短路径包含树，生成的实例就是“m e m b e ro fm i s s o u r i “ , 这样的结构很容易会被分类器分成有关系的结构。考虑到这种结

展开阅读全文