修剪和扩充策略在语义关系抽取中的应用

上传人:E**** 文档编号:114910734 上传时间:2019-11-12 格式:PDF 页数:5 大小:313.51KB
返回 下载 相关 举报
修剪和扩充策略在语义关系抽取中的应用_第1页
第1页 / 共5页
修剪和扩充策略在语义关系抽取中的应用_第2页
第2页 / 共5页
修剪和扩充策略在语义关系抽取中的应用_第3页
第3页 / 共5页
修剪和扩充策略在语义关系抽取中的应用_第4页
第4页 / 共5页
修剪和扩充策略在语义关系抽取中的应用_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《修剪和扩充策略在语义关系抽取中的应用》由会员分享,可在线阅读,更多相关《修剪和扩充策略在语义关系抽取中的应用(5页珍藏版)》请在金锄头文库上搜索。

1、计算机科学2 0 0 8 V o L3 5 N Q 9 A 修剪和扩充策略在语义关系抽取中的应用* ) 潘砷钱龙华朱巧明 ( 苏州大学计算机科学与技术学院苏州2 1 5 0 0 6 ) 摘耍基于树核函数和最短路径包舍树( S P l r ) ,本文提出了一种改进的方法,应用适当的修剪策略,大大减少了 冗余和噪音,同时扩充了原有的S 盯,使之包含更丰富的语义信E - 。在A C E R D C 2 0 0 4 基准数据上的实验结果表 明该方法起到了很好的作用,与S ”相比,性能有了明显的提高。 关键词关系抽取,树核函数,修剪和扩充策略 E x p a n d i n ga n dP r u n

2、i n gS t r a t e g yi nS e m a n t i cR e l a t i o nE x t r a c t i o n P A NS h e nQ I A NL o n g - h u aZ H UQ i a o - m i n g ( S c h o o lo fC o m p u t e rS c i e n c e & T e c h n o l o g y ,S o o c h o wU n i v e r s i t y ,S u z h o u2 1 5 0 0 6 ,C h i n a ) A b t 憎c tT h i sp a p e rp r o

3、p o s e sa r te f f e c t i v ea n de f f i c i e n te x p a n d i n ga n dp r u n i n gs t r a t e g yi ns e m a n t i cr e l a t i o ne x t r a c - - t i o n C o m p a r e d 、 ,i t l lt h ew i d e l yu s e ds h o r t e s tp a t he n c l o s e dt r e e ( S 盯) ,o u rn e ws t r a t e g yn o to n l ye

4、 x p a n d st h eO - 酬S 盯1 j l ,i t hm o r es e m a n t i ci n f o r m a t i o n ,b u ta l s op r u n e so u tu n n e c e s s a r yn o i s yi n f o r m a t i o n E v a l u a t i o n0 1 2t h e A C ER D C2 0 0 4b e n c h m a r kd a t as h o w st h a to u rs t m t e g ys i g n i f i c a n t l yi m p r

5、o v e st h ep e r f o m 撇o v e rt h es t a n d a r d S P r K e y w o r d s R e l a t i o n e x t r a c t i o n ,T r e ek e r n e l ,E x p a n d i n ga n dp r u n i n gs t r a t e g y 1 引言 所谓实体语义关系抽取,其目的就是在命名实 体识别和描述的基础上,根据上下文确定和抽取文 本实体之间的各种语义关系。语义关系抽取的研究 首先在“消息理解会议”( M U C ) 上被提出,继而“自 动内容抽取”( A C E

6、) 评测会议又进一步推动着信息 抽取研究的发展。根据A C E 项目中信息抽取的有 关定义,实体就是现实世界中一个对象或是对象的 集合,而语义关系就是这些实体之间显性或隐性的 关系。实体一般按照预定义的类别可分为人物 ( P E R ) 、组织( O R G ) 、处所( L O C ) 等等。相应地,它 们之间的关系也可预定义为地理位置关系 ( P H Y S ) 、社会关系( P E R - S O C ) 、雇佣关系( E M P - 0 R G ) 等等。 本文的语义关系抽取系统基于卷积树核函数。 日前最常用的生成实例数据方法采用Z h a n g 等 ( 2 0 0 6 ) 列提出的

7、最短路径包含树S P T ( S h o r t e s t P a t h - e n c l o s e dT r e e ) 关系树( 见第2 节相关内容) 。 不过我们通过观察发现,仅仅选择最短路径包含树 作为分类实例并不完善,不能包含某些关键信息,且 最短路径包含树中通常存在不少的冗余和干扰信 息,严重影响分类的性能。为此,本文提出了一种改 进方法,应用适当的扩充和修剪策略使得分类性能 有了大幅度的提高。 本文组织结构如下:第2 节介绍语义关系抽取 的相关工作和卷积树核函数的基本原理;第3 节提 出了基于最短路径包含树( S P T ) 的扩充与裁剪方 法;第4 节给出了详细的实验结

8、果以及深入的数据 分析;最后对全文进行了总结,并介绍了将来的研究 方向。 2 相关工作 早期关系抽取是使用基于规则和知识库C h 2 1 的 方法来解决这个问题,但此方法费时又费力,可移植 性和自适应性较差。机器学习将关系抽取转化为分 类问题。起先,机器学习算法通常构造特征向量形 式的训练数据,然后使用各种机器学习算法,如支持 向量机( S ) 等作为学习机构造分类器。不过基 于特征向量的方法需要大量的特征工程,而且难以 有效捕获结构化信息。为了克服这一难题,科学家 们提出了基于核函数( K e r n e lF u n c t i o n ) 的学习算 - ) 基金项目:。8 6 3 ”国家

9、高技术研究发展计划资助项目( 2 0 0 6 A A 0 1 2 1 4 7 ) ,国家自然科学基金资助项目( 6 0 6 7 3 0 4 1 ) 潘坤硕士生,主要研 究方向为自然语言处理、中文信息处理等。 1 5 0 法,使用核甬数替代特征向量内积运算直接计算两 个对象( 如语法结构树) 的相似度,如树 “6 8 9 I ,图 1 2 等。 Z e l e n k o 等( 2 0 0 3 ) ? 8 最早提出了使用核函数的 方法来实现关系抽取,在2 0 0 篇新闻文章中测试,取 得了令人满意的结果。C u l o t t a 等( 2 0 0 4 ) L 6 J 通过一 些转换规则( 如主

10、语依存于谓语、形容词依存于它们 所修饰的名词等) 将包含关系中两个实体的解析树 转换成依存树,然后定义了基于依存树的核函数并 使用s 、厂M 分类器进行关系抽取,在A C E ) c 2 0 0 3 基准数据上的5 个关系大类的抽取中F 指数 取得了4 5 8 。B u n e s c u 等( 2 0 0 5 ) 3 进一步提出了基 于最短路径依存树的核甬数,在A C ER D C2 0 0 3 基 准数据中F 指数取得了5 2 5 ,但其召回率却只有 4 3 8 。 Z h a n g 等( 2 0 0 6 ) 明应用自然语言处理中的卷积 核函数( C o l l i n s 等2 0 0

11、 1 ,2 0 0 2 ) :s 来实现关系抽取, 并且提出了多种生成实例方法作为计算对象,结果 发现用最短路径包含树( S P T ) 作为实例数据实验测 试结果最优。如图1 所示,M C T 表示是一个句子的 部分语法树,S P T 表示根据两个实体( E l ,E 2 ) 抽取 出来的最短路径包含树。在A C ER D C2 0 0 3 基准数 据的5 个关系大类和2 0 0 4 基准数据上的7 个关系大 类的抽取中,F 指数分别达到了6 1 9 和6 7 7 。 图1 最短路径包含树S P T 2 1 卷积树核函数 本文采用卷积核函数 5 来实现关系抽取。所谓 卷积核函数,就是通过计算

12、两棵解析树之间的相同 子树的数量来比较解析树之间的相似度。例如有两 棵解析树T 1 和T 2 ,要计算相似度K c ( T 1 ,T 2 ) : K 。( 兀,T 2 ) = A ( n l ,挖2 ) n 1 N 1 ,1 2 2 其中M 是T ,的结点集合,A ( n 。,竹2 ) 计算以n ,和 7 l z 为根的共同子树个数,可以按照下面这种递归的 计算方法: ( 1 ) 如果九t 和咒z 结点处的产生式不同,则 ( n l ,靠2 ) = 0 ,否则转向( 2 ) ; ( 2 ) 如果行,和n z 都是叶子前的一个结点,则 ( 行1 ,竹2 ) = l 入,否则转向( 3 ) ; (

13、 3 ) 递归地计算A ( n 1 ,璁) : j t d z ( n 1 ) ( 靠1 ,行2 ) = Al I ( 1 + ( c h ( ,1 1 ,点) , t 军l c ( 九2 ,点) ) ) 其中# c h ( n 。) 是结点7 z 的孩子结点数目,c h ( n ,志) 是 结点,l 的第k 个孩子结点,A ( O A 1 ) 是衰退因子。 3 语义关系树的扩充 3 1 实体属性扩充 对于一个实体,A C EE D C 2 0 0 4 基准数据中给 出了e n t i t yt y p e ( 实体所属大类) 、e n t i t ys u b t y p e ( 实 体所属

14、子类) 、e n t i t yc l a s s ( 实体类别) 、M e n t i o nt y p e ( 引用类型) 等若干属性。通常,实体的语义关系与 实体的属性密切相关,例如P E R - S O C 关系描述了 人们个体之间的社会关系,拥有这类关系的两个实 体必须是P E 联妁N 的实体。 图2 语义关系树的扩充 每一个属性对正确分类的贡献不尽相同,因而 选择合适的属性或属性组合是个问题。在实验部分 各个属性会依次加入,以比较各个属性的贡献度。 当然实体l 和实体2 都有各自的属性,属性如 何在S F r r 中体现也是一个问题,具体做法很多,可 以把各自属性组合加在实体结点E

15、 ( E 1 或E 2 ) 上, 】5 】 也可以把属性作为一个孩子结点挂在实体结点E ( E l 或E 2 ) 下面,也可以像图2 中那样把两个实体 的属性作为根结点的孩子结点依次挂在根结点下 面,或是其他组合情况。但从卷积树核的原理来看, 由于在比较两棵树的相似度时,衰退因子的作用会 使得层次越深对整体相似度的贡献越小,因而加在 根结点上更有利于分类器的判别,这在我们多次的 实验中已经得到了证实。 3 2 上下文结构信息扩充 虽然Z h a n g 等( 2 0 0 6 ) C 9 给出的实验数据表明 最短路径包含树比上下文路径包含树的性能要好, 上下文路径包含树是在最短路径包含树加上基础

16、上 前后各多加了一个词,性能不佳的原因可能是绝大 多数的实例与上下文信息关系不大,加上反而引进 一些噪音,另外上下浮动的窗口大小难以确定。但 是从实例分析人手,适当地增加上下文结构信息应 该是有作用的。 例如图3 ,从图中的结构可以看出,实体一 “m e m b e r “ 和实体二“s u p r e m e ”之间有着“雇佣组织 ( E M P - O R G ) ”关系,但实体二被所有格结构“n t i s S o u r i S 修饰,因而实体“m e m b e r ”和所有格结构中 的实体“m i s s o u r i “ 之间就没有关系。如果按照最短 路径包含树( S P T ) 的生成方式,抽取出实体“m e m - b e t “ 和实体“m i s s o u r i ”之间的最短路径包含树,生成 的实例就是“m e m b e ro fm i s s o u r i “ , 这样的结构很容 易会被分类器分成有关系的结构。考虑到这种结

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号