文档详情

篇章语义分析:让机器读懂文章

s9****2
实名认证
店铺
DOCX
23.21KB
约9页
文档ID:527650265
篇章语义分析:让机器读懂文章_第1页
1/9

篇章语义分析:让机器读懂文章声明:本文发表于 《中国人工智能学会通讯》第6卷第7期作者:张牧宇, 刘铭,朱海潮,秦兵引言:自然语言处理的研究从词汇、词典的研究起步,近年来一 直把句子作为核心的研究对象,对篇章的语义分析多是语言学家从理 论上进行探索,计算机科学家对篇章范围语义现象的关注有限但是,很多语义问题必须在篇章层面上才能够得到根本性的解决,比如“共 指消解”、“语义关系识别”和“事件融合与关系识别”等 同时, 这些篇章级语义问题的解决对于词汇级和句子级的分析同样具有反哺 性的指导意义近年来,中文词汇、句子级自然语言处理技术的发展, 特别是词义消歧、句法分析和语义角色标注等研究工作的进展为篇章 语义分析的研究创造了技术条件同时,搜索引擎等重大互联网应用 也向篇章语义分析提出了应用上的强烈需求如果能够建立一套既具 有理论深度,又具有现实可行性的篇章语义分析的理论和方法体系, 对于自然语言处理学术和应用的发展无疑都将具有重要意义本文即 概述了目前主流的篇章语义分析方法,并简要介绍了其应用前景1、什么是篇章语义分析篇章(Discourse ),是指由词和句子以复杂的关系链接而成,能 够完成一定交际任务的完整连贯的语言单元。

篇章语义分析 (Discourse Analysis)是指在篇章层面上,将语言从表层的没有结构 的文字序列转换为深层的有结构的机内表示,刻画篇章中的各部分内 容的语义信息,并识别不同部分之间存在的语义关联,进而融合篇章 内部信息和外部背景知识,更好的理解原文语义篇章语义分析的研 究建立在词汇级、句子级语义分析之上,融合篇章上下文的全局信息, 分析跨句的词汇之间,句子与句子之间,段落与段落之间的语义关联, 从而超越词汇和句子分析,达到对篇章等级更深层次的理解2、篇章语义分析方法概述 篇章语义分析主要有以下三个主流的研究方向:2.1 以篇章结构为核心此类研究工作的目标是识别不同文本块之间的语义关系,例如条 件关系、对比关系等,亦称之为修辞关系识别根据是否需要将文本 分割为一系列彼此不相交的覆盖序列,可以将本类方法进一步分成两 大类:第一类以修辞结构理论(Rhetorical Structure Theory )和篇 章图树库(Discourse GraphBank )为代表,要求先将文本切分为彼 此不相交的语义单元,并随后分析各部分之间的语义关系及结构组成; 第二类方法以宾州篇章树库理论(Penn Discourse TreeBank)为代 表,不需要预先切分文本,而是直接识别篇章关系及其元素所在位置, 并随后识别具体的语义关系类型。

修辞结构理论(Rhetorical Structure Theory, RST)最早由 Mann 和 Thompson 在 1988 年发表的论文[1]中提出除 Mann 和 Thompson 在该方向持续发表相关工作之外, Marcu 在其论文中对 RST理论进行了分析,并持续探索该方向,提出两种基于RST理论分析的文本处理方法[2] : (1)识别提示短语(Cue Phrases, CP),然后将整句打散成若干个子句;(2)为无结构的文本建立一个有效的修辞结构树RST理论以文本结构为分析对象,从小单元之间的连接关系开始,逐步延伸到自然语言段落和完整的语篇RST在汉语中的跨 语言可转移性有特殊的背景可惜,虽然有不少对 RST 的中文介绍和 初步应用计划等,但实质性的发展应用很少目前山西大学李茹教授 的团队正在尝试进行中文 RST 树库的构建工作,所产出的资源已经具 有一定规模,非常值得期待,只是尚未有公开的成果发表因此,RST 理论现在在中文尚没有一套完整可用的系统或理论,应用难度较 高篇章图树库(Discourse GraphBank)最初由Wolf和Gibson提 出[3] :该理论认为,相比于树结构,篇章更适合于表示为图。

在最初 的文章中,Wolf和Gibs on详细讨论了图表示与树表示的差别,并构建了一个由135篇文档构成的篇章树库资源Wolf和Gibson提出, 图表示允许将文章中的不同内容以更自由的形式表示出来,从而可以 尽可能的获取丰富信息关于 Discourse GraphBank 与 RST Discourse TreeBa nk的区别可详见 Wolf and Gibso n [3]宾州篇章树库理论(Penn Discourse Treebank)是宾州大学的 研究人员采用的一种以词汇为中心的方法 [4],在句子级的 Penn TreeBank 树库的基础上,以篇章关联词语为核心,从语义角度出发构 建了篇章关系树库[5]该研究检测同一篇章内两个文本单元(片段、 分句、复句、句群、段落等)之间的逻辑语义关联(因果关系、转折 关系等),将句内的语义分析结果扩展为篇章级别的语义信息,从而 成为语义分析的重要解决途径之一根据文本单元间是否存在篇章连接词,可将篇章句间的关系分为 包含关联词的显式篇章句间关系(Explicit Discourse Relation,简称 显式关系)[6,7]与 不 含关 联词 的隐式 篇 章 句 间 关 系 (Implicit DiscourseRelation,简称隐式关系)[8,9,10,11]。

由于隐式篇章关系 缺少关联词,无法直接推测语义关系类型,需要根据上下文进行推测, 因此也更加难以识别目前采用 PDTB 标准构建的篇章语料主要面向英语[5],除此以外 印度语[12]、土耳其语[13]和阿拉伯语[14]上也有相应的研究和资源出 现在中文上,布兰迪斯大学的 Xue 教授最早尝试了中文关联词标注 于分析工作[15] ,并尝试按照 PDTB 体系标注中文树库除此以外, Huang 和 Chen 也在相关工作上做了一定尝试[16]值得一提的是, 哈尔滨工业大学社会计算与信息检索研究中心秦兵教授课题组,采用 PDTB 框架,历时数月,标注超过 20,000 个实例,构建了一份大规模 的中文篇章语料库[17],并于2014年对学术界免费共享整体来说,以篇章结构为核心的篇章语义分析研究中,文本的语 义信息首先被转换为文本块间的修辞结构,随后具体化为相应的语义 关系类型(例如因果关系、转折关系等)对于以修辞结构理论(RST )为代表的一类研究而言,文本块间的修辞结构应该满足一种 树形结构;而对于以宾州树库理论(PDTB)和篇章图理论(Discourse GraphBank )而言,文本块间的修辞结构则倾向于线形 结构,同时允许一定的交叉和跨越关系存在。

这些研究兼有表现力和 实用性,通过定义修辞结构和语义关系,这些方法可以获取一定程度的语义信息,并且采用超越了词汇级别的基本处理单元,表现力较强 缺点主要在于结构分析难度较大,无论RST还是PDTB都对篇章结构 做了部分假设从而降低难度,提升操作性,但也损失了语义结构的完 整性更重要的是,在语义类型识别方面,由于语义问题本身的复杂 性和歧义性,导致识别难度较大;而已有的相关研究主要关注篇章内 部特征的挖掘和使用,对外部语义知识的使用不足,这也在一定程度 上限制了最终的识别效果2.2 以词汇语义为核心最典型的代表为 词汇链理论Lexical Chain Theory ),其由Morris和Hirst于1991提出的词汇链”是指一个主题下的一系列相关的词共同组成的词序列 [18]该算法的基本假设非常直观:用于描述特定主体的多个词语,在语义层面上应该是相关的,并且围绕特 定主体展开构成一条相关词汇的链条这样聚集起来的相关词汇的链 条即称之为“词汇链”,作为特定语言片段内部各个主题的指示如 果能够分析获知多个词汇链在文中的分布,那么对应的文章结构也就 确定了,属于一种静态的语篇连贯研究方法与链状的词汇链不同,中心理论(Centering Theory )主要针对 篇章结构中的焦点、指代表达式选择、话语一致性等进行研究。

最初 由Grosz等[19]在1995年提出,通过跟踪句子的“中心”变化来描述 篇章中心”指的是将当前句子与其他句子关联在一起的实体,如 果一句话有了这种“中心”实体,那么它将不再是独立的句子,而是 与上下文相关的语句如此,Grosz等人将“句子(Sentenee)”与“语句(Utteranee)”区分开来,用“句子(Sentenee)”指代一个普通 的词的序列,用“语句(Utteranee )”代指这种具有中心的、与上下 文相关的句子所以他们认为,这些“中心”才是组成语篇结构的基 础成分篇章连贯性理论 (Discourse cohere nee evaluati on )是篇章语 义分析研究的另一典型代表该研究最初始于 Grosz 等人 1995 年提 出的“中心定理”,通过对“中心”的刻画直接反映了篇章连贯信息 [19]近年来,篇章连贯性分析研究获得了比较快的发展,出现了一 些操作性较强的方法和研究2005年,Barzilay和Lapata提出了经 典的基于实体的连贯性评估方法,该方法分析各个实体在多个句子中 是否出现及相应句法角色,将待评估的文章转化为Entity-grid,并利 用该 Entity-grid 抽取特征训练有指导模型来进行连贯性评估 [20]。

2008年,Elsner和Charniak在经典的Entity-grid模型的基础上,对 篇章实体进行了进一步细分,引入新实体的概念和实体间的共指信息, 显著提升了系统性能[21]随后,他们二人进一步丰富了 Entity-grid 方法,向表格中的项中添加了关于实体显著性的信息以更加提升系统 性能[22]在上文介绍的以词汇语义为核心的篇章语义分析研究中,文本的 语义信息通过词汇间的语义关联体现具体来说,语义相关的词汇、 实体在文档中的分布情况,也可以体现篇章的行文结构以及各部分之 间的语义关联,此类研究中的不同理论与方法从不同的角度对篇章信 息进行了刻画具体来说,语义词汇链理论(Lexical Cohesion )通 过分析普通词汇(包括名词、形容词等)的语义信息构建主题词汇链, 利用词汇之间的分布和转移方式分析篇章语义中心理论(Cen ter ing Theory )和连贯性分析则主要以实体为分析对象,利用实体(包括共 指实体、相关实体等)的分布和重现刻画篇章信息这一类的研究理 论完善,操作性也比较强;但以词汇为分析对象,表现力比较有限, 而且语义关系以关联为主,对具体的语义类型(例如因果关系、转折 关系)没有进行更细致的区分。

另外,此类方法通过词汇的衔接来反 映篇章结构,不利于刻画复杂的篇章结构信息2.3 以背景知识为核心 此类研究工作需要借助语义词典作为背景知识帮助分析篇章语义 关系经过国内外专家的努力,目前已经产生一些初具规模,并具有 一定实用程度的语义词典资源在国外,有以描写词汇上下位、同义、 反义等聚合关系为主的WordNet[23],以描写语言成分之间的各种组 配关系为主的 FrameNet [24]而国内比较知名的有知网( HowNet) [25]、清华大学开发的以语义组合关系为主的《现代汉语动词分类词 典 》 [26] 、 北京 大学 基 于 WordNet 框 架 开 发 的 中 文 概 念 词 典(Chinese Concept Dictionary , CCD ) [27]、台湾中研院集成多资 源 的 SinicaBow ( the Academia Sinica Bilingual OntologyWordNet)[28]、哈尔滨工业大学在同义词词林(Cilin) 基础上开发的同义词词林(扩展版)等随着 Web 2.0 的发展,用户产生内容使得互联网上的信息量爆增 以Wikipedia (中文名:维基百科)为代表的,使用群体智慧构建。

下载提示
相似文档
正为您匹配相似的精品文档