从计算机处理的角度看短语结构歧义

上传人:wt****50 文档编号:44625665 上传时间:2018-06-14 格式:PDF 页数:9 大小:260.26KB
返回 下载 相关 举报
从计算机处理的角度看短语结构歧义_第1页
第1页 / 共9页
从计算机处理的角度看短语结构歧义_第2页
第2页 / 共9页
从计算机处理的角度看短语结构歧义_第3页
第3页 / 共9页
从计算机处理的角度看短语结构歧义_第4页
第4页 / 共9页
从计算机处理的角度看短语结构歧义_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《从计算机处理的角度看短语结构歧义》由会员分享,可在线阅读,更多相关《从计算机处理的角度看短语结构歧义(9页珍藏版)》请在金锄头文库上搜索。

1、从计算机处理的角度看短语结构歧义从计算机处理的角度看短语结构歧义* 詹 卫 东 北京大学中文系 100871 摘 要摘 要 本文分析了计算机对汉语短语进行结构定界和结构关系判定时产生歧义的不同类型,从歧义格 式跟歧义实例的关系角度,区分为真歧义、伪歧义和准歧义三种不同情况;从歧义是否造成短语功 能差异,亦即结构歧义对外是否发生影响的角度,分为自囿型歧义和他囿型歧义两类。对汉语短语 结构歧义做上述类型的区分,可以为进一步解决歧义格式的分析问题提供有效的支持。 Abstract This paper analyses the ambiguity of determining by computer

2、 boundaries and constructional relations of Chinese phrases. The type of ambiguity can be classified from two different perspectives. As viewed from differentiated types of relation between type and token, ambiguous phrases can be classified into three kinds: the true-ambiguity, the pseudo-ambiguity

3、, and the quasi-ambiguity, and as viewed from the influence of ambiguity, ambiguous phrases can be classified into two kinds: the closed-ambiguity and the opened-ambiguity. The author hopes that the classification mentioned above conduces to solve the problem of phrase structure ambiguities in Chine

4、se. 0 引 言引 言 语言学界对自然语言歧义现象的研究由来已久,并已取得了不少成果1。以往的研究主要是从人 的角度出发。有没有歧义,是什么性质的歧义,都由人来判断。同样,研究解决歧义的办法也主要 是考虑人学习运用语言,认识语言规律的需要。现在,随着计算机自然语言处理理论和技术研究工 作的不断发展,自然语言歧义问题就又有了新的研究视角。从计算机的角度来观察歧义现象,跟从 人的角度着眼多有不同。突出地表现在两个方面:一是辨识歧义的能力不同。有的语言形式对人而 言是有歧义的,计算机却视若不见;有的语言形式对人而言没有歧义,计算机却绞尽脑汁理解出几 种意思来。二是消除歧义的能力不同。人具备语言知识

5、、百科常识、联想能力和逻辑推理能力等, 对实际篇章中出现的句子大都能消除其潜在歧义,做到准确理解。计算机的排歧能力则大为逊色, 不易根据语境条件的制约来确定句子合理的解释2。 本文即尝试以计算机的眼光来观察汉语短语结构的歧义现象。之所以选择在短语结构层面讨论 歧义问题,是受目前计算机处理自然语言水平的限制。对于自然语言中诸如语义结构关系歧义、语 义指向歧义、语用歧义等等复杂的歧义现象,计算机现阶段基本上还处在视若不见的地步,无论在* 本文研究得到北京大学中文系陆俭明教授、北京大学计算语言学研究所俞士汶教授的指导,特此致谢。 1辨识还是消歧方面都是力不从心。而计算机对汉语短语结构的分析,则往往是

6、歧义迭出,常常能把 对人而言无歧义的句子分析出多个结果来。如何消除这些歧义结果对提高目前计算机汉语信息处理 技术水平就显得十分迫切和必要。因此本文打算尽力对不同性质类型的短语结构歧义做一番剖析和 探索。看看计算机在识别和消解短语结构定界歧义和结构关系歧义方面有何特点。 1 短语结构定界歧义和结构关系判定歧义 短语结构定界歧义和结构关系判定歧义 计算机对句子进行短语结构分析,包括确定结构体界限和判定结构内部的语法关系,有可能得 到多个结果,就是所谓的结构定界歧义和结构关系歧义。大致说来,结构定界歧义也就相当于人对 句子进行层次分析时碰到的一个表层线性形式有多种不同层次切分的情形;结构关系歧义也即

7、两个 直接成分之间有一种以上的语法关系。前者针对两个以上语言成分的分析而言,后者则针对两个语 言成分而言。这一节我们来说明什么样的符号排列可能会造成短语结构定界歧义和结构关系判定歧 义。 首先我们以三个符号串的序列为考察对象,研究可能造成短语结构定界歧义的排列格式。假设 有 A、B、C 三个功能标记,它们连续排列为 ABC 形式。如果:(1)B 跟 A 先组合后能再跟 C 组 合形成更大的组合体;或者(2)B 跟 C 先组合后再跟 A 组合也能形成更大的组合体。二者同时为 真。则 ABC 会发生结构定界歧义。如果只存在上述两种情况中的一种,或者 A、B、C 三者根本不 能组合成更大的结构体(即

8、不能构成合法的语法形式),也即(1)(2)不同时为真,则排列式 ABC 没有结构定界歧义。举例说明如下: 1 . VP U NP3 这样三个功能类的排列形式,只有一种可能的组合方式即VP U NP,因为助词 U 是后定 位功能成分,只能跟前面的成分组合,不可能跟其后面的成分发生组合关系。这种排列不会有定界 问题。例如: 看 了 三场电影 2. PP NP NP PP 跟 NP 不成结构,NP 跟 NP 发生组合关系后形成的结构体也不可能跟 PP 组合成更大的结构 体。这样,这三个类的排列也不存在定界问题。 3. VP AP NP 这三个功能标记的排列式存在两种组合的可能性。a. VP AP N

9、P 或者 b. VP AP NP。我们可以在语言中找到相应的实例。如: (1) 踢新球 组合方式为 a 踢 新 球 (2) 踢碎玻璃瓶 组合方式为 b 踢 碎 玻璃瓶 (3) 踢破球 有歧义, 可以是 a 踢 破 球 也可以是 b 踢 破 球 前两例对人而言都是单义的。第三例对人来说也有歧义。口语中靠重音位置和节奏停顿可以区分开。 按 a 切分时,“破”读重音,原调。“踢”跟“破”之间有明显较长的语音间隔(跟“破”和“球” 之间的间隔相对而言);按 b 切分时,“破”可以轻读,“踢”跟“破”之间连得很紧密。在书面 上,人也要在更大语言环境中才可能准确判断是哪种意思。 跟结构体定界歧义一样,结构

10、关系判定歧义问题也不是无条件地存在于任意两个符号之间。一 般说来,实语类跟实语类组合的短语发生结构关系歧义的可能性大。实语类跟虚语类组合的短语发 生结构关系歧义的可能性小。如: 4. P NP 介词 P 是虚词属虚语类范畴,跟属实语类的名词短语 NP 只能构成介宾关系。如: 被公司(解雇) 把茶(喝了) 等。 5. VP NP VP 跟 NP 都是实语类。二者组合,VP 跟 NP 可以构成述宾关系。如:打击/v 犯罪分子/n;也 可以构成定中关系。如:抄袭/v 行为/n 2由上面分析可知,跟结构体定界歧义问题有关的排列式只是如例 3 这样的情况。跟结构关系判 定歧义问题有关的排列式则是象例 5

11、 这样的组合。而对计算机处理来说,类似上面这些可能造成歧 义的排列格式,内部还有不同的类型,各自又有不同的特点。本文下面的主要篇幅就来讨论存在定 界歧义问题和结构关系判定歧义问题的短语结构有哪些不同类型和特点。所有的讨论分析,都是我 们为解释计算机何以会把对人无歧义的语言形式看成歧义结构所做的努力。我们希望通过这样的探 索,能够把计算机分析短语结构碰到的歧义问题的性质进一步澄清,并进而在考虑采用何种消歧策 略时能做到有的放矢、事半功倍。 2 真歧义真歧义 象上节例 3 那样的排列式,从类(type)的组合来看,有两种结构定界方式;从例(token)的 表现来看,有实际的歧义例子(如:“踢破球”

12、)。计算机在分析这类短语结构时,发生定界歧义, 我们称之为真歧义。也就是指功能类组合时存在的结构定界歧义可以投射(mapping)到一个具体的 自然语言形式上,类的歧义可以在语言中很容易地找到同形异构异义的实例。再例如: 1. VP VP U4 这三个功能类的排列也存在两种组合可能: a VP VP U 如: 挤上巴士 跑 了 b VP VP U 如: 引起 争吵 了 a 跟 b 对应的两个实例分别都是单义的,只有一种层次结构。上例只能作 a 解;下例只能作 b 解。而下面的实例就是歧义短语了。层次上可以有两种不同的构造,意思上也可以有不同的理解。 如: 拄着拐杖走了 可以理解为 a 拄着拐杖

13、 走 了 老王没留下吃饭就拄着拐杖走了 也可理解为 b 拄着拐杖 走 了 老王的腿好得很快,现在能拄着拐杖走了 做 a 式切分,意为“走了”,是“拄着拐杖走的”;做 b 式切分,可以表示以前不能“走”,现在 能“拄着拐杖走”这样的意思,表示一种变化。 还有一种情形是在结构层次上可以做两种切分,但意义理解上没有什么差别。也就是通常所说 的多切分的情况。如: 带着一家很快就回到上海了 可以按 a 切分 带着一家 很快就回到上海 了 也可按 b 切分 带着一家 很快就回到上海 了 两种层次都表示一样的意思。 从上面例子可以看出,真歧义的排列式,它投射产生的短语实例,在结构定界和意义理解上, 存在三种

14、情况:单定界单义、多定界单义、和多定界多义。其中最后一种情况是真歧义排列式的充 分必要条件。再看一个例子: 2. VP D AP5 有两种定界可能: a VP D AP 如: 办事 不 认真 b VP D AP 如: 洗 不 干净 整个结构体按 a 式组合,是主谓结构,VP 作主语;按 b 式组合,是述补结构。上面这两个实例 都是单定界单义的。我们可以再找两个多定界多义的例子。如: 写不好 a 写 不 好,不写也不好 b 这个字我 写 不 好 解释不清楚 a 论文对语言事实的描写很详细,但解释 不 清楚 b 小王解释 不 清楚事情的原因 这两个短语都是歧义实例。结构定界不同,意义也不同。因此“

15、VP D AP”排列式属真歧义 类型的组合格式。 短语结构定界有歧义,短语内部结构关系当然也跟着发生歧义。因此,结构定界真歧义格式同3时也就意味着结构关系歧义也是真歧义类型。这里就不另举例了。 真歧义的歧义实例,对人来说也是有歧义的,计算机处理则显然是个难题。 3 伪歧义伪歧义 跟真歧义的格式相反,计算机在确定短语界限时,还会碰到我们称之为伪歧义的情况。所谓伪 歧义,是指功能类组合时有不止一种可能的定界方式,但映射到实例时,不同的组合方式并不导致 意义理解上的不同;或者是实例只有唯一的合理的结构层次构造,亦即是单一结构定界单一意义的。 这就是说,对类而言有多种组合可能,对实例而言则或者多切分或者单一切分,意思理解上都没有 歧义。例如: 1. DP VP NP 从抽象的类的组合来看,这个排列式可以有两种层次构造: a. DP VP NP b. DP VP NP 按 a 式组合,是副词性短语修饰一个动词性短语,整个结构体是状中式构造;按 b 式组合,则是副 词性成分先修饰一个动词性短语,形成的状中式 VP 再带

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号