浅谈中汉语动结式生成的难度大

上传人:ldj****22 文档编号:39976965 上传时间:2018-05-21 格式:DOC 页数:9 大小:40.50KB
返回 下载 相关 举报
浅谈中汉语动结式生成的难度大_第1页
第1页 / 共9页
浅谈中汉语动结式生成的难度大_第2页
第2页 / 共9页
浅谈中汉语动结式生成的难度大_第3页
第3页 / 共9页
浅谈中汉语动结式生成的难度大_第4页
第4页 / 共9页
浅谈中汉语动结式生成的难度大_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《浅谈中汉语动结式生成的难度大》由会员分享,可在线阅读,更多相关《浅谈中汉语动结式生成的难度大(9页珍藏版)》请在金锄头文库上搜索。

1、1.引言当电子计算机 1946 年问世的时候,人们就提出了机器翻译的想法,并且在 1954 年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检 索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。学者们 倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成 果或者产品却常常不能令人满意。原因是什么呢?从语言研究的角度来说,机器翻译系统分析、理解和生成自然语 言的能力都还不到位,处理不了的语言现象很多:有的是句子结构层次弄错了,有的是结 构关系弄错了,有的是成分之间的语义关系弄错了,有的是词义辨识错了,还有的错误是 源语和

2、目标语之间的对比差异造成的。下面是机器翻译处理汉语动结式不成功的几个例子 (来自三个机器翻译系统) 。先看生成的情况,机器翻译目前还很难生成汉语的动结式,所以我们很少在汉语 译文里见到含有动结式的句子。对于下面这个英译汉的例子,三个系统都不能翻译成“他 把地扫干净了”: He swept the floor clean. * 他干净地扫地了。* 他清扫清洁的地板。* 他清扫地板干净。 再看汉语动结式翻译成英语的例子,它们可以说明目前机器翻译系统分析和理解 汉语动结式的能力: 他踢坏了三双鞋。 *He plays three pairs of evil shoes.*He kicked thre

3、e pairs of shoes bad.*Him kick spoil 3 pairs of shoes. 这段路把妈妈走累了。*The way make mother tired after the walk.*This section of way was walked mother tired(ly).*This road mother walk tired. 大家吃腻了剩菜。*Everybody has fedded up with the leftovers.*That everybody ate greasy(ly)surplus vegetable.*All eat,is lo

4、athe to leave vegetable.下面我们只讨论动结式的生成问题,其中不包括以下三种情况:1)补语用“得” 字连接的;2)补语虚化的,如:“抓住” 、 “买着” 、 “看完” 、 “办成”等;3)补语和动结式 的宾语有固定搭配关系的,如:“说走了板” 、 “看愣了神” 、 “苦出了头”等等。2.机器翻译中的动结式问题为了说明机器翻译如何处理动结式述语结构,我们需要先看看机器翻译的过程。 下图说明了机器翻译的原理,也是机器翻译的整个过程。附图图 1 机器翻译的过程显然,这是一个理想化的机器翻译过程。从 S 到 I 再到 T 的过程是中介语言的翻 译策略,中介语言通常是某种独立于源语

5、和目标语的逻辑表达式。如果是英译汉,对英语 的分析和理解要从表层深入到底层,得到描述句子意义的中介语言逻辑表达式。同样地, 汉语也要从底层到表层一步一步生成。分析时从表层到底层走得越深,生成时从底层回到 表层的过程也就越复杂。因此,需要分别对这两种语言的句法和语义系统作深入的研究。 实际上目前大部分机器翻译系统都作不到这个程度,常见的翻译策略是直接法或转换法,或直接和转换相结合的混合方法。我们可以通过一个英译汉的例子对直接法、转换法和中 介语言法这三种翻译策略作一个比较:You get good reception on your radio.(摘自某产品说明书)译句 1 你得到好的接收在你的

6、收音机上。译句 2 你用你的收音机得到好的接收。译句 3 你的收音机接收情况良好。在机器翻译系统中,用直接法可以得到译句 1;用基于句法的转换法,再加上一 些语义关系的分析,能得到译句 2;译句 3 是基于理解的,用中介语言法有可能作到。显 然,前一节关于动结式英译汉和汉译英的例子,都不是基于理解的翻译。动结式的结构形式简洁,语义关系复杂,在汉语里是很有特点的一种结构。吕叔 湘先生(1986)曾用它说明汉语句法的灵活性。人们在从各种角度论述动结式述补结构的时 候,常常会提到它在对外汉语教学当中是个难点。同样,在机器翻译中它也是个难题。在 汉语翻译成外语的系统里,难的是如何分析和理解动结式述补结

7、构。在外语翻译成汉语的 系统里,难的是如何生成含有动结式的句子。我们在这里只讨论生成的情况。在这种情况下,源语(例如英语)往往没有相当 于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起 来。所以除非用个别处理的办法,采用直接法和转换法翻译策略的系统很难生成汉语的动 结式译文。要让系统有生成动结式的能力,就要按中介语言法的思路,增加分析的深度, 理解源语句子要表达的意思(各个成分的概念意义、成分之间的关系意义,句子的句式意 义,等等) ,然后根据意义表达的需要,选择动结式的一种结构形式,再生成表层的句子。 目前我们对汉语的研究还不足以支持这样的生成过程。所以在现有的

8、机器翻译系统输出的 汉语译文当中,很难找到地道的含有动结式述补结构的句子。于是就有了下面的译文:He has made the question complicated.他已使问题复杂化。 (他把问题搞复杂了。 )The children have had enough to eat.孩子们已吃了足够。 (孩子们吃饱了。 )这样的译文对机器翻译来说就算不错了,只是念起来有些别扭,有点“机器味儿” 。3.动结式的生成过程机器翻译译文生成的任务是从要表达的意义出发,经过选择词语、确定词语间的 语义关系、确定目标语句子的句法结构等步骤,最终输出与源语言句子在意义上等价的表 层字符串。对于动结式的生成

9、,有以下几步:(一)确定要表达的意思 (四)整合语义结构(二)选择词语、分派语义角色 (五)选择句法表现形式(三)判断合法性 (六)处理表层词语3.1 制定要表达的意思汉语动结式述语结构表达的是一种“动作结果”事件。比如要生成的意思是: 小王读了这篇文章,结果小王懂了这篇文章。在汉语生成开始之前,机器翻译系统用中介 语言逻辑表达式表示要生成的译文是什么意思。一般来说,如果这个表达式里面有两个谓 词结构,并且二者之间有“动作结果”关系,就可以进入汉语动结式的生成过程。中介语言逻辑表达式是从源语(譬如英语)分析得到的,源语中的述谓结构和 “动作结果”关系会在表达式中有所体现。但这并不是判断能否生成

10、汉语动结式的惟一 依据。我们在上一节提到,英语往往没有相当于汉语动结式的结构形式,也很难用转换规 则把英语的某些结构形式与汉语动结式联系起来,这是就句法结构来说的。实际上,由于 英、汉语之间在“动作结果”关系表达上的差异, (注:戴浩一(2002)指出:“动作结 果”基模虽然在汉、英语中都存在,但是在汉语中占主导地位,而在英语中占次要甚至边缘地位。而且,这个基模在两个语言对客观情况的构建上也因经验的概念化不同而呈现不 同的形式。 )在从源语分析得来的语义表达式里,可以用汉语动结式生成的“动作结果” 关系有时是隐含的,与此相关的述谓关系也有不同的表现形式。比如:英语对动作对象的描写在汉语中有时可

11、以表达成动作的结果:She married the wrong person. 她嫁错了人。He entered the wrong door. 他进错了门。汉语中动词的结果补语在英语中有时是说明动作的状态和程度的成分:电视看久了。 to watch TV for a very long time.我英语学晚了。 It was very late when I started to learn English.还有,致使“动作结果”事件发生的某些因素在汉语里常常可以充当动结式的 一个论元角色, (注:袁毓林(2001)称其为外来的致事。 )而在英语里它们往往充当其他成 分:那场可怕的暴风雪冻死

12、了不少人。Many people froze to death in the terrible snowstorm.沙发把你坐懒了。You are becoming lazy on the sofa.所以我们需要一组规则,在要生成的语义表达式里判断有没有应该用汉语动结式 表达的述谓关系。在这组规则里,除了两个谓词结构及其显性的“动作结果”关系符合 判断条件以外,还应该有能够识别和提取隐含的“动作结果”关系及其述谓结构的条件。 这就需要研究英语和汉语在表达“动作结果”关系时的差异。这种差异有时在某种类别 下表现出来,有时又很个性化,只跟具体词语有关。目前机器翻译系统还没有找到这样的 规则。所以我

13、们就暂时只能看到“她嫁给了错误的人”和“他进了错误的门”这样的译文。3.2 选择词语选择词语需要有一部用于信息处理的汉语词典,告诉我们词语和它们的意义,以 及它们的用法(比如,谓词的配价结构及其论元的限制条件) 。对于前面的例子,需要先在 词典里选出“小王” 、 “读” 、 “懂” 、 “文章”这些词,然后根据词语的意义和逻辑关系为它 们分派语义角色。这些词在中介语言逻辑表达式里是实体和谓词。 “了” 、 “结果” 、 “这”等 是算子或关系,把它们转成词汇形式还需要另外的分析和处理。词语选择和语义角色分派 的结果可以表示成树形图或特征集合等形式。附图图 2 词语选择和角色分派的结果Agen

14、表示施事,Pred 表示谓词,Pati 表示受事,Cont 表示内容,Expe 表示 经验者(当事) 。即使有一部详尽的词典,要让机器根据意义选择词语也不是一件容易的事情。我 们经常需要在几个同义词或近义词当中进行取舍。比如,汉语的“看”有 read 的意思,用 它来表达我们要生成的意思比“读”更地道。根据什么样的规则选择“看” ,不选择“读”? 目前汉语词汇和语义的研究还不能形式化地回答这个问题。机器翻译系统只好先根据词语 搭配的优先关系来判断。一种作法是,借助描写词语概念的语义词典,用统计语言模型计 算语义相似度,让计算机学会表示和比较词语搭配的优先关系。但是,用这种工程化的方 法并不能绕

15、过汉语研究的作用,因为一个统计语言模型能否达到比较好的处理效果,很大 程度上取决于采用什么样的语言学知识作为参数。3.3 判断合法性经过词语选择和角色分派,得到了图 2 表示的两个谓词结构。这一步的任务是, 判断能不能用动结式述语结构表示这两个谓词结构及其关系。具体说就是, “看”和“懂”能不能合成“看懂” ,并且表示中介语言逻辑表达式要求的“动作结果”关系。因此合法 性的问题关系到哪些动词和哪些形容词(或动词)能够组合成符合汉语习惯的动结式。如果给机器翻译系统提供一个词表,列出一批动结式的词语,而“看懂”又刚好 在这个词表里,那么判断这件事情就比较容易。譬如,在动词“学”的两个义项(“学习”

16、 和“模仿” )下面, 汉语动词用法词典 (孟琮等,1999)列举了 8 个动结式实例, 中国 语补语例解 (侯精一等,2001)列举了 12 个。这两部词典是面向人的,如果给机器翻译 用就还需要收录更多的实例。比如“学懂” 、 “学腻” ,等等(我们在本文的第四部分列举了 “学”下面 84 个可能需要生成的动结式实例) 。实际上,词表只适用于小范围的实验型翻 译系统。动结式述语是一种自由结构,是根据说话的需要临时造出来的,因此应该是不胜 枚举的。我们可以这样想, “学”是一种认知行为, “懂” 、 “明白”等词语表示认知活动的 效果,因此可以当“学”的结果补语。但人们也常说“这孩子学歪了” 、 “把身体学垮了” 。 “歪”和“垮”又根据什么是“学”的结果补语呢?这些补语该用什么条件来生成?我们 将在第四部分进一步讨论这个问题。如果这一步判断的结果是不能生成合法的动结式,那么就需要回到上一步,重新 选择词语,直到找不到符合预定的语义要求的词语为止。3.4 整合语义结构作为一个述谓性的结构整体,动结式有自己语义上的支配成分,包括论

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号