关于统计机器翻译的思考姚天顺

资源描述

《关于统计机器翻译的思考姚天顺》由会员分享，可在线阅读，更多相关《关于统计机器翻译的思考姚天顺（43页珍藏版）》请在金锄头文库上搜索。

1、关于统计机器翻译的思考姚天顺自然语言处理实验室东北大学 2004.7.111. 前言有这么两条消息：5月10日参考消息“随着又有10个国家加入欧盟，欧盟现有20种官方语言。年度翻译预算增加到10亿美元。”5月28日参考消息“欧盟新通过一项议案，所有成员国在欧盟会议上的文件不得超过15页A4纸，以减轻翻译人员的工作量。”机器翻译的现状和未来到底怎么样了？有计算机的那一天就有机器翻译的研究。计算机事业蓬勃发展，但机器翻译的道路至今仍然十分艰难。上世纪的八十年代，特别是九十年代，语料库语言学在计算语言学界兴起。最近的五年到十年，机器学习方法又受到学术界特别的重视，数学方法大量地引进了语

2、言信息处理。自然语言处理的研究是进了一大步，但对于机器翻译而言，真实的效果在哪里呢？回忆基于规则的机器翻译系统作为主流技术的时代，不管怎么样？多少还出现过一些有市场价值的系统，例如译星、华建和史晓东等的汉英翻译系统。华建的机器翻译，居然取得了国内单项软件出口的最高出售价。欧洲和日本情况也是这样，当前主流的机器翻译还都是基于规则的机器翻译系统。基于语料库的机器翻译方法，一般说来可以分为两类：一类是基于统计的机器翻译系统，另一类和基于模板的机器翻译方法。基于统计的机器翻译，简称为统计机器翻译。统计机器翻译把源语言中任何一个句子都可能是目标语言中某些句子相似，这些句子的相似程度可能都不相同。那

3、么，一个好的机器翻译系统就是那种能找到最相似句子的系统。但是这样的汉外机器翻译系统在我们国家从来也没有出现过。1994年，IBM公司的A. Berger, P. Brown 等人发表了一个技术报告，即著名的论文：“The candide System of Machine Translation。”他们用统计方法，各种不同的对齐技术，给出了命名为Candide 的统计机器翻译系统.利用汉莎语料库（Hansard corpus，英法双语语料库），总共有 2,205,733 英法句对作为训练语料，实现了国际上第一个较为著名的英语到法语的统计机器翻译系统。一开始，系统的成绩不错，整体的系统的译

4、准率超过了基于解释、转换、和生成的规则系统。ARPA（美国国防部高级研究计划署）把这个 Candide 翻译系统进行评测，并和国际上利用常规的规则系统构造的 SYSTRAN 机器翻译系统作比较，结果是，流利程度适当程度时间比率率 1992 1993 1992 1993 1992 1993SYSTRAN .466 .540 .686 .743 Candide .511 .580 .575 .670 Transman .819 .838 .837 .850 .688 .625Manual .833 .840 Transman is the part of the Candide system

5、used as a translation assis-tance tool, i.e. a machine-aided translation system. 这个结果很了不起，在某种程度上推动了经验主义思潮更进一步向前发展。由于计算语言的复杂性，Candide系统还请了一些语言学家来帮助他们做形态分析、语义标注、和词典等。Candide系统仍不是一个纯统计的系统。这样的系统，看来很有希望，不知为什么，由于IBM 公司外部和内部财政方面的原因，支持被撤走，他们的工作坚持到1995 年，就被迫停止。呼声很高的系统被中断了。有人说，纯统计的机器翻译注定是要失败的！美国著名机器翻译学者Yor

6、ick Wilks在批评 Candide系统时指出：“他们在系统中引入符号结构就说明了，纯统计的假设已经失败了”（“Incorporating symbolic structure shows the pure statistics hypothesis has failed”）可见，统计方法是令人鼓舞的，可是它还没有解决所有困难的问题。2新统计机器翻译系统的出现2000年，在Johns Hopkins 的暑假Workshop，有来自南加州大学、罗切斯特大学、约翰.霍普金斯大学、施乐公司、宾州大学、斯丹福大学等学校的研究人员，以Och为主的13人，写了一个Final Report：Sy

7、ntax for Statistical Machine TranslationOch博士发表的论文：“Discriminative Training and Maximum Entropy Models for Statistical Machine Translation”,获ACL2002大会最佳论文奖。20012003年七月，在美国马里兰州Johns Hopkins美国商业部的 NIST/TIDES (National Institute of Standards and Technology) at University in Baltimore, Maryland 评比过程中获最好

8、成绩。构造了23种阿拉伯和汉语到英语的机器翻译系统。TIDES: Translingual Information Detection, Extraction and SummarizationOch的气很盛，他说，伟大的希腊科学家Archimedes说：“Give me a place to stand on, and I will move the world.”Och说：“Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.

9、”这是不是说，Och博士已经找到机器翻译的有效方法了?3统计机器翻译语法Berger 关于机器翻译的失败,一个主要问题是：统计机器翻译（SMT）往往有显而易见的语法错误。Och希望在SMT里整体组合语法结构。不断添加反映语法知识的特征函数来解决不同语法层次的翻译问题，按照最大熵的模型，在各个语法层次都能给出可能的特征函数希望从最简单的二元特征到复杂的树 - 树的结构分析都能够造翻译模型。31 逻辑-线性模型机器翻译的目的是：给定一个源句子Chinese） , 翻译成可能的目标句子（English）那么，所有可能的目标句的最大概率：Och 和 Ney 在 2002年提出的翻译模型, 不同于

10、 Brown 等的设想（1993），是一种后验概率的直接模型（称为直接最大熵翻译模型）。其中 e 和 f 的位置正好颠倒. 利用Berger等人(1996)提出的最大熵框架，在这个框架里，有一组特征函数: 对于每一个特征函数，存在一个模型参数,按照最大熵理论，直接概率模型：这是标准的最大熵计算公式。其中分母可以不计。逻辑-线性模型总体结构如下图所示：一个统计机器翻译系统设计成为：切分（短语）、对齐、重排、生成。由汉语句子：中国十四个边境开放城市经济建设成就显著.翻译成英文句子： Chinas 14 open border cities marked economic achievem

11、ents.切分：对齐模板处理形象理解为：本质上存在一个隐变量，再取参数，就有特征函数由原来的转换成各种语法现象的特征函数浅层语法的特征函数WoRD SelectionPhrase AlignmentAlignment Template SelectionLanguage Model Features深层句法特征函数深层处理的句法特征函数是通过两种模型形成：1、Tree to String 的特征函数1) 中文句子和英文分析树,对齐概率和的特征函数，2）计算对齐最好的特征函数2、Tree to Tree 的特征函数树到树的对齐模型是十分复杂的。例如汉英句对：中国十四个边境开放城市经济建设成

12、就显著. Fourteen Chinese open border city make signficant achievements in economic construction.标注后的双语句子：中国_NR 14_CD 个_M 边境_NN 开放_NN 城市_NN 经济_NN 建设_NN 成就_NN 显著_VV。(不讨论标注的正确性）Fourteen_CD Chinese_JJ open_JJ border_NN cities_NNS make_VBP signficant_JJ achievements_NNS in_IN economic_JJ construction_NN.他们的

13、分析树分别是：例如这里有两类标注：The Part-of-Speech Tagging Guildelines for Penn Chinese Treebank。The University of Pennsylvania Treebank Tag-set。其中，NR proper noun 专有名字CD cardinal number 基数M measure word 量词NN common noun 普通名字VV other verb 是、有以外的动词 JJ other noun modifier 其他名字修饰符VBP verb, present tense, 3rd person si

14、ngular 动词，现在式，第3人称IN preposition or conjunction, subordinating介词或连词，连接逐句或从句中国十四个边境开放城市经济建设成就显著.同一个含义的两种语言的分析树有着不同的结构。其中有的结构是可以自动转换和对齐的，如A AB Z = X Y ZX Y有的就不可以自动对齐转换AB CW X Y Z没法对齐到 WYXZ2002年，Hajie等人在他们（11人）的论文： “Natural language generation in the context of machine translation”提出了非同构的平行树间的两边进行多于两个节点的 m-to-n 的匹配。给出一点弹性处理的许可。例如两个树的词序不变而结构不同等的原来不可对齐问题，在没有引起明显的计算复杂度的情况下，也允许子树对齐。由于这样的考虑，他们就提出了所谓克隆（Clone）操作的概念。克隆操作：允许在源树中，拷贝一个节点到目标树的任意地方。克隆以后，就像以前一样使用树分解（decomposition）和子树对齐。除了克隆以外，其他的基本算法都不变。硬性解决不解之难。 Och的设想取自于Gildea的工作。Gildea在2003年的论文

展开阅读全文