语言信息处理机器翻译II

上传人:cl****1 文档编号:589820360 上传时间:2024-09-11 格式:PPT 页数:64 大小:573.51KB
返回 下载 相关 举报
语言信息处理机器翻译II_第1页
第1页 / 共64页
语言信息处理机器翻译II_第2页
第2页 / 共64页
语言信息处理机器翻译II_第3页
第3页 / 共64页
语言信息处理机器翻译II_第4页
第4页 / 共64页
语言信息处理机器翻译II_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《语言信息处理机器翻译II》由会员分享,可在线阅读,更多相关《语言信息处理机器翻译II(64页珍藏版)》请在金锄头文库上搜索。

1、机器翻译IIMachine Translation II张宇哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学计算机科学与技术学院大纲基于翻译记忆的机器翻译方法基于模板(模式)的机器翻译方法双语语料库对齐技术句子对齐句子对齐词语对齐词语对齐机器翻译的评价9/11/20249/11/20242 2语言信息处理语言信息处理- -机器翻译机器翻译II II翻译记忆方法1翻译记忆方法(Translation Memory)是基于实例方法的特例;也可以把基于实例的方法理解为广义的翻译记忆方法;翻译记忆的基本思想:把已经翻译过的句子保存起来翻译新句子时,直接到语料库中去查找如果发现相同的句子,直接输出译文否

2、则交给人去翻译,但可以提供相似的句子的参考译文9/11/20249/11/20243 3语言信息处理语言信息处理- -机器翻译机器翻译II II翻译记忆方法2翻译记忆方法主要被应用于计算机辅助翻译(CAT)软件中翻译记忆方法的优缺点翻译质量有保证翻译质量有保证随着使用时间匹配成功率逐步提高随着使用时间匹配成功率逐步提高特别适用于重复率高的文本翻译,例如公司的特别适用于重复率高的文本翻译,例如公司的产品说明书的新版本翻译产品说明书的新版本翻译与语言无关,适用于各种语言对与语言无关,适用于各种语言对缺点是匹配成功率不高,特别是刚开始使用时9/11/20249/11/20244 4语言信息处理语言信

3、息处理- -机器翻译机器翻译II II翻译记忆方法3计算机辅助翻译(CAT)软件已经形成了比较成熟的产业TRADOS号称占有国际CAT市场的70%Microsoft、Siemens、SAP等国际大公司和一些著名的国际组织都是其用户雅信CAT适合中国人的习惯产品已比较成熟国际组织: LISA(Localisation Industry Standards Association)面向用户:专业翻译人员数据交换:LISA制定了TMX(Translation Memory eXchange)标准。9/11/20249/11/20245 5语言信息处理语言信息处理- -机器翻译机器翻译II II翻译记

4、忆方法4完整的计算机辅助翻译软件除了包括翻译记忆功能以外,还应该包括以下功能多种文件格式的分解与合成多种文件格式的分解与合成术语库管理功能术语库管理功能语料库的句子对齐(历史资料的重复利用)语料库的句子对齐(历史资料的重复利用)项目管理:项目管理:翻译任务的分解与合并翻译任务的分解与合并翻译工作量的估计翻译工作量的估计数据共享和数据交换9/11/20249/11/20246 6语言信息处理语言信息处理- -机器翻译机器翻译II II翻译记忆方法59/11/20249/11/20247 7语言信息处理语言信息处理- -机器翻译机器翻译II II基于模板(模式)的机器翻译方法1基于模板(Templ

5、ate)或者模式(Pattern)的机器翻译方法通常也被看做基于实例的机器翻译方法的一种延伸所谓“翻译模板”或者“翻译模式”可以认为是一种颗粒度介于“翻译规则”和“翻译实例”之间的翻译知识表示形式翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小翻译模板(模式):介于二者之间,是一种比较合适的知识表示形式一般而言,单语模板(或模式)是一个常量和变量组成的字符串,翻译模板(或模式)是两个对应的单语模板(或模式),两个模板之间的变量存在意义对应关系9/11/20249/11/20248 8语言信息处理语言信息处理- -机器翻译机器翻译II

6、II基于模板(模式)的机器翻译方法2模板举例:这个这个X X 比比Y Y 更更Z Z。The X is more Z than Y.The X is more Z than Y.模板方法的主要问题对模板中变量的约束对模板中变量的约束模板抽取模板抽取模板的冲突消解9/11/20249/11/20249 9语言信息处理语言信息处理- -机器翻译机器翻译II IIPattern-Based CFG for MT 1Koichi Takeda, Pattern-Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL,

7、 pp. 144- 151, June 1996给出了翻译模式的一种形式化定义,并给出了相应的翻译算法以及算法复杂性的理论证明9/11/20249/11/20241010语言信息处理语言信息处理- -机器翻译机器翻译II IIPattern-Based CFG for MT 2每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成;中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等

8、于其右部的某个非终结符的中心词;链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。9/11/20249/11/20241111语言信息处理语言信息处理- -机器翻译机器翻译II IIPattern-Based CFG for MT 39/11/20249/11/20241212语言信息处理语言信息处理- -机器翻译机器翻译II IIPattern-Based CFG for MT 3翻译的过程分为三步:使用源语言CFG骨架分析输入句子s应用源语言到目标语言的CFG骨架的链接约束,生成一个译文CFG推导序列根据译文CFG推导序列产生

9、译文模板排序的启发式原则:对于源文CFG骨架相同的模板,有中心词约束的模板优先于没有中心词约束的模板;对于同一跨度上的两个结点,比较其对应的模板的源文CFG骨架,非终结符少的模板优先于非终结符多的模板;中心词约束被满足的结点优先于中心词约束不被满足的结点;对于一个输入串而言,分析步骤越短(推导序列越短)越优先。9/11/20249/11/20241313语言信息处理语言信息处理- -机器翻译机器翻译II IIPattern-Based CFG for MT 4模板库的获取:假设T是一组翻译模板,B是双语语料库,是一对互为翻译的句子如果T能够翻译句子s为t,那么do nothing;如果T将s译

10、为t(不等于t),那么:如果T中存在的推导Q,但这个推导不是最优解,那么给Q中的模板进行实例化;如果不存在这种推导,那么加入适当的模板,使得推导成立;如果根本无法翻译s(分析失败),那么将直接加入到模板库中。9/11/20249/11/20241414语言信息处理语言信息处理- -机器翻译机器翻译II II模板的自动提取利用一对实例进行泛化Jaime G. Carbonell, Ralf D. Brown, Generalized Example-Based Machine Translation http:/www.lti.cs.cmu.edu/Research/GEBMT/利用两对实例进行

11、比较H. Altay Guvenir, Ilyas Cicekli, Learning Translation Templates from Examples Information Systems, 1998张健,基于实例的机器翻译的泛化方法研究,中科院计算所硕士论文,20019/11/20249/11/20241515语言信息处理语言信息处理- -机器翻译机器翻译II II通过泛化实例得到翻译模板已有实例:Karl Marx was born in Trier, Germany in May 5, 1818.卡尔马克思于1818年5月5日出生在德国特里尔城。泛化: was born in

12、in 于出生在对齐 9/11/20249/11/20241616语言信息处理语言信息处理- -机器翻译机器翻译II II通过比较实例得到翻译模板已有两对翻译实例:我给玛丽一支笔我给玛丽一支笔 I gave Mary a pen.I gave Mary a pen.我给汤姆一本书我给汤姆一本书 I gave Tom a book.I gave Tom a book.双侧单语句子分别比较,得到:我给我给#X #X 一一#Y #Z #Y #Z I give #W a #U. I give #W a #U.查找变量的对应关系:#X #X #W #W#Y #Y #Z #Z #U #U9/11/20249

13、/11/20241717语言信息处理语言信息处理- -机器翻译机器翻译II II实例库的匹配1实例匹配的目的是将输入句子分解成语料库中实例片断的组合,这是基于实例的机器翻译的关键问题之一,实例匹配的各种方法有很大的差异,还没有那种做法显示出明显的优势;实例库匹配的效率问题:由于实例库规模较大,通常需要建立倒排索引;实例库匹配的其他问题:实例片断的分解:实例片断的组合:9/11/20249/11/20241818语言信息处理语言信息处理- -机器翻译机器翻译II II实例库的匹配2实例片断的分解实例库中的句子往往太长,直接匹配成功率太实例库中的句子往往太长,直接匹配成功率太低,为了提高实例的重用

14、性,需要将实例库中低,为了提高实例的重用性,需要将实例库中的句子分解为片断的句子分解为片断几种通常的做法:几种通常的做法:按标点符号分解按标点符号分解任意分解任意分解通过组块分析进行分解9/11/20249/11/20241919语言信息处理语言信息处理- -机器翻译机器翻译II II实例库的匹配3实例片断的组合一个被翻译的句子,往往可以通过各种不同的一个被翻译的句子,往往可以通过各种不同的实例片断进行组合,如何选择一个最好的组合实例片断进行组合,如何选择一个最好的组合?简单的做法:简单的做法:最大匹配最大匹配最大概率法:选择概率乘积最大的片断组合最大概率法:选择概率乘积最大的片断组合有点像汉

15、语词语切分问题9/11/20249/11/20242020语言信息处理语言信息处理- -机器翻译机器翻译II II片断译文的选择由于语料库中一个片断可能有多种翻译方法,因此存在片断译文的选择问题;常用的方法:根据片断上下文进行排歧;根据片断上下文进行排歧;根据译文的语言模型选择概率最大的译文片断组合9/11/20249/11/20242121语言信息处理语言信息处理- -机器翻译机器翻译II II实例库的对齐实例库又称双语语料库(Bilingual Corpus)或平行语料库(Parallel Corpus)双语语料库对齐的级别篇章对齐段落对齐句子对齐词语对齐短语块对齐句法结构对齐基于实例的机

16、器翻译中实例库必须至少做到句子级别的对齐9/11/20249/11/20242222语言信息处理语言信息处理- -机器翻译机器翻译II II不同对齐级别的差异段落对齐和句子对齐要求保持顺序(允许局部顺序的调整)要求保持顺序(允许局部顺序的调整)只有一个层次只有一个层次词语对齐和短语块对齐不要求保持顺序不要求保持顺序只有一个层次只有一个层次句法结构对齐不要求保持顺序不要求保持顺序多层次对齐9/11/20249/11/20242323语言信息处理语言信息处理- -机器翻译机器翻译II II句子对齐1汉语汉语英语英语英语英语模式模式模式模式1995年初我来成都的那天,没想到会是在一个冬季的漆黑的日子

17、。I I little thought when I arrived inChengdu in the dark, dark days ofwinter, early in 1995, that I would still be here more than five years later.1 1:1 1那时我也根本没有想到会在这儿呆上五年,也不知道我会遇到一位成都的女儿,并且后来还娶她为妻。一个完全陌生的家庭接纳了我,我也因此成为成都的一部分。I I little knew that I would meet one ofChengdus daughters, and later marr

18、yher, thus acquiring a whole newfamily who embraced me as one ofthem, and thus I became part of thisplace.2 2:1 19/11/20249/11/20242424语言信息处理语言信息处理- -机器翻译机器翻译II II句子对齐29/11/20249/11/20242525语言信息处理语言信息处理- -机器翻译机器翻译II II基于长度的句子对齐1基本思想:源语言和目标语言的句子长度存在一定的比例关系用两个因素来估计一个句珠的概率源语言和目标语言中句子的长度源语言和目标语言中句子的长度源语

19、言和目标语言中的句子数(对齐模式)9/11/20249/11/20242626语言信息处理语言信息处理- -机器翻译机器翻译II II基于长度的句子对齐2根据统计,随机变量X=lTi/lSi服从正态分布9/11/20249/11/20242727语言信息处理语言信息处理- -机器翻译机器翻译II II基于长度的句子对齐3设通过语料库统计得到X的期望为c,方差为v2,那么随机变量将服从0,1正态分布:根据正态分布公式可以计算出(直接查表):9/11/20249/11/20242828语言信息处理语言信息处理- -机器翻译机器翻译II II基于长度的句子对齐4对齐模式的概率P(mS,mT)可以通过

20、对语料库的统计得到。下面是Gale & Church根据UBS语料库的统计结果:9/11/20249/11/20242929语言信息处理语言信息处理- -机器翻译机器翻译II II基于长度的句子对齐5最优路径的搜索:采用动态规划算法最优路径的搜索:采用动态规划算法定义定义P(i,jP(i,j)=P(s)=P(s1ssi,t ,t1t tj) ) 最优对齐为最优对齐为P(m,nP(m,n) )所对应的路径所对应的路径9/11/20249/11/20243030语言信息处理语言信息处理- -机器翻译机器翻译II II基于长度的句子对齐6优点不依赖于具体的语言;速度快;效果好缺点由于没有考虑词语信息

21、,有时会产生一些明显的错误讨论长度计算可以采用词数或者字节数,没有明显的优劣之分9/11/20249/11/20243131语言信息处理语言信息处理- -机器翻译机器翻译II II基于词的句子对齐1基本思想:互为翻译的句子对中,含有互为翻译的词语对的概率,大大高于随机的句子对用两个因素来估计一个句珠的概率源语言和目标语言中互译词语的个数源语言和目标语言中互译词语的个数源语言和目标语言中的句子数(对齐模式)9/11/20249/11/20243232语言信息处理语言信息处理- -机器翻译机器翻译II II基于词的句子对齐2优点可以充分利用词语互译信息,提高正确率可以充分利用词语互译信息,提高正确

22、率缺点单独使用时,正确率有时低于基于长度的方法单独使用时,正确率有时低于基于长度的方法(取决于词典的规模质量等)(取决于词典的规模质量等)时空开销大时空开销大讨论对于同源的语言(英语和法语,汉语和日语)可以利用词语同源信息而不使用词典9/11/20249/11/20243333语言信息处理语言信息处理- -机器翻译机器翻译II II句子对齐小结句子对齐的语料库是基于语料库的机器翻译的基础;综合采用基于长度的方法和基于词汇的方法可以取得较好的效果;句子对齐可以取得很高的正确率,已经达到实用水平。9/11/20249/11/20243434语言信息处理语言信息处理- -机器翻译机器翻译II II词

23、语对齐1特点:保序性不再满足保序性不再满足对齐模式复杂:一对多、多对一、多对多都非常普遍9/11/20249/11/20243535语言信息处理语言信息处理- -机器翻译机器翻译II II词语对齐2困难:翻译歧义:一个词出现两个以上的译词翻译歧义:一个词出现两个以上的译词双语词典覆盖率有限:非常普遍的现象双语词典覆盖率有限:非常普遍的现象位置歧义:出现两个以上相同的词位置歧义:出现两个以上相同的词汉语词语切分问题汉语词语切分问题虚词问题:虚词的翻译非常灵活,或没有对译虚词问题:虚词的翻译非常灵活,或没有对译词词意译问题:根本找不到对译的词9/11/20249/11/20243636语言信息处理

24、语言信息处理- -机器翻译机器翻译II II词语对齐3一般而言,一个单词对齐的模型可以表述为两个模型的乘积:词语相似度模型词语相似度模型(word similarity model)(word similarity model)位置扭曲模型位置扭曲模型(word distortion model)(word distortion model) 用公式表示如下:9/11/20249/11/20243737语言信息处理语言信息处理- -机器翻译机器翻译II II词语相似度模型1翻译概率:IBM Model 1T-Score:Nc:语料库中单词c出现的词数Ne:语料库中单词e出现的词数Nec:语料库

25、中单词e和单词c互译的词数9/11/20249/11/20243838语言信息处理语言信息处理- -机器翻译机器翻译II II词语相似度模型2戴斯系数(dice coefficient) 设S1和S2分别是两个集合,则这两个集合的戴斯系数可以通过如下公式计算把汉语词理解为汉字的集合,戴斯系数就是两个词中相同的汉字占两个词汉字总数的比例。考虑到汉字表意性,这种方法在计算汉语词相似度时有较好的效果计算汉语词c和英语词e的相似度:先用英语词e查英汉词典,得到所有的汉语对译词;计算所有对译词和c的戴斯系数,取其中的最大值。9/11/20249/11/20243939语言信息处理语言信息处理- -机器翻

26、译机器翻译II II词语相似度模型3互信息(mutual information) 通过两个事件X和Y各自出现的概率为p(X)和p(Y),他们联合出现的概率为p(X,Y),这两个事件之间共同的互信息量定义为:当两个事件相互独立时,互信息量为0;当两个事件倾向于同时出现时,互信息量为正;当两个事件倾向于互相排斥时,互信息量为负;利用互信息作词语相似度计算效果较差。9/11/20249/11/20244040语言信息处理语言信息处理- -机器翻译机器翻译II II词语相似度模型42方法:利用联立表(contingency table)2方法的效果比较好Wt+Wt-Ws+31,950(a)12,00

27、4(b)Ws-4,793(c)848,330(d)9/11/20249/11/20244141语言信息处理语言信息处理- -机器翻译机器翻译II II词语相似度模型5对数似然比( Log Likelihood Ratio,LLR ) 对数似然比在使用中比较有效,在训练语料库规模较小时尤为明显9/11/20249/11/20244242语言信息处理语言信息处理- -机器翻译机器翻译II II词语相似度模型6概念相似度 利用某种形式的义类词典(Thesaurus),计算两个词语对应的概念之间的相似度 其中d是概念p1、p2之间的距离,一般用概念层次体系中两个结点之间的距离来计算是一个可条件的参数9

28、/11/20249/11/20244343语言信息处理语言信息处理- -机器翻译机器翻译II II词语相似度模型7同义词词林的概念层次体系 虚线用于标识某上层结点到下层结点的路径9/11/20249/11/20244444语言信息处理语言信息处理- -机器翻译机器翻译II II位置扭曲模型1绝对扭曲模型:IBM Model 2 l:源语言句子长度 m:目标语言句子长度 i:源语言词语位置 j:目标语言词语位置9/11/20249/11/20244545语言信息处理语言信息处理- -机器翻译机器翻译II II位置扭曲模型2相对偏移模型9/11/20249/11/20244646语言信息处理语言信

29、息处理- -机器翻译机器翻译II II位置扭曲模型3基于HMM的扭曲模型将每个对齐看作状态,对齐位置之间的转移是将每个对齐看作状态,对齐位置之间的转移是状态的转移,该对齐处的单词对作为输出。这状态的转移,该对齐处的单词对作为输出。这样就可以将对齐问题映射到样就可以将对齐问题映射到HMMHMM上上9/11/20249/11/20244747语言信息处理语言信息处理- -机器翻译机器翻译II II词语对齐小结词语对齐比句子对齐困难得多;词语对齐主要使用一个词语相似度模型和一个位置扭曲模型;词语对齐的副产品:双语词典抽取贪心算法:每次抽取可能性最高的词对;贪心算法:每次抽取可能性最高的词对;词语抽取

30、和词语对齐反复迭代词语抽取和词语对齐反复迭代可以抽取多词单元(可以抽取多词单元(n n元组)元组)9/11/20249/11/20244848语言信息处理语言信息处理- -机器翻译机器翻译II II机器翻译评价1最早的机器翻译评价:ALPAC报告机器翻译评价的常用指标忠实度(忠实度(AdequacyAdequacy):译文在多大程度上传递):译文在多大程度上传递了源文的内容;了源文的内容;流利度(流利度(FluencyFluency):译文是否符合目标语言的):译文是否符合目标语言的语法和表达习惯;语法和表达习惯;信息度(信息度(InformativeInformative):用户可以从译文中

31、获):用户可以从译文中获得信息的程度(通过选择题评分)得信息的程度(通过选择题评分)绝对评价和相对评价9/11/20249/11/20244949语言信息处理语言信息处理- -机器翻译机器翻译II II机器翻译评价2人工评价准确准确成本极高成本极高不能反复使用不能反复使用自动评价准确率低准确率低成本低成本低可以反复使用9/11/20249/11/20245050语言信息处理语言信息处理- -机器翻译机器翻译II II机器翻译评价3机器翻译的评价一直是机器翻译研究领域中一个备受关注的问题;机器翻译的自动评价越来越引起重视“ “评测驱动评测驱动” ”成为自然语言处理研究的一个主成为自然语言处理研究

32、的一个主要动力要动力大规模语料库的出现、各种机器翻译算法的提大规模语料库的出现、各种机器翻译算法的提出,使得开发过程中频繁的评测成为必需出,使得开发过程中频繁的评测成为必需开发过程中频繁的评测只能通过采用自动评测方法9/11/20249/11/20245151语言信息处理语言信息处理- -机器翻译机器翻译II II机器翻译的自动评测完全匹配方法与参考译文完全相同的译文才被认为是正确的与参考译文完全相同的译文才被认为是正确的显然该标准过于严格,不适用显然该标准过于严格,不适用编辑距离方法基于测试点的方法基于N元语法的方法9/11/20249/11/20245252语言信息处理语言信息处理- -机

33、器翻译机器翻译II II基于编辑距离的机器翻译评测1编辑距离定义:从候选译文到参考译文,所需要进行的插入、删除、替换操作的次数举例说明:源文:She is a star with the theatre company.机器译文:她是与剧院公司的一颗星。参考译文:她是剧团的明星。编辑距离:6插入:与 公司 一颗替换:剧团剧院 明星星9/11/20249/11/20245353语言信息处理语言信息处理- -机器翻译机器翻译II II基于编辑距离的机器翻译评测2单词错误率:编辑距离除以参考译文中单词数这个指标是从语音识别中借鉴过来的。由于语音识别的结果语序是不可变的,而机器翻译的结果语序是可变的,

34、显然这个指标存在一定的缺陷。与位置无关的单词错误率:计算编辑距离时,不考虑插入、删除、替换操作的顺序也就是说,候选译文与参考译文相比,多出或不够的词进行删除或插入操作,其余不同的词进行替换操作。这个指标与单词错误率相比,允许语序的变化,不过又过于灵活。9/11/20249/11/20245454语言信息处理语言信息处理- -机器翻译机器翻译II II基于测试点的机器翻译评测1俞士汶等,机器翻译译文质量自动评估系统,中国中文信息学会1991年论文集,pp. 314319基本思想对于每一个句子,孤立测试点,简化测试目标对于每一个句子,孤立测试点,简化测试目标(模拟人类标准化考试的办法)(模拟人类标

35、准化考试的办法)对于每一个句子,采用一种对于每一个句子,采用一种TDLTDL语言描述的语言描述的BNFBNF去与译文匹配,匹配成功则正确,否则错去与译文匹配,匹配成功则正确,否则错误误大批量出题,全面评价机器翻译译文质量9/11/20249/11/20245555语言信息处理语言信息处理- -机器翻译机器翻译II II基于测试点的机器翻译评测2测试点分组: 单词、词组、词法、语法(初、中、高级)单词、词组、词法、语法(初、中、高级)测试点示例:源文:源文:I am a student.I am a student.测试:译文中出现测试:译文中出现“ “学生学生/ /大学生大学生” ”为正确为正

36、确源文:源文:I bought a table with three dollars.I bought a table with three dollars.测试:测试:“ “买买” ”出现在出现在“ “美元美元” ”之后为正确之后为正确源文:源文:I bought a table with three legs.I bought a table with three legs.测试:“买”出现在“腿”之前为正确9/11/20249/11/20245656语言信息处理语言信息处理- -机器翻译机器翻译II II基于测试点的机器翻译评测3优点:全自动全自动实验证明,评价结果是可信的实验证明,评价

37、结果是可信的可以按照人类专家的要求进行单项评测可以按照人类专家的要求进行单项评测缺点题库的构造需要具有专门知识的专家,并且成本较高9/11/20249/11/20245757语言信息处理语言信息处理- -机器翻译机器翻译II II基于N元语法的机器翻译评测1Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W0109-022) September 17, 20

38、01基本思想用译文中出现的用译文中出现的N N元组和参考译文中出现的元组和参考译文中出现的N N元元组相比,计算匹配的组相比,计算匹配的N N元组个数与候选译文的元组个数与候选译文的N N元组总个数的比例元组总个数的比例允许一个源文有多个参考译文,综合评分9/11/20249/11/20245858语言信息处理语言信息处理- -机器翻译机器翻译II II基于N元语法的机器翻译评测2源文:党指挥枪是我党的行动指南。候选译文:It is a guide to action which ensures that the military always obeys the command of the

39、 partyIt is to insure the troops forever hearing the activity guidebook that party direct参考译文:It is a guide to action that ensures that the military will forever heed party commandsIt is the guiding principle which guarantees the military forces always being under the command of the partyIt is the p

40、ractical guide for the army to heed the directions of the party9/11/20249/11/20245959语言信息处理语言信息处理- -机器翻译机器翻译II II基于N元语法的机器翻译评测3两个改进:对于候选译文中某个对于候选译文中某个n n元接续组出现的次数,元接续组出现的次数,如果比参考译文中出现的最大次数还多,要把如果比参考译文中出现的最大次数还多,要把多出的次数多出的次数“ “剪掉剪掉” ”(不作为正确的匹配)。(不作为正确的匹配)。为了避免为了避免“ “召回率召回率” ”过低的问题,过低的问题,BLEUBLEU的评的评价

41、标准又对比参考译文更短的句子设计了“惩罚因子”。9/11/20249/11/20246060语言信息处理语言信息处理- -机器翻译机器翻译II II基于N元语法的机器翻译评测4BLEU的总体评价公式如下: 其中,pn是出现在参考译文中的n元词语接续组占候选译文中n元词语接续组总数的比例,wn 1/N,N为最大的n元语法阶数(实际取4)。 其中c为候选译文中单词的个数,r为参考译文中与c最接近的译文单词个数。9/11/20249/11/20246161语言信息处理语言信息处理- -机器翻译机器翻译II II基于N元语法的机器翻译评测5 其中S1、S2、S3分别是三个不同的机器翻译系统提供的译文,

42、H1和H2是两个人类翻译者提供的译文。蓝线是BLEU系统评测的结果,红线是只懂目标语言的人类专家提供的评测结果,绿线是同时懂源语言和目标语言的人类专家提供的评测结果。9/11/20249/11/20246262语言信息处理语言信息处理- -机器翻译机器翻译II II基于N元语法的机器翻译评测6这种方法比较好地模拟了人对机器翻译结果的评价对于低质量译文比高质量译文的评价跟准确;对于低质量译文比高质量译文的评价跟准确;评价结果与只懂目标语言的人的评价结果更接评价结果与只懂目标语言的人的评价结果更接近(相对于懂双语的人而言)近(相对于懂双语的人而言)优点全自动全自动可以提供多种参考译文综合考虑,结果更全面可以提供多种参考译文综合考虑,结果更全面容易构造测试集,不需要专门知识9/11/20249/11/20246363语言信息处理语言信息处理- -机器翻译机器翻译II II复习思考题利用圣经双语语料库实现一个词语对齐系统,并从中抽取出一部包含多词单元的双语词典。9/11/20249/11/20246464语言信息处理语言信息处理- -机器翻译机器翻译II II

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号