《机器翻译原理》PPT课件.ppt

上传人:公**** 文档编号:571937590 上传时间:2024-08-12 格式:PPT 页数:64 大小:428.51KB
返回 下载 相关 举报
《机器翻译原理》PPT课件.ppt_第1页
第1页 / 共64页
《机器翻译原理》PPT课件.ppt_第2页
第2页 / 共64页
《机器翻译原理》PPT课件.ppt_第3页
第3页 / 共64页
《机器翻译原理》PPT课件.ppt_第4页
第4页 / 共64页
《机器翻译原理》PPT课件.ppt_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《《机器翻译原理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《机器翻译原理》PPT课件.ppt(64页珍藏版)》请在金锄头文库上搜索。

1、机器翻译原理机器翻译原理Part Part 双语语料库对齐及翻译知识自动获取技术MTLABofHIT主要内容主要内容概述概述为什么要自动地获取知识(Why?)获取什么知识(What?)如何获取知识(How?)双语语料库对齐加工双语语料库对齐加工句子对齐词汇对齐结构对齐翻译知识的获取翻译知识的获取直接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究为什么要自动获取知识(为什么要自动获取知识(Why ?)Why ?)机器翻译的发展现状机器翻译的发展现状Internet的发展进一步促进了对机器翻译技术的需求现有的机器翻译系统不能令人满意“满篇英文难不住,满篇中文看不懂”“MT,不

2、是machinetranslation,而是madtranslation”存在的主要问题存在的主要问题传统的机器翻译:手工编写规则知识获取瓶颈解决的途径解决的途径从语料库中自动获取机器翻译所需要的各种知识什么是知识?什么是知识?Bacon:“知识就是力量知识就是力量”Feigenbaum:“知识与信息不一样知识与信息不一样.知识是信知识是信息经过加工整理、解释、挑选和改造而形成的息经过加工整理、解释、挑选和改造而形成的”董振冬董振冬:知识是一个系统,是一个包含着各种知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属概念与概念之间的关系,以及概念的属性与属性之间的关系的系统

3、。性之间的关系的系统。获取什么知识(获取什么知识(What ?)What ?)单语单语词汇:分词、词性标注语法(结构):词性标注、句法分析语义:词义排歧、聚类分析双语双语翻译知识词典知识结构转换知识译文选择知识如何获取知识(如何获取知识(How ?)How ?)知识获取的主要方法知识获取的主要方法手工获取知识智能人机交互统计方法(HMM,PCFG)机器学习方法决策树归纳学习基于转换的错误驱动的学习方法(EricBrill)基于实例的方法翻译知识获取翻译知识获取知知识获取取过程程: 数据预处理数据预处理 知识挖掘知识挖掘 知识评价知识评价w双语语料库对齐加工双语语料库对齐加工 w翻译知识自动获取

4、翻译知识自动获取 双语语料库及其对齐技术(双语语料库及其对齐技术(1 1) 语料库语料库 语料库(Corpora)是按照一定的原则组织在一起的真实的自 然语言数据(包括书面语和口语)的集合,主要用于研究自 然语言的规律,特别是统计语言学模型的训练以及相关系 统的评价和评测 语料库语言学语料库语言学 语料库语言学是以语料库为基本知识源来研究自然语言规 律的学科,主要研究内容包括语料库加工的理论、方法和 工具以及基于语料库的知识获取。 单语语料库单语语料库( (Monolingual Corpus)Monolingual Corpus)和多语语和多语语 料库料库( (Multilingual Co

5、rpora)Multilingual Corpora) 双语语料库及其对齐技术(双语语料库及其对齐技术(2 2) 双语语料库的建设双语语料库的建设 双语语料库双语语料库( (Bilingual CorporaBilingual Corpora,Parallel Corpora)Parallel Corpora) 国外:国外:加拿大的议会会议录(Canadian Hansards),(英法) 英国Brighton大学语言中心双语语料库INTERSECT,(英法书面语)英国Birmingham大学的LINGUA多语语料库项目,英、法、希腊语 加拿大的BCD(Bilingual Canadian D

6、ictionary)词典编纂项目 瑞典Uppsala大学语言学系建立的Scania多语语料库 国内:国内: 建立了一些单语语料,尚无大规模汉外双语库的报道 目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段 香港科技大学的英汉双语语料库HKUST 哈工大-微软联合实验室:6万句对 双语语料库及其对齐技术(双语语料库及其对齐技术(3 3) 双语语料库的对齐技术双语语料库的对齐技术对齐:从互译的不同语言文本中找出互译片断的过程语料库的加工深度决定语料库所能提供的知识的粒度双语语料库对齐可分为段落、句子、短语、单词不同级别 句子对齐句子对齐 词对齐词对齐 短语(结构)对齐短语(结构)对齐 双语语

7、料库对齐技术:句子对齐双语语料库对齐技术:句子对齐(1)基于基于长度的句子度的句子对齐方法方法源语言文本的长度与译文长度有很强的相关性基于词数长度的对齐(Brown)基于字符数的长度对齐方法(GaleChurch)这些算法都把句子对齐看作是句子长的函数;不需要额外的词典信息;但是容易造成错误的蔓延。基于基于词汇的句子的句子对齐方法方法Simard等人提出了在长度标准上加上同源概念(Cognate)来提高算法的性能Kay和Roscheisen提出了另一种基于语汇的对齐算法,在该算法中选择句子对齐的标准是其中词汇对齐的数量。双语语料库对齐技术:句子对齐双语语料库对齐技术:句子对齐(2)Debili

8、和Sammouda实现了Simard的思想,并采用双语典为指导,以缩小搜索空间Church利用双语文本中字母的对应信息,在1993年设计了一种字符对齐算法长度方法与度方法与词汇方法相方法相结合合( (WuWu、UtsuroUtsuro) )不少学者认为句子对齐已经达到可以实用(不少学者认为句子对齐已经达到可以实用(9898)双语语料库对齐技术:词汇对齐双语语料库对齐技术:词汇对齐(1)词汇对齐是指在源文和对应的译文中找到词汇词汇对齐是指在源文和对应的译文中找到词汇级的对译关系级的对译关系 大家大家 都都 叫叫 他他 毛毛 伯伯伯伯 。 Everybody calls him Uncle Mao

9、 . Everybody calls him Uncle Mao . 由于词汇对齐比句子对齐提供了更细粒度的对由于词汇对齐比句子对齐提供了更细粒度的对译信息,因此可以为自然语言处理提供更大程译信息,因此可以为自然语言处理提供更大程度的支持度的支持双语语料库对齐技术:词汇对齐双语语料库对齐技术:词汇对齐(2)词汇对齐的困难词汇对齐的困难词汇对齐不满足次序性假设词汇对齐的模式十分复杂(1:1,1:m,m:1,m:m) 她改变角度去写他的报告以迁就她的听众.Sheanglesherreportstosuitthepeoplesheisspeakingto.词汇对齐匹配关系难以断定(词典,长度) 采用

10、这种新装置 Theadoptionofthisnewdevice.汉语的特点及英语和汉语间的固有差异1.汉语分词问题; 惯用搭配、成语、谚语双语语料库的对齐技术:词汇对齐双语语料库的对齐技术:词汇对齐(3)基于基于统计统计的的词汇词汇对齐方法方法主要思想: 对大规模双语语料库进行统计,获得对译词的翻译概率 Brown(1,778,620),Gale(897,077),Dagan 基于统计机器翻译模型的词汇对齐基于统计机器翻译模型的词汇对齐(Brown)其中的翻译模型通过词汇对齐模型来实现;通过EM算法迭代训练词汇翻译概率;问题:参数空间巨大;局部最优基于同现的词汇对应抽取基于同现的词汇对应抽取

11、(Gale&Church)同现测度函数:联列表,互信息,Dice系数,对数似然比双语语料库的对齐技术:词汇对齐双语语料库的对齐技术:词汇对齐(4)基于基于词典词典的的词汇词汇对齐方法方法词典包含双语的对译信息,因此是进行词对齐的重要资源日本学者TakehitoUtsuro应用基于双语词典的改进算法对日英双语文本(439句日语423句英文)进行了试验:将词典中已经给出的词对共现删除,而后对剩下的词计算共现信息。采用含有50,000个词条的日英词典,试验表明提高了日英术语词典的抽取效果Ker,Wang等引入语义词典提高了对齐的召回率其他其他基于语言学比较(Huang),利用Chunk分析(Sun)

12、英汉双语语料库词对齐实验英汉双语语料库词对齐实验现有方法存在的问题现有方法存在的问题统计方法统计方法:语料库规模小,统计数据不足词典方法:词典方法:词典译文覆盖率较低,对齐的召回率低改进改进统计方法统计方法:在小规模语料库提高统计学习质量词典方法词典方法:引入基于词典的模糊匹配 使用语义词典,引入基于语义类的对齐统计、词典和语言学知识相结合统计、词典和语言学知识相结合 基于词典的词对齐(基于词典的词对齐(1)完全基于词典的词对齐实验(完全基于词典的词对齐实验(DA)正确率正确率:96.16%召回率:召回率:55.37%基于词典的词对齐(基于词典的词对齐(2)词典模糊匹配词典模糊匹配Heaban

13、donedhimselftogrief.他不胜悲伤。(悲痛,伤心事,忧伤)汉语词c1和c2的模糊匹配相似度:英语词e和汉语词c的模糊匹配相似度:基于模糊匹配的词对齐(基于模糊匹配的词对齐(DSimA)h10.5正确率:94.47%召回率:68.49%h10.7正确率:96.13%召回率:58.92%基于词典的词对齐(基于词典的词对齐(3)语义相似度语义相似度(CSimA)同义词词林定义语义相似度:基于语义相似度的词对齐(基于语义相似度的词对齐(CSimA):h0.5正确率:61.25%召回率:36.94%h1正确率:83.55%召回率:38.86%DA+DSimA+CSimA正确率:91.16

14、%召回率:72.92%基于统计的翻译词表自动获取(基于统计的翻译词表自动获取(1)生成生成N-gram候选翻译单元候选翻译单元多词对应问题:harddisk/硬盘;profile/配置文件.汉语分词问题:驱动器:驱动-器;单击:单-击N-gram的抽取:停用词将句子分段Theprojectmanagermayusethee-mailsystemtoviewandreplytomessagefromworkgroupmember.生成的N-gram候选:projectproject-managerusee-maile-mail-systemviewreplymessageworkgroupwor

15、kgroup-member基于统计的翻译词表自动获取基于统计的翻译词表自动获取(2)翻译概率的计算模型翻译概率的计算模型对于任意一对源语词Ws和目标语词Wt,设:a=freq(Ws,Wt)b=freq(Ws)-freq(Ws,Wt)c=freq(Wt)-freq(Ws,Wt)d=Nab-c联列表法:联列表法:hg(Ws,Wt)=(ad-bc)2/(a+b)(a+c)(b+d)(b+c)Dice系数系数(DiceCoefficient):Dice(Ws,Wt)=2freq(Ws,Wt)/freq(Ws)+freq(Wt)基于统计的翻译词表自动获取基于统计的翻译词表自动获取(3)翻译概率的计算模型

16、翻译概率的计算模型 互信息方法互信息方法(MutualInformation): MI(Ws,Wt)=log2(freq(Ws,Wt)/freq(Ws)freq(Wt) 对数似然比对数似然比(LogLikelihoodRatio,LLR):LLR(Ws,Wt)=2logL(p1,a,a+b)+logL(p2,c,c+d)-logL(p,a,a+b)-logL(p,c,c+d)其中,logL(p,k,n)=klog(p)+(n-k)log(1-p),p1=a/(a+b),p2=c/(c+d),p=(a+c)/(a+b+c+d)词典加权同现测度:词典加权同现测度:Wscore(Ws,Wt)=log

17、2(2+DSim(Ws,Wt)*Score(Ws,Wt)基于统计的翻译词表自动获取基于统计的翻译词表自动获取(4)基于迭代的翻译词表自动抽取算法基于迭代的翻译词表自动抽取算法间接相关问题:间接相关问题:贪心假设贪心假设迭代的抽取算法迭代的抽取算法基于统计的翻译词表自动获取基于统计的翻译词表自动获取(5)实验及结论实验及结论N-gram模型有利于提取多词单元对应,并且能够有效地模型有利于提取多词单元对应,并且能够有效地发现新词、术语及翻译;发现新词、术语及翻译;Click单击;e-mail电子邮件;networkdiagram网络图;eventviewer事件查看器迭代算法大大提高了统计的正确率

18、;迭代算法大大提高了统计的正确率;词典加权同现测度能够提高统计质量词典加权同现测度能够提高统计质量在小规模训练语料条件下在小规模训练语料条件下,LogLikelihoodRatio的统计的统计特性较好特性较好基于混合策略的词对齐基于混合策略的词对齐(1)对齐评价函数:对齐评价函数:EF(e, c)=T(e, c)*D(e, c)其中:T(e,c)为翻译概率,D(e,c)为位置形变概率,通过计算位置相对形变距离得到。位置相对形变距离是指一个可能的对齐相对于最近的确定对齐的距离。用贪心算法实现对齐过程和对齐歧义消除过程用贪心算法实现对齐过程和对齐歧义消除过程基于混合策略的词对齐基于混合策略的词对齐

19、(2)利用语言学知识改善词汇对齐结果利用语言学知识改善词汇对齐结果利用词性对译关系实现词汇对齐后处理利用词性对译关系实现词汇对齐后处理短语扩展短语扩展利用词形变化特点,增加词汇对齐匹配规则利用词形变化特点,增加词汇对齐匹配规则如 : n/v+”者 ”/”家 ” translationof(n/v)+ “-er”/ “-or”/ “-ist”/ “-ian”; 可以得到诸如“赛跑+者runner”、“征服+者conqueror”等多词单元对应。数词的对齐数词的对齐专有名词的对齐专有名词的对齐实验结果及分析(实验结果及分析(1)实验用语料库:实验用语料库:语料库语料库1:通用语料库:通用语料库(6

20、0,000句对)句对)语料库语料库2:计算机语料库:计算机语料库(14,390句对句对)实验结果及分析(实验结果及分析(2)实验结果及分析(实验结果及分析(3)错误分析:错误分析:资源不足,短语匹配,语言表达差异资源不足,短语匹配,语言表达差异双语语料库对齐技术:结构对齐双语语料库对齐技术:结构对齐(1)结构对齐:结构对齐:短语结构,依存结构,组块结构短语结构,依存结构,组块结构结构对齐的主要方法结构对齐的主要方法 Parse-Parse-Match 方法单语分析+词汇对齐+启发式算法kaji,Ralph Grishman,Yuji,Adam Meyer、Hideo双语同步分析Wu Dekai

21、, Wang Wei结构对齐的难点结构对齐的难点难以获得合适的、可靠的单语分析结果:如汉语不同语言的语法分析结果可能不匹配双语的结构匹配的状态空间搜索问题双语语料库对齐技术:结构对齐双语语料库对齐技术:结构对齐(2)双语分析模型双语分析模型(WuDekai):反向转换文法(反向转换文法(inversiontransductionGrammars,ITG)产生式有两个方向是一个双语体系用词翻译概率连接双语用概率选择双语分析结果),(21SRWWNITG =双语语料库对齐技术:结构对齐双语语料库对齐技术:结构对齐(3)ThegameBNPwillstartBVPonWednesdayPPVPS.S

22、比赛比赛星期三星期三开始开始。The/egame/比赛比赛BNPVPS./。SSBNPSVPPP./。The/egame/比赛比赛will/e start/开始开始on/e Wednesday/星期三星期三BVP难以确定合适的双语语法难以确定合适的双语语法一个实用的双语模型是反向划界语法一个实用的双语模型是反向划界语法问题:问题:双语语料库对齐技术:结构对齐双语语料库对齐技术:结构对齐(4)引入英语的句法分析引入英语的句法分析得到的双语分析得到的双语分析单语句法分析指导的双语结构对齐(单语句法分析指导的双语结构对齐(1)“parsing-parsing-match”方法的缺点方法的缺点难以获得

23、合适的、可靠的单语分析结果,如汉语 不同语言的语法分析结果可能不匹配改进方法改进方法 只使用英语的分析结果只使用英语的分析结果 与双语语言模型相结合与双语语言模型相结合单语句法分析指导的双语结构对齐(单语句法分析指导的双语结构对齐(2)定义代价函数定义代价函数Fe(s,t)三种匹配情况三种匹配情况She/1is/2a/3lovely/4girl/5./6越界分析:(1,2),(1,3),(2,3),(2,5) 定界分析:(1,6),(2,5),(3,5) 界内分析:(3,4),(4,5)修正后的局部最优函数修正后的局部最优函数用动态规划算法(用动态规划算法(DP)求解最优双语分析树求解最优双语

24、分析树单语句法分析指导的双语结构对齐(单语句法分析指导的双语结构对齐(3)实验:实验:10001000句对句对评价:语法准则评价:语法准则Thestudentwillgetapen. 这学生将得到一支钢笔。合语法:“Thestudent这学生”,“willget将得到”,“apen一支钢笔”不合语法:“studentwill学生将”,“geta得到一支”共有共有3889个标准对齐个标准对齐Experiment no P no PEPEP+CBEP+CBEP+CP正确率正确率(%)68.8268.82 85.5085.5090.5690.5688.8788.87单语句法分析指导的双语结构对齐(单

25、语句法分析指导的双语结构对齐(4)1.BNPis/是是the/erepresentative/代代表表BNPPPNPVP./。S2.Spring/春春天天is/是是the/efirst/第第一一e/个个season/季季节节BNPPPXVP./。S3.The/ewindow/窗窗子子BNPis/eADJPVP./。S4.NP thinks/认认为为it/那那was/是是Tom/汤姆汤姆s/的的fault/错错BNPVPSVP./。S5.The/eBeijing/北北京京zoo/动动物物园园BNPis/是是NPVP./。S翻译知识获取翻译知识获取双语语料库及其对齐技术双语语料库及其对齐技术 直接

26、利用双直接利用双语语料料库进行机器翻行机器翻译的研究的研究间接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究 直接利用双语语料库进行机器翻译的研究直接利用双语语料库进行机器翻译的研究(1)(1) 基于基于统计的机器翻的机器翻译( (Statistics-basedMT,SBMT) )e = e = argmaxargmax P(e|c)= P(e|c)= argmaxargmax P(e)P(c|e)/P(c) P(e)P(c|e)/P(c) = = argmax argmax P(e)P(c|e)P(e)P(c|e) P(e): P(e):语言模型语言模型 P(c|e)

27、: P(c|e): 翻译模型翻译模型IBMIBM的的BrownBrown等人等人实现了了完全完全基于基于统计方法的机器翻方法的机器翻译系系统 以大规模双语语料库为基础(3百万句对) 建立统计的翻译模型 概率统计是分析和生成过程中的唯一方法没有正确和不正确的翻译这样的概念,只有可能性大小的译文 不涉及任何语言学内容 48%的正确率 直接利用双语语料库进行机器翻译的研究直接利用双语语料库进行机器翻译的研究(2)(2) 基于基于统计的机器翻的机器翻译: :BrownBrown的的5 5各翻译模型各翻译模型模型1:对齐概率仅依赖于其中每个双语词对的概率;模型2:对齐概率不仅依赖于每个双语词对的概率,还

28、依赖于每个词对出现位置之间的概率;模型3:计算了和每个源语词相关的单词数量;模型4和模型5:同时计算了这些词的数量和这些词本身。这些模型在训练中都使用了统计逼近的方法。直接利用双语语料库进行机器翻译的研究直接利用双语语料库进行机器翻译的研究(3)(3) 基于基于统计的机器翻的机器翻译: :尽管IBM的工作是一种新的方法,可是一些学者也对这种“纯粹的”统计方法提出了异议。他们认为必须引入高层语言模型;并且认为这种方法不一定能很好地作用于另一对语言(IBM工作的对象是英语和法语),也不能产生高质量的MT,除非所有基于知识的MT观点全错。实际上IBM的研究者也承认这种方法不能解决语言中的远程依赖问题

29、CMUWangYeYi基于结构对齐的统计机器翻译增加语言知识的统计机器翻译直接利用双语语料库进行机器翻译的研究直接利用双语语料库进行机器翻译的研究(4)(4) 基于实例的机器翻译基于实例的机器翻译( (Example-based, EBMT)Example-based, EBMT)日本京都大学的长尾真(Nagao)教授在1984年提出 原理:将源语言使用类比的方法与翻译实例相比较,而采取相近的实例片段,重新生成译文。根本观点:认为翻译过程通常是查找和复现相似的例子,发现和记起特定的源语言表达或其相似的表达在以前是如何翻译的。把翻译实例作为它的主要翻译知识源,而把句子片断的适当划分和从词汇到句子

30、各级相似度的计算作为翻译中的主要问题。PanglossEBMT(CMU)直接利用双语语料库进行机器翻译的研究直接利用双语语料库进行机器翻译的研究(5)(5) 基于实例的机器翻译基于实例的机器翻译( (Example-based, EBMT)Example-based, EBMT)直接利用双语语料库进行机器翻译的研究直接利用双语语料库进行机器翻译的研究(6)(6) 基于统计的机器翻译解决了知识获取的难题,但是由于完全基于统计的机器翻译解决了知识获取的难题,但是由于完全排除了语言学知识,翻译结果并不理想。排除了语言学知识,翻译结果并不理想。 基于实例的方法确实为机器翻译研究提供了一个崭新的思路。基

31、于实例的方法确实为机器翻译研究提供了一个崭新的思路。但是如果直接在大规模的实例库中进行各级的相似度计算和但是如果直接在大规模的实例库中进行各级的相似度计算和查找,处理的时间和空间复杂度都很高,并且可能会引起组查找,处理的时间和空间复杂度都很高,并且可能会引起组合爆炸问题合爆炸问题 间接的基于实例的方法间接的基于实例的方法 首先从双语语料库中获得各级翻译知识 然后再利用这些获得的知识进行翻译 双语知识获取双语知识获取双语语料库及其对齐技术双语语料库及其对齐技术 直接利用双直接利用双语语料料库进行机器翻行机器翻译的研究的研究间接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究

32、间接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究(1) 双语语料库双语语料库学习学习翻译知识翻译知识源语言源语言目标语言目标语言翻译翻译 间接基于实例的机器翻译间接基于实例的机器翻译间接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究(2) 自自动获取的翻取的翻译知知识可以分为可以分为两个两个层次次 词串串级翻翻译:即获得词汇或短语的直接译文 翻翻译模板模板: 知识表达式中可以含有变量,一般为短语级 翻译模板,也可以是句子级的翻译模板, 利用双语语料库词对齐或短语对齐的结果可以直接利用双语语料库词对齐或短语对齐的结果可以直接获得词串级的译文获得词串级

33、的译文(词典编撰)词典编撰) 从双从双语语料料库中自中自动获取翻取翻译模板模板 通通过类比学比学习获得翻得翻译模板模板 通通过双双语结构匹配构匹配获得翻得翻译模板模板 间接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究(3) 通通过类比学比学习获得翻得翻译模板模板 思想:比较语料库中两个翻译实例的相同和不同部分,把其思想:比较语料库中两个翻译实例的相同和不同部分,把其中的某部分加以概括,用变量置换即得到一个翻译模板中的某部分加以概括,用变量置换即得到一个翻译模板 Iliketodrinkcoffee我喜欢喝咖啡Iliketodrinkmilk我喜欢喝牛奶模板:Iliket

34、odrinkX1我喜欢喝X2ifX1X2coffee咖啡milk牛奶 优点:优点:不需要语法知识,甚至可以不使用词典,仅仅通过两个翻译句对的类比来获得翻译模板。 缺缺点点:模板的概括性和对结构的把握程度很差,如果没有非常大规模而且存在大量相似句子的双语语料库很难有一个理想的结果。 间接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究(4) 通通过双双语结构匹配构匹配获得翻得翻译模板模板 优点:优点:可以获得各个层次的翻译模板,即模板中的变量可以是某种短语类型,获得的模板具有较强的概括性和灵活性。 缺点:缺点:难以获得合适的、可靠的单语分析结果:如汉语不同语言的语法分析结果可

35、能不匹配双语的结构匹配本身也是一个复杂的问题。 其他方法其他方法 IBM东京研究实验室机器翻译系统SimTran 通过翻译中出现的错误来改善已有的转换规则 Tony Veale等使用了基于标记的句子分割法把句子分割成片断,然后再以片断为单位进行双语匹配和翻译模板的获取翻译模板的获取及翻译实验(翻译模板的获取及翻译实验(1 1)工作总体流程工作总体流程 :翻译模板的获取及翻译实验(翻译模板的获取及翻译实验(2 2)获取了两种类型翻译模板获取了两种类型翻译模板结构转换模板:非叶结点结构转换模板:非叶结点译文选择模板:叶子结点译文选择模板:叶子结点短语,名词,动词,代词,形容词,副词作为变量短语,名

36、词,动词,代词,形容词,副词作为变量SHe/他/PRPVP./。结构转换模板结构转换模板:#S:1:C=PRP:+2:VP+3:W=.-T(1)+T(2)+。#VP:1:VP+2:PP-T(2)+T(1);#VP:1:C=VBP+2:C=NN-T(1)+T(2);#PP:1:W=in+2:BNP-在+T(2)#PP:1:W=the+2:C=NN-T(2)译文选择模板译文选择模板:#play:-1:C=PRP+0:C=VBP+1:W=accordion-拉共获得共获得2889个模板,包括个模板,包括1806个结构转换模板和个结构转换模板和1083个译文选择模板个译文选择模板翻译过程是一个递归的模

37、板匹配过程翻译过程是一个递归的模板匹配过程通过评价翻译结果来评价获得的模板通过评价翻译结果来评价获得的模板两种评价方法两种评价方法自动评价自动评价手工评价手工评价翻译模板的获取及翻译实验(翻译模板的获取及翻译实验(3 3)翻译模板的获取及翻译实验(翻译模板的获取及翻译实验(4 4)自动评价自动评价Adam98:翻译结果与语料中的译文相近程度翻译结果与语料中的译文相近程度“ABCDE”和源译文“ABCFE”相比评价值为2/10得到评价值得到评价值0.09.好于好于Adam的结果的结果0.29局限性局限性:“他们居住在非洲。”与“他们生活在非洲。”相比得分0.25, “空气这里很好” 与 “这里空

38、气很好” 得分为0手工评价手工评价97年“863”机器翻译评价标准 ABCDEAveragescoreLTBS64%23%8%3%2%88.8KBS46%42%11%1%086.6翻译实例及评价结果翻译实例及评价结果Iwillnotbeabletogotothemoviestomorrow.我明天不能去看电影。AThesingerwasaccompaniedatthepianobyherpupil.演唱者由她的学生用钢琴伴奏。AHeishavinghisbreakfast.他正在吃他的早饭.BTheairhereisverygood这里空气是很好BTheystartedatnight.在晚上他

39、们开始.CThestudenthasapen.这学生长一支钢笔。DYoudontlikehim,andIdonteither.你做也喜欢他,我做不也不喜欢E翻译模板的获取及翻译实验(翻译模板的获取及翻译实验(5 5)与统计的机器翻译方法相比,模板比统计概率更易于理解与统计的机器翻译方法相比,模板比统计概率更易于理解与纯基于实例的方法相比,模板比短语、句子实例具有更强与纯基于实例的方法相比,模板比短语、句子实例具有更强的概括能力的概括能力所有模板都是自动提取的,大大节省了人力所有模板都是自动提取的,大大节省了人力可移植性好可移植性好获得的模板可以集成到已有的规则系统的规则库中获得的模板可以集成到

40、已有的规则系统的规则库中存在的问题和今后工作存在的问题和今后工作存在的问题存在的问题词对齐和结构对齐错误累积,精度不高模板的表示和组织模板歧义消解对获取知识的评价今后工作今后工作扩大训练语料的规模,对实验结果进行进一步分析和讨论综合运用统计方法和机器学习方法,对翻译模板获取方法进行改进和完善;在模板中引入语义特征来提高模板的概括能力。通过语料库的统计为获得的模板添加自信概率,使用统计和语言学知识相结合的方法解决模板冲突问题利用双语语料库获取翻译知识的研究利用双语语料库获取翻译知识的研究 利用双语语料库获取翻译知识的研究得到普遍重视利用双语语料库获取翻译知识的研究得到普遍重视 美国,英国,加拿大

41、,日本,韩国美国,英国,加拿大,日本,韩国 现有的方法上存在有的方法上存在许多不尽人意的地方多不尽人意的地方 国内国内: : 近年来开始重近年来开始重视双双语语料料库对机器翻机器翻译的价的价值 在双在双语对齐方面做了一些工作方面做了一些工作 清华大学,中科院计算所、自动化所,哈工大 在利用双在利用双语语料料库获取翻取翻译知知识方面方面还缺乏系缺乏系统的研究的研究 任重道远任重道远主要参考文献主要参考文献(1)1P.F.Brown,J.C.Lai.etc.“AligningSentencesinParallelCorpora.”ACL-1991:169-1762 P. F. Brown. ect

42、. “The Mathematics of Statistical Machine Translation: ParameterEstimation”ComputationalLinguistics,Vol.19,No.2,19933K.W.Church.“Char-align:aProgramforAligningParallelTextsattheCharacterLevel.”ACL-1993:1-84 Sue J. Ker and Jason S. Chang. “A Class-based Approach to Word Alignment.”ComputationalLingui

43、stics23(2):313-343,19975Jin-XiaHuang,Key-SunChoi“Chinese-KoreanWordAlignmentBasedonLinguisticComparison”.ACL-20006RalfD.BrownAutomatedDictionaryExtractionforKnowledge-FreeExample-BasedTranslation.TMI-1997:111-1187 Hideo Watanabe, Sadao Kurohashi, and Eiji Aramaki. “Finding StructuralCorrespondencesf

44、romBilingualParsedCorpusforCorpus-basedTranslaton”.COLING-2000.8IlyasCicekliandHalilAltayGuvenir.“LearningTranslationTemplatesformBilingualTranslationExamples”.AppliedIntelligence,Vol.15,No.1,2001,P57-76.9HusseinAlmuallim,YasuhitoAkiba,TakefumiYamazaki.“AToolfortheAcquisitionofJapanese-EnglishMachin

45、eTranslationRulesUsingInductiveLearningTechniques.”Proc.oftheConferenceonArtificialIntelligenceforApplications1994.10 Ralph Grishman, and John Sterling. “Generalizing Automatically GeneratedSelectionalPatterns”.COLING-1994.11 Halil Altay Guvenir and Ilyas Cilekli “Learning Translation Templates from

46、Examples”.InformationSystemsVol.23,No.6,P353-363,1998.12HiroyuliKaji,YuukoKida,andYasutsuguMorimoto.“LearningTranslationTemplatesfromBilingualTexts.”COLING-1992:672-67813K.LariandS.J.Young.“Theestimationofstochasticcontext-freegrammarsusingtheInside-Outsidealgorithm.”ComputerSpeechandLanguage,4:35-5

47、6,1990.14ChristosMalavazos,SteliosPiperidis.“ApplicationofanalogicalModelingtoExampleBasedMachineTranslation”.COLING-2000:516-52215YujiMatsumotoandMihokoKitamura“AMachineTranslationSystemBasedonTranslationRulesAcquiredfromParallelCorpora”.RecentAdvancesinNLP.Bulgnira1995.16AdamMeyers,RomanYangarber,

48、RalphGrishmanetc.“DerivingTransferRulesfromDominance-PreservingAlignments”.Coling-ACL-1998:843-84717Nagao,M.“AFrameworkofaMechanicalTranlationbetweenJapaneseandEnglishbyAnalogyPrinciple”,inArtificialandHumanIntelligence,ed.Elithorn,A.andBanerji,R.,North-Holland,P173-180,1984.主要参考文献主要参考文献(2)18JungH.S

49、hin,YoungS.HanandKey-SunChoi.“BilingualKnowledgeAcquisitionfromKorean-EnglishParallelCorpusUsingAlignmentMethod”,COLING-199619 Kenji Imaura. “Hierarchical Phrase Alignment Harmonized with Parsing”. 6thNaturalLanguageProcesssingPacificRimSymposium(NLPRS-2001)20EijiAramakietc.“FindingTranslationCorres

50、pondencefromParallelParsedCorpusforExample-basedTranslation.”MT-Summit21DekaiWu.“AnAlgorithmforSimultaneouslyBracketingParallelTextsbyAligningWords”ACL-1995.22 Dekai Wu. “Stochastic Inversion Transduction Grammars, with Application toSegmentation,Bracketing,andAlignmentofParallelCorpora.”.14thIntl.J

51、ointConf.OnArtificalIntelligence,P1328-1335,Montreal,Aug,1995.IJCAI-199523DekaiWu“TrainableCoarseBilingualGrammarsforParallelTextBracketing”ThirdAnnualworkshoponVeryLargeCorpora),Cambridge,199524 DekaiWu.“Stochastic InversionTransductionGrammars andBilingual Parsing ofParallelCorpora”ComputationalLinguisticsvol.23,No.3,1997.主要参考文献主要参考文献(3)Thank you !

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号