机器翻译原理课件－金锄头文库

资源描述

《机器翻译原理课件》由会员分享，可在线阅读，更多相关《机器翻译原理课件（64页珍藏版）》请在金锄头文库上搜索。

1、机器翻译原理 Part 双语语料库对齐及翻译知识自动获取技术 MTLAB of HIT,主要内容,概述为什么要自动地获取知识（Why ?) 获取什么知识 (What ?) 如何获取知识 (How ?) 双语语料库对齐加工句子对齐词汇对齐结构对齐翻译知识的获取直接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究,为什么要自动获取知识（Why ?),机器翻译的发展现状 Internet 的发展进一步促进了对机器翻译技术的需求现有的机器翻译系统不能令人满意 “满篇英文难不住，满篇中文看不懂” “ MT，不是machine translation，而是mad tr

2、anslation” 存在的主要问题传统的机器翻译：手工编写规则知识获取瓶颈解决的途径从语料库中自动获取机器翻译所需要的各种知识,什么是知识？,Bacon: “知识就是力量” Feigenbaum: “知识与信息不一样. 知识是信息经过加工整理、解释、挑选和改造而形成的” 董振冬: 知识是一个系统，是一个包含着各种概念与概念之间的关系，以及概念的属性与属性之间的关系的系统。,获取什么知识（What ?),单语词汇：分词、词性标注语法（结构）：词性标注、句法分析语义：词义排歧、聚类分析双语翻译知识词典知识结构转换知识译文选择知识 ,如何获取知识（How ?),知识获取的主

3、要方法手工获取知识智能人机交互统计方法（HMM, PCFG) 机器学习方法决策树归纳学习基于转换的错误驱动的学习方法(Eric Brill) 基于实例的方法 ,翻译知识获取,知识获取过程：数据预处理知识挖掘知识评价双语语料库对齐加工翻译知识自动获取,双语语料库及其对齐技术（1）,语料库语料库(Corpora)是按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合，主要用于研究自然语言的规律，特别是统计语言学模型的训练以及相关系统的评价和评测语料库语言学语料库语言学是以语料库为基本知识源来研究自然语言规律的学科，主要研究内容包括语料库加工的理

4、论、方法和工具以及基于语料库的知识获取。单语语料库(Monolingual Corpus)和多语语料库(Multilingual Corpora),双语语料库及其对齐技术（2）,双语语料库的建设双语语料库(Bilingual Corpora，Parallel Corpora) 国外：加拿大的议会会议录(Canadian Hansards)，（英法）英国Brighton大学语言中心双语语料库INTERSECT,（英法书面语) 英国Birmingham大学的LINGUA多语语料库项目，英、法、希腊语加拿大的BCD(Bilingual Canadian Dictionary)词典编纂项

5、目瑞典Uppsala大学语言学系建立的Scania多语语料库国内：建立了一些单语语料，尚无大规模汉外双语库的报道目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段香港科技大学的英汉双语语料库HKUST 哈工大-微软联合实验室：6万句对,双语语料库及其对齐技术（3）,双语语料库的对齐技术对齐：从互译的不同语言文本中找出互译片断的过程语料库的加工深度决定语料库所能提供的知识的粒度双语语料库对齐可分为段落、句子、短语、单词不同级别句子对齐词对齐短语（结构）对齐,双语语料库对齐技术：句子对齐(1),基于长度的句子对齐方法源语言文本的长度与译文长度有很强的相关性基于词数长度

6、的对齐（Brown) 基于字符数的长度对齐方法(Gale Church) 这些算法都把句子对齐看作是句子长的函数；不需要额外的词典信息；但是容易造成错误的蔓延。基于词汇的句子对齐方法 Simard等人提出了在长度标准上加上同源概念(Cognate) 来提高算法的性能 Kay和Roscheisen提出了另一种基于语汇的对齐算法，在该算法中选择句子对齐的标准是其中词汇对齐的数量。,双语语料库对齐技术：句子对齐(2),Debili 和Sammouda实现了Simard的思想，并采用双语典为指导，以缩小搜索空间 Church利用双语文本中字母的对应信息，在1993年设计了一种字符对齐算法长度方法与

7、词汇方法相结合(Wu、Utsuro) 不少学者认为句子对齐已经达到可以实用（98）,双语语料库对齐技术：词汇对齐(1),词汇对齐是指在源文和对应的译文中找到词汇级的对译关系大家都叫他毛伯伯。 Everybody calls him Uncle Mao . 由于词汇对齐比句子对齐提供了更细粒度的对译信息，因此可以为自然语言处理提供更大程度的支持,双语语料库对齐技术：词汇对齐(2),词汇对齐的困难词汇对齐不满足次序性假设词汇对齐的模式十分复杂（1:1,1:m,m:1,m:m) 她改变角度去写他的报告以迁就她的听众. She angles her reports to suit t

8、he people she is speaking to. 词汇对齐匹配关系难以断定(词典，长度）采用这种新装置 The adoption of this new device. 汉语的特点及英语和汉语间的固有差异汉语分词问题; 惯用搭配、成语、谚语,双语语料库的对齐技术：词汇对齐(3),基于统计的词汇对齐方法主要思想: 对大规模双语语料库进行统计，获得对译词的翻译概率 Brown(1,778,620),Gale(897,077),Dagan 基于统计机器翻译模型的词汇对齐(Brown) 其中的翻译模型通过词汇对齐模型来实现；通过EM算法迭代训练词汇翻译概率；问题：参数空间巨大；局

9、部最优基于同现的词汇对应抽取(Gale profile/配置文件. 汉语分词问题：驱动器: 驱动 - 器; 单击:单-击 N-gram的抽取: 停用词将句子分段 The project manager may use the e-mail system to view and reply to message from workgroup member . 生成的N-gram候选: project project-manager use e-mail e-mail-system view reply message workgroup workgroup-member,基于统计的翻译词表自

10、动获取（2）,翻译概率的计算模型,对于任意一对源语词Ws和目标语词Wt ，设： a = freq(Ws,Wt) b = freq(Ws) - freq(Ws,Wt) c = freq(Wt) - freq(Ws,Wt) d= N a b - c 联列表法： hg (Ws,Wt)= (ad-bc) 2 / (a+b)(a+c)(b+d)(b+c) Dice系数(Dice Coefficient)： Dice(Ws,Wt)= 2 freq(Ws,Wt) / freq(Ws) + freq(Wt) ,基于统计的翻译词表自动获取（3）,翻译概率的计算模型,互信息方法(Mutual Informatio

11、n)： MI(Ws,Wt)= log2(freq(Ws,Wt) / freq(Ws) freq(Wt) 对数似然比(Log Likelihood Ratio,LLR) ： LLR(Ws,Wt)=2logL(p1,a,a+b)+logL(p2,c,c+d) - logL(p,a,a+b) - logL(p,c,c+d) 其中，logL(p,k,n)=klog(p)+(n-k)log(1-p), p1=a/(a+b), p2=c/(c+d), p=(a+c)/(a+b+c+d) 词典加权同现测度： Wscore (Ws,Wt)=log2(2+DSim(Ws,Wt)*Score (Ws,Wt),基于

12、统计的翻译词表自动获取（4）,基于迭代的翻译词表自动抽取算法间接相关问题：贪心假设迭代的抽取算法,基于统计的翻译词表自动获取（5）,实验及结论 N-gram模型有利于提取多词单元对应，并且能够有效地发现新词、术语及翻译； Click单击； e-mail 电子邮件； network diagram 网络图； event viewer 事件查看器迭代算法大大提高了统计的正确率；词典加权同现测度能够提高统计质量在小规模训练语料条件下, Log Likelihood Ratio的统计特性较好,基于混合策略的词对齐(1),对齐评价函数： EF(e, c)=T(e, c) * D(e, c)

13、其中：T(e,c)为翻译概率， D(e,c)为位置形变概率,通过计算位置相对形变距离得到。位置相对形变距离是指一个可能的对齐相对于最近的确定对齐的距离。用贪心算法实现对齐过程和对齐歧义消除过程,基于混合策略的词对齐(2),利用语言学知识改善词汇对齐结果利用词性对译关系实现词汇对齐后处理短语扩展利用词形变化特点，增加词汇对齐匹配规则如：n/v+”者”/”家” translationof(n/v)+ “-er”/ “-or”/ “-ist”/ “-ian”; 可以得到诸如“赛跑+者runner”、“征服+者 conqueror”等多词单元对应。数词的对齐专有名词的对齐,实验结果

14、及分析（1）,实验用语料库：语料库1：通用语料库(60,000句对）语料库2：计算机语料库(14,390句对),实验结果及分析（2）,实验结果及分析（3）,错误分析：资源不足，短语匹配，语言表达差异,双语语料库对齐技术：结构对齐(1),结构对齐：短语结构，依存结构，组块结构结构对齐的主要方法 Parse-Parse-Match 方法单语分析+词汇对齐+启发式算法 kaji,Ralph Grishman,Yuji,Adam Meyer、Hideo 双语同步分析 Wu Dekai, Wang Wei 结构对齐的难点难以获得合适的、可靠的单语分析结果：如汉语不同语言的语法分析结果可能不匹

15、配双语的结构匹配的状态空间搜索问题,双语语料库对齐技术：结构对齐(2),双语分析模型(Wu Dekai)：反向转换文法（ inversion transduction Grammars，ITG) 产生式有两个方向是一个双语体系用词翻译概率连接双语用概率选择双语分析结果,双语语料库对齐技术：结构对齐(3),The gameBNP will start BVP on WednesdayPPVP S .S 比赛星期三开始。 The/e game/比赛BNP VP S ./。S,BVP,难以确定合适的双语语法一个实用的双语模型是反向划界语法问题：,双语语料库对齐技术：结构对齐(4)

16、,引入英语的句法分析得到的双语分析,单语句法分析指导的双语结构对齐（1）,“parsing-parsing-match”方法的缺点难以获得合适的、可靠的单语分析结果，如汉语不同语言的语法分析结果可能不匹配改进方法只使用英语的分析结果与双语语言模型相结合,单语句法分析指导的双语结构对齐（2）,定义代价函数Fe(s, t) 三种匹配情况 She/1 is/2 a/3 lovely/4 girl/5./6 越界分析: (1,2), (1,3) ,(2,3), (2, 5) 定界分析: (1,6),(2,5),(3,5) 界内分析: (3,4),(4,5) 修正后的局部最优函数用动态规划算法（DP)求解最优双语分析树,单语句法分析指导的双语结构对齐（3）,实验：1000句对评价：语法准则 The s

展开阅读全文