机器翻译原理课件

上传人:我*** 文档编号:141983101 上传时间:2020-08-14 格式:PPT 页数:64 大小:396KB
返回 下载 相关 举报
机器翻译原理课件_第1页
第1页 / 共64页
机器翻译原理课件_第2页
第2页 / 共64页
机器翻译原理课件_第3页
第3页 / 共64页
机器翻译原理课件_第4页
第4页 / 共64页
机器翻译原理课件_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《机器翻译原理课件》由会员分享,可在线阅读,更多相关《机器翻译原理课件(64页珍藏版)》请在金锄头文库上搜索。

1、机器翻译原理 Part 双语语料库对齐及 翻译知识自动获取技术 MTLAB of HIT,主要内容,概述 为什么要自动地获取知识(Why ?) 获取什么知识 (What ?) 如何获取知识 (How ?) 双语语料库对齐加工 句子对齐 词汇对齐 结构对齐 翻译知识的获取 直接利用双语语料库获取翻译知识的研究 间接利用双语语料库获取翻译知识的研究,为什么要自动获取知识(Why ?),机器翻译的发展现状 Internet 的发展进一步促进了对机器翻译技术的需求 现有的机器翻译系统不能令人满意 “满篇英文难不住,满篇中文看不懂” “ MT,不是machine translation,而是mad tr

2、anslation” 存在的主要问题 传统的机器翻译:手工编写规则 知识获取瓶颈 解决的途径 从语料库中自动获取机器翻译所需要的各种知识,什么是知识?,Bacon: “知识就是力量” Feigenbaum: “知识与信息不一样. 知识是信息经过加工整理、解释、挑选和改造而形成的” 董振冬: 知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。,获取什么知识(What ?),单语 词汇:分词、词性标注 语法(结构):词性标注、句法分析 语义:词义排歧、聚类分析 双语 翻译知识 词典知识 结构转换知识 译文选择知识 ,如何获取知识(How ?),知识获取的主

3、要方法 手工获取知识 智能人机交互 统计方法(HMM, PCFG) 机器学习方法 决策树 归纳学习 基于转换的错误驱动的学习方法(Eric Brill) 基于实例的方法 ,翻译知识获取,知识获取过程: 数据预处理 知识挖掘 知识评价 双语语料库对齐加工 翻译知识自动获取,双语语料库及其对齐技术(1),语料库 语料库(Corpora)是按照一定的原则组织在一起的真实的自 然语言数据(包括书面语和口语)的集合,主要用于研究自 然语言的规律,特别是统计语言学模型的训练以及相关系 统的评价和评测 语料库语言学 语料库语言学是以语料库为基本知识源来研究自然语言规 律的学科,主要研究内容包括语料库加工的理

4、论、方法和 工具以及基于语料库的知识获取。 单语语料库(Monolingual Corpus)和多语语 料库(Multilingual Corpora),双语语料库及其对齐技术(2),双语语料库的建设 双语语料库(Bilingual Corpora,Parallel Corpora) 国外: 加拿大的议会会议录(Canadian Hansards),(英法) 英国Brighton大学语言中心双语语料库INTERSECT,(英法书面语) 英国Birmingham大学的LINGUA多语语料库项目,英、法、希腊语 加拿大的BCD(Bilingual Canadian Dictionary)词典编纂项

5、目 瑞典Uppsala大学语言学系建立的Scania多语语料库 国内: 建立了一些单语语料,尚无大规模汉外双语库的报道 目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段 香港科技大学的英汉双语语料库HKUST 哈工大-微软联合实验室:6万句对,双语语料库及其对齐技术(3),双语语料库的对齐技术 对齐:从互译的不同语言文本中找出互译片断的过程 语料库的加工深度决定语料库所能提供的知识的粒度 双语语料库对齐可分为段落、句子、短语、单词不同级别 句子对齐 词对齐 短语(结构)对齐,双语语料库对齐技术:句子对齐(1),基于长度的句子对齐方法 源语言文本的长度与译文长度有很强的相关性 基于词数长度

6、的对齐(Brown) 基于字符数的长度对齐方法(Gale Church) 这些算法都把句子对齐看作是句子长的函数;不需要额外的词典信息;但是容易造成错误的蔓延。 基于词汇的句子对齐方法 Simard等人提出了在长度标准上加上同源概念(Cognate) 来提高算法的性能 Kay和Roscheisen提出了另一种基于语汇的对齐算法,在该算法中选择句子对齐的标准是其中词汇对齐的数量。,双语语料库对齐技术:句子对齐(2),Debili 和Sammouda实现了Simard的思想,并采用双语典为指导,以缩小搜索空间 Church利用双语文本中字母的对应信息,在1993年设计了一种字符对齐算法 长度方法与

7、词汇方法相结合(Wu、Utsuro) 不少学者认为句子对齐已经达到可以实用(98),双语语料库对齐技术:词汇对齐(1),词汇对齐是指在源文和对应的译文中找到词汇级的对译关系 大家 都 叫 他 毛 伯伯 。 Everybody calls him Uncle Mao . 由于词汇对齐比句子对齐提供了更细粒度的对译信息,因此可以为自然语言处理提供更大程度的支持,双语语料库对齐技术:词汇对齐(2),词汇对齐的困难 词汇对齐不满足次序性假设 词汇对齐的模式十分复杂(1:1,1:m,m:1,m:m) 她改变角度去写他的报告以迁就她的听众. She angles her reports to suit t

8、he people she is speaking to. 词汇对齐匹配关系难以断定(词典,长度) 采用这种新装置 The adoption of this new device. 汉语的特点及英语和汉语间的固有差异 汉语分词问题; 惯用搭配、成语、谚语,双语语料库的对齐技术:词汇对齐(3),基于统计的词汇对齐方法 主要思想: 对大规模双语语料库进行统计,获得对译词的翻译概率 Brown(1,778,620),Gale(897,077),Dagan 基于统计机器翻译模型的词汇对齐(Brown) 其中的翻译模型通过词汇对齐模型来实现; 通过EM算法迭代训练词汇翻译概率; 问题:参数空间巨大; 局

9、部最优 基于同现的词汇对应抽取(Gale profile/配置 文件. 汉语分词问题:驱动器: 驱动 - 器; 单击:单-击 N-gram的抽取: 停用词将句子分段 The project manager may use the e-mail system to view and reply to message from workgroup member . 生成的N-gram候选: project project-manager use e-mail e-mail-system view reply message workgroup workgroup-member,基于统计的翻译词表自

10、动获取(2),翻译概率的计算模型,对于任意一对源语词Ws和目标语词Wt ,设: a = freq(Ws,Wt) b = freq(Ws) - freq(Ws,Wt) c = freq(Wt) - freq(Ws,Wt) d= N a b - c 联列表法: hg (Ws,Wt)= (ad-bc) 2 / (a+b)(a+c)(b+d)(b+c) Dice系数(Dice Coefficient): Dice(Ws,Wt)= 2 freq(Ws,Wt) / freq(Ws) + freq(Wt) ,基于统计的翻译词表自动获取(3),翻译概率的计算模型,互信息方法(Mutual Informatio

11、n): MI(Ws,Wt)= log2(freq(Ws,Wt) / freq(Ws) freq(Wt) 对数似然比(Log Likelihood Ratio,LLR) : LLR(Ws,Wt)=2logL(p1,a,a+b)+logL(p2,c,c+d) - logL(p,a,a+b) - logL(p,c,c+d) 其中,logL(p,k,n)=klog(p)+(n-k)log(1-p), p1=a/(a+b), p2=c/(c+d), p=(a+c)/(a+b+c+d) 词典加权同现测度: Wscore (Ws,Wt)=log2(2+DSim(Ws,Wt)*Score (Ws,Wt),基于

12、统计的翻译词表自动获取(4),基于迭代的翻译词表自动抽取算法 间接相关问题: 贪心假设 迭代的抽取算法,基于统计的翻译词表自动获取(5),实验及结论 N-gram模型有利于提取多词单元对应,并且能够有效地发现新词、术语及翻译; Click单击; e-mail 电子邮件; network diagram 网络图; event viewer 事件查看器 迭代算法大大提高了统计的正确率; 词典加权同现测度能够提高统计质量 在小规模训练语料条件下, Log Likelihood Ratio的统计 特性较好,基于混合策略的词对齐(1),对齐评价函数: EF(e, c)=T(e, c) * D(e, c)

13、 其中:T(e,c)为翻译概率, D(e,c)为位置形变概率,通过计算位置相对形变距 离得到。位置相对形变距离是指一个可能的对齐 相对于最近的确定对齐的距离。 用贪心算法实现对齐过程和对齐歧义消除过程,基于混合策略的词对齐(2),利用语言学知识改善词汇对齐结果 利用词性对译关系实现词汇对齐后处理 短语扩展 利用词形变化特点,增加词汇对齐匹配规则 如:n/v+”者”/”家” translationof(n/v)+ “-er”/ “-or”/ “-ist”/ “-ian”; 可以得到诸如“赛跑+者runner”、“征服+者 conqueror”等多词单元对应。 数词的对齐 专有名词的对齐,实验结果

14、及分析(1),实验用语料库: 语料库1:通用语料库(60,000句对) 语料库2:计算机语料库(14,390句对),实验结果及分析(2),实验结果及分析(3),错误分析:资源不足,短语匹配,语言表达差异,双语语料库对齐技术:结构对齐(1),结构对齐:短语结构,依存结构,组块结构 结构对齐的主要方法 Parse-Parse-Match 方法 单语分析+词汇对齐+启发式算法 kaji,Ralph Grishman,Yuji,Adam Meyer、Hideo 双语同步分析 Wu Dekai, Wang Wei 结构对齐的难点 难以获得合适的、可靠的单语分析结果:如汉语 不同语言的语法分析结果可能不匹

15、配 双语的结构匹配的状态空间搜索问题,双语语料库对齐技术:结构对齐(2),双语分析模型(Wu Dekai): 反向转换文法( inversion transduction Grammars,ITG) 产生式有两个方向 是一个双语体系 用词翻译概率连接双语 用概率选择双语分析结果,双语语料库对齐技术:结构对齐(3),The gameBNP will start BVP on WednesdayPPVP S .S 比赛 星期三 开始 。 The/e game/比赛BNP VP S ./。S,BVP,难以确定合适的双语语法 一个实用的双语模型是反向划界语法 问题:,双语语料库对齐技术:结构对齐(4)

16、,引入英语的句法分析得到的双语分析,单语句法分析指导的双语结构对齐(1),“parsing-parsing-match”方法的缺点 难以获得合适的、可靠的单语分析结果,如汉语 不同语言的语法分析结果可能不匹配 改进方法 只使用英语的分析结果 与双语语言模型相结合,单语句法分析指导的双语结构对齐(2),定义代价函数Fe(s, t) 三种匹配情况 She/1 is/2 a/3 lovely/4 girl/5./6 越界分析: (1,2), (1,3) ,(2,3), (2, 5) 定界分析: (1,6),(2,5),(3,5) 界内分析: (3,4),(4,5) 修正后的局部最优函数 用动态规划算法(DP)求解最优双语分析树,单语句法分析指导的双语结构对齐(3),实验:1000句对 评价:语法准则 The s

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号