CWMT2009统计机器翻译研讨会内蒙古大学技术报告

上传人:jiups****uk12 文档编号:40846043 上传时间:2018-05-27 格式:PDF 页数:6 大小:307.54KB
返回 下载 相关 举报
CWMT2009统计机器翻译研讨会内蒙古大学技术报告_第1页
第1页 / 共6页
CWMT2009统计机器翻译研讨会内蒙古大学技术报告_第2页
第2页 / 共6页
CWMT2009统计机器翻译研讨会内蒙古大学技术报告_第3页
第3页 / 共6页
CWMT2009统计机器翻译研讨会内蒙古大学技术报告_第4页
第4页 / 共6页
CWMT2009统计机器翻译研讨会内蒙古大学技术报告_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《CWMT2009统计机器翻译研讨会内蒙古大学技术报告》由会员分享,可在线阅读,更多相关《CWMT2009统计机器翻译研讨会内蒙古大学技术报告(6页珍藏版)》请在金锄头文库上搜索。

1、C W M T 2 0 0 9 统计机器翻译研讨会内蒙古大学技术报告侯宏旭,宋美娜,姜鑫,辛强,明玉 内蒙古大学计算机学院,内蒙古呼和浩特0 1 0 0 2 1摘要:本文主要介绍了内蒙古大学参评系统参加c 删T 2 0 0 9 研讨会的技术报告,我们参加的项目评测任务是 汉蒙E 1 常用语统计机器翻译任务。这里主要介绍了该系统的主要框架、模型、实现细节及其评测结果关键宇:统计机器翻译;调序模型;t r i g g e r m ;语言模型T e c h n i c a lR e p o r to fI n n e rM o n g o l i aU n i v e r s i t yo nt h

2、 eS t a t i s t i c a lM a c h i n eT r a n s l a t i o nE v a l u a t i o nT a s ko fC W M T 2 0 0 9H o uH o n g x u ,S o n gM e i n a ,J i a n gX i n ,X i nQ i a n g ,M i n gY uC o l l e g eo fC o m p u t e rS c i e n c e ,I n n e rM o n g o l i aU n i v e r s i t y , H o h h o t0 10 0 21 ,C h i n

3、 aA b s t r a c t :刀i 括p a p e rd e s c r i b e so u rs t a t i s t i c a lm a c h m et r a n s l a t i o ns y s t e mu s e di nt h ee v a l u a t i o nc a m p a i g no f C W M T l 0 9 I nt h by e a r se v a l u a t i o n w ep a r t i c i p a t e di no n et a s k :C h i n e s e t O M o n g o l i a n

4、t r a n s l a t i o n H e r e , w em a i n l yi n t r o d u c et h eo v e r v i e wo f o u ts y s t e m ,t h ep r i m a 秽m o d u l e s ,t h ek e y t e c h n i q u e s ,a n dt h ee v a l u a t i o nr e s u l t s K e y w o r d s :s t a t i s t i c a lm a c h i n et r a n s l a t i o n ;r e o r d e r i

5、 n gm o d e l ;t r i g g e rp a i r ;l a n g u a g em o d e l1 引言2 0 0 9 年全国统计机器翻译研讨会( C W M T 2 0 0 9 ) 机器翻译评测一共包括五个评测任务,即 新闻的汉英和英汉翻译任务、科技的英汉翻译任务、新闻的汉英融合任务及日常用语的汉蒙 机器翻译。内蒙古大学作为参加单位之一参加了其中的汉蒙机器翻译评测任务,这里主要介 绍该系统的主要技术内容和相关评测参数。2 参评系统描述在这次机器翻译评测中,我们参加评测的系统是开源基于短语的汉蒙机器翻译系统 ( M o s e s ) ,现在就详细介绍一下该系统的整体

6、设计及各个模块的实现原理。2 1 系统流程 该系统包含以下四个主要部分:短语翻译模型的训练、语言模型的训练、解码、翻译结 果的评价。在模型训练过程中,除了利用( M o s e s ) 的默认设置来进行训练解码外,还加入了我们自己开发的调序模型以及T r i g g e r 对长距离的蒙语语言模型作为特征,从而可以提高机 器翻译的质量。2 1 1 短语翻译模型的训练 通过短语翻译模型的训练,从汉蒙句子对齐的语料库中学习到汉语短语到蒙语短语的翻 译概率表,流程图参见图1 1 4 1图1 :短语翻译模型训练的流程在统计机器翻译翻译中,由于调序扮演着非常关键的作用。现有的基于短语的统计机器 翻译方法

7、中,通常采用的是I B M 调序模型。这种模型比较适合于词序变化不大的语言之间 的翻译。而汉语和蒙古语词序的差异是非常大的。汉语是S V O 型的语言,宾语总是出现在 谓语后面,而蒙语是S O V 型的语言,谓语动词总是出现在句子尾部。因此在汉蒙翻译中采 用I B M 调序模型或者H M M 调序模型都会面临比较严重的问题。为此,我们采用了一种基 于词序变化概率分布的调序模型。因为目前还没有出现比较完善的蒙古语句法分析器,而且 句法上调序的开销比较高。因此,这种模型并没有考虑句法信息,只是涉及到翻译中词序变 化的概率分布,我们通过以下公式,利用目标短语相对位置与源短语相对位置的位置差来描 述短

8、语的这种调序关系。 J P ( 南L e n一南L e nf P ,厂)、( F )( E ) 。给出的概率是短语e 在E 中出现的位置与f 在源语言句子中出现位置的相对差,在解码 时,我们需要对目标句子的可能长度进行估计。通过实验我们可以知道,句子的长度比的分布基本满足正态分布曲线,也就是说这个长度比l e n ( e ) l e n ( f ) 是满足正态分布的,并在解码过 程中去修正这个估算的目标句子长度。 通过一些分析,我们发现对于汉语词和它的蒙古语翻译的距离存在着比较明显的正态分 布关系。因此我们利用这一正态分布曲线来拟合这一分布,并得到下面的概率计算公式:P ( x ) =P (

9、if9 叫) = C ;p ( = 两一赤)e ,) 2k ,p ( 赢一瓦者鬲在这个公式中,我们得到的是当源语言短语f 中的第一个词的位置为j ,目标短语e 的 第一个词应该出现的位置。在解码时将这个概率作为一个特征。1 4 22 1 2 语言模型的训练 统计语言模型在机器翻译、文字处理、文字检索等领域有着广阔的应用。作为机器翻译 的一项基础性工作,蒙古语语言模型的建立不能照搬汉语、英语等语言中使用的语言模型方 法。所以针对蒙古语语言的特点我们采用了一种新的蒙古文统计语言模型,即基于t r i g g e r 对的长距离蒙古语语言模型,并应用于汉蒙机器翻译系统。流程图如图2 所示:蒙语单语文

10、本语言模型训练蒙语语言模型图2 :语言模型训练的流程因为蒙古语属于黏着型语言,蒙古语的构词,构形都是通过在词干后缀接不同的词尾而 实现的,并且它们还可以层层缀接,这使得蒙古语词法形态变化丰富且复杂。为了能够反映出更长距离的相关信息,利用t r i g g e r 对来描述更长距离上的关联信息。 如果词A 的出现使得后文中词B 出现,则称( A B ) 为一个t r i g g e r 对。其中A 称作 触发者( t r i g g e r ) ,B 称作被触发者( t r i g g e rw o r d ) 。在自然语言中,这种情况是非常普遍的, 也就是通常所说的词的习惯搭配现象。从t r

11、i g g e r 对的定义及选取标准可以看到,t r i g g e r 对 能够表达长距离的词之间的相关程度,而这种对距离限制很少的词之间的搭配是非常符合人 们的语言习惯的,这恰好弥补了传统N 元文法语言模型描述距离小于N 的缺点。因此如能恰当地将基于t r i g g e r 的语言模型与N 元文法语言模型结合起来必将有助于更好地描述语言 的统计特性,进而提高机器翻译系统的性能。而在构建一个基于t r i g g e r 对的语言模型时就需要选择一个合适的度量标准并据此保留 所需数目的t r i g g e r 对。 一个最简单的控制t r i g g e r 对数目的方法就是给历史加窗

12、,即限制t r i g g e r 对的最长约束 距离。一般说来,这个参数并无精确要求,可以根据经验在合适范围内选取。大量文献认为:在历史中最近的六个词已包含了绝大部分信息。在选择t r i g g e r 对的实验中,我们选取的窗 长限制为9 ,即只考虑当前词的前9 个词作为历史。t r i g g e r 对选取的距离由于t r i g r a m 的存在,最短距离从4 开始,最长距离用9 。 基于t r i g g e r 对的长距离蒙古语语言模型认为第i 个符号的出现是由于第i 个符号做为被 触发者所构成的t r i g g e r 对来决定的,而一个句子第i 个符号做为被触发者可能会

13、与前面多个 符号构成t r i g g e r 对,这时则认为强度由其中最强的来决定。 基于t r i g g e r 对的长距离蒙古语语言模型的得分标准采用如下方法:l o gP 懈,( wlW2 W 。) = l o gM A X 【尸( wf + 3Wf ) ,e ( w fWf ) 】 f = 1其中l o g 已i g g e ,( W l W 2 W 。) 表示的是句子的t r i g g e r 对得分;P ( w f + 3W f )表示出现条件下彬+ ,出现的条件概率;L 表示t r i g g e r 对窗口的最大距离,设置为9 。因此,在解码时将t r i g g e r

14、 对的长距离蒙古语语言模型的得分作为另外一个特征。 2 1 3 解码 在汉蒙机器翻译系统中,我们除采用M o s e s 里面默认设置的特征外,还加入了自己的调序模型以及T r i g g e r 对语言模型的特征,并利用这些特征计算出总的翻译概率。 在解码时,我们求解候选翻译结果的期望值,并选取概率最高的作为最终的翻译1 4 3e x p I 2 m h 。( ,D P I 厂) = 薏七 e x p I 2 m h 。( 厂,P ) f L r a = lJ 这里,我们用这些概率的对数形式作为特征。这些参数可以人工指定,也可以通过训练得到。 在我们的系统中,我们采用了基于B L E U 值

15、的最小错误率训练。训练集在和测试集类型 都是来源于C W M T 0 9 发布的训练语料和测试语料,并利用最小错误率算法对参数进行训练。 2 1 4 翻译结果的评价 在这次评测过程中,我们采用C W M T 0 9 发布的评测工具( m t e v a l s b p ) 对测试集进行 N I S T - B L E U 打分。2 2 系统性能在这次评测中,机器翻译评测采用计算机配置如下表所示:C P U内存操作系统P 42 0 G H z1 GL i n u x6 0 以上平台上3 实验汉蒙机器翻译用到了M o s e s 系统。 3 1 数据准备 我们的训练数据主要来源于C W M T 0

16、 9 发布的训练语料,其中C W M T 0 9 发布的训练语料 有6 7 2 8 8 句对。对于翻译模型的训练,我们并非用所有的全部训练语料,而是过滤了部分 语料来生成我们最终的训练语料。对于语言模型的训练,我们采用C W M T 0 9 发布的6 2 4 0 0 个 句子蒙语语料用来训练。衰1 :训练语料资源列表语种领域规模说明C W M T 2 0 0 9 发布的训练语料U T F - 8 编码汉语一蒙古语政府文献和法律法规总共6 7 2 8 8 句子对日常对话、文学对C W M T 2 0 0 9 发布的训练语料进行处理最终用 于翻译模型的训练语料规模为6 7 1 8 6 句子对U T F 一8 编码教材、政治、C 啊5 1 T 2 0 0 9 发布的单语语料包括1 0 0 万词总共 蒙古语6 2 4 0 0 个蒙语句子u T F 一8 编码文学、新闻获得上述所有的训练语料之后,我们对中文和蒙文分别做了如下的处理:对中文数据进 行的处理有:中文的分词和全角变半角

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号