一种基于短语统计翻译的汉维机器翻译系统

资源描述

《一种基于短语统计翻译的汉维机器翻译系统》由会员分享，可在线阅读，更多相关《一种基于短语统计翻译的汉维机器翻译系统（17页珍藏版）》请在金锄头文库上搜索。

1、一种基于短语统计翻译的汉维机器翻译系统杨攀 081009IIM报告内容u引言u系统简介u解码器实现u相关实验u总结IIM引言u 新疆地区的官方使用的语言文字有汉语、维吾尔语、哈萨克语、柯尔克孜语、蒙古语等，在这些少数民族语言文字中，除了蒙古语外，维吾尔语、哈萨克语、柯尔克孜语都属于一个语族(突厥语族)。u 正是这种少数民族语言文字的构成，使少数民族语言文字信息技术的开发与应用成为新疆信息化建设当中不可或缺的一个重要方面，也是国家信息化建设的基础之一。u 由于维吾尔语的黏着特性，汉语-维吾尔语之间的语言差异很大，所以研究汉维机器翻译技术具有重要意义。IIM引言u 自1990年IBM公司的P.B

2、rown等人提出基于信源信道思想的统计翻译模型之后，统计机器翻译越来越受到研究者的重视。u 基于短语的统计机器翻译模型在近几年的统计机器翻译研究中占据了主导地位。u 统计机器翻译的优点是在不考虑语言特点的情况下借助于双语平行语料库直接构建一个机器翻译系统，但因此会忽略特定语言的复杂性。u 目的是尝试借助汉维语料库构建一个汉维机器翻译系统，这样可以为进一步研究汉维机器翻译打下基础。IIM系统简介u 汉维翻译系统基本框架:IIM系统简介u语言模型语言模型是自然语言的数学模型，它主要描述自然语言的统计和结构方面的内在规律。 N-gram统计语言模型是统计语言模型的一种。它主要根据历史 N-1个词

3、，来决定第N个词可能出现的概率。N-gram语言模型的概率表示通常由最大相似度来估计。N-gram的句子概率的数学公式如下所示：IIM系统简介u翻译模型基于短语的统计机器翻译的最大特点就是其翻译模型为短语级的。典型的翻译过程是将输入的句子划分成短语，然后将每一个短语翻译成相应的译文短语，在翻译的过程中可以对译文的短语序列重新排序。短语翻译模型的构建需要对语料库中的进行短语的划分，同时对划分的短语进行概率计算。通过短语划分（抽取）得到双语对齐的短语对，短语对的对齐效果和短语对的评分结果直接影响到短语翻译模型的好坏。IIM系统简介u附加模型扭曲模型就是对源短语位置重排的范围进

4、行惩罚的。公式如下：词语惩罚模型计算译文的单词个数作为其惩罚值加入到模型中来，这样可以结合词语惩罚模型的权重值对译文长短的选择。公式如下：短语惩罚模型计算在构建译文的过程中所使用的源短语的个数。短语惩公式如下：IIM解码器实现u解码器简介解码器的任务是用从训练文本中学习到的语言模型、翻译模型以及其他附加模型的信息来确定源句子最可能的翻译句子。本文采用动态规划思想的柱搜索（beam search）算法实现解码搜索功能。u解码器的实现原理在对数线性模型方法下，将所有的模型信息加入进来后，解码就是在下式中搜索最大模型评分的t的算子：IIM解码器实现u柱搜索(beam searc

5、h) 解码算法柱搜索算法是一种动态规划的栈式搜索算法，源语言句子长度为nf的柱搜索解码算法描述如下：u 初始化假设栈hypoStack0nf;u 生成初始翻译假设加入到假设栈hypoStack0中；u 遍历i从0到nf-1的所有假设栈hypoStack i;u 对hypoStacki进行剪枝；u 遍历hypoStacki中的每一个翻译假设hypo；u 查找hypo所有可用的翻译备选项进行逐个扩展，每次扩展生成一个新的假设newhypo；u 计算newhypo的TotalScore，根据newhypo翻译的源语言单词个数加入到相应假设栈中；u 最后从假设栈hypoStack nf中的最

6、佳假设开始回溯得到翻译译文。IIM解码器实现u柱搜索算法的剪枝策略在柱搜索解码过程中，在句子比较长的时候可用翻译选项增多，使得假设栈中的翻译假设的数目变的很大。如果不对假设栈中的翻译假设进行剪枝,搜索空间不断增大，扩展会越来越慢，甚至无法搜索。为了降低搜索的复杂度，一方面可以对限制源语言句子短语在翻译过程的位置扭曲范围进行限制，另一方面在柱搜索解码过程中进行剪枝。在对假设栈进行剪枝时，我们使用了没有风险(no risk)的翻译假设重组和有风险的栈大小剪枝和栈阈值剪枝。IIM相关实验u语料库准备由于汉维平行语料库的缺乏，在对有限的汉维生语料进行预处理后，得到了约46万条（句

7、条，词条）汉维双语平行语料库。实验中用汉维双语平行语料库进行翻译模型的训练,用维吾尔语单语语料库进行语言模型的训练，其中维吾尔语我们使用的是拉丁维文。IIM相关实验u语言模型训练结果采用SRILM模型训练工具，训练3-gram的维吾尔语语言模型。训练的结果如下表所示：1414573-gram6258232-gram1375521-gramn-gram数n-gramIIM相关实验u 翻译模型训练结果翻译模型采用从词语对齐到短语对齐训练短语翻译模型的路线，在 GIZA+的双向词语对齐基础上，通过词语对齐提炼优化的词语对齐结果。下表为我们翻译模型的部分训练结果。歧杆菌属 achil

8、iq tayaqche baktriye uruqdishi 1 1 1 1 2.178 混为一谈 arilashturuwetmek 0.0909091 1 1 1 2.178 原丝体 iptidaiy yipsiman tenche 1 1 1 1 2.178 水牛乳半流体 su kalisi 0.0714286 1 1 1 2.178 欧州经济共同体护照 yawropa iqtisadiy ortaq gewdisi pasporti 1 1 1 1 2.178IIM相关实验u翻译结果示例由于汉维机器翻译系统的翻译结果是拉丁维文，为了将其应用到我们的农业专家系统中，我们开发了拉丁维文到传统维文的转换模块，在系统平台中将解码器及转换模块集成后将其应用到新疆番茄栽培专家系统中，实验显示效果之一如下图所示：IIM总结u 基于短语统计的机器翻译是目前机器翻译的研究热点，本文中的汉维机器翻译系统就是基于此翻译模型构建的。u 汉维翻译属于汉民翻译中的一个方向，虽然统计机器翻译中的核心问题是解码器的构建，但是我们在处理汉民翻译时经常遇到是汉民双语语料库相对缺乏以及民族语言本身特点的相关问题。u 考虑到维吾尔语本身的形态学特点，如何将形态学信息引入到汉维统计机器翻译之中也是今后研究中关注的重点。IIM谢谢各位专家！

展开阅读全文