统计机器翻译系统中传统词典的应用研究

上传人:ji****72 文档编号:45879626 上传时间:2018-06-19 格式:PDF 页数:9 大小:283.48KB
返回 下载 相关 举报
统计机器翻译系统中传统词典的应用研究_第1页
第1页 / 共9页
统计机器翻译系统中传统词典的应用研究_第2页
第2页 / 共9页
统计机器翻译系统中传统词典的应用研究_第3页
第3页 / 共9页
统计机器翻译系统中传统词典的应用研究_第4页
第4页 / 共9页
统计机器翻译系统中传统词典的应用研究_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《统计机器翻译系统中传统词典的应用研究》由会员分享,可在线阅读,更多相关《统计机器翻译系统中传统词典的应用研究(9页珍藏版)》请在金锄头文库上搜索。

1、统计机器翻译系统中传统词典的应用研究统计机器翻译系统中传统词典的应用研究1 1曹杰 任志祥 吕雅娟 刘群 中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京,100190 E-mail: caojie, renzhixiang, lvyajuan, 摘 要摘 要:词典是翻译系统中的重要资源,本文研究了将传统词典应用在统计机器翻译中的方法,包括在训练部分词典加权到语料中使用和解码部分引入词典特征融入 log-linear 模型来使用。 本文还提出了一种词典匹配算法,使得实用的统计机器翻译系统具有动态添加新词的功能。实验表明,训练阶段中词典的主要作用是缓解数据稀疏问题;解码部分词典

2、特征的引入使系统更加偏向于选择含有词典数目更多的译文。词典匹配算法的引入很好的改善了实用翻译系统中的用户体验,并能进一步提高翻译质量。 关键词关键词:统计机器翻译、词典、自然语言理解、词典特征 The Application of Traditional Dictionary in Statistical Machine Translation Jie Cao, ZhiXiang Ren, Yajuan L and Qun Liu Key Laboratory of Intelligent Information Processing, Institute of Computing Techn

3、ology, Chinese Academy of Sciences, Beijing 100080, China E-mail: caojie, renzhixiang , lvyajuan, Abstract: : This paper describes several ways of using dictionaries in Statistical Machine Translation. The dictionaries can be added to bilingual corpora with different weights in training, and also ca

4、n be used as a feature in decoding. In addition, we describe a word-matching algorithm, which enable the MT system to translate new words added by users. Experiments have proved that in training, dictionaries contribution mostly lies in solving the problem of data sparse. Some phrases cant be learne

5、d by bilingual corpora may obtain translations from dictionaries. Furthermore, dictionary feature can increase the probabilities of those translations which have more entries in dictionary. The word-matching algorithm improves translation quality, besides obtains good feedbacks from users. Key Words

6、: statistical machine translation, traditional dictionary, natural language processing, dictionary feature 1.1. 引言 引言 近年来,统计机器翻译的研究取得长足进展,译文质量不断提高,而对于词典这一传统 机器翻译系统常用资源的使用却没有太多关注, 本文探讨了将传统词典应用于统计机器翻译 系统中的方法。 词典可以分为普通词典和领域词典两类, 普通词典一般包含常用词语及译文, 与具体领1 本研究得到国家自然科学基金课题 60873167,60603095 和 60736014 的资助 域无

7、关,而领域词典包含的是与某个专业领域相关的词典,比如“蛇舌草”在普通词典中一 般没有译项,而在传统中药领域词典中被翻译为“Hedyotis” ,而“阿拉伯”在传统中药领 域的词典中没有译项,而在普通词典中被译为“Arab” 。 在训练部分,本文尝试将普通词典、领域词典与双语语料一起进行词对齐,通过修改 GIZA+2的输入参数给普通词典、领域词典和双语语料指定不同的权重。 在解码部分,本文尝试将词典作为特征融入到Och,2002提出的 log-linear 模型中。以 译文中含有的包含在词典中的词条数目作为一个新的特征使用,用最小错误率Och,2003方 法训练参数。 为适应用户动态添加新词的需

8、求, 我们设计了一种词典匹配算法, 允许词典的强制匹配 与非强制匹配。 需要强制匹配的词在词典中译文的准确性高, 用户认为必须要翻译为词典译 项;非强制匹配词在词典中的翻译不一定最好,用户允许其翻译为其他译项。该算法可以确 保翻译结果中含有强制匹配词的词典译文, 并允许非强制匹配词的词典译文与其短语表中的 翻译进行“竞争” ,由解码器来选择最终合适结果。实际系统中的使用情况说明,这种策略 很好的改善了用户体验。 本文按如下方式组织: 第 2 部分研究了词典在训练部分的作用, 第 3 部分研究词典在解 码部分的作用, 第 4 部分是动态词典在实际统计机器翻译系统中的应用策略。 第 5 部分是实

9、验结果与分析。 2.2. 词典在训练部分的应用 词典在训练部分的应用 统计机器翻译系统的训练分为语言模型的训练和翻译模型的训练, 本文主要研究词典在 翻译模型训练中的作用。翻译模型的训练过程一般按如图 1 所示进行。 GIZA+ 词 对 齐工具 短语抽取工具 双语语料 对齐文件 短语表 图 1 翻译模型的训练过程 目前词对齐工具中最常使用的是 Och 开发的 GIZA+,该工具提供的输入参数可以指定 输入语料的权重。我们通过修改 GIZA+输入参数-weight 分别调节普通词典、领域词典、双 语语料的权重,实验部分比较了使用不同参数-weight 后对系统翻译质量的影响,并对原因 进行了分析

10、。 这种使用词典的方法实际上是将词典作为一种双语语料来使用, 经过词对齐和短语抽取 后,词典中的词条都被赋予了一定的概率,可以直接当作短语在解码部分被使用。另外还有 其他对词典赋概率的方法,比如归一化赋概率、赋常值概率Wu etc, 2008等。归一化赋概 率指, 如果一个源语言单词在词典中有 n 个译文, 那么由源单词和译文单词构造 n 个短语对, 将每个短语对的四个翻译概率都赋予概率 1/n(p(c|e)= p(e|c) = lex(c|e)= lex(e|c) = 1/n)。 赋常值概率指, 对于由词典构造出来的每个短语对, 其四个翻译概率都赋予一个常值, 比如 1。这些方法的目的都是为

11、由词典构造出来的短语赋概率,使得解码器可以将词典当作 短语表来使用。本文针对方法将词典当作双语语料赋概率进行实验,并观察该方法 的效果及带来的影响。 2 The GIZA+ Toolkit. http:/ 词典在解码部分的应用 词典在解码部分的应用 3.1 对数线性模型 3.1 对数线性模型 基于对数线性模型的统计机器翻译模型来源于基于特征的自然语言理解Kishore etc, 1997,后来Och将这种思想引入到统计机器翻译系统当中Och, 2002。假设汉语句子c翻译 成英语句子e,h1(e,c), h2(e,c) , hM(e,c)分别是e,c上的M个特征函数,12M分别是特征 的M个参

12、数值,则翻译概率Pr(e|c)可以如下表示: 1 21 .1exp( , ) Pr( | )( | ) exp( , )MMmmMmm ehe c e cpe c he c = 对于给定汉语句子c,其最佳译文ebest可用以下公式计算: 1argmax (Pr( | )argmax( , )Mbesteemmee c=he c 权重可以用最小错误率Och, 2003方法来调节。 我们实验中的baseline采用了以下特征: (a)4 个翻译概率 p(c|e), p(e|c),lex(c|e), lex(e|c).(b)语言模型概率(c)句子长度特征(d)短语个 数。 3.2 词典特征 3.2

13、词典特征 以对数线性模型为框架, 可以很容易的加入新特征, 我们以给定的句对中有多少词典中 存在的共现词对作为新的特征加入到翻译中。这种做法与Och,2002采用的词典特征很类 似。例如,假设词典中存在词条“糖尿病 diabetes” 、 “脂肪肝 fatty liver” 。对于汉语句子“该 产品具有降脂、 减肥、 防止糖尿病和脂肪肝等作用” , 翻译为英语句子“This product is effective in reducing blood lipid and weight, and can be used for preventing and treating diabetes a

14、nd fatty liver”的词典特征值就为 2,因为有两个词条出现在这个句子的译文中。 词典特征与词条的具体内容无关, 只是用来度量给定两个句子中包含的词条数目。 词典 特征的加入是出于这样的假设: 如果译文中包含词典中词条的数目越多, 那么这个译文质量 就越高。 在具体实现上, 我们改造了原有的短语表, 在短语表中预先计算好每个短语对的词典特 征值,每个短语对变成如下格式:c | e | p(c|e) p(e|c) lex(c|e) lex(e|c) dictfeat。 最后一 项 dictfeat 是统计 c 和 e 中共现的词条数。 4.4. 动态词典在实际系统中的应用 动态词典在实

15、际系统中的应用 在实用的统计机器翻译系统中, 会出现用户需要动态加入词典并要求该词立即在句子里 面翻译出来的情况, 这对于传统的基于规则的机器翻译系统来说可能不是难事, 但对于统计 机器翻译系统来说并不容易。为此我们提出一种根据词典构造“动态短语表”的策略。在实 际应用系统中采用了这一策略后,很好的改善了用户体验,并且进一步提高了翻译质量。 用户加入的词条有的需要强制匹配,有的不需要。所谓强制匹配,是指该词必须要翻译 为用户给定词典中的译文, 而非强制匹配是指该词可以翻译为词典译文, 也可以翻译为其他 合理译文。一般强制匹配的词都是毫无歧义的词,非强制匹配的都是有歧义的词语。比如, 用户给出词

16、语“山楂 Fructus Crataegi” , “红花 Flos Carthami”,并且要求“山楂”为强 制匹配(即“山楂”必须要翻译为 “Fructus Crataegi”) ,而“红花”为非强制匹配(即“红花”可以翻译为 Flos Carthami,也可以翻译其他译文)。对句子 S0,假设有 4 种译文: (S0)一种保健食品,由山楂和红花组成,可制成食品、饮料、茶等形式。 (E1)A health product, in the form of food, bevearage or tea, is made from Fructus Crataegi and Flos Carthami. (E2) A health product, in the form of food, beveara

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号