厦门大学四机器翻译研讨会评测系统描述

上传人:hs****ma 文档编号:588078456 上传时间:2024-09-07 格式:PPT 页数:19 大小:125.52KB
返回 下载 相关 举报
厦门大学四机器翻译研讨会评测系统描述_第1页
第1页 / 共19页
厦门大学四机器翻译研讨会评测系统描述_第2页
第2页 / 共19页
厦门大学四机器翻译研讨会评测系统描述_第3页
第3页 / 共19页
厦门大学四机器翻译研讨会评测系统描述_第4页
第4页 / 共19页
厦门大学四机器翻译研讨会评测系统描述_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《厦门大学四机器翻译研讨会评测系统描述》由会员分享,可在线阅读,更多相关《厦门大学四机器翻译研讨会评测系统描述(19页珍藏版)》请在金锄头文库上搜索。

1、厦门大学第四届机器翻译研讨厦门大学第四届机器翻译研讨会评测系统描述会评测系统描述陈毅东陈毅东陈毅东陈毅东 史晓东史晓东史晓东史晓东 周昌乐周昌乐周昌乐周昌乐 ydchenydchen, , mandelmandel, , 厦门大学信息科学与技术学院智能科学与技术系厦门大学信息科学与技术学院智能科学与技术系厦门大学信息科学与技术学院智能科学与技术系厦门大学信息科学与技术学院智能科学与技术系20082008年年年年1111月月月月 北京北京北京北京提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结提纲提纲概述概述机器翻译系统概要机器

2、翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结概述概述厦门大学参加了厦门大学参加了汉英新闻领域机器翻译(开放)汉英新闻领域机器翻译(开放)汉英新闻领域机器翻译(开放)汉英新闻领域机器翻译(开放)汉英新闻领域系统融合汉英新闻领域系统融合汉英新闻领域系统融合汉英新闻领域系统融合英汉新闻领域机器翻译(受限)英汉新闻领域机器翻译(受限)英汉新闻领域机器翻译(受限)英汉新闻领域机器翻译(受限)英汉科技领域机器翻译(受限)英汉科技领域机器翻译(受限)英汉科技领域机器翻译(受限)英汉科技领域机器翻译(受限)使用的模型使用的模型汉英机器翻译:短语,短语汉英机器翻译:短语,短语

3、汉英机器翻译:短语,短语汉英机器翻译:短语,短语+ +规则规则规则规则英汉机器翻译:短语英汉机器翻译:短语英汉机器翻译:短语英汉机器翻译:短语+ +规则、规则规则、规则规则、规则规则、规则使用的融合方法和使用的融合方法和系统融合评测中使系统融合评测中使用的相同用的相同提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结机器翻译系统概要(机器翻译系统概要(1)统计翻译系统统计翻译系统短语模型短语模型短语模型短语模型对数线性模型对数线性模型对数线性模型对数线性模型融合特征:短语翻译概率(正向融合特征:短语翻译概率(正向融合特征:短语翻

4、译概率(正向融合特征:短语翻译概率(正向/ /反向)、词汇化短反向)、词汇化短反向)、词汇化短反向)、词汇化短语翻译概率(正向语翻译概率(正向语翻译概率(正向语翻译概率(正向/ /反向)、语言模型、长度惩罚因反向)、语言模型、长度惩罚因反向)、语言模型、长度惩罚因反向)、语言模型、长度惩罚因子、短语惩罚因子子、短语惩罚因子子、短语惩罚因子子、短语惩罚因子单调解码,动态规划方法单调解码,动态规划方法单调解码,动态规划方法单调解码,动态规划方法汉英机器翻译评测中,我们的短语翻译系统则汉英机器翻译评测中,我们的短语翻译系统则汉英机器翻译评测中,我们的短语翻译系统则汉英机器翻译评测中,我们的短语翻译系

5、统则结合了基于组块的词语调序模型结合了基于组块的词语调序模型结合了基于组块的词语调序模型结合了基于组块的词语调序模型 机器翻译系统概要(机器翻译系统概要(2)规则翻译系统规则翻译系统基本模块:基本模块:基本模块:基本模块:词法分析词法分析词法分析词法分析句法分析句法分析句法分析句法分析词义消歧词义消歧词义消歧词义消歧译文生成译文生成译文生成译文生成采用依存文法描述英语和汉语,文法由程序来采用依存文法描述英语和汉语,文法由程序来采用依存文法描述英语和汉语,文法由程序来采用依存文法描述英语和汉语,文法由程序来描述描述描述描述 词典条目大约词典条目大约词典条目大约词典条目大约1010万万万万结合了部

6、分结合了部分结合了部分结合了部分TMTM技术技术技术技术没有专门针对这次评测进行调整没有专门针对这次评测进行调整没有专门针对这次评测进行调整没有专门针对这次评测进行调整提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结系统融合方法概要(系统融合方法概要(1)早在早在早在早在19941994年就有研究者研究多引擎翻译系统。年就有研究者研究多引擎翻译系统。年就有研究者研究多引擎翻译系统。年就有研究者研究多引擎翻译系统。多引擎系统的研究可以粗略地分成两类:多引擎系统的研究可以粗略地分成两类:多引擎系统的研究可以粗略地分成两类:多引擎系

7、统的研究可以粗略地分成两类: 简单地在各系统的输出中选出一个最佳的结果。简单地在各系统的输出中选出一个最佳的结果。简单地在各系统的输出中选出一个最佳的结果。简单地在各系统的输出中选出一个最佳的结果。 从各系统的输出中各选取最佳片段并构成新的结果。从各系统的输出中各选取最佳片段并构成新的结果。从各系统的输出中各选取最佳片段并构成新的结果。从各系统的输出中各选取最佳片段并构成新的结果。由于融合粒度更细,第二类方法常常可以获得更由于融合粒度更细,第二类方法常常可以获得更由于融合粒度更细,第二类方法常常可以获得更由于融合粒度更细,第二类方法常常可以获得更好的融合效果。好的融合效果。好的融合效果。好的融

8、合效果。第二类系统融合技术需要解决的两个问题:第二类系统融合技术需要解决的两个问题:第二类系统融合技术需要解决的两个问题:第二类系统融合技术需要解决的两个问题: 必须从候选翻译中抽取出与原文相对应的翻译片段。必须从候选翻译中抽取出与原文相对应的翻译片段。必须从候选翻译中抽取出与原文相对应的翻译片段。必须从候选翻译中抽取出与原文相对应的翻译片段。 必须在这些可用的翻译片段中筛选并组合成新的翻译必须在这些可用的翻译片段中筛选并组合成新的翻译必须在这些可用的翻译片段中筛选并组合成新的翻译必须在这些可用的翻译片段中筛选并组合成新的翻译结果。结果。结果。结果。 系统融合方法概要(系统融合方法概要(2)参

9、考文献参考文献参考文献参考文献 Chen Yu, Andreas Chen Yu, Andreas EiseleEisele, Christian , Christian FedermannFedermann, Eva , Eva HaslerHasler, Michael , Michael JellinghausJellinghaus, and , and SilkeSilke TheisonTheison. 2007. . 2007. Multi-Engine Multi-Engine Machine Machine TranslaitonTranslaiton with an Open

10、-with an Open-Source Decoder for Source Decoder for Statistical Machine Statistical Machine TranslaitonTranslaiton. In: . In: Proceedings of the Proceedings of the Second Workshop Second Workshop on Statistical on Statistical Machine Machine TranslationTranslation, Prague, , Prague, 193-196. 193-196

11、. 平行语料库平行语料库候选翻译候选翻译原文原文新句对新句对短语表短语表短语模型训练模短语模型训练模块块单语语料库单语语料库语言模语言模型型语言模型训练模语言模型训练模块块短语翻译解码模短语翻译解码模块块译文译文提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结评测数据与结果评测数据与结果(1)使用的外部工具使用的外部工具GIZA+GIZA+工具包对双语语料进行词对齐,训练工具包对双语语料进行词对齐,训练工具包对双语语料进行词对齐,训练工具包对双语语料进行词对齐,训练模式是模式是模式是模式是1 15 5H H5 53 35 54

12、 45 5使用使用使用使用SRISRI语言模型工具包来训练语言模型语言模型工具包来训练语言模型语言模型工具包来训练语言模型语言模型工具包来训练语言模型使用使用使用使用CRF+CRF+工具包来训练组块分析器(汉英测工具包来训练组块分析器(汉英测工具包来训练组块分析器(汉英测工具包来训练组块分析器(汉英测评中)。评中)。评中)。评中)。评测数据与结果评测数据与结果(2)汉英新闻机器翻译评测汉英新闻机器翻译评测汉英新闻机器翻译评测汉英新闻机器翻译评测 数据数据数据数据 结果结果结果结果来源来源来源来源量量量量双双语句句库训练数据数据(common部分部分), LDC2005T06, LDC2003E

13、07, LDC2006T04, LDC2003T17, LDC2004T07, LDC2002T01, LDC2002E18, LDC2003E1496万句万句对树库LDC2005T011.8万句万句英英语语料料LDC2007T07 (xinhua part)275M词词双语句库的英文部分双语句库的英文部分18M词词系统系统系统系统BLEU4BLEU4NIST5NIST5时间时间时间时间(s)(s)xmu-constrast-memt(统计+规则)0.24127.50826935.44xmu-primary-pumpkin(统计)0.23907.84015341.25评测数据与结果评测数据与结

14、果(3)汉英新闻系统融合评测汉英新闻系统融合评测汉英新闻系统融合评测汉英新闻系统融合评测 根据诸系统在根据诸系统在根据诸系统在根据诸系统在ssmt2007ssmt2007测试集上的成绩仅挑选了前测试集上的成绩仅挑选了前测试集上的成绩仅挑选了前测试集上的成绩仅挑选了前4 4名的系统参与融合名的系统参与融合名的系统参与融合名的系统参与融合 采用的数据情况同汉英新闻机器翻译评测采用的数据情况同汉英新闻机器翻译评测采用的数据情况同汉英新闻机器翻译评测采用的数据情况同汉英新闻机器翻译评测 结果结果结果结果 constrastconstrast系统使用和汉英新闻机器翻译评测相同的参系统使用和汉英新闻机器翻

15、译评测相同的参系统使用和汉英新闻机器翻译评测相同的参系统使用和汉英新闻机器翻译评测相同的参数,数,数,数,primaryprimary系统则将系统则将系统则将系统则将长度惩罚因子长度惩罚因子长度惩罚因子长度惩罚因子参数增加到原来的参数增加到原来的参数增加到原来的参数增加到原来的两倍。两倍。两倍。两倍。 系统系统系统系统BLEU4BLEU4NIST5NIST5时间时间时间时间(s)(s)xmu-primary-memt1xmu-primary-memt10.27217.440815043.03xmu-constrast-memt2xmu-constrast-memt20.23215.195515

16、108.88评测数据与结果评测数据与结果(4)英汉新闻机器翻译评测英汉新闻机器翻译评测英汉新闻机器翻译评测英汉新闻机器翻译评测 数据情况数据情况数据情况数据情况 结果结果结果结果来源来源来源来源量量量量双双语句句库所提供的所提供的训练数据数据(common部分部分)61万句万句对汉语语料料双语句库的中文部分双语句库的中文部分8M词词系统系统系统系统BLEU5BLEU5NIST6NIST6时间时间时间时间(s)(s)xmu-primary-memtxmu-primary-memt(统计统计+ +规则规则)0.23697.96243262.44xmu-constrast-neonxmu-const

17、rast-neon(规则规则)0.22638.319936.45pbtmpbtm(统计统计)0.2020-评测数据与结果评测数据与结果(5)英汉科技机器翻译评测英汉科技机器翻译评测英汉科技机器翻译评测英汉科技机器翻译评测 数据情况数据情况数据情况数据情况 结果结果结果结果 xmu-constrast-memt2xmu-constrast-memt2系统仅使用科技语料系统仅使用科技语料系统仅使用科技语料系统仅使用科技语料 来源来源来源来源数据量数据量数据量数据量双双语句句库所提供的所提供的训练数据(数据(common部分)部分)61万句万句对所提供的所提供的训练数据(中信所数据(中信所语料)料)

18、30万句万句对汉语语料料双语句库的中文部分双语句库的中文部分14M词词系统系统系统系统BLEU5BLEU5NIST6NIST6时间时间时间时间(s)(s)xmu-primary-memt1 (xmu-primary-memt1 (统计统计+ +规则规则) )0.402610.32473362.61xmu-constrast-memt2 (xmu-constrast-memt2 (统计统计+ +规则规则) )0.400410.27293091.70xmu-constrast-neonxmu-constrast-neon ( (规则规则) )0.28169.140058.23提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结小结小结本次评测我们参加的系统在技术上没有太本次评测我们参加的系统在技术上没有太多的进步。多的进步。本次评测我们所使用的系统融合技术太简本次评测我们所使用的系统融合技术太简陋,是将来努力的重点。陋,是将来努力的重点。谢谢大家!谢谢大家!陈毅东陈毅东 史晓东史晓东ydchen,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号