一种处理未登录词翻译的新视角

上传人:m**** 文档编号:569184991 上传时间:2024-07-28 格式:PPT 页数:42 大小:763.51KB
返回 下载 相关 举报
一种处理未登录词翻译的新视角_第1页
第1页 / 共42页
一种处理未登录词翻译的新视角_第2页
第2页 / 共42页
一种处理未登录词翻译的新视角_第3页
第3页 / 共42页
一种处理未登录词翻译的新视角_第4页
第4页 / 共42页
一种处理未登录词翻译的新视角_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《一种处理未登录词翻译的新视角》由会员分享,可在线阅读,更多相关《一种处理未登录词翻译的新视角(42页珍藏版)》请在金锄头文库上搜索。

1、一种处理未登录词翻译的新视角张家俊 翟飞飞 宗成庆2012.11.41提纲统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结2提纲统计机器翻译中的未登录词问题统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结3统计机器翻译中的未登录词问题统计机器翻译框架4统计机器翻译中的未登录词问题统计机器翻译框架5双语平行语料(f1,e1),(f2,e2)目标语言单语语料e1, e2, en翻译模型语言模型统计机器翻译中的未登

2、录词问题统计机器翻译框架6双语平行语料(f1,e1),(f2,e2)目标语言单语语料e1, e2, en翻译模型语言模型语言模型度量翻译候选的合法性统计机器翻译中的未登录词问题统计机器翻译框架7双语平行语料(f1,e1),(f2,e2)目标语言单语语料e1, e2, en翻译模型翻译模型语言模型决定了翻译知识覆盖率统计机器翻译中的未登录词问题统计机器翻译框架8双语平行语料(f1,e1),(f2,e2)翻译模型翻译模型双语平行语料有限的情形下,测试句子中的很双语平行语料有限的情形下,测试句子中的很多词都未在训练语料中出现过,便导致未登录多词都未在训练语料中出现过,便导致未登录词翻译问题!词翻译问

3、题!决定了翻译知识覆盖率统计机器翻译中的未登录词问题统计机器翻译中未登录词的特点在分词或词性标注中,我们知道分词或词性标注的候选空间,譬如词性集合统计机器翻译中的未登录词,若不借助外部资源,无法确定候选翻译空间9提纲统计机器翻译中的未登录词问题传统处理方法与缺陷传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结10传统处理方法与缺陷尝试一切方法获得未登录词的译文资源借助语言学资源,譬如HowNet, WordNet借助大规模网络资源方法利用数据挖掘方法利用信息检索方法11传统处理方法与缺陷缺陷只处理部分未登录词,例如命名实体、缩略

4、语等只关注未登录词的翻译,不考虑未登录词上下只关注未登录词的翻译,不考虑未登录词上下文词和短语的目标译文选择与调序文词和短语的目标译文选择与调序 为(is) 百分之六 左右(about) is 6% about12提纲统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结13保持语义功能的未登录词处理方法核心思想目标不在于翻译未登录词,而是尽可能确保其上下文词或短语的目标译文选择和调序不受未登录词影响核心方法在于确定未登录词在句中的语义功能,并在解码过程中保持不变14保持语义功

5、能的未登录词处理方法方法框架对于测试句子中的任意一未登录词,在集内词中搜索与该未登录词语义功能最相似的词解码前,将未登录词替换为集内词解码后,将集内词的译文重新替换为未登录词,以便利用其他方法翻译未登录词15一个示例 为(is) 百分之六百分之六 左右(about) 搜索集内词,发现 “一半(50%)” 与 “百分之六”具有最相似的语义功能, 替换“百分之六”为“一半” 为 一半 左右 is about 50% is about 百分之六16什么是语义功能?语义功能一个词的语义功能语义功能表示该词在句子中所扮演的语法和语义角色语义功能决定了该词在源语言和目标语言文本中所带的上下文17什么样的词

6、共享相似的语义功能?如果两个词在文本中所处的上下文相似,那么他们就具有相似的语义功能18搜索与未登录词语义功能相似的集内词统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结19基于分布语义模型的方法分布语义模型利用表示一个词的所有上下文总和的向量近似该词的语义信息向量空间模型20基于分布语义模型的方法上下文以目标词为中心,为长度K为窗口,出现在该窗口中的所有词的总和就是该词的上下文为目标词tw创建上下文向量VtwVtw的第i个元素表示第i个集内词作为目标词的上下文的概率21基于分布

7、语义模型的方法如何计算第i个集内词作为目标词上下文的概率?逐点互信息(pointwise mutual information)22基于分布语义模型的方法如何计算第i个集内词作为目标词上下文的概率?逐点互信息(pointwise mutual information)23L-2 normalization基于分布语义模型的方法计算任意两个词的语义功能相似度24搜索与未登录词语义功能最相似的集内词25POS constraint搜索与未登录词语义功能相似的集内词统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法基于双向语言模型

8、的方法实验结果与实例分析总结26基于双向语言模型的方法分布语义模型的缺陷将所有上下文看做一个词袋不考虑上下文之间的词序与依赖什么是理想的模型?27简化 argmax?模型回退28前向语言模型前向语言模型P(wi|wi-1,wi-2,)简化 argmax?模型回退29后向语言模型后向语言模型P(wi|wi+1,wi+2,)简化 argmax?模型回退30or简化argmax?模型回退31or双向语言模型双向语言模型后向语言模型后向语言模型前向语言模型前向语言模型附加约束32词性约束附加约束翻译规则约束搜索结果的集内词与未登录词的上下文组合必须存在翻译规则为 百分之六 左右 为 一半 左右“一半

9、左右 | about 50%”33提纲统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析实验结果与实例分析总结34实验设置语料训练语料:FBIS,23.6万句对开发集: MT NIST2003测试集: MT NIST2005翻译系统: MosesNIST2005中未登录词的分布1082句子中存在796 不同的未登录词(NR, 273), (NN, 272), (CD, 122), (VV, 99), (NT, 14), (AD, 7), (JJ, 5), (OD, 2) and (M, 2)35翻译结果36

10、窗口大小 BLEU (%)POSBLEU(%)POS+TransNISTPOSNISTPOS+Trans429.5330.028.22548.3592529.8629.888.44878.3694630.0230.16 (0.42)8.42968.3910729.6630.018.37248.4528基线系统29.748.3139分布语义模型分布语义模型翻译结果37双向语言模型双向语言模型constraintBLEU (%)NISTwithout pos29.898.3885with pos30.28 (0.54)8.4108pos+trans30.38 (0.64)8.4659baselin

11、e29.748.3139翻译结果38前向语言模型前向语言模型constraintBLEU (%)NISTwithout pos29.658.2882with pos29.988.3900pos+trans30.21 (0.47)8.4268constraintBLEU (%)NISTwithout pos29.678.3189with pos29.828.4127pos+trans30.15 (0.41)8.4602后向语言模型后向语言模型两个翻译实例 内阁 才 作成作成 决定决定 , Moses: the cabinet 作成 decided 内阁 才 作成作成 决定 , 内阁 才 作出作出 决定 ,Moses:before the cabinet made the decision .39两个翻译实例 义演义演 现场 的 热烈 气氛 , Moses: live义演义演 and warm atmosphere 义演义演 现场 的 热烈 气氛 , 演习演习 现场 的 热烈 气氛 , Moses:the warm atmosphere of the exercise.40总结对于每个未登录词,搜索与该未登录词语义功能最相似的集内词两种算法分布语义模型双向语言模型相比于分布语义模型,双向语言模型具有更好的性能4142

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号