多领域机器翻译中的非参贝叶斯短语归纳

上传人:小** 文档编号:31436878 上传时间:2018-02-07 格式:DOC 页数:21 大小:1.19MB
返回 下载 相关 举报
多领域机器翻译中的非参贝叶斯短语归纳_第1页
第1页 / 共21页
多领域机器翻译中的非参贝叶斯短语归纳_第2页
第2页 / 共21页
多领域机器翻译中的非参贝叶斯短语归纳_第3页
第3页 / 共21页
多领域机器翻译中的非参贝叶斯短语归纳_第4页
第4页 / 共21页
多领域机器翻译中的非参贝叶斯短语归纳_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《多领域机器翻译中的非参贝叶斯短语归纳》由会员分享,可在线阅读,更多相关《多领域机器翻译中的非参贝叶斯短语归纳(21页珍藏版)》请在金锄头文库上搜索。

1、多领域机器翻译中的非参贝叶斯短语归纳 刘宇鹏 马春光 朱晓宁 乔秀明 哈尔滨理工大学软件学院 哈尔滨工程大学计算机科学与技术学院 哈尔滨工业大学计算机学院 摘 要: 多领域机器翻译一直以来都是机器翻译领域研究的重点, 而短语归纳是重中之重。传统加权的方法并没有考虑到整个归约过程, 本文提出了一种使用层次化的 Pitman Yor 过程进行短语归约, 同时把多通道引入到模型中, 使得在短语归约的过程中平衡各领域的影响;从模型角度, 本文的方法为生成式模型, 模型更有表现力, 且把对齐和短语抽取一起建模, 克服了错误对齐对原有短语抽取性能的影响。从复杂度上来说, 该模型独立于解码, 更易于训练;从

2、多领域融合来说, 对短语归约过程中进行融合, 更好地考虑到整个归约过程。在两种不同类型的语料上验证了机器翻译的性能, 相对于传统的单领域启发式短语抽取和多领域加权, BLEU 分数有所提高。关键词: 多领域机器翻译; 非参贝叶斯; 短语归纳; Pitman Yor 过程; 生成式模型; 块采样; 中餐馆过程; BLEU 分数; 作者简介:刘宇鹏 (1978-) , 教授.E-mail:.基金:国家自然科学青年基金项目 (61300115) Multi-domain bayesian non-parametric phrasal induction in machine translationL

3、IU Yupeng MA Chunguang Zhu Xiaoning Qiao Xiuming School of Software, Harbin University of Science and Technology; College of Computer Science and Technology, Harbin Engineering University; School of Computer Science and Technology, Harbin Institute of Technology; Abstract: Domain adaptation has alwa

4、ys been a key research field of machine translation, in which phrase induction is a top priority. The traditional weighted method did not take into account the entire phrase induction process. This paper proposed a method that uses hierarchical Pitman-Yor process to extract phrase pairs. Multiple ch

5、annels were introduced into the model to balance the weight of various fields in the phrase induction process. From the point of the model, the generative model was expressive, and the alignment and phrase extraction were modeled together, which overcame the effect of wrong alignment on the original

6、 phrase extraction performance. From the view of complexity, the model is independent of decoding and easy to train. From the perspective of multi-domain combination, the process of phrase reduction combination takes into account the entire reduction process better. Machine translation performance w

7、as validated on two different types of corpus. Compared with the traditional method of weighted multi-domain and heuristic phrase extraction in single domain, the performance measured by BLEU score was improved.Keyword: multi-domain machine translation; Bayesian non-parameter; phrasal induction; Pit

8、man-Yor process (PYP) ; generative model; block sampling; Chinese restaurant process; BLEU score; 随着互联网技术的快速发展, 信息增长的速度越来越快, 更加凸显出了自然语言处理和机器翻译任务的重要性。领域自适应作为机器翻译任务的一个重要应用, 一直吸引着很多研究者投入其中, 关于这个方面的研讨会也是数不胜数。近几年来非参数贝叶斯模型已成为统计学、机器学习等领域内研究的热点, 其基本方法为将一个复杂分布分解为简单分布 (有限或无限个) 的加权平均, 根据训练数据来确定训练模型中简单分布的个数。非参数

9、贝叶斯模型是常用的数据分布拟合工具之一, 需要假设参数服从先验分布, 为了后验概率推断方便, 一般采用共轭先验。非参数贝叶斯模型解决了参数学习的随着数据增长模型参数个数不变, 也解决了非贝叶斯学习无参数先验信息的问题。流行的非参数贝叶斯模型很多, 如 Beta 过程、高斯过程、狄利克雷过程 (dirichlet process, DP) 等1-3。这些模型在自然语言处理诸多领域都有应用, 如语言模型4、词性标注5、短语归纳等6-10。狄利克雷过程作为一种随机过程 (stochastic process, SP) 是有限维狄利克雷分布的推广, 是无限维分布上的分布;从另一个角度来说, 狄利克雷过

10、程也是一种随机度量, 每一种划分都会得到一种狄利克雷分布。由于作为无限维的狄利克雷过程描述起来和构造相对困难, 有几种等价形式来解决这些问题, 如中餐馆过程 (chinese restaurant process) 、波利亚罐子模型 (polya urn scheme) 和截棒过程构造 (stick breaking construction) 等。狄利克雷过程有很多变形, 如 PYP10、层次化的狄利克雷过程 (hierachical dirichlet process, HDP) 11-12、依存DP13和非参树模型14等, 这些模型面向于不同的任务, 很好的符合了任务的建模过程。短语归纳

11、6-10作为机器翻译系统的重要组成部分, 一直是研究的重点。传统的方法是把单词对齐和短语抽取看成两个过程, 而这样会把对齐错误引入到短语抽取过程中, 且抽取过程无法考虑到对齐信息。本文主要把非参数贝叶斯模型中的狄利克雷过程应用到机器翻译的短语归纳中。本文的方法可以归为从不同领域的数据出发基于实例权重的翻译模型融合方法11。本文主要创新是在多个领域归约短语表时候进行模型级融合。1 机器翻译概率模型整个机器翻译过程为先进行训练以获得翻译过程使用的短语对, 接着使用这些短语对进行解码, 两个过程是息息相关的。翻译过程为给定训练语料和原句 f 生成目标句 e 概率中最大的翻译结果:本文认为在解码过程中

12、隐含着训练过程中的参数集 (包括翻译模型的权重, 扭曲模型和语言模型的权重等) , 即贝叶斯框架为式中:P (|) 是整个训练过程的目标函数, 即通过贝叶斯公式把参数集 移到结果侧然后积分掉。通过贝叶斯法则可以把隐参数 的后验概率进一步分解, 可以描述为式中:P (|) 为语料的似然概率, P () 为隐参数的先验概率。从这个公式可以看出非参数主要是指参数 服从概率分布 P () , 相对于传统模型参数模型, 参数数量是随着训练实例的增加而增加的, 贝叶斯法则是通过贝叶斯公式对于后验概率 P (|) 进行计算。训练语料中包含了很多句子, 语料的似然概率表示含义为对训练语料中的每个句子的似然进行

13、相乘可以得到整个语料的似然。这里主要是对句子似然概率 P (|) 和隐参数先验 P () 进行建模:2 翻译模型描述2.1 短语归约的产生式模型在机器学习中, 按照建模对象的不同, 可以分为产生式模型 (联合概率建模) 和判别式模型 (条件概率建模) 。本文采用产生式模型, 可以根据产生式模型得到判别式模型的条件概率。同步上下文无关文法 (synchronous context-free grammar, SCFG) 的规则不是都可以转换成反向转录语法 (inversion transduction grammar, ITG) , 但是使用转换后的文法对于机器翻译性能几乎没有影响16。基于这点

14、, 本文采用 ITG 进行短语归约。传统方法对于最小短语对进行建模, 忽略了更大粒度的短语, 本文采用文献9的方法, 可生成各种粒度的短语, 不需要通过小粒度短语启发式的生成大粒度的短语, 同时相对文献7中的方法有更少生成操作, 模型训练起来更加容易。从形式化上, 句子似然概率 P (|) 可以分解成短语似然概率 P (| t, x) , 其中隐参数集 中包含了两种隐参数, 分别为短语对隐参数 t和规则类型隐参数 x。图 1 描述了部分推导树的图模型, 通过这些部分推导树可以获得整个推导, 其中有向箭头表示变量之间的依存关系, 菱形表示超参数。由于规则类型的不同, 左右子节点的情况也不一样,

15、所以把子节点用椭圆圈起来。按照无限维的 HMM17, 本文把一个规则的生成过程拆分成 3 个部分:1) 根据短语对隐参数 t产生该规则的根节点短语;2) 根据规则隐参数 x生成该规则类型;3) 根据规则类型和短语对隐参数 t生成当前父节点短语 zi的子节点短语 lzi和 rzi。ITG 文法中的一元规则和二元规则对应了 3 种规则类型:一元规则的发射类型、二元规则的正向调序和反向调序。规则类型隐参数 x服从于 Dirichlet 分布, t服从于无限维的 PYP。PYP 相对于 Dirichlet 过程来说更加泛化, 除了含有 Dirichlet 过程中两个参数:基分布超参 H (用于获得概率

16、分布的位置) 和强度超参 s (用于控制分布和基分布拟合情况) , 还增加了打折超参 d (使得聚类特性满足幂律, 虽然原来的 Dirichlet 过程中的参数会让富有的聚类更加富有, 但无法满足幂律) 。具体的算法如下:图 1 部分推导树的图模型 Fig.1 The graph model of partial derivation tree 下载原图2.2 多领域短语归约模型参照文献18, 假设不同领域的数据来自于不同数据分布, 因此需要不同的通道来处理不同的数据分布, 每个通道对应一个领域。进行多通道融合的时候, 整个多领域短语归约的过程相当于分就餐区域的中餐馆过程。中餐馆过程刻画了多领域短语归约模型的聚类特性, 只列出一个层次的, 图 2 给出了多领域短语归约的图模型, 图 3 为多领域归约的中餐馆过程。图 2 多领域的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号