刘群开题报告－金锄头文库

资源描述

《刘群开题报告》由会员分享，可在线阅读，更多相关《刘群开题报告（104页珍藏版）》请在金锄头文库上搜索。

1、基于模板的统计(?)翻译模型研究及汉英机器翻译系统实现,刘群 ,北京大学计算语言学研究所博士论文开题报告,目录,引言综述研究思路实验方案总结,引言,本文的主要工作提出一个基于模板的统计翻译模型给出一个汉英机器翻译系统的实现方案本文的主要创新给出了转换模板的定义及模板抽取算法提出模板角色概念并给出三种统计翻译模型给出该模型的参数估计算法,目录,引言综述机器翻译的范式统计机器翻译综述（三种主要的方法）统计机器翻译小结研究思路实验方案总结,机器翻译的范式,统计机器翻译方法的界定,区别于规则方法：利用语料库作为知识来源无需人工编写规则区别于实例方法或模板方法

2、：建立完整的统计模型必须为整个翻译过程，而不是其中某个局部，建立统计模型,统计机器翻译的分类,基于平行概率语法的统计机器翻译模型基于信源信道思想的统计机器翻译模型 IBM的Peter Brown等人首先提出目前影响最大几乎成为统计机器翻译的同义词基于最大熵的统计机器翻译模型源于基于特征的自然语言理解 Och提出，获ACL2002最佳论文,统计机器翻译的优缺点,优点无需人工编写规则，利用语料库直接训练得到机器翻译系统；（但可以使用语言资源）系统开发周期短；鲁棒性好；译文质量好；缺点时空开销大；数据稀疏问题严重；对语料库依赖性强；算法研究不成熟。,基于平行概率语法的

3、统计机器翻译模型,基本思想两种语言建立一套(?)平行的语法规则，规则一一对应两套(?)规则服从同样的概率分布句法分析的过程决定了生成的过程主要模型 Alshawi的基于Head Transducer的MT模型吴德恺的Inverse Transduction Grammar（ITG） Takeda的Pattern-based CFG for MT,Head Transducer MT (1),Head Transducer（中心词转录机）是一种Definite State Automata（有限状态自动机）与一般的有限状态识别器的区别：每一条边上不仅有输入，而且有输出；不是从

4、左至右输入，而是从中心词往两边输入,Head Transducer MT(2),例子：一个可以将任何a，b 组成的串倒置的Head Transducer,Head Transducer MT(3),所有的语言知识（词典、规则）都表现为Head Transducer； Head Transducer可以嵌套：一个Head Transducer的边是另一个的识别结果；纯统计的训练方法；对齐的结果是依存树：不使用词性和短语类标记； Chart句法分析器。,Inversion Transduction Grammar(1),比赛星期三开始。 The game will start on Wednes

5、day。,Inversion Transduction Grammar(2),规则形式：A B C A A x/y 产生源语言和目标语言串分别为： BC BC：词序相同 BC CB：词序交换 x y：词典,Pattern-based CFG for MT (1),每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则（这两个规则称为翻译模板的骨架），以及对这两个规则的中心词约束和链接约束构成；举例： S:2 NP:1 岁:MP:2 了 S:be NP:1 be year:NP:2 old,Pattern-based CFG for MT (2),中心词约束：对于上下文无关语法规则

6、中右部（子结点）的每个非终结符，可以指定其中心词；对于规则左部（父结点）的非终结符，可以直接指定其中心词，也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词；链接约束：源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系，具有对应关系的非终结符互为翻译。,信源信道模型,假设源语言文本S是由一段目标语言文本T经过某种奇怪的编码得到的，那么翻译的目标就是要将S 还原成T，这也就是就是一个解码的过程。,统计机器翻译基本方程式,P.Brown称上式为统计机器翻译基本方程式语言模型：P(T) 翻译模型：P(S|T) 语言模型反映“ T 像一个句子”的程度：流利度

7、翻译模型反映“S像T”的程度：忠实度联合使用两个模型效果好于单独使用翻译模型，因为后者容易导致一些不好的译文。,语言模型与翻译模型,考虑汉语动词“打”的翻译：有几十种对应的英语词译文：打人，打饭，打鱼，打毛衣，打猎，打草稿，如果直接采用翻译模型，就需要根据上下文建立复杂的上下文条件概率模型如果采用信源信道思想，只要建立简单的翻译模型，可以同样达到目标词语选择的效果：翻译模型：不考虑上下文，只考虑单词之间的翻译概率语言模型：根据单词之间的同现选择最好的译文词,统计机器翻译的三个问题,三个问题：语言模型P(T)的参数估计翻译模型P(S|T)的参数估计解码（搜索）算法,语言模型,把一

8、种语言理解成是产生一个句子的随机事件语言模型反映的是一个句子在一种语言中出现的概率语言模型 N元语法 P(T)=p(t0)*p(t1|t0)*p(tn|tn-1tn-N) 链语法：可以处理长距离依赖 PCFG（要使用句法标记）,引入隐含变量：对齐A,翻译模型与对齐,P(S|T)的计算转化为P(S,A|T)的估计对齐：建立源语言句子和目标语言句子的词与词之间的对应关系,IBM Model,对P(S,A|T)的估计 IBM Model 1仅考虑词对词的互译概率 IBM Model 2加入了词的位置变化的概率 IBM Model 3加入了一个词翻译成多个词的概率 IBM Model 4 IBM

9、 Model 5,IBM Model 3,对于句子中每一个英语单词e，选择一个产出率，其概率为n(|e)；对于所有单词的产出率求和得到m-prime；按照下面的方式构造一个新的英语单词串：删除产出率为0的单词，复制产出率为1的单词，复制两遍产出率为2的单词，依此类推；在这m-prime个单词的每一个后面，决定是否插入一个空单词NULL，插入和不插入的概率分别为p1和p0； 0为插入的空单词NULL的个数。设m为目前的总单词数：m-prime+0；根据概率表t(f|e)，将每一个单词e替换为外文单词f；对于不是由空单词NULL产生的每一个外语单词，根据概率表d(j|i,l,m)，赋予

10、一个位置。这里j是法语单词在法语串中的位置，i是产生当前这个法语单词的对应英语单词在英语句子中的位置，l是英语串的长度，m是法语串的长度；如果任何一个目标语言位置被多重登录（含有一个以上单词），则返回失败；给空单词NULL产生的单词赋予一个目标语言位置。这些位置必须是空位置（没有被占用）。任何一个赋值都被认为是等概率的，概率值为1/0。最后，读出法语串，其概率为上述每一步概率的乘积。,翻译模型的参数训练,Viterbi Training（对比：EM Training）给定初始参数；用已有的参数求最好（Viterbi）的对齐；用得到的对齐重新计算参数；回到第二步，直到收敛为止。 I

11、BM Model 1：存在全局最优 IBM Model 25：不存在全局最优，初始值取上一个模型训练的结果,统计机器翻译的解码,借鉴语音识别的搜索算法：堆栈搜索参数空间极大，搜索不能总是保证最优从错误类型看，只有两种：模型错误：概率最大的句子不是正确的句子搜索错误：没有找到概率最大的句子后一类错误只占总错误数的5%（IBM实验数据）搜索问题不是瓶颈,IBM公司的Candide系统 1,基于统计的机器翻译方法分析转换生成中间表示是线性的分析和生成都是可逆的分析（预处理）： 1.短语切分 2.专名与数词检测 3.大小写与拼写校正 4.形态分析 5.语言的归一化,IBM公司的Ca

12、ndide系统 2,转换（解码）：基于统计的机器翻译解码分为两个阶段：第一阶段：使用粗糙模型的堆栈搜索输出140个评分最高的译文语言模型：三元语法翻译模型：EM算法第二阶段：使用精细模型的扰动搜索对第一阶段的输出结果先扩充，再重新评分语言模型：链语法翻译模型：最大熵方法,IBM公司的Candide系统 3,ARPA的测试结果：,JHU的1999年夏季研讨班,由来 IBM的实验引起了广泛的兴趣 IBM的实验很难重复：工作量太大目的构造一个统计机器翻译工具（EGYPT）并使它对于研究者来说是可用的（免费传播）；在研讨班上用这个工具集构造一个捷克语英语的机器翻译系统；进行

13、基准评价：主观和客观；通过使用形态和句法转录机改进基准测试的结果；在研讨班最后，在一天之内构造一个新语对的翻译器。 JHU夏季研讨班大大促进了统计机器翻译的研究,EGYPT工具包,EGYPT的模块 GIZA：这个模块用于从双语语料库中抽取统计知识（参数训练） Decoder：解码器，用于执行具体的翻译过程（在信源信道模型中，“翻译”就是“解码”） Cairo：整个翻译系统的可视化界面，用于管理所有的参数、查看双语语料库对齐的过程和翻译模型的解码过程 Whittle：语料库预处理工具 EGYPT可在网上免费下载，成为SMT的基准,EGYPT工具包的性能,“当解码器的原形系统在研讨班上完成时，

14、我们很高兴并惊异于其速度和性能。1990年代早期在IBM公司举行的DARPA机器翻译评价时，我们曾经预计只有很短（10个词左右）的句子才可以用统计方法进行解码，即使那样，每个句子的解码时间也可能是几个小时。在早期IBM的工作过去将近10年后，摩尔定律、更好的编译器以及更加充足的内存和硬盘空间帮助我们构造了一个能够在几秒钟之内对25个单词的句子进行解码的系统。为了确保成功，我们在搜索中使用了相当严格的阈值和约束，如下所述。但是,解码器相当有效这个事实为这个方向未来的工作预示了很好的前景，并肯定了IBM的工作的初衷，即强调概率模型比效率更重要。” 引自JHU统计机器翻译研讨班的技术报告,对IBM方

15、法的改进,IBM方法的问题不考虑结构：能否适用于句法结构差别较大的语言？数据稀疏问题严重后续的改进工作王野翊的改进 Yamada和Knight的改进 Och等人的改进,王野翊的改进(1),背景：德英口语翻译系统语法结构差异较大(?) 数据稀疏（训练数据有限）改进：两个层次的对齐模型粗对齐：短语之间的对齐细对齐：短语内词的对齐,王野翊的改进(2),文法推导词语聚类：基于互信息的方法短语归并规则学习优点机器翻译的正确率提高：错误率降低了11% 提高了整个系统的效率：搜索空间更小缓解了因口语数据缺乏导致的数据稀疏问题,Yamada和Knight的改进(1),基于语法的翻译

16、模型（Syntax-based TM）：输入是源语言句法树输出是目标语言句子翻译的过程：每个内部结点的子结点随机地重新排列：排列概率在每一个结点的左边或右边随机插入一个单词左、右插入和不插入的概率取决于父结点和当前结点标记插入哪个词的概率只与被插入词有关，与位置无关对于每一个叶结点进行翻译：词对词的翻译概率输出译文句子,Yamada和Knight的改进(2),Yamada和Knight的改进(3),Yamada和Knight的改进(4),Yamada和Knight的改进(5),训练英日词典例句2121对，平均句长日9.7和英6.9 词汇量：英语3463，日语3983，大部分词只出现一次 Brills POS Tagger和Collins Parser 用中心词词性标记取得短语标记压扁句法树：中心词相同的句法子树合并 EM训练20遍迭代：IBM Model 5用20遍迭代,Yamada和Knight的改进(6),困惑度Perplexity：Our Model：15.70IBM Model：9.84 (Over-fitting),

展开阅读全文