统计机器翻译研究进展

资源描述

《统计机器翻译研究进展》由会员分享，可在线阅读，更多相关《统计机器翻译研究进展（24页珍藏版）》请在金锄头文库上搜索。

1、统计机器翻译研究进展,杜金华,Outline,Overview: SMT at CASIA Baseline System Recent Improvements 目前研究方向 Parsing/Syntax-based SMT 长句分析/骨干关联分析中文Base NP的研究中文命名实体总结与致谢,Baseline System For NIST MT-06 Evaluation,Phrase-based Translation with Variable Template Substitution word align corpus, using GIZA+ and Ochs refin

2、ed method collect phrase pairs consistent with word alignment SRILM language model log-linear model to combine model components beam search decoder,System Components,reordering model language model trigram LM trained using SRILM toolkit phrase translation model f - e phrase translation model e - f w

3、ord translation model f - e word translation model e - f,Examples,Variable Template Substitution 对数字，时间，人名，地名进行双语替换如：我的房间号是 301 。-我的房间号是 _digit 。 My room number is 301 . - My room number is _DIGIT . 短语模板（抽取短语长度 from _LOCATION to _LOCATION 1.47961e-002 您将在 _timep 离开 _location | you ll lea

4、ve _LOCATION at _TIMEP 3.30669e-002,Recent Improvements,更新了汉语分词与命名实体识别模块，降低了因此而引入的噪音改进了短语抽取与概率计算模块 4-Gram language model 最小错误率参数训练根据Ashish Venugopal的matlab版本改写后处理模块近期计划针对NIST MT-06任务使用改进的系统进行一次评测试验,目前研究方向,Parsing/Syntax-based SMT 长句分析/骨干关联分析中文Base NP的研究中文命名实体,Parsing/Syntax-based SMT,基于中文句法分析器

5、的研究实现了基于头驱动的句法分析器基于骨架依存概念的翻译基于英文句法分析器的研究利用英文Parser构造syntax-based SMT系统基于句法分析的SMT Tree-to-String String-to-Tree,基于骨架依存概念的翻译,骨架依存概念刻画了树上各个结点之间的关系：一般主要是中心词与它相邻结点的支配与被支配关系。基于依存树的句法分析能为机器翻译提供有用的结构信息,骨架依存树：目标是：仅分析出句子的整体句法结构。整体句法结构用该句的中心词及其直接支配成分来表示。骨架依存树考虑语句的整体结构信息和词汇语义信息的同时，避免对语句进行复杂的分析,基于骨架依存树

6、的翻译,我们的设想基本思想是一种分层次的翻译模型，由骨架映射-短语翻译-词翻译的逐层细化的过程。我们已经能够进行短语及词一级的翻译，现在问题的关键是如何找到子句的骨架，并利用骨架变换来描述两种语言的结构变换。将骨架变换形式化为转换规则(lexical and non-lexical)，并统一到概率的框架下。,长句分析/骨干(Skeleton)关联分析,长句分析目前仍无有效的方法对长句进行Parsing或者翻译目前对长句的处理只是研究如何将其切分 NIST语料中FBIS中的长句特点并列成分多修饰语过多语言结构层次多插入语,Examples,我们坚信，有马列主义、毛泽东思想和邓

7、小平理论的指引，有以江泽民同志为核心的党中央的正确领导，有全军官兵的团结奋斗，有全国各族人民的大力支持，我们的目标一定能够达到。大亚湾核电站总经理刘锡才说，这是高起点起步的结果，是中央英明决策，决定全面引进先进而成熟的百万千瓦级大型商业核电技术和设备，并按国际标准建造和管理的结果，是公司员工坚持创新、追求卓越、赶超世界先进水平长期努力的结果。美国新闻署的一份材料承认：“美国在其大部分历史上未能确保许多公民尤其是非洲裔美国人、土著美国人和所有妇女的基本人权。”,骨干关联分析,骨干关联分析研究目标：以长句分析为切入点，对句子骨干关联结构进行分析，以服务于统计机器翻译研究任务：句子骨干识

8、别及之间结构关联分析双语骨干映射关系基于骨干分析的翻译,骨干关联分析,骨干(Skeleton)的定义句子骨干在句法结构上首先是一个句子成分，可以是并列关系、从属关系或者其他属性描述关系，其在意义表示上具有相对独立性，骨干内部具有相对完整的句法结构（隐式或显式）其次，句子的不同骨干是由不同的特征集合进行区分，特征的选择能够识别骨干的边界双语骨干关联结构映射建立双语骨干对应关系，为翻译过程中目标语言重排序服务,基于骨干关联分析的翻译,中文Base NP,Base NP 识别的作用自然语言处理的基本任务之一 Base NP比单个词语含有更丰富的语言信息，歧义少；与整句 parsing相

9、比较，工作量小，更具实际应用价值。其他自然语言研究的基础例：信息检索系统, 机器翻译，其他短语识别，基于文本的生物信息获取(biology)，等等。,什么是Base NP?,基本名词短语（base noun phrase, base NP），简单的，非嵌套的名词短语，不含有其他的子项短语。 Zhao Jun, Huang Changning, 1998 给出了Base NP 的严格形式化定义 Base NP 的严格形式化定义 Base NP := Base NP + Base NP Base NP := Base NP + 名词 | 名动词 Base NP := 限定性定词 + Base

10、NP | 名词限定性定词 := 形容词 | 区别词 | 动词 | 名词 | 处所词 | 数量词 | 外文字串 Zhao Tiejun et al, 2001 进一步对汉语基本短语进行了研究，提出了7种形式的汉语基本短语,中文base NP训练测试集的建立,在Penn Chinese Treebank 5.0和英文base NP语料库建立方法基础上，加入了针对中文的词性和句法特征，建立较为完善的大规模base NP训练测试语料，约50万中文词。,中文Base NP,中文Base NP识别的的算法采用两级分类器第一级：采用TBL和CRF两个分类器第二级：采用SVM分类器算法流程,试验结果

11、,中文命名实体,基于WFST(Weighted Finite State Transducer )框架的命名实体识别与翻译 Finite-State models (FSM) and, in particular, WFST have proven quite successful in many fields of written and spoken language processing. This includes in particular machine translation, large vocabulary continuous speech recognition and

12、 speech synthesis. An interesting feature of FSMs is that they can be automatically built or “learned“ from training data using corpusbased techniques. Compared to more traditional knowledgebased approaches, these techniques are attractive for their potential of much lower development costs. Another

13、 interesting property of FSMs is their feasibility for implementing or approximating knowledge-based techniques. Different knowledge sources can hence be represented via FSMs, thus allowing the integration of a priori knowledge with inductive techniques in a natural and formally elegant way. This makes the FSM framework an adequate one for language processing.,数字时间的自动识别,采用WFST(weighted finite state transducer )识别关键要解决两个问题：通过一些有效的数字时间短语建立状态机给定一个有限状态机后，数字时间字串的匹配算法下一步将人名、地名和机构名融入WFST框架,总结与致谢,对在研方向将继续深入的研究，并不断进行创新研究密切关注国内外统计机器翻译的发展趋势，调整研究策略希望能进一步加强交流与讨论,谢谢！,

展开阅读全文