统计机器翻译研究进展

上传人:206****923 文档编号:88910056 上传时间:2019-05-13 格式:PPT 页数:24 大小:259KB
返回 下载 相关 举报
统计机器翻译研究进展_第1页
第1页 / 共24页
统计机器翻译研究进展_第2页
第2页 / 共24页
统计机器翻译研究进展_第3页
第3页 / 共24页
统计机器翻译研究进展_第4页
第4页 / 共24页
统计机器翻译研究进展_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《统计机器翻译研究进展》由会员分享,可在线阅读,更多相关《统计机器翻译研究进展(24页珍藏版)》请在金锄头文库上搜索。

1、统计机器翻译研究进展,杜金华,Outline,Overview: SMT at CASIA Baseline System Recent Improvements 目前研究方向 Parsing/Syntax-based SMT 长句分析/骨干关联分析 中文Base NP的研究 中文命名实体 总结与致谢,Baseline System For NIST MT-06 Evaluation,Phrase-based Translation with Variable Template Substitution word align corpus, using GIZA+ and Ochs refin

2、ed method collect phrase pairs consistent with word alignment SRILM language model log-linear model to combine model components beam search decoder,System Components,reordering model language model trigram LM trained using SRILM toolkit phrase translation model f - e phrase translation model e - f w

3、ord translation model f - e word translation model e - f,Examples,Variable Template Substitution 对数字,时间,人名,地名进行双语替换 如: 我 的 房间 号 是 301 。-我 的 房间 号 是 _digit 。 My room number is 301 . - My room number is _DIGIT . 短语模板(抽取短语长度 from _LOCATION to _LOCATION 1.47961e-002 您 将 在 _timep 离开 _location | you ll lea

4、ve _LOCATION at _TIMEP 3.30669e-002,Recent Improvements,更新了汉语分词与命名实体识别模块,降低了因此而引入的噪音 改进了短语抽取与概率计算模块 4-Gram language model 最小错误率参数训练 根据Ashish Venugopal的matlab版本改写 后处理模块 近期计划针对NIST MT-06任务使用改进的系统进行一次评测试验,目前研究方向,Parsing/Syntax-based SMT 长句分析/骨干关联分析 中文Base NP的研究 中文命名实体,Parsing/Syntax-based SMT,基于中文句法分析器

5、的研究 实现了基于头驱动的句法分析器 基于骨架依存概念的翻译 基于英文句法分析器的研究 利用英文Parser构造syntax-based SMT系统 基于句法分析的SMT Tree-to-String String-to-Tree,基于骨架依存概念的翻译,骨架依存概念 刻画了树上各个结点之间的关系:一般主要是中心词与它相邻结点的支配与被支配关系。 基于依存树的句法分析能为机器翻译提供有用的结构信息,骨架依存树: 目标是:仅分析出句子的整体句法结构。 整体句法结构用该句的中心词及其直接支配成分来表示。 骨架依存树考虑语句的整体结构信息和词汇语义信息的同时,避免对语句进行复杂的分析,基于骨架依存树

6、的翻译,我们的设想 基本思想是一种分层次的翻译模型,由骨架映射-短语翻译-词翻译的逐层细化的过程。 我们已经能够进行短语及词一级的翻译,现在问题的关键是如何找到子句的骨架,并利用骨架变换来描述两种语言的结构变换。 将骨架变换形式化为转换规则(lexical and non-lexical),并统一到概率的框架下。,长句分析/骨干(Skeleton)关联分析,长句分析 目前仍无有效的方法对长句进行Parsing或者翻译 目前对长句的处理只是研究如何将其切分 NIST语料中FBIS中的长句特点 并列成分多 修饰语过多 语言结构层次多 插入语,Examples,我们坚信,有马列主义、毛泽东 思想和邓

7、小平理论的指引,有以江泽民同志为核心的党中央的正确领导,有全军 官兵的团结奋斗,有全国各族人民的大力支持,我们的目标一定能够达到。 大亚湾核电站总经理刘锡才说,这是高起点起步的结果,是中央英明决策,决定全面引进先进而成熟的百万千瓦级大型商业核电技术和设备,并按国际标准建造和管理的结果,是公司员工坚持创新、追求卓越、赶超世界先进水平长期努力的结果。 美国新闻署的一份材料承认:“美国在其大部分历史上未能确保许多公民尤其是非洲裔美国人、土著美国人和所有妇女的基本人权。”,骨干关联分析,骨干关联分析 研究目标:以长句分析为切入点,对句子骨干关联结构进行分析,以服务于统计机器翻译 研究任务: 句子骨干识

8、别及之间结构关联分析 双语骨干映射关系 基于骨干分析的翻译,骨干关联分析,骨干(Skeleton)的定义 句子骨干在句法结构上首先是一个句子成分,可以是并列关系、从属关系或者其他属性描述关系,其在意义表示上具有相对独立性,骨干内部具有相对完整的句法结构(隐式或显式) 其次,句子的不同骨干是由不同的特征集合进行区分,特征的选择能够识别骨干的边界 双语骨干关联结构映射 建立双语骨干对应关系,为翻译过程中目标语言重排序服务,基于骨干关联分析的翻译,中文Base NP,Base NP 识别的作用 自然语言处理的基本任务之一 Base NP比单个词语含有更丰富的语言信息,歧义少;与整句 parsing相

9、比较,工作量小,更具实际应用价值。 其他自然语言研究的基础 例:信息检索系统, 机器翻译,其他短语识别,基于文本的生物信息获取(biology),等等。,什么是Base NP?,基本名词短语(base noun phrase, base NP),简单的,非嵌套的名词短语,不含有其他的子项短语。 Zhao Jun, Huang Changning, 1998 给出了Base NP 的严格形式化定义 Base NP 的严格形式化定义 Base NP := Base NP + Base NP Base NP := Base NP + 名词 | 名动词 Base NP := 限定性定词 + Base

10、NP | 名词 限定性定词 := 形容词 | 区别词 | 动词 | 名词 | 处所词 | 数量词 | 外文字串 Zhao Tiejun et al, 2001 进一步对汉语基本短语进行了研究,提出了7种形式的汉语基本短语,中文base NP训练测试集的建立,在Penn Chinese Treebank 5.0和英文base NP语料库建立方法基础上,加入了针对中文的词性和句法特征,建立较为完善的大规模base NP训练测试语料,约50万中文词。,中文Base NP,中文Base NP识别的的算法 采用两级分类器 第一级:采用TBL和CRF两个分类器 第二级:采用SVM分类器 算法流程,试验结果

11、,中文命名实体,基于WFST(Weighted Finite State Transducer )框架 的命名实体识别与翻译 Finite-State models (FSM) and, in particular, WFST have proven quite successful in many fields of written and spoken language processing. This includes in particular machine translation, large vocabulary continuous speech recognition and

12、 speech synthesis. An interesting feature of FSMs is that they can be automatically built or “learned“ from training data using corpusbased techniques. Compared to more traditional knowledgebased approaches, these techniques are attractive for their potential of much lower development costs. Another

13、 interesting property of FSMs is their feasibility for implementing or approximating knowledge-based techniques. Different knowledge sources can hence be represented via FSMs, thus allowing the integration of a priori knowledge with inductive techniques in a natural and formally elegant way. This makes the FSM framework an adequate one for language processing.,数字时间的自动识别,采用WFST(weighted finite state transducer )识别 关键要解决两个问题: 通过一些有效的数字时间短语建立状态机 给定一个有限状态机后,数字时间字串的匹配算法 下一步将人名、地名和机构名融入WFST框架,总结与致谢,对在研方向将继续深入的研究,并不断进行创新研究 密切关注国内外统计机器翻译的发展趋势,调整研究策略 希望能进一步加强交流与讨论,谢谢!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号