统计机器翻译研究进展

上传人:人*** 文档编号:579284319 上传时间:2024-08-26 格式:PPT 页数:25 大小:236.50KB
返回 下载 相关 举报
统计机器翻译研究进展_第1页
第1页 / 共25页
统计机器翻译研究进展_第2页
第2页 / 共25页
统计机器翻译研究进展_第3页
第3页 / 共25页
统计机器翻译研究进展_第4页
第4页 / 共25页
统计机器翻译研究进展_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《统计机器翻译研究进展》由会员分享,可在线阅读,更多相关《统计机器翻译研究进展(25页珍藏版)》请在金锄头文库上搜索。

1、Institute of Automation Chinese Academy of Sciences中国科学院自动化研究所中国科学院自动化研究所统计机器翻译研究进展统计机器翻译研究进展Institute of Automation, CASOutlinenOverview: SMT at CASIABaseline SystemRecent Improvementsn目前研究方向 Parsing/Syntaxbased SMT长句分析/骨干关联分析中文Base NP的研究中文命名实体n总结与致谢统计机器翻译研究进展Institute of Automation, CASBaseline Sy

2、stem For NIST MT06 EvaluationnPhrasebased Translation with Variable Template Substitutionword align corpus, using GIZA+ and Ochs refined methodcollect phrase pairs consistent with word alignmentSRILM language modelloglinear model to combine model componentsbeam search decoder 统计机器翻译研究进展Institute of

3、Automation, CASSystem Componentsnreordering model nlanguage model trigram LM trained using SRILM toolkitnphrase translation model f enphrase translation model e fnword translation model f enword translation model e f统计机器翻译研究进展Institute of Automation, CASExamplesnVariable Template Substitution对数字,时间,

4、人名,地名进行双语替换 如:我 的 房间 号 是 301 。我 的 房间 号 是 _digit 。My room number is 301 . My room number is _DIGIT .短语模板(抽取短语长度 from _LOCATION to _LOCATION 1.47961e002 您 将 在 _timep 离开 _location | you ll leave _LOCATION at _TIMEP 3.30669e002 统计机器翻译研究进展Institute of Automation, CASRecent Improvementsn更新了汉语分词与命名实体识别模块,降

5、低了因此而引入的噪音n改进了短语抽取与概率计算模块n4Gram language modeln最小错误率参数训练根据Ashish Venugopal的matlab版本改写n后处理模块n近期计划针对NIST MT06任务使用改进的系统进行一次评测试验统计机器翻译研究进展Institute of Automation, CAS目前研究方向nParsing/Syntaxbased SMTn长句分析/骨干关联分析n中文Base NP的研究n中文命名实体统计机器翻译研究进展Institute of Automation, CASParsing/Syntaxbased SMTn基于中文句法分析器的研究实现

6、了基于头驱动的句法分析器基于骨架依存概念的翻译n基于英文句法分析器的研究利用英文Parser构造syntaxbased SMT系统n基于句法分析的SMTTreetoStringStringtoTree统计机器翻译研究进展Institute of Automation, CAS基于骨架依存概念的翻译n骨架依存概念刻画了树上各个结点之间的关系:一般主要是中心词与它相邻结点的支配与被支配关系。基于依存树的句法分析能为机器翻译提供有用的结构信息统计机器翻译研究进展Institute of Automation, CASn骨架依存树:目标是:仅分析出句子的整体句法结构。 整体句法结构用该句的中心词及其直

7、接支配成分来表示。骨架依存树考虑语句的整体结构信息和词汇语义信息的同时,避免对语句进行复杂的分析 统计机器翻译研究进展Institute of Automation, CAS基于骨架依存树的翻译n我们的设想基本思想是一种分层次的翻译模型,由骨架映射短语翻译词翻译的逐层细化的过程。我们已经能够进行短语及词一级的翻译,现在问题的关键是如何找到子句的骨架,并利用骨架变换来描述两种语言的结构变换。将骨架变换形式化为转换规则(lexical and nonlexical),并统一到概率的框架下。统计机器翻译研究进展Institute of Automation, CAS长句分析/骨干(Skeleton)

8、关联分析n长句分析目前仍无有效的方法对长句进行Parsing或者翻译目前对长句的处理只是研究如何将其切分nNIST语料中FBIS中的长句特点并列成分多修饰语过多语言结构层次多插入语统计机器翻译研究进展Institute of Automation, CASExamplesn我们坚信,有马列主义、毛泽东 思想和邓小平理论的指引,有以江泽民同志为核心的党中央的正确领导,有全军 官兵的团结奋斗,有全国各族人民的大力支持,我们的目标一定能够达到。n大亚湾核电站总经理刘锡才说,这是高起点起步的结果,高起点起步的结果,是中央英明决策,决定全面引进先进而成熟的百万千瓦级是中央英明决策,决定全面引进先进而成熟

9、的百万千瓦级大型商业核电技术和设备,并按国际标准建造和管理的结大型商业核电技术和设备,并按国际标准建造和管理的结果果,是公司员工坚持创新、追求卓越、赶超世界先进水平是公司员工坚持创新、追求卓越、赶超世界先进水平长期努力的结果长期努力的结果。n美国新闻署的一份材料承认:“美国在其大部分历史上未能确保许多公民尤其是非洲裔美国人、土著美国人和所有妇女的基本人权。”统计机器翻译研究进展Institute of Automation, CAS骨干关联分析n骨干关联分析研究目标:以长句分析为切入点,对句子骨干关联结构进行分析,以服务于统计机器翻译研究任务:n句子骨干识别及之间结构关联分析 n双语骨干映射关

10、系n基于骨干分析的翻译统计机器翻译研究进展Institute of Automation, CAS骨干关联分析n骨干(Skeleton)的定义句子骨干在句法结构上首先是一个句子成分,可以是并列关系、从属关系或者其他属性描述关系,其在意义表示上具有相对独立性,骨干内部具有相对完整的句法结构(隐式或显式)其次,句子的不同骨干是由不同的特征集合进行区分,特征的选择能够识别骨干的边界 n双语骨干关联结构映射建立双语骨干对应关系,为翻译过程中目标语言重排序服务统计机器翻译研究进展Institute of Automation, CAS基于骨干关联分析的翻译统计机器翻译研究进展Institute of A

11、utomation, CAS中文Base NPnBase NP 识别的作用自然语言处理的基本任务之一 Base NP比单个词语含有更丰富的语言信息,歧义少;与整句 parsing相比较,工作量小,更具实际应用价值。其他自然语言研究的基础 例:信息检索系统, 机器翻译,其他短语识别,基于文本的生物信息获取(biology),等等。统计机器翻译研究进展Institute of Automation, CAS什么是Base NP?n基本名词短语(base noun phrase, base NP),简单的,非嵌套的名词短语,不含有其他的子项短语。nZhao Jun, Huang Changning,

12、 1998 给出了Base NP 的严格形式化定义 Base NP 的严格形式化定义 Base NP := Base NP + Base NP Base NP := Base NP + 名词 | 名动词 Base NP := 限定性定词 + Base NP | 名词 限定性定词 := 形容词 | 区别词 | 动词 | 名词 | 处所词 | 数量词 | 外文字串nZhao Tiejun et al, 2001 进一步对汉语基本短语进行了研究,提出了7种形式的汉语基本短语 统计机器翻译研究进展Institute of Automation, CAS中文base NP训练测试集的建立n在Penn C

13、hinese Treebank 5.0和英文base NP语料库建立方法基础上,加入了针对中文的词性和句法特征,建立较为完善的大规模base NP训练测试语料,约50万中文词。统计机器翻译研究进展Institute of Automation, CAS中文Base NPn中文Base NP识别的的算法采用两级分类器第一级:采用TBL和CRF两个分类器 第二级:采用SVM分类器 n算法流程统计机器翻译研究进展Institute of Automation, CASn试验结果TBLCRFError-driven SVMP (%)R (%)FP (%)R (%)FP (%)R (%)FDataset

14、187.1088.1187.6189.4387.8688.6490.2988.8889.58Dataset287.4788.5387.9990.0188.1089.0490.4988.7689.62Dataset386.3087.3586.8289.1288.1088.6190.1789.2489.75Dataset487.7187.2987.5087.8787.3787.6288.4388.2188.32Dataset586.7787.8187.2988.9488.2188.5791.2390.9191.07Dataset686.4487.5887.0089.5988.3588.9690.5

15、589.3789.96average86.9787.7887.3789.1688.0088.5790.1989.2389.72统计机器翻译研究进展Institute of Automation, CAS中文命名实体n基于WFST(Weighted Finite State Transducer )框架 的命名实体识别与翻译FiniteState models (FSM) and, in particular, WFST have proven quite successful in many fields of written and spoken language processing. T

16、his includes in particular machine translation, large vocabulary continuous speech recognition and speech synthesis. An interesting feature of FSMs is that they can be automatically built or learned from training data using corpusbased techniques. Compared to more traditional knowledgebased approach

17、es, these techniques are attractive for their potential of much lower development costs. Another interesting property of FSMs is their feasibility for implementing or approximating knowledgebased techniques. Different knowledge sources can hence be represented via FSMs, thus allowing the integration

18、 of a priori knowledge with inductive techniques in a natural and formally elegant way. This makes the FSM framework an adequate one for language processing. 统计机器翻译研究进展Institute of Automation, CAS数字时间的自动识别n采用WFST(weighted finite state transducer )识别n关键要解决两个问题:通过一些有效的数字时间短语建立状态机给定一个有限状态机后,数字时间字串的匹配算法n下一步将人名、地名和机构名融入WFST框架统计机器翻译研究进展Institute of Automation, CAS总结与致谢n对在研方向将继续深入的研究,并不断进行创新研究n密切关注国内外统计机器翻译的发展趋势,调整研究策略n希望能进一步加强交流与讨论谢谢!统计机器翻译研究进展Institute of Automation, CAS此课件下载可自行编辑修改,供参考!此课件下载可自行编辑修改,供参考!感谢你的支持,我们会努力做得更好!感谢你的支持,我们会努力做得更好!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号