2018人工智能之机器翻译研究报告

上传人:jiben****gshi 文档编号:61228545 上传时间:2018-11-26 格式:PDF 页数:48 大小:5.57MB
返回 下载 相关 举报
2018人工智能之机器翻译研究报告_第1页
第1页 / 共48页
2018人工智能之机器翻译研究报告_第2页
第2页 / 共48页
2018人工智能之机器翻译研究报告_第3页
第3页 / 共48页
2018人工智能之机器翻译研究报告_第4页
第4页 / 共48页
2018人工智能之机器翻译研究报告_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《2018人工智能之机器翻译研究报告》由会员分享,可在线阅读,更多相关《2018人工智能之机器翻译研究报告(48页珍藏版)》请在金锄头文库上搜索。

1、報告吧w w w .b a o g a o b a .x y z 免費分享 www.baogaoba.xyz 獨家收集 每天更新 免費分享 机器翻译研究报告 報告吧w w w .b a o g a o b a .x y z 免費分享 www.baogaoba.xyz 獨家收集 每天更新 免費分享 目录目录 1 概述篇 . 1 1.1 机器翻译简介 . 2 1.2 机器翻译发展历程 . 2 1.3 我国机器翻译现状 . 5 2 技术篇 . 8 2.1 理性主义方法 . 9 2.1.1 基于规则的机器翻译 . 9 2.2 经验主义方法 . 12 2.2.1 基于统计的机器翻译 . 13 2.2.2

2、 基于实例的机器翻译 . 15 2.2.3 基于深度学习的机器翻译 . 16 3 人才篇 . 20 3.1 领军人物 . 22 3.2 中坚力量 . 28 3.3 领域新星 . 33 4 应用篇 . 35 5 趋势篇 . 38 報告吧w w w .b a o g a o b a .x y z 免費分享 www.baogaoba.xyz 獨家收集 每天更新 免費分享 图表目录图表目录 图 1 抽象转换的分层实现 . 3 图 2 机器翻译技术源头 . 4 图 3 机器翻译过程 . 9 图 4 机器翻译的转换层面 . 10 图 5 直接翻译过程 . 10 图 6 基于转换方法的翻译流程 . 11 图

3、 7 中间语言与转换方法比较 . 12 图 8 中间语转换翻译过程 . 12 图 9 统计机器翻译典型模型 . 13 图 10 基于统计的机器翻译模型 . 14 图 11 基于实例方法翻译过程 . 15 图 12 深度学习发展脉络 . 16 图 13 机器翻译领域全球学者分布 . 21 图 14 机器翻译领域中国学者分布图 . 21 图 15 机器翻译领域全局热度 . 39 图 16 机器翻译领域近期热度 . 39 報告吧w w w .b a o g a o b a .x y z 免費分享 www.baogaoba.xyz 獨家收集 每天更新 免費分享 摘要摘要 随着计算机科学技术的发展, 机

4、器翻译作为自然语言处理研究的重要组成部分越发受到 人们关注。 经过了几十年的努力, 以机器翻译为代表的自然语言处理工作取得了巨大的进展, 并且在未来有着广阔的发展空间, 为了梳理机器翻译领域的研究概括, 我们编写了此份报告, 主要内容包括: 机器翻译概论机器翻译概论。首先对机器翻译进行了定义,接着对机器翻译的发展历程进行了梳理, 对我国机器翻译现状进行了介绍。 机器翻译技术原理机器翻译技术原理。 机器翻译的技术原理可以概括为基于理性主义的方法和基于经验主 义的方法两种,分别对两种方法下的基于规则的翻译方法、基于实例的翻译方法、基于统计 的翻译方法以及基于深度学习的翻译方法进行介绍。 机器翻译领

5、域专家介绍。机器翻译领域专家介绍。利用 AMiner 大数据对机器翻译领域专家进行深入挖掘,选取 国内外有代表性的专家进行介绍。 机器翻译的应用及趋势预测。机器翻译的应用及趋势预测。机器翻译在现实生活中应用广泛,在文本翻译、语音翻 译、图像翻译和视频、VR 翻译等领域均有了不同的进展,在此基础上,对机器翻译未来的 发展趋势做出相应的预测。 報告吧w w w .b a o g a o b a .x y z 免費分享 www.baogaoba.xyz 獨家收集 每天更新 免費分享 1 1 1 概述篇概述篇 報告吧w w w .b a o g a o b a .x y z 免費分享 www.baog

6、aoba.xyz 獨家收集 每天更新 免費分享 2 1.1 1.1 机器翻译简介机器翻译简介 机器翻译(Machine Translation)是指运用机器,通过特定的计算机程序将一种书写形 式或声音形式的自然语言, 翻译成另一种书写形式或声音形式的自然语言。 机器翻译是一门 交叉学科(边缘学科) ,组成它的三门子学科分别是计算机语言学、人工智能和数理逻辑, 各自建立在语言学、计算机科学和数学的基础之上。 机器翻译可以实现世界上不同国家不同语言间的低成本交流,其主要优点体现为: 成本低成本低。相对于人工翻译来说,机器翻译的成本要低很多。机器翻译需要人工参与 的程序其实很少,基本上由计算机自动完

7、成翻译,大大降低了翻译成本。 易把控易把控。 机器翻译的流程简单快捷, 在翻译时间的把控上也能进行较为精准的估算。 速度快速度快。计算机程序的运行速度非常快,其速度是人工翻译速度不可比拟的。 由于这些优点, 机器翻译在这几十年来得到了快速的发展。 在具体应用上一般分为三种, 分别是:词典翻译软件、计算机辅助翻译软件和机器翻译软件。 第一种是最基本的网络查词翻译, 查询对象一般为单个的字词、 简单的词组或者是固定 结构。 第二种为计算机辅助翻译,英文简称 CAT(Computer Aided Translation) ,其原理为利用 计算机的记忆功能将译者之前翻译的资料进行整理, 以便为之后出现

8、的类似翻译提供便利条 件。CAT 软件产业已经比较成熟,例如 Google Translator Toolkit、Microsoft LocStudio 等, Trados(塔多思)占有国际计算机辅助翻译软件产业绝大多数的市场份额,微软、西门子等 国际大公司都是它的用户。 第三种是机器翻译软件,也叫做计算机翻译,即 MT(Machine Translation) 。其原理为 应用计算机按照一定规则把一种自然语言转换为另一种目标自然语言。 此过程一般指自然语 言之间句子和段落等的翻译,大部分见诸于世的翻译软件,如谷歌翻译、金山词霸和有道翻 译等均属于机器翻译软件。 1.2 1.2 机器翻译发展历

9、程机器翻译发展历程 机器翻译思想正式提出于 1949 年,Warren Weaver 发表翻译备忘录,在那以后至今 的时间里,机器翻译研究经历了一个曲折的发展过程。 第一台数字电子计算机诞生于 1946 年,从那以后,人们就开始思索如何运用计算机代 替人从事翻译工作的问题, 甚至在此之前, 图灵就已经开始思考计算机是否能够进行思维这 一问题。1949 年,信息论先驱 Warren Weaver 发表了有关机器翻译的备忘录,提出了机器翻 译的可计算性,他提出两个主要观点:第一,他认为翻译类似于解读密码的过程;第二,他 认为原文与译文“说的是同样的事情” ,因此,当把语言 A 翻译为语言 B 时,

10、就意味着从语 言 A 出发,经过某一“通用语言”或“中间语言” ,可以假定是全人类共通的。这是机器翻 译发展初始阶段的第一件标志性事件;1954 年美国乔治敦大学(Georgetown)在 IBM 的协 同下进行的英俄翻译实验开始了, 在翻译自动化方面的尝试是机器翻译发展初始阶段的第二 件标志性事件。 報告吧w w w .b a o g a o b a .x y z 免費分享 www.baogaoba.xyz 獨家收集 每天更新 免費分享 3 总体来说, 这一阶段人们头脑中已经形成了机器翻译的概念, 并且已经意识到可以利用 语法规则的转换和字典来实现翻译目的。 人们乐观地认为只要扩大词汇量和语

11、法规则, 在不 久的将来,机器翻译问题会比较完美地得以解决。所以在此之后的很长一段时间,全球各国 大力支持机器翻译项目,一个机器翻译研究的高潮就此形成。 好景不长, 1966 年 11 月, 美国语言自动处理咨询委员会 (ALPAC) 从机器翻译的速度、 质量、 花费以及当时人们对机器翻译的需求等几个角度, 对当时的各个翻译系统进行了一次 评估,公布了著名的 APLAC 报告,给机器翻译研究工作浇了一盆凉水。报告提出,机器翻 译的译文质量明显远低于人工翻译,难以克服的“语义障碍”是当时机器翻译遇到的问题, 这份报告全面否定了机器翻译的可行性, 建议各大机构停止对机器翻译的投资和研究。 尽管 报

12、告的结论过于仓促、 武断, 但是这一阶段关于机器翻译的研究的确没有解决许多至关重要 的问题,并没有对语言进行深入的分析。此后在世界范围内,机器翻译出现了空前的萧条局 面。 20 世纪 80 年代末,由于微处理器的出现,计算机能力获得了突飞猛进的发展,机器翻 译这一学科有着极大的开发潜力和经济利益, 被重新提起。 许多大公司开始投入资金和人力 进行研究,使得机器翻译得到了复苏和重新发展的机会。这一时期,计算机和语言学的一些 基础工作, 比如许多重要的算法的研究已经到达了一个比较深入的阶段, 对语法和语义的研 究也已经有了一些比较重大的成果,词法分析、句法分析的算法相继得到开发,并且加强了 软件资

13、源,例如电子词典的建设。翻译方法以转换方法为代表,开始普遍采用以分析为主, 辅以语义分析的基于规则方法来进行翻译,采用抽象转换表示的分层实现策略,如图 1。语 法与算法的分开是这一时期机器翻译的另一个特点。 所谓语法与算法分开, 就是指把语言分 析和程序设计分开来成为两部分操作, 程序设计工作者提出规则描述的方法, 而语言学工作 者使用这种方法来描述语言的规则。 图 1 抽象转换的分层实现 现在, 机器翻译已经成为世界自然语言处理研究的热门。 原因之一是网络化和国际化对 翻译的需求日益增大, 翻译软件商业化的趋势也非常明显。 这一时期的翻译方法我们一般称 之为基于经验主义的翻译方法, 主要是基

14、于实例和基于统计的方法, 特点是注重大规模语料 库的建设,开始了针对大规模的真实文本处理。同时,这一阶段的研究工作开始解决一个比 文本翻译更加复杂和艰难的问题语音翻译。而且由于 Internet 上的机器翻译系统具有巨 大的潜在市场和商业利益,此时网上翻译机器系统也进入了实用领域的新突破阶段。 報告吧w w w .b a o g a o b a .x y z 免費分享 www.baogaoba.xyz 獨家收集 每天更新 免費分享 4 图 2 机器翻译技术源头 机器翻译功能越来越强大, 从最初只能进行简单的单词翻译, 到之后可以翻译出基本符 合语法的句子, 慢慢可以翻译具有一定逻辑性的句子,

15、现在部分软件已经可以自主联系上下 文进行翻译,翻译结果的准确性与可读性都已经取得了非常大的进步。 近年来,加入了“深度学习技术”等人工智能的机器翻译已经不止于简单的将一个个单 词翻译成另一种语言,而是可以像人工翻译一样,不断向前回顾理解结构复杂的句子,同时 联系上下文进行翻译。 最为明显的是现在的部分机器翻译软件已经可以理解每一个代词具体 指代谁,这在许多年前是不可想象的。 实现这种功能的关键,分别依赖于两种神经网络架构,一个是循环神经网络(RNN, Recurrent Neural Networks) , 另一个是卷积神经网络 (CNN, Convolutional Neural Netwo

16、rk) , 目前关于两种网路架构哪种更适用于机器翻译的争论还有很多。 循环神经网络循环神经网络 循环神经网络的关键在于“循环”二字,计算机系统会“记住”上一次输出的内容,并 以此来决定下一次输出。 有了上一次和下一次的概念, 神经网络就不会把输入和输出的信息 看作是独立的, 而是看作相互关联的时间序列。 这样可以通过以往的序列关联猜测到下一个 序列会出现的词。在翻译时,神经循环网络把源语言当作输入序列,把翻译语言当作输出序 列,由于每次的输出都会参考上一次输出的结果,所以机器翻译更具有整体性,可读性和准 确性更高,而不是简单地翻译单词。目前,循环神经网络运用最为熟练的应该是谷歌翻译, 谷歌曾提出利用神经网络系统进行机器翻译,据称汉译英的错误率最高下降了 85%。 卷积神经网络卷积神经网络 卷积神经网络可以同时处理多个语言片段, 并且具有信息分层处理能力。 将文本序列化、 单词向量化,经过分层处理后再输出结果。在分层过程中,还会不断回顾源文本来确定下一 个输出序列。首先应用这种技术的是 Facebook 和最近的机器翻译新秀 Dee

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号