机器翻译理论和技术8

上传人:宝路 文档编号:48104422 上传时间:2018-07-09 格式:PPT 页数:126 大小:1.17MB
返回 下载 相关 举报
机器翻译理论和技术8_第1页
第1页 / 共126页
机器翻译理论和技术8_第2页
第2页 / 共126页
机器翻译理论和技术8_第3页
第3页 / 共126页
机器翻译理论和技术8_第4页
第4页 / 共126页
机器翻译理论和技术8_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《机器翻译理论和技术8》由会员分享,可在线阅读,更多相关《机器翻译理论和技术8(126页珍藏版)》请在金锄头文库上搜索。

1、机器翻译理论和技术主要内容p机器翻译概述n机器翻译的历史n机器翻译与自然语言处理n机器翻译所涉及的学科n机器翻译基本策略和实现方法n机器翻译的难点n机器翻译的现状p传统的(基于规则)机器翻译方法(理性方法)n词法分析p词性标注p分词(汉语、日语)n句法分析p基于CFG(上下文无关文法)的句法表示及其分析技术p基于扩充的CFG(复杂特征集、合一运算)的句法表示及其分 析技术n语义分析p词义及句义表示p基于格语法的句义分析n转换、生成技术主要内容(续1)p基于语料库的机器翻译方法(经验方法)n基于统计的机器翻译方法p语言模型( N元文法)pHMM模型与词性标注pPCFG文法与句法分析p统计机器翻译

2、模型(SMT)n基于实例的机器翻译方法p基于混合策略的机器翻译方法主要内容(续2)所需的前导知识p形式语言与自动机p编译技术p概率与统计参考书籍p赵铁军等,机器翻译原理,哈尔滨工业大学出版社,2000p刘群等译,自然语言理解(第二版),电子工业出版社,2005p苑春法等译,统计自然语言处理基础,电子工业出版社,2005p冯志伟等译,自然语言处理综论,电子工业出版社,2005p范明等译,统计学习基础-数据挖掘、推理与预测,电子工业出版社, 2004p王小捷等,自然语言处理技术基础,北京邮电大学出版社,2002p刘颖,计算语言学,清华大学出版社,2002p姚天顺,自然语言理解一种让机器懂得人类语言

3、的研究(第2版) ,清华大学出版社,2002p黄昌宁等,语料库语言学,商务印书馆,2002p冯志伟,计算语言学基础,商务印书馆,2001p余士文,计算语言学概论,商务印书馆,2003pBonnie J. Dorr, et al, Survey of Current Paradigms in Machine Translation,Technical Report LAMP-TR-027, Language and Media Processing Lab, University of Maryland.pHutchins WJ, Machine Translation: Past, Prese

4、nt, Future. Chichester: Ellis Horwood, 1986pArturo Trujillo, Translation Engines: Techniques for Machine Translation, Springer-Verlag London Limited 1999pPeter F. Brown, et al., A Statistical Approach to MT, Computational Linguistics, 1990,16(2)pP.F. Brown, et al., The Mathematics of Statistical Mac

5、hine Translation: Parameter Estimation, Computational Linguistics, 1993, 19(2)pMakoto Nagao, A Framework of a Mechanical Translation between Japanese and English by Analog Principle, In A. Elithorn and R. Banerji(Eds.), Artificial and Human Intelligence. NATO Publications, 1984pJames Allen, Natural

6、Language Understanding, The Benjamin/Cummings Publishing Company, Inc. 1987pChristopher D. Manning & Hinrich Schutze, Foundations of Statistical Natural Langugae Processing, Massachusetts Institute of Technology, 1999pDaniel Jurafsky & James H. Martin, Speech and Language Processing, Prentice-Hall,

7、2000pTrevor Hastie, et al., The Elements of Statistical Learning-Data Mining, Inference, and Prediction, Springer-Verlag, New York, 2001课程考核pProjectsp提交要求(每个project)n报告(说明基本做法)n源程序及可运行的程序机器翻译概述p机器翻译(Machine Translation,简称MT)是指 利用计算机实现自然语言(英语、汉语等)之间的 自动翻译。n文本机器翻译n语音机器翻译p机器辅助翻译(Machine Aided Translati

8、on或 Computer Aided Translation,简称MAT或CAT )n翻译记忆体(Translation Memory,简称TM)n双语对照的文本编辑n.机器翻译历史p1947,Warren Weavers memop1954,第一个公开展示的俄英MT原型系统p1966,美国科学院的ALPAC报告宣告机器翻译走 入低谷p1970s,Systran(1970),Meteo(1976),pEarly 1980s,复苏,Eurotra,MupLate 1980searly 1990s,商品化系统投入市 场,语音翻译,统计机器翻译pLate 1990s,Internet,MAT,EBM

9、T“I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need do is strip off the code in order to retrieve the information contained in the text“ 机器翻译与自然语言处理p自然语言处理(NLP)是指用计算机对

10、语言信息 进行处理的方法和技术。p与NLP相近的两个研究领域:n自然语言理解(NLU):强调对语言含义和意图的深层 次解释n计算语言学(CL):强调可计算的语言理论NLP技术的应用p机器翻译p自动摘要p文本分类p信息检索p信息抽取p自动问答p情感分析p.自动摘要(Text Summarization)p利用计算机自动地从原始文档中提取全面准确地 反映该文档中心内容的简单连贯的短文。p压缩比 文本分类(Text Classification)p利用计算机将一篇文章归于预先给定的某一类或某 几类的过程。p文本表示p相似度计算p可用于信息过滤(Information Filtering)信息检索(I

11、nformation Retrieval,IR )p主题相关的文本获取。pgoogle、百度、.(基于关键词的)p倒排文档信息抽取(Information Extraction,IE )p主题相关的信息获取p信息抽取是指从非结构化或半结构化的自然语言文 本中提取出与某个主题相关的结构化信息。pIE对数据挖掘的支持新华社北京月日电(记者李术峰): 中国农工民主党第十二 届中央常务委员会第一次会议今天在北京召开。 会议研究通过了贯彻落实“”精神的有关决定,审议通过了中 国农工民主党中央年工作要点(草案),并任命了中央副秘 书长。 农工民主党中央主席蒋正华主持了会议,他说,农工民主党有 多名党员作为

12、代表和委员参加了今年的“”,各位党员要认真 履行代表和委员的职责,开好会,在年的工作中认真贯彻“ ”精神,加强农工民主党的自身建设,推动事业进一步发展,为 建设有中国特色社会主义事业作出新的贡献。 会前,农工民主党中央邀请参加“”的来自全国各省、自治区 、直辖市的农工民主党党员进行了联谊活动。信息抽取实例:会议报道(人民日报1998-03-09)信息抽取的结果会议时间 Time年3月8日会议地点 Spot北京会议召集者/ 主持人 Convener个人姓名/团体 名称 Name蒋正华机构、职位 Org/Post主席,农工民主党中央会议名/标题 Conf-Title中国农工民主党第十二届中央常务委

13、员会 第一次会议 自动问答(Question Answering,QA )p针对用户提出的问题,给出具体的答案。p问句理解和答案生成。情感分析(Sentiment Analysis或 Opinion Analysis )p分析文章对某个对象的态度是正面还是负面。p应用于:市场决策、公共关系、. 自然语言处理的主要任务p语言分析n词法分析:形态还原、词性标注、命名实体识别、分词(汉 语)等n句法分析:完全句法分析、组块分析、依存分析n语义分析:词义、句义(依存、格关系、.)、篇章(上下 文分)(指代、实体关系)p语言生成p多语言处理:对齐、转换p不同的应用对上述任务有不同的要求。pMT是NLP技

14、术的典型应用,它几乎涵盖了NLP 各个任务。自然语言处理所涉及的学科p计算语言学:各种语法、语义理论p计算机科学(包括人工智能)p数学:逻辑、概率与统计、信息论,等p哲学p心理学p直译(Direct):从原文句子的表层(词、词组或短语) 出发,直接转换成译文(必要的词序调整)。p转换(Transfer):对源语言进行分析,得到一个基于源 语言的中间表示;然后,把这个中间表示转换成基于目标 语言的中间表示;从基于目标语言的中间表示生成目标语 言。p中间语(Interlingua):对源语言进行分析,得到一个 独立于源语言和目标语言的、基于概念的中间表示;从这 个中间表示生成目标语言。机器翻译的基

15、本策略中间语言源语言目标语言分析生成词汇转换句法转换语义转换(词法、句法、语义)(词法、句法、语义)机器翻译的实现方法p基于语言规则的理性方法(Rationalist approach )n基于以规则形式表达的语言知识(词、句法、语义以及转 换)进行推理。(Rule-based MT)n又称传统的翻译方法,强调人对语言知识的理性整理。nChomsky:先天语言能力,主宰19601985p基于语料库的经验方法(Empiricist approach)n以大规模语料库(单语和双语)为语言知识基础。包括:p基于统计的方法(SMT) 利用统计学习方法自动获取和运用隐含在语料库中的知识 翻译知识的获取在

16、翻译之前完成,体现为一系列统计数据(参数)p基于实例的方法(EBMT) 基于类比原理,通过相似度计算,在语料库中找出最相似的句子 翻译知识的获取在翻译之前没有全部完成,翻译过程中还需要语料库p混合方法n理性方法的优、缺点p相应的语言学理论基础好p描述精确p效率高p知识获取困难(高级劳动)p鲁棒性(适应性)差:不完备的规则系统将导致推理的失败p知识扩充困难,很难保证规则之间的一致性n经验方法的优、缺点p知识获取容易(低级劳动)p鲁棒性好:概率大的作为结果p扩充容易、一致性容易维护p相应的语言学理论基础差p缺乏对语言学知识的深入利用,过于机械p效率低n利用各家之长,相互融合机器翻译的难点p歧义处理:有限的词汇和规则表达复杂的、无限的 语言p语言知识的表示、获取和运用p成语和惯用型的处理p对语言的灵活性和动态性的处理n灵活性:同一个意图的不同表达,甚至包含错误的语法等n动态性:语言在不断的变化,如:新词等p上下文和世界知识(语言无关)的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号