自然语言( natural language)

上传人:灯火****19 文档编号:142981839 上传时间:2020-08-25 格式:PPT 页数:33 大小:144KB
返回 下载 相关 举报
自然语言( natural language)_第1页
第1页 / 共33页
自然语言( natural language)_第2页
第2页 / 共33页
自然语言( natural language)_第3页
第3页 / 共33页
自然语言( natural language)_第4页
第4页 / 共33页
自然语言( natural language)_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《自然语言( natural language)》由会员分享,可在线阅读,更多相关《自然语言( natural language)(33页珍藏版)》请在金锄头文库上搜索。

1、自然语言( natural language),自然语言通常是指一种自然地随文化演化的语言,是人类交流和思维的主要工具。 英语、汉语、日语为自然语言的例子,而世界语则为,即是一种由人蓄意为某些特定目的而创造的语言。 不过,有时所有人类使用的语言(包括上述自然地随文化演化的语言,以及)都会被视为“自然”语言,以相对于如编程语言等为计算机而设的“”语言。这一种用法可见于自然语言处理一词中。,自然语言处理,是计算机科学领域与人工智能领域中的一个重要方向。 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言处理是一门融语言学、计算机科学、数学于一体的科学。 这一领域的研究将涉

2、及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。 自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。,机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。 它是自然语言处理 (Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language

3、 Understanding) 之间存在着密不可分的关系。,Brief History,20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。 1933年,苏联发明家.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。 1946 年,第一台现代电子计算机 ENIAC 诞生。 美国科学家 W. Weaver 和英国工程师A. D. Booth 在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。 1949年,W. Weaver 发表翻译备忘录 ,正式提出机器翻

4、译的思想。,开创期(1947-1964),1954 年,美国乔治敦大学(Georgetown University) 在 IBM 公司协同下,用 IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。 从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。 这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。,受挫期(1964-1975),1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisor

5、y Committee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。 1966年11月,该委员会公布了一个题为语言与机器的报告(简称ALPAC报告) ,该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革” ,基本上这些研究也停滞了。机器翻译步入萧条期。,恢复期(1975-1989),进入 70 年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算

6、机来从事翻译工作。 同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出。 而我国在“”结束后也重新振作起来,机器翻译研究被再次提上日程。“784”工程给予了机器翻译研究足够的重视,80 年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了 KY-1 和MT/EC863 两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。,新时期(1990至今),随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日

7、渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、 “雅信” 、 “通译” 、 “华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。,翻译过程,译文生成 原文译文转换 原文分析,在搞多种语言对一种语言的翻译时,原文分析 原文译文转换 译文生成(独立),结合,不考虑原语的特点,考虑译语的特点,建立相关独立生成系统,在搞一种语言对多种语言的翻译时,原文分析(独立) 原

8、文译文转换 译文生成,结合,不考虑译语的特点,考虑原语的特点,建立独立分析相关生成系统,在搞多种语言对多种语言的翻译时,原文分析(独立) 原文译文转换(独立) 译文生成(独立),不考虑译语的特点,不考虑原语的特点,建立独立分析独立生成系统,原语译语的差异通过原文译文转换来解决,机译系统的系统划分,机译系统,基于规则的(Rule-Based) 词典 知识源来自 规则库 基于语料库(Corpus-Cased),由经过划分并具有标注的语料库构成 不需要词典和规则,以统计规律为主,知识源,基于规则( Rule-Based )的机译系统,语法型 语义型,研究重点是词法和句法 以上下文无关文法为代表,研究

9、重点是在机译过程中引入语义特征信息 以Burtop提出的语义文法和Charles Fillmore提出的格框架文法为代表。,知识型 智能型,目标是给机器配上人类常识 以实现基于理解的翻译系统,以Tomita提出的知识型机译系统为代表。,目标是采用人工智能的最新成果,实现多路径动态选择以及知识库的自动重组技术,对不同句子实施在不同平面上的转换。,语料库(Corpus-Based)的机译系统,不同于基于规则的机译系统由词典和语法规则库构成翻译知识库,基于语料库的机译系统是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。 基于统计(Statistics-based)的方法 基于实例(Ex

10、ample-based)的方法,专业术语,句法:syntax 词法:morphology 文法:grammar 语法型:grammar-based type 语义型: semantics-based type 知识型: knowledge-based type 智能型:intelligence-based type 词法分析: Lexical analysis 语法分析: syntactic analysis 语义分析: Semantic analysis,分析机构:Analytical mechanism 转换机构:Transformational mechanism 生成机构:Genera

11、tive mechanism 格框架:Case frame 格框架语法: Case frame grammar 语义切分规则:The semantic segmentation rules 语义转化规则:The semantic transformation rules 源文:Source text 概念依存表示形式:Conceptual dependency representation 语义内部表示:Semantic internal representation,知识源 (knowledge source),1. How to Treat the Ignorance in the Agg

12、regation of Information from Multiple Knowledge Sources. 多知识源信息综合中对不知信息的处理。 来自互联网 By knowing the names of the group and what they worked on, people on the periphery may connect to ask questions and gain valuable insight into this largely untapped knowledge source. 通过回顾业务流程和系统文档、功能或技术规范、数据字典、主题专家或其他数

13、据知识源,可以进一步丰富内容。,It may be enriched by review of business process and system documentation, functional or technical specifications, data dictionaries, subject matter experts, or other sources of data knowledge. 每个知识源由条件部分和动作部分组成,前者说明何时条件适用,而后者则处理相关的黑板元素和生成新的黑板元素。 Each knowledge source is organized as

14、 a condition part that specifies when it is applicable and an action part that processes relevant blackboard elements and generates new ones. 通过数据挖掘技术将计算实例提炼出来,作为一种知识源参与到设计优化过程中去,将CAE从设计验证层次提升到设计驱动层次。,标注 Lebal,As it is quite time-consuming to label text documents on a large scale, a kind of text cla

15、ssification with a few labeled data is neededThus, semisupervised text classification emerges and develops rapidlyDifferent from traditional classification, semisupervised text classification only requires a small set of 1abeled data and a large set of unlabeled data to train a classifierThe small s

16、et of labeled data is used to initialize the classification model in most cases. Its rationality will affect the performance of the final classifier. 由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能。,统计规律 statistical law,From photoelectric effect, light quantum theory, Compton scattering effect and the matter wave of De Broglie and its statistical law, the teaching method on w

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号