人工智能教案,07章 自然语言处理7.1 概述.doc

上传人:壹****1 文档编号:556652447 上传时间:2023-04-24 格式:DOC 页数:16 大小:49KB
返回 下载 相关 举报
人工智能教案,07章 自然语言处理7.1 概述.doc_第1页
第1页 / 共16页
人工智能教案,07章 自然语言处理7.1 概述.doc_第2页
第2页 / 共16页
人工智能教案,07章 自然语言处理7.1 概述.doc_第3页
第3页 / 共16页
人工智能教案,07章 自然语言处理7.1 概述.doc_第4页
第4页 / 共16页
人工智能教案,07章 自然语言处理7.1 概述.doc_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《人工智能教案,07章 自然语言处理7.1 概述.doc》由会员分享,可在线阅读,更多相关《人工智能教案,07章 自然语言处理7.1 概述.doc(16页珍藏版)》请在金锄头文库上搜索。

1、7.1 概述自然语言是指人类语言集团的本族语,如汉语、英语、日语等,以及人类用与交流的非发声语言,如手语、旗语等。自然语言是相对于人造语言而言的。人造语言是指世界语或计算机的各种程序设计语言。众所周知,语言是思维的载体,是人际交流的最重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。在社会发展需求下,自然语言理解作为语言信息处理技术的一个高层次的重

2、要方向,一直是人工智能界所关注的核心课题之一。显然,如果计算机能够理解自然语言,人机间的信息交流能够以人们所熟悉的本族语言来进行,那将是计算技术的一项重大突破。另一方面,由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。那么什么叫自然语言理解?正如什么是智能一样,对于理解这个术语也存在着各式各样的认识。在人工智能界,或者语言信息处理领域中,人们普遍认为可以采用著名的图灵(Turing)试验来判断计算机是否理解了某种自然语言。相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很高的水平。Tur

3、ing提出的智能实验,参加者是计算机、被实验的人以及主持实验的人。由主持人提出问题,计算机和被实验的人来回答,被实验者在回答问题时尽可能的向主持人表示他是真正的人,计算机也尽可能逼真的模仿人的思维。如果主持人通过听取对问题的回答分辨不出哪个是人的回答,哪个是机器的回答时,便可认为被试验的计算机是有智能的了。有人对这样设计的实验提出了疑义,他们认为这种实验只反映了结果的比较而没有涉及思维的过程,而且也没明确此人是个孩子还是有良好素质的成年人参加了实验。当一个计算机系统能给出有关问题的正确答案或有用的建议、而解决问题所用的概念和推理与人相当、还能解释推理过程时,便可说这样的计算机系统是有智能的了。

4、本章将讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成和机器翻译等重要问题。7.1.1 自然语言理解怎样判断一个机器对人类的自然语言是理解了?没有通用的答案。通常我们同样可以用图灵实验来得到结论。判断自然语言理解的主要方面有如右页所示: 问题应答:机器能正确的回答输入文本的有关问题。 文摘生成:机器有能力产生输入文本的摘要。 文章释义:机器能用不同的词语和句型来复述输入文本。 机器翻译:机器具有把一种语言翻译成为另一种语言的能力。自然语言理解就是如何让计算机能正确处理人类语言,并据此作出人们期待的各种正确响应。自然语言理解的研究

5、分为书面语理解和口语理解,相对而言,书面语比较规范,比起口语来说比较容易用机器处理。由于语言是思想的直接表现,社会的一切进步乃至生存都离不开语言(文字或非文字形式),这使得语言学几乎与所有的学科都存在着密切的联系。因此,自然语言理解的研究不但要运用语言学中的词汇、语法、句法、语用和语义学知识,而且还要涉及到大量的客观世界的知识以及与其相关学科的知识。通常所说的计算机理解了某些事件,实际上是把这些事件的一种表示形式转换为另一种表示形式,每种表示形式对应着一组动作。为了得到关于理解的总体描述,通常将语言看成是源语言和目标语言的二元组,两者存在着映射。理解自然语言之所以困难,有三个重要因素: 目标表

6、示的复杂性。如语义的概念可以用语义网表示,要从语句中提取这种表示的关键字就相当的复杂,同时还需要更多相关的客观世界的知识。 映射的类型。对于源语言到目标语言表示的映射,一对一类型是最理想的,但现实中自然语言到目标语言表示的映射极难达到一对一的要求。 成分间的交互程度。在语言中,每个语句都是由多个成分组成的,若每个成分的映射与其他成分无关,那么映射过程就比较简单。遗憾的是自然语言中的成分交互程度相当高,句子中改变一个成分,常常会大大改变句子的整体结构,这使得映射的复杂程度大大增加。一般情况下,为了达到理解语言的目的,需要进行三步工作:理解所出现的每个词,词义表示语句意义的结构,和句子语义表示言语

7、的结构。 在这三个过程中,需要着重解决如何有效地使用语法、语义、语用及与其相关的各种知识问题。由于汉语没有形态变化,因此无法直接套用西方现有的语法模式。正是由于汉语词性的分类及划分是个老大难问题,进而使得语法语义的分析及生成也变得极其困难。汉语的理解一般分为以下步骤:原文输入、句子词语切分及词语属性特征标注、语法及句法分析、语义及语用和语境分析、生成目标形式表示,句群及篇章理解等。句子分析上接篇章理解,下联词汇分析,起着承上启下的作用;词汇分析是基础,句子分析是中心,篇章理解是最终目的。那么,一旦得到了句子成分的计算机表示,无论是应用于句群划分、篇章理解还是机器翻译、机器释义、人机对话或是情报

8、检索等等方面,都有着实际意义。但是在口语自然语言处理过程中,出现了一些与常识不相符的现象。这主要是由于口语的自然性,不严谨性造成的。因此,在现代口语分析系统中往往跳过词法和语法分析,直接从语义入手理解整句的意思。7.1.2 自然语言理解的层次语言的分析过程可以分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。虽然这些层次之间并非是完全隔离的,但这种层次化的划分有助于更好的体现语言本身的构成,并且在一定程度上使得自然语言处理系统的模块化成为可能。语音分析找出最小可独立的声音单元-音素。此时的声音单元与语音信号处理如语音识别等不同。这里的最小可独立的声音单元指的是某种语言的最小发声单

9、元,如汉语的声母、韵母等。词法分析找出词汇的各个词素(词根),从中获得语言学信息汉语的词的概念是非常模糊和不确定的。汉语句子中没有明确的分词界限。因此,机器进行分词时就可能产生歧义现象。例如,我们研究所有东西这句话,不同的分词结果表示着不同的句意。我们研究所有东西我们研究所有东西句法分析句法分析是对句子和短语的结构进行分析,找出词、短语等的相互关系以及各自在句子中的作用等。在语言自动处理的研究中,句法分析的研究是最为基本的,也是最成熟的一部分。这与乔姆斯基(Chomsky)的贡献是分不开的。主要方法有:短语结构语法、格语法、扩充转移网络、功能语法等。语法分析语法分析是将单词之间的线性次序变换成

10、一个显示单词如何与其它单词相关联的结构。确定语句是否合乎语法。在下面的句法分析中,将会常提到语法的概念。这里的语法与我们在学习外文中经常提到的语法不完全是一个概念。一种人类民族交流的语言的语法是对该语言的一个总结、归纳。但是任何人都不能保证所有日常生活中的每一句话都符合语法关系。同时,人类语言每天都在发生变化,语法,尤其是词法也将随着变化。而计算机自然语言处理中所提到的语法是人为编写的,即其中出现的每一句话必须符合该语法,不然就将被开除出局,不予理睬(无法处理)。 语义分析语义分析的目的是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正(实际)含义或概念。如上所述,在语言自动理

11、解中,尤其是口语理解中,语义越来越成为一个重要的研究内容。例:你打我和我打你词汇完全相同,但表达的意义完全相反 语用分析语用分析指的是研究语言所在的外界环境对语言使用所产生的影响。描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关系。为确定真正含义,对表达的结构重新加以解释。例:把手放在桌上可以理解为把手放在桌上,也可以理解为把手放在桌上。我们必须根据给定的语言环境来理解。自然语言的层次划分机对应技术层次划分_swf.htm7.1.3 研究目标自然语言处理的目的是建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等。通过语

12、言索取信息,有此能力则说明该系统对语言已理解了。 7.1.4 应用 机器翻译或机器辅助翻译。 文本理解:将输入文本转换成某种数据库格式。文本生成:根据用户需要以某种自然语言的方式输出储存在计算机内的各种信息。自然语言接口:人类直接用自然语言与数据库、专家系统等进行人机交互。网络方面:信息检索(information retrieval),提出(extraction),过滤(filtering),分类(classification),汇总(summarization)等。例如:网上信息检索,电子图书馆(digital library),电子商务(e-commerce)等 实际应用例子 机器翻译(

13、machine translation),如:金山快译 多语言信息检索(multi-lingual information retrieval)网站 机器问答(question-answering systems),如query a database教学辅助系统(tutoring system)其它计算机应用系统的语言模型7.1.5 发展历史有关自然语言理解的研究可以追溯到20世纪40年代,电子计算机的出现使得自然语言理解和处理成为可能。由于计算机能够进行符号处理,人们开始考虑应用计算机来把一种语言翻译成另一种语言的可能性。机器翻译是自然语言理解最早的研究领域。40年代末期,人们期望能够用计算

14、机翻译剧增的技术资料。美苏两国在1949年开始俄-英和英-俄的机器翻译研究。在此之后的十多年中,机器翻译一直是自然语言理解中的中心课题。起初,主要是词对词的翻译。当时,人们认为翻译工作之包含查阅词典和语法分析两个过程。对要翻译的文章,可首先通过查阅辞典,找出两种语言间的对应词,然后经过简单的语法分析调整词序就可实现翻译。但是,这种方法未能达到预期的效果,闹出了一些阴差阳错、颠三倒四的笑话。由于早期研究中理论和技术的局限,所开发的机器翻译系统的技术水平较低,不能满足实际应用的需要。 1966年美国科学院发表的一份报告中认为,全自动机器翻译系统在较长时期内不会取得成功。此后,机器翻译研究工作进入低

15、潮。人们开始转向对语法、语义和语用学等基本问题的研究。因为人们认识到,对语言的理解不能只依赖于各个孤立单词的词义及语法知识,必须把它与上下文及环境知识联系起来,才能做到正确的理解,同一单词在不同的上下文及环境下往往会有不同的含义。60年代以来已经产生过一些成功的自然语言理解系统,用来处理受限的自然语言子集。这些子语言或是在句子结构的复杂性方面受到限制(句法限制),或是在所表达的事物的数量方面受限(语义受限,或领域受限)。其中有一些系统, 如人机接口和机器翻译系统,已成为市场上的商品。但要想让机器能像人类那样自如地运用自然语言,仍是一项长远而艰巨的任务。30年来自然语言理解的研究大体上经历了三个时期:60年代以关键词谓匹配为主流的早期,70年代以句法-语义分析为主流的中期,和80年代开始的基于知识的新一代自然语言处理系统。目前,新提出的基于大规模语料库的自然语言处理思想正在蓬勃发展。 关键词匹配-早期60年代开发的自然语言理解系统大多没有真正意义上的语法分析,而主要依靠关键词匹配技术

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号