人工智能[第七章自然语言理解]山东大学期末考试知识点复习题

上传人:xmg****18 文档编号:119919843 上传时间:2020-01-29 格式:DOC 页数:11 大小:44.50KB
返回 下载 相关 举报
人工智能[第七章自然语言理解]山东大学期末考试知识点复习题_第1页
第1页 / 共11页
人工智能[第七章自然语言理解]山东大学期末考试知识点复习题_第2页
第2页 / 共11页
人工智能[第七章自然语言理解]山东大学期末考试知识点复习题_第3页
第3页 / 共11页
人工智能[第七章自然语言理解]山东大学期末考试知识点复习题_第4页
第4页 / 共11页
人工智能[第七章自然语言理解]山东大学期末考试知识点复习题_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《人工智能[第七章自然语言理解]山东大学期末考试知识点复习题》由会员分享,可在线阅读,更多相关《人工智能[第七章自然语言理解]山东大学期末考试知识点复习题(11页珍藏版)》请在金锄头文库上搜索。

1、.word格式.第七章 自然语言理解 11 自然语言及其理解 1自然语言概述 自然语言是音、形、义结合的词汇和语法体系,是人类实现思维活动的物质表现形式。词汇和语法体系是构成自然语言的两大要素,两者缺一不可。词是构成自然语言的最基本单位,语法则是用来支配和控制词以构成有意义的、可理解的语句,进而再由语句按照一定的逻辑构成篇章的规则。词汇分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,词素是构成词的最小的、有意义的单位。例如,在汉语中的“工人”这个词,就是由“工”和“人”这两个词素构成的,“工”有工作和做工的意义,而“人”则包含了有能力工作的自然人的意义。由词素构成词的规

2、则称作构词法,如工+人工人。而构造词形的规则称为构形法,如教师+们教师们,teacher+steachers。构词法和构形法统称为词法。 除了词法之外,语法中的另一部分就是句法。句法就是利用词构造语句的规则,它由两部分构成,一部分称作词组构造法,另一部分称作造句法。词组构造法就是将词搭配成词组的规则,如蓝+帽子蓝帽子。造句法则是将词或词组搭配成语句的规则。 2自然语言理解 自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: 回答有关提问。计算机能正确理解人们用自然语言输入的信息,并能正确回答输入信息中的有关问题。 摘要生成。对于输入的文本信息,计算机能够产生相应的摘要。 文本

3、释义。能用不同词语和句型对输入的信息进行复述或解释。 不同语言间的翻译。计算机能把用某一种自然语言表示的信息自动地翻译为另一种自然语言。例如,把英语翻译成汉语,或把汉语翻译成英语,等等。 无论计算机具有的什么样的特性,无论程序设计采用什么样的算法,只要具有上述功能之一,它就可以在机器翻译或机助翻译、文本理解、文本生成、自然语言接口等场合得到广泛的应用。 3自然语言理解过程的层次 自然语言的分析和理解过程是一个层次化的过程。许多现代语言学家把这一过程分为3个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述3个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,

4、但是这种层次化的划分的确有助于更好地体现自然语言本身的构成。 12 词法分析 词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的,英语中词尾中的词素“s”通常表示名词复数,或动词第三人称单数,“ly”是副词的后缀,而“ed”通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。另一方面,一个词可有许多的派生、变形,如work,可变化出works、worked、working、worker、workings、workable、workability等。这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。

5、 下面给出英语词法分析的一个基本算法: repeat look for word in dictionary, if not found, then modify the word until word is found or no further roodification possible其中word是一个变量,其初值就是当前词。当然更完整的词法分析还应当包括复合词的切分等,这里就不再进一步讨论了。 13 句法分析 句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。在对一个句子进行分析过程中,如果

6、把分析句子各成分间关系的推导过程用树形图表示出来的话,那么,这种图称作句法分析树。也就是说,句法分析的过程就是构造句法树的过程,对每个输入句子通过构造句法树来完成对它的分析。 分析自然语言的方法主要有两大类:一类是基于规则的方法,一类是基于统计的方法。基于规则的句法分析理论和方法主要有短语结构语法、乔姆斯基(Chomsky)语法、语言串分析法、递归转移网络和扩充转移网络、范畴语法、依存语法和配价语法、管辖和约束理论、词汇功能语法、功能合一语法、蒙太格语法、广义短语结构语法等。其中短语结构语法是各种理论和方法的基础。 1短语结构语法理论与乔姆斯基语法体系 短语结构语法和乔姆斯基语法是描写形式语言

7、和自然语言的有力工具。 (1)短语结构语法理论 一部短语结构语法G可以用一个四元组来定义: G=(Vt,Vn,P,S)其中,Vt是终结符的集合,终结符是指被定义的哪个语言的词或符号;Vn是非终结符的集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。Vt和Vn的并()构成了符号集V,称为总词汇表,且Vt和Vn不相交,因此有:V=VtVn,VtVn=(表示空集);P为如下形式的有穷产生式集: 式中V*VnV*,V*,*表示它前面的字符可以出现任意次;S为非终结符表Vn的一个元素,称为起始符。 (2)约束的短语结构语法乔姆斯基语法体系 短语结构语法具有很强的描述能力,它可用来描述任何一

8、种可递归枚举的语言,而这些语言却可能不是递归的。用短语结构语法所构造的语言,可能不能编写出一个程序,用计算机实现对其进行自动句法分析。为了实现对语言的自动分析,要对短语结构语法进行一些限制或约束,使其所描述的语言是可递归的,这样就可以通过编写程序对这些语言进行自动分析。乔姆斯基语法体系就是一组受限的短语结构语法。 乔姆斯基曾定义了4种语法:0型语法、1型语法、2型语法和3型语法。 0型语法:是一种无约束的短语结构语法,前面已经作了介绍。 1型语法:也称作上下文有关语法,是一种满足下列约束条件的短语结构语法:对于每一条形式为 xy的产生式,符号串y中所包含的字符个数不少于字符串x中所包含的字符个

9、数,而且x,yV*。 2型语法:也称作上下文无关语法,是一种满足下列约束条件的短语结构语法:对于每一条形式为 Ax的产生式,其左侧必须是一个单独的非终结符,而右侧则是任意的符号串,即AVn,xV*。在这种语法中,由于产生式规则的应用不依赖于符号A所处的上下文,因此称为上下文无关语法。 3型语法:也称作正则语法,分左线性语法和右线性语法两种形式。在左线性语法中,每一条产生式的形式为 ABt或At 而在右线性语法中,每一条产生式的形式为 AtB或At这里,A和B都是单独的非终结符,是单独的终结符,即A,BVn,tVt。 在这4种语法中,型号越高,所受到的约束就越多,其生成语言的能力就越弱,因而生成

10、的语言集就越小,也更易于对其生成的语言进行计算机自动分析。 (3)句法分析树 在对一个句子进行分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么,这种图称作句法分析树。在句法分析树中,起始符总是出现在树的根上,终结符则出现在树的叶子上。 2递归转移网络与扩充转移网络 递归转移网络(Recursive Transition Networks,RTN)是对有限状态转移网络(TN)的一种扩展,在RTN中每条弧的标注不仅可以是一个终结符(词或词类)而且可以是一个用来指明另一个网络名字的非终结符。 扩充转移网络(Augmerted Transition Networks,ATN)

11、是由一组网络构成的递归转移网络,每个网络都有一个网络名,它在以下3个方面对RTN进行了扩充: 增加了一组寄存器,用以存储分析过程中得到的中间结果和有关信息。 每条弧上除了用句法范畴(如词类和短语标记)来标注外,可以附加任意的测试,只有当弧上的这种测试成功之后才能通过这条弧。 每条弧上还可以附加某些操作,当通过一条弧时,相应的动作便被依次执行,这些动作主要用来设置或修改寄存器的内容。 3词汇功能语法 词汇功能语法是由JBresnan和RMKaplan在1982年提出的,它是一种功能语法,但是更加强调词汇的作用。词汇功能语法(LFG)试图通过互不矛盾的多层描述来消除这种有序性限制,它利用一种结构来

12、表达特征、功能、词汇和成分的顺序。 在LFG中,对句子的描述包括两部分:一个直接成分结构(C-structure)和一个功能结构(F-structure)。直接成分结构(C-structure)是由上下文无关语法产生的,用来描述表层句子的层次结构。功能结构(F-structure)则是通过附加到语法规则和词条定义上的功能方程来生成,其作用是表示句子的结构功能。 LFG采用了两种规则,一种是带有功能方程式的上下文无关语法规则,一种是词汇规则。 用LFG语法对句子进行分析的过程如下: 用上下文无关语法分析获得C-structure,不考虑语法中的功能方程式;该C-structure就是一棵直接成分

13、树。 将各个非叶节点定义为变量,并用这些变量置换词汇规则和语法规则中功能方程式的元变量(或),建立功能描述,这一描述实际上就是一组功能方程式。 对方程式作代数变换,求出各个变量,获得功能结构F-structure。 LFG的分析还依赖于句子中的词汇,词汇也带有功能方程式。 例题分析部分的例75是一个应用词汇功能语法(LFG)对语句进行分析的例子。 LFG同样也可以用于句子的生成。分析和生成的区别仅在于第一步,分析是由句子到C-structure,而生成则是由上下文无关语法直接产生C-structure和句子。同样如果通过求解最终可有一个以上的解,则该句子就是正确的。 4自动句法分析算法 基于短

14、语结构语法的自动分析算法主要有自顶向下回溯算法、自底向上并行算法、富田算法、左角分析算法和CYK算法等。 自顶向下分析算法的思想就是从起始符开始向着被分析的句子进行推导,推导过程的语法树建立从根节点开始,自上而下进行。每次推导只选择一种路径进行尝试,并保留其他可选择的路径,当推导失败时,进行回溯,尝试另一种推导路径。 在分析推导过程中,使用给定语法,对输入语句进行分析找到一个句法分析树的过程,可以看成是一个搜索过程,搜索的对象首先是初始符S。从S开始,选择语法中的适用规则,用规则的右边部分替换搜索对象,然后同被分析句子中的单词进行匹配比较,如果匹配,则从搜索对象和输入句子遗留部分中去掉这个单词,并记录下所使用的有关规则,再继续对输入句子的遗留部分进行搜索。如果分析到句子的结尾时,搜索对象也正好为空,则分析成功。否则,如果还没有分析到句子末尾,而搜索对象已经为空,这时就需要回溯,重新选择适用规则。 自底向上分析算法是从输入句子的句首开始依次取词向前移进,并应用合适的语法规则逐级向上归约(产生式倒过来用),直到构造出表示句子结构的整个推导树为止。换句话说,句法树的建立从树底部的叶节点(即词和词类)开始,直到根部。 自底向上分析算法实际上分移进、归约两个步骤。在移进一归约过程中信息以“栈”的形式存放,主

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号