人工智能ArtificialIntelligence--精品课件讲课资料

上传人:yulij****0329 文档编号:139393077 上传时间:2020-07-21 格式:PPT 页数:80 大小:960.50KB
返回 下载 相关 举报
人工智能ArtificialIntelligence--精品课件讲课资料_第1页
第1页 / 共80页
人工智能ArtificialIntelligence--精品课件讲课资料_第2页
第2页 / 共80页
人工智能ArtificialIntelligence--精品课件讲课资料_第3页
第3页 / 共80页
人工智能ArtificialIntelligence--精品课件讲课资料_第4页
第4页 / 共80页
人工智能ArtificialIntelligence--精品课件讲课资料_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《人工智能ArtificialIntelligence--精品课件讲课资料》由会员分享,可在线阅读,更多相关《人工智能ArtificialIntelligence--精品课件讲课资料(80页珍藏版)》请在金锄头文库上搜索。

1、人工智能Artificial Intelligence,自然语言理解,本章主要内容,自然语言理解的一般问题 词法分析 句法分析 语义分析 大规模真实文本的处理 Web信息抽取,自然语言理解的一般问题(1),自然语言 自然语言:人类交流的语言,口语、书面语、手语、旗语等 人造语言:机器语言,包括C+, BASIC等 世界语 到目前为止的人类知识有80%以上使用自然语言文字记载下来的。但将来,可能用计算机语言形式记载的知识将会越来越多。因此说,语言信息处理技术和每年所处理的信息量已成为衡量一个国家现代化水平的重要标志之一。 相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很

2、高的水平。,自然语言理解的一般问题(3),自然语言理解 自然语言理解是语言信息处理技术的一个高层次的重要方向。是人工智能领域关注的核心问题之一。 自然语言理解的困难原因: 目标表示的复杂性 映射类型的多样性 源表示中各元素间交互程度的差异性,自然语言理解的一般问题(4),语言学的研究 自然语言理解是哲学(philosophy),语言学(linguistics), 语言心理学(psycholinguistics), 认知科学(cognitive science), 计算机科学(computer science),数学(mathematics),逻辑学(logic)及相关学科发展和结合而形成的一门

3、交叉学科。,自然语言理解的一般问题(5),语言学的研究 语言学家:只关心词组成短语,短语组成句子,句法如何。即语言理论 哲学家:词怎么能表示万物万事。如何用词来描述。 心理学家:语言产生的机制,人怎么能理解句子的意思。神经网络。 计算语言学家:用数据结构、数学模型把哲学、心理学、语言学等语言分科的知识进行表示,用恰当的算法识别句子的结构,完成自然语言相关的各项任务。,自然语言理解的一般问题(6),语言学的研究理解的层次 语音分析:找出最小可独立的声音单元-音素 词法分析:找出词汇的各个词素(词根),从中获得语言学信息 例:我们研究所有东西;把手放在桌上 我们-研究所-有-东西(交叉歧义) 我们

4、-研究-所有-东西 把-手-放在-桌上(组合歧义) 把手-放在-桌上,自然语言理解的一般问题(7),语言学的研究理解的层次 句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系以及各自在句子中的作用等。在语言自动处理的研究中,句法分析的研究是最为集中的,这与乔姆斯基(Chomsky)的贡献是分不开的。主要方法有:短语结构语法、格语法、扩充转移网络、功能语法等。 语法分析:将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。确定语句是否合乎语法,自然语言理解的一般问题(8),语言学的研究理解的层次 语义分析:通过分析找出词义,结构意义及其结合意义,从而确定语言所表达的真正

5、(实际)含义或概念。在语言自动理解中,语义越来越成为一个重要的研究内容。(尤其是对话系统) 你打我 我打你 语用分析:研究语言所在的外界环境对语言使用所产生的影响。描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块),自然语言理解的一般问题(9),研究目标 建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等。通过语言索取信息,由此能力则说明该系统对语言已理解了 。,自然语言理解的一般问题(10),自然语言的层次划分及对应技术,自然语言理解的一般问题(11),应用

6、机器翻译或机器辅助翻译。 文本理解:将输入文本转换成某种数据库格式。 文本生成:根据用户需要以某种自然语言的方式输出储存在计算机内的各种信息。 自然语言接口:人类直接用自然语言与数据库、专家系统等进行人机交互。 ,自然语言理解的一般问题(12),应用 网络方面:信息检索(information retrieval), 提出(extraction), 过滤(filtering), 分类(classification), 汇 (mmarization)等 如:网上信息检索,电子图书馆(digital library), 电子商务(e-commerce) 等 例: 和服 | 务 | 于三日后裁制完毕

7、。(kimono must) 这个酒店的设施 | 和 | 服务 | 是一流的。(and service) 未登录词(unknown word processing): 如:高海燕 (storm petrel),自然语言理解的一般问题(13),自然语言理解的研究大体上经历了三个 时期 萌芽时期 发展时期 早期: 60年代以关键词匹配为主流 中期: 70年代以句法语义分析为主流 近期: 80年代以来开始走向实用化和工程化 大规模真实文本处理时期 比较成功的系统处理都是受限的自然语言子集 句法受限:句子结构的复杂性方面受到限制 语义受限/领域受限:所表达的事物的数量方面受到限制,自然语言理解的一般问

8、题(14),60年代以关键词匹配为主流 特点: 没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入句子的意义 在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释(响应式)相对应。 每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其他成分对句子意义的影响 是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致错误,自然语言理解的一般问题(15),70年代句法语义分析为主流 采用句法-语义分析技术 典型例子 LUNAR 允许用普通英语和数据库对话的人机接口,句法分析,语义解释,数据检索,ATN语法,词典,语义规则,数据库,自然语言

9、理解的一般问题(16),80年代以来的实用化和工程化 主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。 另一方面,人们已经开始对大规模真实文本进行理解 句法语义分析为主的思想来自于规则的方法,而规则不可能把所有的知识表示出来 自然语言在数量上浩瀚无际 在性质上具有不确定性和模糊性。,自然语言理解的一般问题(17),语料库语言学(corpus linguistics) 语言学知识的源泉是大规模活生生的语料,要想让计算机理解自然语言,首先要让计算机能从库存的大规模语料中自动或半自动地获取语言理解所需的各种知识,对语言现象作出客观的、细致

10、的描述。 目前采用的主要手段是建立各种统计模型,可用于词类的自动标注,以及句法语义的更高层次的分析。该方法可以和规则方法相互补充。,自然语言理解的一般问题(18),在当今计算技术条件下,要想把处理自然语言所需要的知识都用现有的知识表示技术明确表达出来,是不可能的。这既是由于这种知识的“数量”巨大,有时由于它们在“质”的方面高度的不确定性和模糊性。 最近十几年来新提出的语料库语言学,它顺应了大规模真实文本处理的需要,提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。,自然语言理解的一般问题(19),基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰

11、巨的课题,对传统的处理方法的一个强有了的补充。 新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。,自然语言理解的一般问题(20),发展快的原因: 计算机的发展:高速、统计处理。 需求:机器人能听懂人的话,与人交谈,自动学习。 但是,因为自然语言是开放集,每天都有新词产生,用规则描述马上可以找出反例。 所以,很难。,本章主要内容,自然语言理解的一般问题 词法分析 句法分析 语义分析 大规模真实文本的处理 Web信息抽取,词法分析(1)

12、,词法分析是理解单词的基础,其主要目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义 例如unchangeable是由un-change-able构成的,其词义由这三个部分构成。,词法分析(2),语言构成,词法分析(3),在英语等语言中,因为单词之间是以空格自然分开的,切分一个单词很容易,所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化,要找出各个词素就复杂的多,需要对词尾或词头进行分析。如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素。 汉语

13、中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常困难,不仅需要构词的知识,还需要解决可能遇到的切分歧义。如“我们研究所有东西”。可以是“我们研究所有东西”,也可以是“我们研究所有东西”。,本章主要内容,自然语言理解的一般问题 词法分析 句法分析 语义分析 大规模真实文本的处理 Web信息抽取,句法分析(1),句法分析的主要任务: 确定输入句子的结构:识别句子的各个成分及其之间的关系 句子结构的规范化:目的是简化后续处理 分析自然语言的方法主要分为两类: 基于规则的方法:如短语结构语法和Chomsky语法体系 基于统计的方法,短语结构语言(1),定义 句子:一个符号

14、串 语言:句子的集合 语法:对一个句集一种有限的形式化描述 描述一般语言的方法: 识别器:由程序判断读入的符号串是不是一个句子 短语结构语法:一种基于产生式的形式化工具,也称为产生式语法,短语结构语言(2),定义:短语结构语法定义为:G(T,N,S,P) T是终结符集合,即被定义的语言的所有词 汇(或符号) N是非终结符集合,这些符号用于描述语法 成分,并不出现于句子中。 则有:VTN,TN(空集),V是属于该语法的全部符号。 S是起始符号,它是N中的一个成员。 P是一个产生式规则集。ab(ab,aV+,bV*),短语结构语言(3),在短语结构语法中,基本运算是把一个符号串重写为另一个符号串,

15、每条语法规则也叫重写规则 一个句子的产生就是从S符号到词汇串的推导过程 如果一个程序能够根据一个短语结构语法来确定一个句子的推导,则它可称为一个句法分析器(parser)。 语法G所定义的语言记为L(G): L(G)=W | WT*, S*GW,短语结构语言(4),刻画语言的形式体系的强和弱 递归可枚举语言:如果有一个程序,它能以某种顺序逐个地输出(即枚举)一种语言的句子,这种语言是递归可枚举的 递归语言:如果有一个程序,它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子,这称该语言是递归,短语结构语言(5),正则语法: 正则语法有两种形式: 左线性语法:如 A a | Ba 右线

16、性语法: 如 A a | aB 可以表示如下的句子: a*b* 语法例子: S a | S1 | a S S1 b | b S1 与有限状态机等价,短语结构语言(6),上下文无关语法: 语法规则形式为: A x 即左边为一非终结符,右边没有限制 可以表示的句子如: anbn 语法例子: S a | S b S 该文法应用于程序设计语言中,短语结构语言(7),上下文有关语法: 语法规则: 规则右边的符号数不能少于左边符号数 右边的符号可以是终止符也可以是非终止符 上下文有关语言是递归的 可以表示的语言: anbncn 语法例子: AB BA,短语结构语言(8),无约束短语结构语法: 语法规则是没有限制的: 左边可以是任意多个终止符或非终止符 右边可以是任意多个终止符或非终止符 该语言是递归可枚举的 该语言与图灵机等价 语法例子: A B C,短语结构语言(9),Chomsky体系,无约束语法,上下文有关语法,上下文无关语法,正则语法,CFG的分析算法(1),用一个短语结构语法对一个句子进行语法分析,意味着寻

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号