哈工大人工智能课件chpt9

上传人:F****n 文档编号:88035439 上传时间:2019-04-17 格式:PPT 页数:156 大小:4.91MB
返回 下载 相关 举报
哈工大人工智能课件chpt9_第1页
第1页 / 共156页
哈工大人工智能课件chpt9_第2页
第2页 / 共156页
哈工大人工智能课件chpt9_第3页
第3页 / 共156页
哈工大人工智能课件chpt9_第4页
第4页 / 共156页
哈工大人工智能课件chpt9_第5页
第5页 / 共156页
点击查看更多>>
资源描述

《哈工大人工智能课件chpt9》由会员分享,可在线阅读,更多相关《哈工大人工智能课件chpt9(156页珍藏版)》请在金锄头文库上搜索。

1、人工智能原理 第9章 自然语言理解简介,本章内容 9.1 语言与通讯 9.2 句法分析与语法 9.3 概率语言模型 9.4 信息检索 9.5 信息抽取 9.6 统计机器翻译 参考书目,第9章 自然语言理解简介,9.1 概述 9.1.1 语言与通讯 9.1.2 自然语言处理,第9章 自然语言理解简介,4,语言与通讯,通讯是一种通过产生和感知信号带来的有意图的信息交换 / 信号来自一个由约定信号组成的共用系统 人类区别于其他动物的特征是语言复杂的结构化信息系统 对智能体而言,产生语言的行动称为言语行为 “言语”=“言论自由”中的言论,第9章 自然语言理解简介,5,言语行为的目的,通过言语行为达成联

2、合规划: 询问其他智能体关于世界的信息提问 相互通知关于世界的信息陈述 请求其他智能体行动指令(包括礼貌的间接言语行为、命令等) 应答请求 承诺或提出计划 宣言式言语行为对世界有更直接的影响诸如“现在我宣布”,第9章 自然语言理解简介,6,通讯的组成步骤,人类语言产生的目的认知和通讯 / 典型的通讯情节说话者S用词语集合W将关于命题P的信息通知聆听者H,包括7个过程 意图S要把P告诉H 生成P用W表示,H可判定P 合成物理实现语音/文字等 感知H通过语音/文字识别等获知P 分析可分为3部分:句法/语义/语用解释 排歧H推断S的含义P 合并H决定是否相信P,第9章 自然语言理解简介,7,通讯过程

3、,第9章 自然语言理解简介,8,分析过程,分析分为3个子过程(人为划定是否就是人类理解语言的过程?) 句法分析为输入字符串建立句法分析树 语义解释表示为某种表达式,如谓词逻辑 / 可能有歧义此时存在多个表达式 语用解释考虑到同样词语集合在不同情境下有不同含义 / 语用能为一个语句的最终解释给出更大贡献 有了3个子过程,分析仍然可能给出几个解释,排歧就是选择其中最好的一个,第9章 自然语言理解简介,9.1.2 自然语言处理,第9章 自然语言理解简介,10,What is NLP?,什么是自然语言处理(Natural Language Processing,NLP) 是用计算机通过可计算的方法对人

4、类语言进行转换、传输、存贮、分析等加工处理的理论和方法。 构造计算模型,用于自然语言的分析、转换、生成。 其他名称: 计算语言学(Computation Linguistics) 自然语言理解(Natural Language Understanding,NLU) 人类语言技术(Human Language Technology) 相关名称: 中文信息处理(Chinese Information Processing) 网络信息处理(Web Information Processing),11,基本概念,什么是自然语言 自然语言指人类使用的语言,如汉语、英语等。 语言是思维的载体,是人际交流的

5、工具。 语言的两种属性文字和声音 人类历史上以语言文字形式记载和流传的知识占知识总量的80以上。,12,基本概念,什么是处理 处理是指对信息的接收、存储、转化、传送和发布等等操作 分级:字级处理、概念处理和智能处理 智能处理的主要研究领域:自然语言理解、计算机视觉、机器人学及知识工程 智能的未来发展,将会对知识库、专家系统、推理系统和神经网络等综合应用,达到能够模拟人类比较复杂的思维和行为,13,为什么要研究自然语言处理?,信息时代到了!语言是信息的载体。 提高计算机的智能:能理解和处理大量语言信息。,14,机器能够理解人的语言吗?,很难,但是没有证据表明不行。 什么是理解? 结构主义:机器的

6、理解机制与人相同。 问题在于谁也说不清自己理解语言的步骤。 功能主义:机器的表现与人相同。 图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能。,15,一个NLP的例子:英汉翻译,输入英文句子: Miss Smith put two books on this table. 形态分析(Morphological Analysis) 词形还原(Lemmatization):将词还原为词典中的原型。 词汇符号化(Tokenization):相当于中文分词。 分析结果: Miss Smith put two book+s on this table.,1

7、6,句法分析(Syntactic Analysis):分析句子的结构。,17,词汇转换 Miss 小姐 Smith 史密斯 put (+ed) 放 two 两 book+s 书 on 在上面 this 这 dining table. 餐桌 短语转换 小姐史密斯放两书在上面这餐桌 史密斯小姐放两书在这餐桌上面,18,生成 史密斯小姐放两书在这桌子上面。 史密斯小姐(把)两(本)书放在这(张)桌子上面。 最终翻译结果 英文: Miss Smith put two books on the table. 中文:史密斯小姐把两本书放在这张桌子上面。,19,机器如何理解自然语言?,机器理解自然语言的步骤

8、 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,文本采集 文本格式转换:PDF、Office、HTML纯文本 文本编码识别、转换:GB、Big5、Unicode。,20,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,句子边界识别 例如:Mr. Wang likes swimming, dancing and reading.,21,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词

9、词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,研究构词方法,词的有意义的组合。 构词的基本单位:词素(词根、前缀、后缀、词尾) 例如:老虎 老 虎; 图书馆 图 书 馆 例如: work + er worker do + ing doing,22,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,将句子切分为词序列 例如:钓鱼岛/是/中国/的/领土/。,23,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法

10、分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,给句子的词标注正确的词性 例如: 钓鱼岛n/是v/中国n/的de/领土n / 。,24,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,分析句子的组成结构, 句子结构成分之间的相互关系。 判定一个句子的合法性,25,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,研究给句子的词标注正确的词义。 例如:这个人真牛。

11、/牛:动物了不起。,26,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,研究如何从一个语句中词的意义,以及这些词在该语句的句法结构中的作用来推导出该语句的意义。 语言和世界的映射关系 施事、受事、工具等,27,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,为什么要说这句话 研究不同语境中的语句的应用,及语境对语句理解的作用 语言交际目的:主题、述体、焦点,28,机器如何

12、理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,分析篇章的结构、主题、观点、摘要、有用信息 主题分析 观点分析 自动文摘 信息抽取 信息过滤,29,机器如何理解自然语言?,机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理,信息检索 搜索引擎、数字图书馆 文本分类、聚类 分类检索、聚类检索 话题探测与追踪,30,NLP的研究内容(基础研究),31,NLP的研究内容(应用研究),32,NLP的不同层次,应用系统

13、 数字图书馆、电子商务、搜索引擎 电子政务、远程教育、语言学习,基础研究 分词、词性标注、短语切分、 句法分析、语义分析、篇章理解等,应用技术研究 自动问答、机器翻译、信息检索、 文本挖掘、自动校对、信息抽取,资源建设 语料库资源建设 语言学知识库建设,语言学家,NLP研究者,软件企业,33,NLP的学科特点(交叉性学科),语言学:语言学基础知识。 语言学理论:形式语言文法 语言学资源:词典、语料库、知识库 数学 语料库语言学的数学基础:概率论、统计学、信息论。 模型:自动机、Markov模型、HMM等。 计算机科学 机器学习:机器的学习算法 人工智能(问题求解,知识表示,状态空间图搜索算法)

14、 心理语言学:研究人类理解自然语言的机制。,9.2 句法分析与语法 9.2.1 语言的基本原理 9.2.2 句法分析过程,第9章 自然语言理解简介,35,9.2.1 语言的基本原理,形式语言(人造语言)被定义为一个字符串集合 / 字符串由终结符(词汇)串联而成 / 都有严格的定义 自然语言却没有严格定义却被一个说话者群体所使用 考虑用处理形式语言的方式处理自然语言 自然语言可以用不同的但是相互联系的几组符号来表示包括语法、语义、语用等 / 尽可能采用形式化表示,第9章 自然语言理解简介,36,自然语言的符号系统(1),符号系统的核心是语义表示 语义的基础是词汇自然语言中的终结符号,由它们依据一

15、定规则构成有效字符串 / 不能“让人听不明白” 语义必须保证其表示能够在智能体之间有效地进行通讯与有效的字符串结合 / 予以需要借助于语法进行表示 语法是详细说明一种语言的有限规则集合 自然语言没有正式语法 / 语言学家试图通过科学调查发现语言的特性,并编纂语法 / 还没有一个完全成功,第9章 自然语言理解简介,37,自然语言的符号系统(2),语义离不开具体的通讯环境 / 理解一个字符串的语用很重要 语用是在一个特定情境(通讯环境)下表达出的字符串的实际含义 由于语义相对于语法是深层结构,而语法作为表层结构其规则经过了很长时间的研究形成了相对稳定的体系更多的结构表示来自语法 合乎语法的字符串子

16、串短语结构,第9章 自然语言理解简介,38,自然语言的符号系统(3),短语结构是语言结构中的基础部分构成自然语言语句的字符串是由来自不同范畴的称为短语的字串构成 / 短语通常对应自然语言语义元素 NP名词短语,指代世界中的事物 / VP动词短语,描述事物的行为或状态 / 其他短语介词短语、形容词短语、副词短语、数量短语、其他 短语符号和句子符号S统称为非终结符语法系统使用产生式规则形式来定义这些符号,规则也叫重写规则,第9章 自然语言理解简介,39,语言文法,语言文法: 四元组:G=(VN ,VT ,R,S) VN:非终结符的集合,表示句子结构分析的中间成分 VT :终结符的集合,相当于词汇表。 R :规则集 :基本形式: 。其中: , 。 S :初始符号,代表语言的句子。 例如:句子:The man ate the apple.,40,形式化语法的类型,Chomsky在1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号