中科大自然语言理解

上传人:第*** 文档编号:122116630 上传时间:2020-03-01 格式:PPT 页数:40 大小:648KB
返回 下载 相关 举报
中科大自然语言理解_第1页
第1页 / 共40页
中科大自然语言理解_第2页
第2页 / 共40页
中科大自然语言理解_第3页
第3页 / 共40页
中科大自然语言理解_第4页
第4页 / 共40页
中科大自然语言理解_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《中科大自然语言理解》由会员分享,可在线阅读,更多相关《中科大自然语言理解(40页珍藏版)》请在金锄头文库上搜索。

1、自然语言理解讲义 第一章绪论 基本概念 1 自然语言理解 NaturalLanguageUnderstanding NLU 通过建立形式化的数学模型来分析 处理自然语言 并在计算机上用程序来实现分析和处理 自然语言 的过程 从而达到以机器 计算机 来模拟人的部分乃至全部语言能力的目的 与NLU密切相关的一门学科是计算语言学 ComputationalLinguistics 不过计算语言学更侧重于研究自然语言的计算模型 数学模型 基本概念 2 计算语言学利用电子数字计算机进行的语言分析 虽然许多其他类型的语言分析也可以运用计算机 计算分析最常用于处理基本的语言数据 例如建立语音 词 词元素的搭配

2、以及统计它们的频率 大不列颠百科全书 用计算技术和概念来阐述语言学和语音学问题 已开发的领域包括自然语言处理 言语合成 言语识别 自动翻译 编制语词索引 语法的检测 以及许多需要统计分析和领域 如文本考释 现代语言学词典 戴维 克里斯特尔 1997 基本概念 3 自然语言处理 NaturalLanguageProcessing NLP 冯志伟在 自然语言的计算机处理 中给出如下定义 自然语言处理就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术 NLP为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科 自然语言处理要研制表示语言能力和语言

3、应用 linguisticperformance 的模型 建立计算框架来实现这样的语言模型 提出相应的方法来不断地完善这样的语言模型 根据这样的语言模型设计各种实用系统 并探讨这些实用系统的评测技术 马纳瑞斯 BillManaris 在 从人 机交互的角度看自然语言处理 语言与自然语言 1 语言语言是一个符号系统语言通常用一些记号 如汉字 来表示 说语言是一个系统 因为语言能表达意义 知识 并且具有一定的规则 语法 自然语言定义E Sapir MIT 1884 1939 语言是人类交际 Contact Communication 系统 是人类独有的 用任意创造出来的符号系统交流思想 表达感情和

4、愿望的非本能方法 Chomsky MIT 语言是说本族语的人理解和构成合乎语法句子的先天能力 语言与自然语言 2 语言的第一系统和第二系统第一系统 语音系统 SoundSystem 第二系统 文字系统 书写系统 WritingSystem 口头语和书面语语言和言语语言单位字符 词 Word 短语 Phrase 句子 Sentence 语段或篇章 Utterence 语言学基本知识 语言研究的基本范筹 语言学基本知识 传统语法学 传统语法学 记作Grammar1 是社会科学的研究内容 包括词法学 研究词形的变化 不同的形 数 格 时态的词形变化 句法学 Syntax 研究用词排列成句子的规律 语

5、言学基本知识 符号学 符号学是用数学方法研究语言学的基础 包括符号关系学 Syntactic 研究符号串中符号间的 表层 关系 语义学 Semantics 研究符号与其所指事物间的 深层 关系 语用学 Pragmatics 研究交际中如何选用符号来表达意义 语言学基本知识 现代语法学 受符号学的影响与推动 现代语法学 表示为Grammar2 形成三个分支 句法学 Syntax Grammar1 含词法与句法 语义学 Semantics 研究词意 句子的语义结构 概念与概念结构等 语用学 Pragmatics 为什么要研究计算语言学 信息时代的需要 语言是信息的载体 提高计算机的智能 能理解和处

6、理大量语言信息 自然语言理解的应用 基于文本的应用在一文本数据库中查找关于某些主题的合适文档 例如在图书馆找相关书籍 从关于某些主题的消息或文章中抽取信息将文本从一种语言翻译成另一种语言根据某种目标进行自动文摘基于对话的应用运用自然语言的问答系统 question answeringsystem 通过电话的自动客户服务教学系统 其中机器与学生进行交流机器的口语控制通用的协作式问题求解系统 语言分析的主要困难 1 困难之一 大量歧义 ambiguity 现象词法歧义 1 I llseeProf Zhanghome 2 自动化研究所取得的成就 3 门把手弄坏了 结构歧义 1 WhohasseenJ

7、ohn 主语 2 WhohasJohnseen 宾语 3 喜欢乡下的孩子 4 关于鲁迅的文章 5 今天中午吃馒头 6 今天中午吃食堂 7 今天中午吃大碗 8 今天中午吃了闭门羹 9 Isawamanwithatelescope 语言分析的主要困难 2 语义歧义他说 她这个人真有意思 funny 她说 他这个人怪有意思的 funny 于是人们以为他们有了意思 wish 并让他向她意思意思 express 他火了 我根本没有那个意思 thought 她也生气了 你们这么说是什么意思 intention 事后有人说 真有意思 funny 也有人说 真没意思 nonsense 生活报 1994 11

8、13 第六版 语言分析的主要困难 3 语音歧义石室诗士施氏 嗜狮 誓食十狮 氏时时适市视狮 十时 适十狮适市 是时 适施氏适市 施氏视是十狮 拭矢试 使是十狮逝世 适石室 石室湿 氏使侍拭石室 石室拭 始食是十狮尸 始识是十狮尸 实十石狮尸 试释是事 语言分析的主要困难 4 困难之二 大量未知语言现象新的词汇 人名 地名 术语等如 非典 夏天 高山 温馨 不来梅 裸退布莱尔新的含义如 窗口 奔腾 农民 同志 小姐等新的用法和语句结构等尤其在口语中或部分网络语言中 不断出现一些 非规范的 新的语句结构 语言分析的不同层次 1 自然语言理解所需的相关知识语音知识 词如何与语音相关以及如何实现语音

9、词法知识 词的构成方法 词的不同形式对句法和语义的影响 句法知识 词如何排列成句 语义知识 词的意义是什么 词义如何组合成句子的意义 这里所讲的语义是上下文无关的 语用知识 句子如何运用于不同的场合 以及在不同场合的运用对句子解释的影响 篇章知识 刚分析的句子如何影响下一句的解释 分析 这对名词 代词的处理非常重要 世界 环境 知识 语言使用者为理解篇章 或维持对话 所必须具有的关于世界 或环境 与世界结构的一般知识 通常 一个语言使用者必须知道其他使用者的信念和目标 语言分析的不同层次 2 句法的强制性作用 句子是语言符号 词 的线性序列 为了交际 人们在造句 听句时必须遵守共同的规则 这些

10、规则即句法 因此具有强制性 表现在 只有按句法造出的句子才是合法的我看完了这本书 这本书我看完了 我把这本书看完了 这本我看完了书 这本看完了我书 语言分析的不同层次 3 强制接受 语义上 不合理的编码 句子 自然语言是一个民族经过长时间约定俗成形成的 从而造成许多例外约束 在句法上表现为不规则的 但强制人们接受 我差点儿没掉下去 我差点儿掉下去 难免不犯错误 难免犯错误 我没来合肥之前 我来合肥之前 语言分析的不同层次 4 语义的决定性作用 句子的句法排列形式是有限的 而需表达的意义是无限的 两者呈现一对多的关系 因此NL中广泛存在着歧义现象 即一种句法形式对应多种内容 Isawawoman

11、inacarwitharedhat aredhat修饰woman Isawawomaninacarwitharedtop aredtop修饰car Isawawomaninacarwitharedtelescope aredtelescope修饰saw或woman 发现敌人的哨兵 修理自行车的师傅 修理自行车的轮胎 语言分析的不同层次 5 语用的选择作用 同一意义 可以用多种句法形式来表达 言语者根据要达到的语言交际效果选择所需的句法形式 这种选择就是语用 句子的语用成分选择马文才害死了梁山伯梁山伯被马文才害死了A B 欺骗了祝英台 句子的省略 指代和照应张三i把他j出卖了 张三i把他i j的

12、朋友出卖了 基本研究方法 1 目前自然语言处理与自然语言理解的研究从大的角度可分为两类方法 理性主义与经验主义方法 下面对这两种方法作一些介绍和对比分析 理性主义与经验主义方法的哲学分野之一 对语言知识来源的不同认识理性主义认为 人的很大一部分语言知识是与生俱来的 诺姆 乔姆斯基的内在语言官能理论被广泛接受 这种方法发展的1960年代至1980年代中期受到广泛关注和快速发展 经验主义认为 人的语言知识是通过感观输入 经过一些简单的联想与通用化 泛化 的操作而得到的 从大量的语言数据中获得语言的知识结构 这种方法从1920年代至1950年代得到初步研究和发展 从1980年代中期开始得到广泛关注和

13、快速发展 基本研究方法 2 理性主义与经验主义方法的哲学分野之二 研究对象的差异理性主义方法 研究人的语言知识结构 语言能力 languagecompetence 实际的语言数据 语言行为 languageperformance 只提供了这种内在知识的间接证据 经验主义方法 直接研究这些实际的语言数据 基本研究方法 3 理性主义与经验主义方法的哲学分野之三 运用不同的理论理性主义 通常基于Chomsky的语言原则 principles 通过语言所必须遵守的一系列原则来描述语言 经验主义 通常是基于Shannon的信息论 概率统计等 基本研究方法 4 理性主义与经验主义方法的哲学分野之四 采用不

14、同的处理方法理性主义 通常通过一些特殊的语句或语言现象的研究来得到对人的语言能力的认识 而这些语句和语言现象在实际的应用中并不常见 经验主义 偏重于对大规模语言数据中人们所实际使用的普通语句的统计 基本研究方法 5 理性主义的问题求解方法是基于规则的分析方法 核心是通过以下步骤建立符号处理系统 规则库开发 N N NP 词典标注 工作 N uc V 推导算法设计 归约 推导 歧义消解方法 知识库 推理系统 NLP系统理性主义的理论基础 Chomsky的文法理论 基本研究方法 6 经验主义的问题求解方法是基于大规模真实语料 语言数据 的计算方法 主要包括以下步骤 大规模真实数据的收集 标注 真实

15、性 代表性 标注信息 统计模型建立 模型的复杂性 有效性 参数训练方法 语料库 统计模型 NLP系统经验主义的理论基础 统计学 信息论 机器学习 基本研究方法 7 基本研究方法 8 未来发展趋势应该是 理性主义与经验主义的结合 即符号智能 计算智能 建立融合方法 机器如何理解自然语言 1 机器对自然语言的理解方法 可借鉴编译器的工作原理 机器通过编译器 可以分析 理解人工语言 程序设计语言 编译器 读入源语言程序 将其翻译成目标语言的程序 机器如何理解自然语言 2 编译器工作过程例子 词法分析将输入的字符流切分为token序列 语法分析 句子结构分析 语义分析 检测语义错误 机器如何理解自然语

16、言 3 编译器例子 中间代码生成生成中间表示 代码优化 改进中间代码 以产生更高效率的机器代码 目标代码生成生成可重新定位的机器代码或汇编代码 机器如何理解自然语言 4 机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理 机器如何理解自然语言 5 文本预处理 文本采集文本格式转换 PDF Office HTML 纯文本文本编码识别 转换 GB Big5 Unicode 句子切分句子边界识别例如 Mr Wanglikesswimming dancingandreading 形态分析 研究构词方法 词的有意义的组合 构词的基本单位 词素 词根 前缀 后缀 词尾 例如 老虎 老 虎 图书馆 图 书 馆例如 work er workerdo ing doing 机器如何理解自然语言 6 分词将句子切分为词序列例如 钓鱼岛 是 中国 的 领土 词性标注给句子的词标注正确的词性例如 钓鱼岛n 是v 中国n 的de 领土n 句法分析分析句子的组成结构 句子结构成分之间的相互关系 判定一个句子的合法性 机器如何理解自然语言 7 词义消岐研究

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作范文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号