哈工大刘挺教授关于统计自然语言处理的课件

上传人:艾力 文档编号:36490018 上传时间:2018-03-29 格式:PDF 页数:75 大小:1.23MB
返回 下载 相关 举报
哈工大刘挺教授关于统计自然语言处理的课件_第1页
第1页 / 共75页
哈工大刘挺教授关于统计自然语言处理的课件_第2页
第2页 / 共75页
哈工大刘挺教授关于统计自然语言处理的课件_第3页
第3页 / 共75页
哈工大刘挺教授关于统计自然语言处理的课件_第4页
第4页 / 共75页
哈工大刘挺教授关于统计自然语言处理的课件_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《哈工大刘挺教授关于统计自然语言处理的课件》由会员分享,可在线阅读,更多相关《哈工大刘挺教授关于统计自然语言处理的课件(75页珍藏版)》请在金锄头文库上搜索。

1、统计自然语言处理概述刘挺哈工大信息检索研究室(HIT-IRLab) 2004年春目录 概述 一个NLP的例子 NLP的困难 NLP方法论 NLP的任务和瓶颈 统计方法示例 本课的主要内容概述NLP的概念 什么是自然语言处理 NLP, Natural Language Processing 用机器处理人类语言的理论和技术 区别 语言处理 语言信息处理(如:中文信息处理) 其它名称 自然语言理解(Natural Language Understanding) 计算语言学(CL, Computational Linguistics) 人类语言技术(Human Language Technology)

2、 什么是自然语言 以语音为物质外壳,由词汇和语法两部分 组成的符号系统。新华词典 语言是人类交际的工具,是人类思维的载 体 是约定俗成的,有别于人工语言(程序设 计语言) 什么是处理 包括理解、转换、生成等机器能够理解人的语言吗? 很难,但是没有证据表明不行 什么是理解 结构主义:机器的理解机制与人相同 问题在于谁也说不清自己理解语言的步骤 功能主义:机器的表现与人相同 图灵测试 如果通过自然语言的问答,一个人无法识别和他对 话的是人还是机器,那么就应该承认机器具有智能有用和能用 NLP有用吗 据统计,日常工作中80%的信息来源于语言,处理 文本的需求在不断增长 文本是人类知识最大的存储源,并

3、且文本的数量 在不停地增长 电子邮件、新闻、网页、科技论文、 用户抱怨信 NLP能用吗 并非每一样语言处理的应用都需要深层理解 中间产品陆续产生 成功应用的实例 微软拼音 黑马中文自动校对从智能接口到知识处理 智能接口 功能: 把现实世界中的信息送入电子世界 主要成果 拼音输入、手写输入、语音合成、语音输入 知识处理 功能: 对于已进入电子世界中的信息进行加工处理获得知识 主要研究内容 媒体的加工和管理、语言信息处理 知识处理的时代已经到来!NLP的不同层次应用系统 数字图书馆、电子商务、 电子政务、远程教育、语言学习基础研究 分词、词性标注、短语切分、 句法分析、语义分析、篇章理解等应用技术

4、研究 自动问答、机器翻译、信息检索、 文本挖掘、自动校对、信息抽取资源建设 语料库资源建设 语言学知识库建设语言学家NLP研究者软件企业NLP的历史 20世纪50年代起步 机器翻译、自动文摘 50-60年代采用模式匹配的方法 60年代衰落 70-80年代采用面向受限域的深入理解的方法 90年代至今统计方法占主流 随着互联网的发展而复苏 互联网为NLP提供了市场需求和试验数据NLP现状 仍然缺乏理论基础 词汇句法方面的问题尚未解决,已开始挑战 语义、知识等深层课题 语音识别中采用的统计语言模型推动了NLP的 发展,目前的统计模型在向语言深层发展 Ontology受到普遍重视 开放域处理时起时落

5、一切才刚刚开始一个NLP的例子英汉机器翻译实例 输入英文句子:Miss Smith put two books on this dining table. 形态分析(Morphological Analysis) Miss Smith put (+ed) two book+s on this dining table. 句法分析(Syntactic Analysis)SNPVPV NPPPMiss Smith put two books on this dining table. 词汇转换 Miss小姐 Smith史密斯 put (+ed)放 two两 book+s书 on在上面 this这

6、dining table.餐桌 短语转换 小姐史密斯放两书在上面这餐桌 史密斯小姐放两书在这餐桌上面 生成 史密斯小姐放两书在这餐桌上面 史密斯小姐(把)两(本)书放在这 (张)餐桌上面 最终翻译结果 英文:Miss Smith put two books on this dining table. 中文:史密斯小姐把两本书放在这张餐桌 上面类比编译系统语言理解的步骤 文本预处理 句子切分 形态分析(Morphological Analysis) 分词 词性标注(Part-of-Speech Tagging) 句法分析 词义消歧(Word Sense Disambiguation) 语义关系分

7、析 指代消解(Anaphora Resolution) 逻辑形式(Logic Form)转换与生成 处理 翻译 运用翻译规则或统计模型等,将源语言的内部 表示转换为目标语言的内部表示 文摘 对源语言文本进行压缩,提取出关键句子 生成(Generation) 模拟人类写作的过程,生成符合逻辑的连 贯的文本NLP的困难歧义(Ambiguity) 病构(Ill-Formedness) 台湾:苏克毅歧义 注音歧义 快乐(le4)的单身汉 火红的第五乐(yue4)章 分词歧义 交集歧义 研究/ 生命/ 的/ 起源 研究生/ 命/ 的/ 起源 组合型歧义 他/ 从/ 马/ 上/ 下来 他/ 从/ 马上/

8、下来 分词歧义 和未登录词绞在一起 刘挺/ 拔/ 出/ 宝剑 刘/ 挺拔/ 出/ 宝剑 多交集字段的歧义 结 合 成 分 子 时 有的歧义无法在句子内部解决 乒乓球拍卖完了 短语歧义 咬死猎人的狗 咬死猎人的狗Our company is training workers(1)Our company is training workersAdjPNPVNPVPNPSOur company is training workers(2) Our company is training workersVNPAuxVPVPNPS 词义歧义 打玩乒乓球 打编制毛衣 打通讯电话 语用歧义 “你真讨厌!”病

9、构 真实文本的语言现象非常复杂,不规范,不 干净 未登录词(Unknown Words) 已知词的新用法 例子:Please xerox a copy to me. 不合乎语法的句子 例子:他非常男人。(名词不能受程度副词修饰) 不合乎语义约束的搭配 例子:My car drinks gasoline like water. 由于作者疏忽造成的错误 真实的语言是非常脏的重述(Paraphrasing) 举例 毛泽东出生于1893年 毛泽东出生在1893年 毛泽东诞生于1893年 毛泽东同志是1893年出生的 毛主席生于1893年 毛泽东生于光绪6年(虚拟的)层间循环依赖问题 循环依赖 高层模块

10、建立在底层模块分析的基础上 底层模块需要高层模块的指导才能准确分析 如何克服这种致命的矛盾 简单级联 每层的准确率是90%,如果系统分6层,最终结果是: 53%;即使每层95%,最终结果73% 一体化:如分词词性标注一体化 反馈 黑板结构 人是怎么做的? 人在瞬间综合运用各个层面的知识NLP方法论语言处理的科学内容 语言学的任务 刻画和解释语言现象 人类是如何获取和理解语言的 理解语言和世界的关系 理解语言在通讯时的结构 人们在说些什么 覆盖语言结构的各个方面 人们说的事情和世界怎样联系在一起语言的三个层面 句法(Syntax) 形式结构:主语、谓语、宾语等 用形态变化(-ing, -ed)、

11、虚词(“的”、“了”)和词序 等体现 语义(Semantics) 语言和世界的映射关系 施事、受事、工具等 语用(Pragmatics) 语言交际目的 主题、述体、焦点句法、语义、语用的区别 句法结构相同,语义不同 “吃苹果”,“吃食堂” 句法:动宾结构 语义分别为:动作-对象关系,动作-地点关系 语义相同,句法结构不同 “吃了苹果”,”苹果吃了” 语义:动作-对象 句法分别为:动宾关系和主谓关系 语用 语义相同,语用有别 主席台上摆着鲜花(主席台是旧信息,鲜花是新信息) 鲜花摆在主席台上(主席台是旧信息,鲜花是新信息)理性主义和经验主义 理性主义者(Rationalist) 1960-198

12、5: 理性主义是主流 他们的信念 乔姆斯基 先天语言能力 对于语法的描述 形成基于规则的传统语言处理技术 句法规则的确抓住了语言的主要模式 什么是语言中最普遍的模式呢,是否需要量 化?理性主义的问题 语言的变化是渐变的 比如:“打”电话,究竟从那一天开始“打”被 赋予了通讯的意义呢 基于规则的方法需要大量的人工操作, 人类总结的规则不完备、不一致,规则 多了相互冲突,难以对抗复杂的语言现 象经验主义者 信念 孩子的大脑只能做一些普通的操作:连 接、模式识别、一般化。孩子从丰富的信 号输入中学习到了语言的结构 设定一个语言模型,推导出参数值 形成今天的基于统计的语言处理技术 对每一种语言现象均给

13、出统计量化指标 意义:“观其伴,知其意”经验主义 我们生活在一个充满不确定和不完整信 息的世界里 人类的认知是一个随机现象 语言也是一个随机现象 对没有见过的语言现象进行估计 复杂的概率模型理性主义和经验主义的差别 它们描述了不同的事情 理性主义试图去描写人脑中的模型 结构主义者 经验主义试图去描写实际出现的语言 功能主义者 外部语言是内部语言的非直接的事实进一步探讨 从九十年代初期开始,统计方法开始成 为自然语言处理的主流 规范的语言和非规范的语言之间没有明 确的界限 统计还是非统计,界限也比较模糊 追求纯净,还是实用 自然语言处理尚不存在统一的数学基础 概率模型、信息论和线性代数语言工程

14、近来,人们更有兴趣解决工程实际问题 人们处理真实世界中的语料,并客观地 比较不同方法的优劣 面向真实文本的评测,是科学研究和技 术开发进一步统一起来。 90年初的汉语分词系统仍未考虑“未登录 词”问题,那时已经宣称分词结果达到90% 以上,其实只是解决了部分歧义问题。90 年代中后期才开始面向真实文本的处理。NLP的任务和瓶颈NLP的性质 NLP需要的知识非常复杂 理解语言的过程是动态的,不是静态的 NLP需要的知识大多是归纳的,不是演绎的 人也不一定能够出一致的理解结果 存在Upper Bound(上限) NLP是一个非确定性过程 对歧义的限制和系统的覆盖率矛盾 领域词典不充分NLP系统的主要任务 知识表示 产生式 谓词逻辑 语义网络 概念从属理论(CD理论) 知识控制策略 知识的冲突NLP系统的主要任务 知识集成 从多个知识源获取的不同层面,不同性质 的只是如何融合在一起 知识获取 恳谈式 内省式 机器学习NLP的瓶颈 知识获取(Knowledge Acquisition) 知识获取和知识表示相关联 规则:人工知识 参数:适合机器学习 混合方法(Hybrid Approach) 人设计模型 机器训练参数统计方法示例从语料库中学习 语料库 Corpus, Corpora 文本的集合 可以原始的文本(生语料库) 也可以是

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号