MLA2016宗成庆自然语言处理(NLP)PPT

上传人:灯火****19 文档编号:142981309 上传时间:2020-08-25 格式:PDF 页数:74 大小:5.30MB
返回 下载 相关 举报
MLA2016宗成庆自然语言处理(NLP)PPT_第1页
第1页 / 共74页
MLA2016宗成庆自然语言处理(NLP)PPT_第2页
第2页 / 共74页
MLA2016宗成庆自然语言处理(NLP)PPT_第3页
第3页 / 共74页
MLA2016宗成庆自然语言处理(NLP)PPT_第4页
第4页 / 共74页
MLA2016宗成庆自然语言处理(NLP)PPT_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《MLA2016宗成庆自然语言处理(NLP)PPT》由会员分享,可在线阅读,更多相关《MLA2016宗成庆自然语言处理(NLP)PPT(74页珍藏版)》请在金锄头文库上搜索。

1、宗成庆宗成庆 中国科学院自动化研究所 模式识别国家重点实验室 自然语言处理、计算与自然语言处理、计算与理解理解 1 1. 引言引言 2. NLP方法概述方法概述 3. 深度学习方法应用深度学习方法应用 4. 讨论讨论与结语与结语 内容提要内容提要 1. 引言引言 1946年,世界上第一 台计算机ENIAC诞生 Warren Weaver (July 17, 1894 Nov. 24, 1978) 信息论信息论先驱先驱 1920至至1932年年Wisconsin 大学数学大学数学教授教授 1932至至1955年担任年担任 Rockefeller Institute自然自然 科学部科学部主任主任

2、A. D. Booth 数学物理学家数学物理学家, 二战二战中参与计算机研制,中参与计算机研制, 在程序化计算机研究中成在程序化计算机研究中成 绩卓著;绩卓著; 1947年年3月至月至9月,曾在普月,曾在普 林斯顿大学参与林斯顿大学参与 John von Neumann 研究组,后来研究组,后来曾曾 在伦敦大学工作。在伦敦大学工作。 1. 引言引言 March 4, 1947 I wondered if it were unthinkable to design a computer which would translate 诺伯特诺伯特维纳维纳 (Norbert Wiener) (1894

3、年年11月月26日日 1964年年3月月18日日) 1. 引言引言 左起:左起:摩尔、麦卡锡、明斯基、摩尔、麦卡锡、明斯基、 赛弗里奇赛弗里奇(Oliver Selfridge)、所所罗门诺夫罗门诺夫 达特茅斯达特茅斯学院学院 (Dartmouth College) (成立成立于于1769年年) 人工智能人工智能夏季夏季研讨会研讨会( (大茅斯会议大茅斯会议, 1956) ) Summer Research Project on Artificial Intelligence (Dartmouth Conference) 自然语言理解自然语言理解(natural language unders

4、tanding, NLU)是人工智 能最重要的研究方向之一 1. 引言引言 计算语言学计算语言学(Computational Linguistics, CL) 1960S,形成相对独立的学科形成相对独立的学科。1962年年国际计算语言学学会国际计算语言学学会 (ACL)成立成立,1965年年国际计算语言学委员会国际计算语言学委员会(ICCL)成立成立,1966 年年“计算语言学计算语言学”首次出现在美国国家科学院首次出现在美国国家科学院ALPAC报告里报告里 自然语言处理自然语言处理(Natural Language Processing, NLP) 1980S,面向计算机网络和移到通信面向计

5、算机网络和移到通信,从从系统系统实现和语言工实现和语言工 程的角度开展语言信息处理方法的研究程的角度开展语言信息处理方法的研究。专门针对中文的语专门针对中文的语 言信息技术研究成为言信息技术研究成为中文信息处理中文信息处理 NLU、CL和和NLP统称统称为为人类语言技术人类语言技术(Human Language Technology, HLT) HLT 1. 引言引言 NLU CL NLP HLT 是当前人工智能领域最 具挑战性的研究方向之一。 NLP CL NLU 【新闻新闻】张小五从警20多年来,历尽千辛万苦,立下无 数战功,曾被誉为孤胆英雄。然而,谁也未曾想到,就 是这样一位曾让毒贩闻风

6、丧胆的铁骨英雄竟然为了区区 小利而铤而走险,悔恨之下昨晚在家开枪自毙。 问题问题:谁开枪自杀? 张小五死了没有? 张小五是什么警察? 张小五为什么自杀? 网上网上87.8%为文本内容为文本内容 机器翻译机器翻译 移移到终端:微信、短信到终端:微信、短信 非结构化文本非结构化文本语义概念关系分语义概念关系分 析、表示析、表示应用系统应用系统 1. 引言引言 情感分析情感分析 关系关系抽取抽取 自动摘要自动摘要 问答系统问答系统 观点观点挖掘挖掘 1. 引言引言 全球数万亿网页, 80%非汉语文字 出境游人数破亿,前 20出境游目的地 有12种语言 64个国家和地区 44亿人口 50多种语言 1.

7、 引言引言 6-11 July 2015, Lille, France ICML2015 1. 引言引言 1. 引言引言 At DL 2015, Neil Lawrence said “NLP is kind of like a rabbit in the headlights of the deep learning machine, waiting to be flattened.” A Professor of Machine Learning at the University of Sheffield 1. 引言引言 问题与挑战问题与挑战 大量的未知现象大量的未知现象 如:如:高山高

8、山, , 埃博拉,奥特埃博拉,奥特 无处不在的歧义词汇无处不在的歧义词汇 如:苹果如:苹果, ,粉丝粉丝, ,Bank 复杂或歧义结构比比皆是复杂或歧义结构比比皆是 喜欢乡下的孩子。喜欢乡下的孩子。Time flies like an arrow. 普遍存在的缩略和隐喻表达普遍存在的缩略和隐喻表达 要把权力装进制度的要把权力装进制度的笼子笼子;老虎苍蝇老虎苍蝇一一起打。起打。 破破四旧四旧,除,除四害四害;消灭一切;消灭一切牛鬼蛇神牛鬼蛇神。 1. 引言引言 问题与挑战问题与挑战 跨语言语义概念不对等跨语言语义概念不对等 如:馒头如:馒头: : steamed bread 1. 引言引言 We

9、 do chicken right. 我们做鸡的权利我们做鸡的权利。(Google Translate, 2016.11.4.) 我们是烹鸡我们是烹鸡专家专家。(百度翻译百度翻译, 2016.11.4.) NLPNLP要解决的问题是从大量不确定性中寻找确定性结论要解决的问题是从大量不确定性中寻找确定性结论, 很多背景知识和常识性知识是隐含的很多背景知识和常识性知识是隐含的,是在语义和概念是在语义和概念 层面上进行的表示层面上进行的表示、处理和变换处理和变换。 1. 引言引言 2. NLP方法概述方法概述 3. 深度学习方法应用深度学习方法应用 4. 讨论讨论与结语与结语 内容提要内容提要 2.

10、1 基本方法基本方法 理性主义方法理性主义方法:19571980S 词法分析,句法方法,语义分析 词典、规则基于规则的方法基于规则的方法 经验主义方法经验主义方法:1950S,1980S 训练样本 统计模型基于统计的方法基于统计的方法 2. NLP方法概述方法概述 2. NLP方法概述方法概述 以机器翻译为例以机器翻译为例 给定英语句子:给定英语句子: There is a book on the desk. 将其翻译成汉语。将其翻译成汉语。 2. NLP方法概述方法概述 对英语句子进行词法分析对英语句子进行词法分析 There/Ad is/Vbea/Det book/N on/Pthe/De

11、t desk/N ./Puc 对英语句子进行句法结构分析对英语句子进行句法结构分析 VP NP NP Ad VbeDet N P Det N Puc CS PP CS S 基于规则的方法基于规则的方法 2. NLP方法概述方法概述 利用转换规则将英语利用转换规则将英语 句子结构转换成汉语句子结构转换成汉语 句子结构句子结构 P NP VP NP Puc PP CS CS S VP NP NP Ad VbeDet N P Det N Puc CS PP CS S 2. NLP方法概述方法概述 P NP VP NP Puc PP CS CS S 根据转换后的句子结构根据转换后的句子结构, 利用词典

12、和生成规则生利用词典和生成规则生 成翻译的结果句子成翻译的结果句子 #a, Det, 一一 #book, N, 书书; V, 预订预订 #desk, N, 桌子桌子 #on, P, 在在 X 上上 #There be, V, 有有 输出译文:输出译文: 在桌子上有一本书。在桌子上有一本书。 基于规则的基于规则的NLP方法的基本步骤:方法的基本步骤: 词法分析词法分析( (汉语分词汉语分词) ) 句法分析句法分析 语义分析语义分析( (词义词义 消歧等消歧等) ) 语言生成语言生成 2. NLP方法概述方法概述 argmax( )(|) C CP CP E C 翻译模型翻译模型 (Transla

13、tion model, TM) 语言模型语言模型 (Language model, LM) ( )(|) (|) ( ) P CP E C P C E P E 根据贝叶斯公式:根据贝叶斯公式: 基于统计的方法基于统计的方法 m m eeeeE 211 l l ccccC 211 给定源语言句子给定源语言句子: 将其翻译成目标语言句子将其翻译成目标语言句子: 2. NLP方法概述方法概述 收集大规模双语句子对、目标语言句子 参数训练与模型优化 主要任务:主要任务: 构建解码器构建解码器( (decoder),快速搜索最优翻译候选:,快速搜索最优翻译候选: 三三个关键问题:个关键问题: 估计语言模

14、型概率 p(C); 估计翻译模型概率 p(E|C); 快速有效地搜索候选译文C,使p(C)p(E|C)最大。 语言模型语言模型 p(C) 翻译模型翻译模型 p(E|C) 解码器解码器 CE argmax( )(|) C CP CP E C 原文原文 译文译文 人类 共 有 二十三 对 染色体 。humans have a total of 23 pairs of chromosomes . 澳洲 重新 开放 驻 马尼拉 大使馆australia reopens embassy in manila 中国 大陆 手机 用户 成长 将 减缓growth of phone users in mainl

15、and china to slow 外交 人员 搭乘 第五 架 飞机 返国diplomatic staff will take the fifth plane home . 驻 南韩 美军 三千人 奉命 冻结 调防us freezes transfer of 3,000 troops in south korea 姚明 感慨 NBA 的 偶像 来 得 太 快yao ming feels nba stardom comes too fast 双语句对双语句对 2. NLP方法概述方法概述 短语序列:在 桌子 上有一 本 书 英语译文:There is a book on the desk. 短语

16、翻译:On the desk there is have 短语调序:There ison the desk a book a book 2. NLP方法概述方法概述 汉语句子:在桌子上有一一本本书 2.2 常用的统计模型和常用的统计模型和开开源工具源工具 感知机感知机(perceptron):二类分类二类分类 k-近邻法近邻法(k-nearest neighbor, k-NN):多类分类问题多类分类问题 朴素贝叶斯法朴素贝叶斯法(na ve Bayes):多类分类问题多类分类问题 决策树决策树(decision tree):多类分类问题多类分类问题 最大熵最大熵(maximum entropy):多类分类问题:多类分类问题 支持向量机支持向量机(support vector machine, SVM):二类分类二类

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号