自然语言处理和信息抽取.20110826

上传人:mg****85 文档编号:41826325 上传时间:2018-05-31 格式:PDF 页数:401 大小:6.19MB
返回 下载 相关 举报
自然语言处理和信息抽取.20110826_第1页
第1页 / 共401页
自然语言处理和信息抽取.20110826_第2页
第2页 / 共401页
自然语言处理和信息抽取.20110826_第3页
第3页 / 共401页
自然语言处理和信息抽取.20110826_第4页
第4页 / 共401页
自然语言处理和信息抽取.20110826_第5页
第5页 / 共401页
点击查看更多>>
资源描述

《自然语言处理和信息抽取.20110826》由会员分享,可在线阅读,更多相关《自然语言处理和信息抽取.20110826(401页珍藏版)》请在金锄头文库上搜索。

1、第二讲第二讲自然语言处理和信息抽取自然语言处理和信息抽取赵 军 () 共同讲者:刘 康、韩先培、周光有、蔡黎中国科学院自动化研究所 模式识别国家重点实验室中国科学院自动化研究所 模式识别国家重点实验室中国计算机学会学科前沿讲习班第 21期 面向互联网的自然语言处理技术面向互联网的自然语言处理技术理论、方法与应用问题研究理论、方法与应用问题研究引言引言(1/3)50-60年代:自然语言处理研究领域是作为人工智能的应用发展起来的最早的自然语言理解方面的研究工作是机器翻译,20世纪60年代,国外对机器翻译曾有大规模的研究工作普遍采用基于规则的方法,或者基于知识库的方法,在限定领域取得成功但人们低估了

2、自然语言的复杂性,在开放领域遇到很大的困难90年代开始:随着大规模词典和真实语料库的研制,给自然语言处理领域的研究带来了巨大变化基于语料库的统计自然语言学习成为一种重要的方法自然语言处理系统面向大规模真实文本的处理,使得研制的系统开始面向实用系统并不要求能对自然语言文本进行深层理解,而是从中抽取一些有用信息,作为自然语言部分理解的一种形式信息抽取引言引言(2/3)过去10年:随着互联网的普及,为自然语言处理领域提供了强有力的应用牵引和海量语言资源自然语言处理技术和信息检索技术结合,自然语言处理技术的应用领域大大扩大问答系统等统计自然语言学习方法受限于语料库的规模,过拟合问题严重,缺乏推广能力目

3、前:随着Web2.0的普及,网络上积累了规模巨大的User Generated Content,为自然语言处理技术的发展提供了新的资源和技术创新的源泉例如Wikipedia、社区问答资源等,为建立大规模知识库奠定基础基于知识的方法在开放域自然语言处理处理任务中的应用成为可能基于知识的方法和基于统计的方法的融合受到关注引言引言(3/3)本课程将面向互联网应用,选取依存句法分析、信息抽取、观点挖掘和倾向性分析、问答系统等四个自然语言处理领域的研究方向,系统介绍其中的基本概念、主要方法、最新研究进展、需要解决的问题和发展趋势目标:听者能够对以上几个研究方向的基本轮廓和发展脉络有较为系统的了解主要内容

4、主要内容第一课09:00-10:00信息抽取第二课10:20-11:30观点挖掘和倾向性分析第三课14:00-15:00问答系统第四课15:20-16:20依存句法分析第五课16:30-17:00互动课主要内容之间的关系主要内容之间的关系信息抽取:以实体为中心的事实性信息的抽取观点挖掘和倾向性分析:主观性信息的抽取问答系统:信息抽取和自然语言处理技术结合的应用依存句法分析:自然语言处理关键技术第一课第一课信息抽取信息抽取中国科学院自动化研究所 模式识别国家重点实验室概述概述引言实体识别与抽取实体消歧关系抽取问题与挑战引言互联网的迅速普及和发展信息资源极大丰富但“信息过载”问题日趋严重迫切需要快

5、速、准确获取信息的技术手段信息抽取技术应运而生文本信息抽取自然语言文本信息抽取信息抽取与信息检索的区别 (1/2)查找同查找同“恐怖袭击恐怖袭击”相关的文档相关的文档查找同查找同“恐怖袭击恐怖袭击”相关的文档相关的文档互联网文档集互联网文档集文本信息检索文本信息检索.hk信息抽取与信息检索的区别 (2/2)根据恐怖袭击相关的文档列出某日发生的恐怖事件根据恐怖袭击相关的文档列出某日发生的恐怖事件将恐怖袭击事件按照发生地点进行归类将恐怖袭击事件按照发生地点进行归类需要文本信息抽取技术做支撑信息抽取定义信息抽取定义(Grishman, 1997)从自然语言文本中抽取指定类型的实体、关系、事件等事实信

6、息,并形成结构化数据输出的文本处理技术Making information more machine-readable (Wu, 2010)信息抽取的目标示例2011年4月11日17点16分,日本东北部的福岛和茨城地区发生里氏7.0级强烈地震(震中北纬36.9度、东经140.7度,即福岛西南30公里左右的地方,震源深度10公里,属于浅层地震)当局已经发布海啸预警震后约30分钟后在日本海地区发生巨型海啸,同时造成福岛核电站出现核泄漏震后第十天,国际原子能机构对于日本政府反应迟钝进行了谴责2011年4月11日17点16分,日本东北部的福岛和茨城地区发生里氏7.0级强烈地震(震中北纬36.9度、东经

7、140.7度,即福岛西南30公里左右的地方,震源深度10公里,属于浅层地震)当局已经发布海啸预警震后约30分钟后在日本海地区发生巨型海啸,同时造成福岛核电站出现核泄漏震后第十天,国际原子能机构对于日本政府反应迟钝进行了谴责浅层地震话题话题 日本地震日本地震话题话题 日本地震日本地震地震事件地震事件 名称:日本福岛地震名称:日本福岛地震 震级:震级:7.0级级 地区:日本福岛和茨城地区:日本福岛和茨城 震中:北纬震中:北纬36.9度,东经度,东经140.7度度 震源深度:震源深度:10km 性质:浅层地震性质:浅层地震地震事件地震事件 名称:名称:日本福岛地震日本福岛地震 震级:震级:7.0级级

8、 地区:地区:日本福岛和茨城日本福岛和茨城 震中:震中:北纬北纬36.9度,东经度,东经140.7度度 震源深度:震源深度:10km 性质:性质:浅层地震浅层地震海啸事件海啸事件 名称:日本海啸名称:日本海啸 时间:震后时间:震后30分钟分钟 地区:日本海地区:日本海 性质:巨型海啸性质:巨型海啸海啸事件海啸事件 名称:名称:日本海啸日本海啸 时间:时间:震后震后30分钟分钟 地区:地区:日本海日本海 性质:性质:巨型海啸巨型海啸核泄漏事件核泄漏事件 名称:日本核泄漏名称:日本核泄漏 时间:震后两天时间:震后两天 地区:福岛核电站地区:福岛核电站 影响范围:影响范围:30平方公里平方公里相关事

9、件相关事件:切尔诺贝利切尔诺贝利核泄漏事件核泄漏事件 名称:名称:日本核泄漏日本核泄漏 时间:时间:震后两天震后两天 地区:地区:福岛核电站福岛核电站 影响范围:影响范围:30平方公里平方公里相关事件相关事件:切尔诺贝利切尔诺贝利观点观点 持有者:国际原子能机构持有者:国际原子能机构 对象:日本政府对象:日本政府 原因:福岛核泄漏原因:福岛核泄漏 倾向性:谴责倾向性:谴责观点观点 持有者:持有者:国际原子能机构国际原子能机构 对象:对象:日本政府日本政府 原因:原因:福岛核泄漏福岛核泄漏 倾向性:倾向性:谴责谴责 海啸福岛核电站国际原子能机构福岛信息抽取的历史(1/2)信息抽取的研究最早于上世

10、纪70年代末期最早的信息抽取系统于上世纪80年代中期面世,由路透社研制的JASPER,用作向金融从业者提供结构化的金融新闻信息抽取的历史 (2/2)MUC(Message Understanding Conferences, 1987-1997)由美国国防高级研究计划委员会DARPA资助主要是英文,后两届扩展到中文任务命名实体识别,共指消解,模板关系抽取等等ACE(Automatic Content Extraction, 1999-2008 )由美国国家标准与技术研究所NIST主办2009起,ACE变成了TAC(Text Analysis Conference)的一项子任务英文、中文、阿拉伯

11、文等任务命名实体识别,关系抽取,事件抽取等等TAC-KBP(Knowledge Base Population)子任务 (2009-今)实体链接、属性抽取小结封闭语料开放语料:限定领域、新闻语料Web页面限定类别开放类别:有限类别的实体、关系、事件维基百科条目文本内信息抽取与真实世界关联时间评测阶段任务语料1987-1993MUC1-MUC5命名实体识别,共指消解,模板关系抽取等等限定领域文本 (海军军事情报、恐怖袭击)1995-1997MUC6-MUC7模板填充、命名实体识别、共指关系确定等限定领域文本 (人事职位变动、飞机失事)1999ACE-Pilot-ACE-1命名实体识别新闻语料20

12、02ACE2命名实体识别、关系识别与描述等新闻语料2003-2007ACE2003-ACE2007命名实体识别、关系识别与描述、时间表达式识别、事件抽取等新闻语料、对话语料2009-2011TAC1-TAC3实体链接、属性抽取新闻语料、Web页面概述引言实体识别与抽取实体识别开放域实体抽取实体消歧关系抽取问题与挑战命名实体识别的任务识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体两个子任务:实体边界识别和确定实体类别2011年4月11日17点16分,日本东北 部的福岛和茨城地区发生里氏7.0级强 烈地震(震中北纬36.9度、东经140.7 度,即福岛西南30公里左

13、右的地方, 震源深度10公里,属于浅层地震)当 局已经发布海啸预警震后约30分钟后 在日本海地区发生巨型海啸,同时造 成福岛核电站出现核泄漏震后第十天 ,国际原子能机构对于日本政府反应 迟钝进行了谴责2011年年4月月11日日17点点16分分,日本东 北部的福岛和茨城地区福岛和茨城地区发生里氏7.0级 强烈地震(震中北纬震中北纬36.9度、东经度、东经140 .7度度,即福岛西南30公里左右的地方, 震源深度10公里,属于浅层地震)当 局已经发布海啸预警震后约30分钟后 在日本海地区发生巨型海啸,同时造 成福岛核电站福岛核电站出现核泄漏震后第十天 ,国际原子能机构国际原子能机构对于日本政府日本

14、政府反应 迟钝进行了谴责命名实体识别的特点时间、日期、货币和百分比的构成有比较明显的规律,识别起来相对容易人名、地名、机构名的用字灵活,识别的难度很大内部结构复杂,形式多变对中文命名实体来说,情况尤其如此人名: 杜甫、杜子美、子美、杜工部、李杜;机构名:北京百富勤投资咨询公司、北京大学附属小学、中国奥委会、北师大二附上下文密切相关不同语境下,可能具有不同的实体类型;或者在某些条件下是实体,在另外的条件下就不是实体彩霞、河南、新世界命名实体识别的方法命名实体的内部构成和外部语言环境具有一些特征无论何种方法,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征考虑到每一类命名实体都具有不同的

15、特征,不同类别的实体适合用不同的识别模型人名:用基于字的模型描述其内部构成;地名和机构名:用基于词的模型描述不同类型的外国人名用字存在较大差别,如果按照人名的用字和构成特点,把人名分成多个类别并分别利用不同模型进行识别,对于提高人名识别的正确率是非常有益的利用序列标注工具计算特征权重MEMM、HMM、CRF命名实体识别的评测国际会议:MUC、SigHAN、CoNLL、IEER 和ACE MUC-6和MUC-7设立的命名实体识别专项评测大大推动了英语命名实体识别技术的发展MUC-6和MUC-7还设立了多语言实体识别评测任务MET,对日语、西班牙语、汉语等多种语言命名实体识别任务进行评测SigHA

16、N从2003年开始举办第一届中文分词评测BAKEOFF,2006 年和2008年举行的BAKEOFF-3和BAKEOFF-4设立了命名实体识别专项评测2003年和2004年举办的863计划“中文信息处理与智能人机接口技术评测”中设立了中文命名实体识别评测任务英文命名实体识别的技术水平英文:Language Technology Group Summary开发的英语命名实体识别系统在MUC-7评测中取得第一名,其准确率和召回率分别达到95%和92% (吴友政,2006)许多英语命名实体系统已经具备了相当程度的大规模文本处理能力汉语命名实体识别的技术水平参加MET-2评测的汉语命名实体识别系统对人名、地名、机构名识别的最优性能指标(准确率,召回率)只有(66%,92%)、(89%,91%) 和(89%,8

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号