主动学习用于共指消解

上传人:飞*** 文档编号:51487669 上传时间:2018-08-14 格式:PPT 页数:37 大小:432KB
返回 下载 相关 举报
主动学习用于共指消解_第1页
第1页 / 共37页
主动学习用于共指消解_第2页
第2页 / 共37页
主动学习用于共指消解_第3页
第3页 / 共37页
主动学习用于共指消解_第4页
第4页 / 共37页
主动学习用于共指消解_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《主动学习用于共指消解》由会员分享,可在线阅读,更多相关《主动学习用于共指消解(37页珍藏版)》请在金锄头文库上搜索。

1、主动学习用于共指消解08级博士生:宋洋指导教师:王厚峰 教授 2010-03-3012010-03-30目录n共指消解问题介绍n主动学习n主动学习用于共指消解2010-03-30共指消解n共指消解:研究文本中实体表述的等价关系nACE (Automatic Content Extraction)2007语料中的例子q沙里夫的妻子库尔苏姆说,沙地阿拉伯的官员就沙里夫的前途 进行了冗长的谈判,不过她不知道谈判的结果。n两个子任务(ACE定义)q实体指称语识别(mention detection)nMention的识别q共指消解(coreference resolution 也叫entity tra

2、cking)nMention间等价关系的建立(mention的聚类)nDemo演示2010-03-30共指消解n与指代消解(Anaphora Resolution)的区别q共指消解一定是等价关系,指代消解包含其他关系q广义上,回指可以被定义为两个语言表达式之间的 关系,其中一个语言表达式往往在形式和意义上较 为简略,被称为回指语,它的具体意义要依靠另一 个语言表达式(先行语)来进行解读。n先行语:名词短语(mention)n照应语(回指语):代词、缩略语、省略语(零形式)以及部 分省略语等等2010-03-30共指消解n实体指称语识别(Mention detection)q什么是mention

3、n一般来讲,任何名词短语都可以看作mention,因为它们 都是指代现实世界中存在的或抽象的某个实体(entity)nACE对entity和mention进行了细分qMention有三种形式命名实体形式(Name mention)普通名词短语形式(Nominal mention)代词形式(Pronoun mention)qEntity有五种以上的形式(不同年份的标准有所区别)大体分为人名、机构名、地名等等(大类里面还进行了细 分)2010-03-30共指消解n以ACE2004中的中文语料bnews(314篇)为例q关于mention(实际统计的是mention head)的统计结 果如下(附排

4、名靠前的mention head及其出现次数)n命名实体形式:6362/14471=43.96%q中国(295) 美国(218) 台湾(133) 以色列(77) 中央台(76) 克林 顿(69) 日本(69) 俄罗斯(68) 北京(60) 香港(58)n普通名词短语形式:6755/14471=46.68%q人(246) 总统(188) 政府(178) 记者(162) 国(148) 国家(130) 地区(113) 大陆(85) 警方(78) 人员(76)n代词形式:1354/14471=9.36%q他(370) 我们(228) 我(171) 他们(156) 她(59) 自己(51) 大家 (49

5、) 其(32) 你(25) 双方(25)2010-03-30共指消解n以ACE2004中的中文语料bnews(314篇)为例q关于实体的统计结果如下(实际上统计的是mention 的实体类别,实体共6463个)n含单mention(60.79%) 两个mention(17.50%) 三个(7.29%)nPER(42.61%) GPE(30.29%) ORG(18.07%) FAC(4.43%) LOC(2.99%) VEH(1.16%) WEA(0.45%) qGPE: Nation(14.65%) Population-Center(7.31%) Other(5.98%) State-or-

6、Province(1.51%) Continent(0.54%) County-or-District(0.30%)qORG: Government(6.91%) Commercial(5.12%) Other(4.87%) Educational(0.96%) Non-Profit(0.21%)2010-03-30共指消解n实体指称语识别(Mention detection)qMention的识别n即名词短语(Noun phrase)的识别,所有的名词短语从概 念上来看都可以当作是一个mention,但由于我们感兴趣 的只是人名、机构名以及地名,因此mention的识别也可 以看成是对名词短

7、语进行语义分类,我们只关注那些我们 感兴趣的名词短语n从NER任务中得到启发,mention的识别也可以看成是一 个序列标注问题q英文:基于词进行序列标注q中文:基于字或词进行序列标注(基于字效果较差)q常规特征包括:词、词性、词缀(人名、机构名和地名)以及 语义特征(来源于WordNet及HowNet)2010-03-30共指消解n共指消解q共指消解的本质是mention集合上的等价类划分, 其实也就是一个聚类问题q德州大学达拉斯分校的Vincent Ng于08年和09年发 表于EMNLP的两篇文章进行了很好的总结n无指导的模型qEM Clustering 和 非参数贝叶斯模型(Dirich

8、let过程)n有指导的模型qMention-pair, entity-mention, mention-ranking和cluster- 2010-03-30共指消解n以mention-pair模型为例q首先,对于全部候选的mention对判断其共指或不 共指,得到mention集合中每个mention对之间的共 指概率值q然后,利用简单的Link-first或Link-Best等算法,确 定共指关系,或者依靠更加复杂的传递性约束以及 全局优化(比如图分割、谱图理论等),来构建聚类qMUC评价方法:计算共指对的准确率、召回率和F 值2010-03-30共指消解nmention-pair模型中的

9、共指特征2010-03-30共指消解n相关评测qACE评测(目前已取消)中的实体检测和跟踪任务, 2008年为最后一届,2009年开始被TAC所取代qTAC (Text Analysis Conference)2009和2010评测 中的KBP (Knowledge based population)任务qTREC 2010评测中的entity track任务qSemEval 2010评测中的多语言共指消解任务2010-03-30目录n共指消解问题介绍n主动学习n主动学习用于共指消解2010-03-30主动学习n基本假设:学习器在数据中有选择的进行提问 ,以能够使用较小的数据集达到同样的性能。

10、n为什么需要主动学习q存在大量未标注的数据q有些问题进行人工标注的成本很高,能否只选择一 部分未标注样本进行标注,而能够达到全体样本都 标注的情况下同样的性能表现nNAACL-HLT 2009和2010连续两年,组织了主 动学习用于NLP的workshop。ICML 2009组织 了一次主动学习的2010-03-30主动学习n过程如下 q以基于池的主动学习过程为例2010-03-30主动学习n主动学习通常的评价方法 (以文本分类为例 ) q随机和不确定性采样两种选择未标注实例方法的效 果比较2010-03-30主动学习n场景q两种场景:基于流和基于池n选择策略q五种选择策略:基于不确定性选择、

11、QBC、期望损 失减小等等n样本复杂度计算n一些相关问题q与KNN的区别、与半指导学习的区别、停止条件2010-03-30场景n基于流的主动学习q实例从数据源中以流的形式一次获得一个,学习器 判断是否选择该实例或放弃该实例n比如设定阈值n基于池的主动学习q同时考虑池中的全部实例,学习器根据一定的信息 准则从中选择实例2010-03-30场景n一个通常的基于池的主动学习算法2010-03-30选择策略n基于不确定性的选择(Uncertainty sampling)q最常用的选择框架就是不确定性采样,有如下一些 方法n最不确定(Least confident)n边距采样(Margin sampli

12、ng)n熵(Entropy) 最常用的不确定性选择策略2010-03-30选择策略nQBC (Query-by-Committee)q在当前标注集上训练了一组模型(Committee),它 们针对每一个未标注实例预测其标记,选择预测结 果最不一致的那个未标注实例n关于这组模型的选择n不一致性的评价办法q投票熵q平均KL距离 (average Kullback-Leibler divergence)2010-03-30选择策略n期望模型变化(Expected model change)q选择的实例要能够在获知它的标记后,对模型带 来最大的改变q这个选择框架下的一个例子是EGL方法,即 expec

13、ted gradient 2010-03-30选择策略n期望损失减小(Expected error reduction)q通过增加实例到标注集中,选择能够使模型在未标 注集上期望损失最小的那个实例n最小化期望0-1损失n最小化期望log损失2010-03-30选择策略n密度加权方法q选择的实例,不仅应该是不确定性高的,也应该是 有代表性的n其中,第一个函数是根据一些基本选择策略计算的x的不 确定性,第二个函数是x与未标注集的平均相似度n以下面的例子解释该方法有效处理outlier的问题2010-03-30样本复杂度计算n根据PAC理论,为获取期望错误率小于的分类器, 传统监督学习算法的样本复杂

14、度为 ,主动学 习需要获得比这更低的样本复杂度才有实际意义n关于这方面的介绍需要很多统计学习理论方面的内容 ,2008年的COLT(21st Annual Conference on Learning Theory )有一篇文章The True Sample Complexity of Active Learning有详细的介绍2010-03-30相关问题n主动学习与K近邻算法的区别qK近邻:如果一个未标注样本在特征空间中的k个最 相似(即特征空间中最邻近)的已标注样本中的大多 数属于某一个类别,则该样本也属于这个类别q主动学习可以通过未标注样本在特征空间中的分布 情况,有选择地进行人工标注,已解决K近邻算法 中已标注样本数据的偏斜分布对算法效果产生的影 响 2010-03-30相关问题n主动学习与半指导学习的区别q在半指导学习中,假定学习器“知道”未标注实例的 标记,以互训练和多视图学习为例,它们选择最确 信的未标注数据交予其他模型进行训练。q与此相对,主动学习中的QBC选择策略则是选择一 组模型中预测结果最不一致,也就是最不确信的未 标注实例,交予人工进行标注。q它们是看问题的两个方面,可以结合使用,ACL 2009有一篇文章Semi-Supervised Active Learning for Sequence L2010-03-30相关问题

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号