主动学习用于共指消解

资源描述

《主动学习用于共指消解》由会员分享，可在线阅读，更多相关《主动学习用于共指消解（37页珍藏版）》请在金锄头文库上搜索。

1、主动学习用于共指消解08级博士生：宋洋指导教师：王厚峰教授 2010-03-3012010-03-30目录n共指消解问题介绍n主动学习n主动学习用于共指消解2010-03-30共指消解n共指消解：研究文本中实体表述的等价关系nACE (Automatic Content Extraction)2007语料中的例子q沙里夫的妻子库尔苏姆说，沙地阿拉伯的官员就沙里夫的前途进行了冗长的谈判，不过她不知道谈判的结果。n两个子任务(ACE定义)q实体指称语识别(mention detection)nMention的识别q共指消解(coreference resolution 也叫entity tra

2、cking)nMention间等价关系的建立(mention的聚类)nDemo演示2010-03-30共指消解n与指代消解(Anaphora Resolution)的区别q共指消解一定是等价关系，指代消解包含其他关系q广义上，回指可以被定义为两个语言表达式之间的关系，其中一个语言表达式往往在形式和意义上较为简略,被称为回指语，它的具体意义要依靠另一个语言表达式(先行语)来进行解读。n先行语：名词短语(mention)n照应语(回指语)：代词、缩略语、省略语(零形式)以及部分省略语等等2010-03-30共指消解n实体指称语识别(Mention detection)q什么是mention

3、n一般来讲，任何名词短语都可以看作mention，因为它们都是指代现实世界中存在的或抽象的某个实体(entity)nACE对entity和mention进行了细分qMention有三种形式命名实体形式(Name mention)普通名词短语形式(Nominal mention)代词形式(Pronoun mention)qEntity有五种以上的形式(不同年份的标准有所区别)大体分为人名、机构名、地名等等(大类里面还进行了细分)2010-03-30共指消解n以ACE2004中的中文语料bnews(314篇)为例q关于mention(实际统计的是mention head)的统计结果如下(附排

4、名靠前的mention head及其出现次数)n命名实体形式：6362/14471=43.96%q中国(295) 美国(218) 台湾(133) 以色列(77) 中央台(76) 克林顿(69) 日本(69) 俄罗斯(68) 北京(60) 香港(58)n普通名词短语形式：6755/14471=46.68%q人(246) 总统(188) 政府(178) 记者(162) 国(148) 国家(130) 地区(113) 大陆(85) 警方(78) 人员(76)n代词形式：1354/14471=9.36%q他(370) 我们(228) 我(171) 他们(156) 她(59) 自己(51) 大家 (49

5、) 其(32) 你(25) 双方(25)2010-03-30共指消解n以ACE2004中的中文语料bnews(314篇)为例q关于实体的统计结果如下(实际上统计的是mention 的实体类别，实体共6463个)n含单mention(60.79%) 两个mention(17.50%) 三个(7.29%)nPER(42.61%) GPE(30.29%) ORG(18.07%) FAC(4.43%) LOC(2.99%) VEH(1.16%) WEA(0.45%) qGPE: Nation(14.65%) Population-Center(7.31%) Other(5.98%) State-or-

6、Province(1.51%) Continent(0.54%) County-or-District(0.30%)qORG: Government(6.91%) Commercial(5.12%) Other(4.87%) Educational(0.96%) Non-Profit(0.21%)2010-03-30共指消解n实体指称语识别(Mention detection)qMention的识别n即名词短语(Noun phrase)的识别，所有的名词短语从概念上来看都可以当作是一个mention，但由于我们感兴趣的只是人名、机构名以及地名，因此mention的识别也可以看成是对名词短

7、语进行语义分类，我们只关注那些我们感兴趣的名词短语n从NER任务中得到启发，mention的识别也可以看成是一个序列标注问题q英文：基于词进行序列标注q中文：基于字或词进行序列标注(基于字效果较差)q常规特征包括：词、词性、词缀(人名、机构名和地名)以及语义特征(来源于WordNet及HowNet)2010-03-30共指消解n共指消解q共指消解的本质是mention集合上的等价类划分，其实也就是一个聚类问题q德州大学达拉斯分校的Vincent Ng于08年和09年发表于EMNLP的两篇文章进行了很好的总结n无指导的模型qEM Clustering 和非参数贝叶斯模型(Dirich

8、let过程)n有指导的模型qMention-pair, entity-mention, mention-ranking和cluster- 2010-03-30共指消解n以mention-pair模型为例q首先，对于全部候选的mention对判断其共指或不共指，得到mention集合中每个mention对之间的共指概率值q然后，利用简单的Link-first或Link-Best等算法，确定共指关系，或者依靠更加复杂的传递性约束以及全局优化(比如图分割、谱图理论等)，来构建聚类qMUC评价方法：计算共指对的准确率、召回率和F 值2010-03-30共指消解nmention-pair模型中的

9、共指特征2010-03-30共指消解n相关评测qACE评测(目前已取消)中的实体检测和跟踪任务， 2008年为最后一届，2009年开始被TAC所取代qTAC (Text Analysis Conference)2009和2010评测中的KBP (Knowledge based population)任务qTREC 2010评测中的entity track任务qSemEval 2010评测中的多语言共指消解任务2010-03-30目录n共指消解问题介绍n主动学习n主动学习用于共指消解2010-03-30主动学习n基本假设：学习器在数据中有选择的进行提问，以能够使用较小的数据集达到同样的性能。

10、n为什么需要主动学习q存在大量未标注的数据q有些问题进行人工标注的成本很高，能否只选择一部分未标注样本进行标注，而能够达到全体样本都标注的情况下同样的性能表现nNAACL-HLT 2009和2010连续两年，组织了主动学习用于NLP的workshop。ICML 2009组织了一次主动学习的2010-03-30主动学习n过程如下 q以基于池的主动学习过程为例2010-03-30主动学习n主动学习通常的评价方法（以文本分类为例） q随机和不确定性采样两种选择未标注实例方法的效果比较2010-03-30主动学习n场景q两种场景：基于流和基于池n选择策略q五种选择策略：基于不确定性选择、

11、QBC、期望损失减小等等n样本复杂度计算n一些相关问题q与KNN的区别、与半指导学习的区别、停止条件2010-03-30场景n基于流的主动学习q实例从数据源中以流的形式一次获得一个，学习器判断是否选择该实例或放弃该实例n比如设定阈值n基于池的主动学习q同时考虑池中的全部实例，学习器根据一定的信息准则从中选择实例2010-03-30场景n一个通常的基于池的主动学习算法2010-03-30选择策略n基于不确定性的选择(Uncertainty sampling)q最常用的选择框架就是不确定性采样，有如下一些方法n最不确定(Least confident)n边距采样(Margin sampli

12、ng)n熵(Entropy) 最常用的不确定性选择策略2010-03-30选择策略nQBC (Query-by-Committee)q在当前标注集上训练了一组模型(Committee)，它们针对每一个未标注实例预测其标记，选择预测结果最不一致的那个未标注实例n关于这组模型的选择n不一致性的评价办法q投票熵q平均KL距离 (average Kullback-Leibler divergence)2010-03-30选择策略n期望模型变化(Expected model change)q选择的实例要能够在获知它的标记后，对模型带来最大的改变q这个选择框架下的一个例子是EGL方法，即 expec

13、ted gradient 2010-03-30选择策略n期望损失减小(Expected error reduction)q通过增加实例到标注集中，选择能够使模型在未标注集上期望损失最小的那个实例n最小化期望0-1损失n最小化期望log损失2010-03-30选择策略n密度加权方法q选择的实例，不仅应该是不确定性高的，也应该是有代表性的n其中，第一个函数是根据一些基本选择策略计算的x的不确定性，第二个函数是x与未标注集的平均相似度n以下面的例子解释该方法有效处理outlier的问题2010-03-30样本复杂度计算n根据PAC理论，为获取期望错误率小于的分类器，传统监督学习算法的样本复杂

14、度为，主动学习需要获得比这更低的样本复杂度才有实际意义n关于这方面的介绍需要很多统计学习理论方面的内容，2008年的COLT(21st Annual Conference on Learning Theory )有一篇文章The True Sample Complexity of Active Learning有详细的介绍2010-03-30相关问题n主动学习与K近邻算法的区别qK近邻：如果一个未标注样本在特征空间中的k个最相似(即特征空间中最邻近)的已标注样本中的大多数属于某一个类别，则该样本也属于这个类别q主动学习可以通过未标注样本在特征空间中的分布情况，有选择地进行人工标注，已解决K近邻算法中已标注样本数据的偏斜分布对算法效果产生的影响 2010-03-30相关问题n主动学习与半指导学习的区别q在半指导学习中，假定学习器“知道”未标注实例的标记，以互训练和多视图学习为例，它们选择最确信的未标注数据交予其他模型进行训练。q与此相对，主动学习中的QBC选择策略则是选择一组模型中预测结果最不一致，也就是最不确信的未标注实例，交予人工进行标注。q它们是看问题的两个方面，可以结合使用，ACL 2009有一篇文章Semi-Supervised Active Learning for Sequence L2010-03-30相关问题

展开阅读全文