报告人钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语

上传人:ni****g 文档编号:567982792 上传时间:2024-07-22 格式:PPT 页数:25 大小:712.01KB
返回 下载 相关 举报
报告人钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语_第1页
第1页 / 共25页
报告人钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语_第2页
第2页 / 共25页
报告人钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语_第3页
第3页 / 共25页
报告人钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语_第4页
第4页 / 共25页
报告人钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《报告人钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语》由会员分享,可在线阅读,更多相关《报告人钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语(25页珍藏版)》请在金锄头文库上搜索。

1、 报告人:钱龙华报告人:钱龙华刘丹丹刘丹丹 胡亚楠胡亚楠 钱龙华钱龙华 周国栋周国栋 苏州大学自然语言处理实验室苏州大学自然语言处理实验室http:/ 1. 问题描述问题描述2. 2. 研究现状研究现状3. 3. 研究内容研究内容主要内容24. 4. 研究方法研究方法5. 5. 实验结果与分析实验结果与分析6. 6. 总结与展望总结与展望1. 问题描述3v实体语义关系抽取实体语义关系抽取n 简称关系抽取,是信息抽取中的重要研究内容之一。n 其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系。如:关系实例“他 的 妻子”中的存在的PER-SOC关系。v研究意义研究意义n关系抽取对自然

2、语言处理的许多应用,如内容理解、问题回答、自动文摘以及社会关系网络构建等都具有重要的意义。2. 研究现状4v中文关系抽取中文关系抽取v 基于特征向量的方法基于特征向量的方法关系实例的特征包含词汇、组块、句法和语义等各种信息。如车万翔等2005;董静等2007;Li 等2008v基于核函数基于核函数将关系实例表示成的离散结构,如:将关系实例表示成的离散结构,如: v字符串:字符串:Che等2005;刘克彬等2007v句法树句法树:黄瑞红等2008,虞欢欢等2010词汇语义资源的作用v词汇语义信息词汇语义信息v对关系抽取具有重要的作用。词汇不同但是语义相近的两个词语,在句子中可表示相同的语义关系。

3、如关系实例“毛泽东妻子杨开慧”和“周恩来夫人邓颖超”。v目前的解决方法目前的解决方法vChe等2005等采用了编辑距离核函数,考虑了词汇之间在同义词词林中的语义相似度;v刘克彬等2007采用了字符串序列核函数,考虑了词汇之间在知网中的语义相似度;v不足之处不足之处v两者都是在字符串核中考虑了词汇语义信息,而没有把词汇语义信息用在抽取性能最好的句法树核句法树核中。3. 研究内容6v研究动机研究动机随着句法树的卷积树核在关系抽取中的广泛应用,很自然的问题是:v词汇语义信息是否对基于卷积树核函数的关系抽取有用?v词汇语义信息如何使用才更有益于关系抽取?v研究内容研究内容v如何把词汇语义信息结合到基于

4、树核函数的中文关系抽取中;如何把词汇语义信息结合到基于树核函数的中文关系抽取中;4. 研究方法7v基于卷积树核的中文关系抽取基于卷积树核的中文关系抽取v关系实例的结构化表示关系实例的结构化表示v关系实例的相似度计算关系实例的相似度计算v将词汇语义类别嵌入到句法树中将词汇语义类别嵌入到句法树中v利用语义卷积树核函数利用语义卷积树核函数关系实例的结构化表示8v合一句法和语义树合一句法和语义树( (QianQian等等,2008),2008)v将句法树和实体的语义信息(实体类型等)结合起来。v如图所示为短语“银行总裁”的合一句法和语义树。左边为句法树;右边为实体语义树关系实例的相似度计算9v卷积树核

5、函数卷积树核函数( (CTK,ConvolutionTreeKernel) )v两棵句法树的相似度为相似子树的个数,即两棵句法树的相似度为相似子树的个数,即v计算方法计算方法1)如果n1和n2的产生式(采用上下文无关文法)不同,则(n1,n2)=0;否则转2;2)如果n1和n2是词性(POS)标记,则(n1,n2)= ;否则转3;3)按照如下公式递归计算其中:#ch(n)是结点的子结点数目,ch(n,k)是结点的第k个子结点,而(01)则是衰减因子,用来防止子树的相似度过度依赖于子树的大小。卷积树核函数-举例下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树。由于两棵树在所有6个子

6、树片段中有1个片段相同,所以两棵树的相似子树数量为1。语义资源-知网HowNet11v知网知网v用一系列的“义原”来对每一个“概念”进行描述。v总共有1500多个义原,这些义原分事件、实体、属性、属性值、数量、数量值、次要特征、语法、动态角色和动态属性等九大类。v义原的提取义原的提取v知网中每一个词语的概念定义也用多个义原来描述,不过第一基本义原反映了一个概念最主要的特征,因此我们仅抽取了词语的第一基本义原作为它的语义类别。方法一、将语义类别信息嵌入句法树中12v基本方法基本方法v 将实体中心词的词汇的第一义原直接嵌入到句法树中;v 如短语“台北大安森林公园”中,“台北”的第一义原是“地方”,

7、“公园”的第一义原是“设施”。嵌入语义信息-举例13v嵌入语义信息后的相似度:嵌入语义信息后的相似度:两棵树的相似子树数量为3。方法二、语义卷积树核函数14v基本思想(基本思想(SCTK,SemanticConvolutionTreeKernel)v 在匹配包含词语的子树时,考虑词汇间的语义相似度;v Bloehdorn和Moschitti2007利用英文名词在WordNet中的层次结构关系来计算词语之间的相似度,并通过语义卷积树核实现问题分类问题分类任务,取得了较好的效果。v实现方法实现方法v 将标准CTK的第一步修改为:1) 如果n1和n2的产生式(采用上下文无关文法)相同,则转2;否则,

8、如果n1和n2是实体所对应的中心词的父结点,则(n1,n2)= * LexSim(HW1,HW2);否则,(n1,n2)=0;词汇语义相似度的计算15vSCTKSCTK的核心是两个词汇之间的语义相似度计算的核心是两个词汇之间的语义相似度计算v采用的是刘群和李素建编写的基于知网的词汇相似度计算软件包。v软件包下载地址:软件包下载地址:http:/ 实验结果与分析17v语料库语料库v 采用ACE 2005中文语料库作为实验语料。该语料库定义了中文实体之间的6个关系大类,18个关系小类。它包含633个文件,其中广播新闻类298个,新闻专线类38个,微博和其它类等97个;v处理工具处理工具v 中科院计

9、算所研制的分词系统ICTCLAS进行分词 ; v 采用支持卷积树核函数的SVMLightTK工具包作为分类器;v 修改了其树核函数计算部分,以嵌入词汇之间的语义相似度;v评估方法评估方法v 采用五倍交叉验证策略,取5次平均值作为最终的性能;v 评估标准采用常用的准确率(P)、召回率(R)和F1指标(F1)。实验结果1-嵌入语义类别信息18vBL:基准系统vBL+HN:实体词汇义原vBL+ET:加入实体类型vBL+ET+HN:实体类型+词汇义原vBL+ET+HN+HNV:上述基础上再考虑动词的义原v在没有实体类型信息的前提下,实体词汇的第一义原能显著提高性能;v在已有实体类型信息的前提下,实体词

10、汇和动词的义原降低了性能;v大类和小类抽取性能的提高幅度明显大于关系检测性能,说明义原信息能辨别关系类型。实验结果2-语义卷积树核函数19vBL:基准系统vBL+HN:实体词汇相似度vBL+ET:加入实体类型vBL+ET+HN:实体类型+词汇相似度vBL+ET+HN+HNV:上述基础上再考虑动词的相似度 v在已有实体类型信息的前提下,实体词汇和动词的义原仍然提高性能,原因是第一义原只能反映主要含义,而相似度能反映总体含义;v最佳性能大于直接嵌入句法树中的方法。实验结果3-与其它系统的比较20v由于语料库的规模不同,训练和测试的方法不同,比较仅供参考。系统P(%)R(%)F1Qianetal:C

11、ompositekernel(linear+tree)80.961.871.1Lietal:Feature-based81.761.770.3Qianetal:CTKwithUSST79.861.069.2Ours:SCTKwithUPST81.160.069.0Yuetal:CTKwithUPST75.360.467.0Zhangetal.:Compositekernel81.8349.7961.916. 总结与展望21v在没有实体类型的前提下,词汇语义信息能显著提高中文关系抽取的性能;v在已有实体类型的前提下,基于语义相似度的语义卷积树核函数能进一步提高中文抽取的性能;v词汇语义信息的加入

12、有助于小类关系抽取性能的提高,即语义信息能区分更细致的关系类型。下一步工作22v 可利用英文语义资源(如WordNet)来提高英文关系抽取的性能。v 探索基于大规模语料库的词汇相似度计算方法对中英文关系抽取的影响,以缓解由于词汇语义资源的缺乏而引起的数据稀疏性问题。 参考文献ZhouG.D.,QianL.H.,FanJ.X.:Treekernel-basedSemanticRelationExtractionwithRichSyntacticandSemanticInformation.InformationSciences.Vol.18(8).pp.1313-1325(2010)JiangJ

13、.,ZhaiC.X.:ASystematicExplorationoftheFeatureSpaceforRelationExtraction.NAACL-HLT2007:Rochester,NY,USA.pp.113120(2007)ChanY.S.,RothD.:ExploitingBackgroundKnowledgeforRelationExtraction.COLING2010.pp.152160(2010)SunA.,GrishmanR.,andSekineS.:Semi-supervisedRelationExtractionwithLarge-scaleWordClusteri

14、ng.ACL2011.pp.521-529(2011)ZhangM.,ZhangJ.,SuJ.ZhouG.D.:ACompositeKerneltoExtractRelationsbetweenEntitieswithbothFlatandStructuredFeatures.COLING-ACL2006.pp.825-832(2006)ZhouG.D.,ZhangM.,JiD.H.,ZhuQ.M.:TreeKernel-basedRelationExtractionwithContext-SensitiveStructuredParseTreeInformation.EMNLP/CoNLL2

15、007.pp.728-736(2007)QianL.H.,ZhouG.D.,KongF.,ZhuQ.M.,QianP.D.:ExploitingConstituentDependenciesforTreeKernel-basedSemanticRelationExtraction.COLING2008.Manchester,pp.697-704(2008)CulottaA.andSorensenJ.:Dependencytreekernelsforrelationextraction.InProceedingsofthe42ndAnnualMeetingoftheAssociationofCo

16、mputationalLinguistics.ACL2004.pp.423-439(2004)CheW.X.,LiuT.,LiS.:AutomaticEntityRelationExtraction.19(2):1-6(2005)DongJ.,SunL.,FengY.Y,HuangR.H.:ChineseAutomaticEntityRelationExtraction.JournalofChineseInformation(inChinese).Vol.21(4),pp.80-85,91(2007)LiW.J.,ZhangP.,WeiF.R.,HouY.X.,LuQ.:ANovelFeatu

17、re-basedApproachtoChineseEntityRelationExtraction.ACL2008:89-92(2008)参考文献CheW.X.,JiangJ.,SuZ.,PanY.,LiuT.:Improved-Edit-DistanceKernelforChineseRelationExtraction.IJCNLP2005:132-137(2005)LiuK.B.,LiF.,LiuL.,HanY.:ImplementationofaKernel-BasedChineseRelationExtractionSystem.ComputerResearchandDevelopm

18、ent(inChinese),Vol.44(8),pp.1406-1411(2007)HuangR.H.,SunL.,FengY.Y,HuangY.P.:AStudyonKernel-basedChineseRelationExtraction.JournalofChineseInformation(inChinese),Vol.22(5),pp.102-108(2008)YuH.H.,QianL.H.,ZhouG.D.ZhuQ.M.:ChineseSemanticRelationExtractionBasedonUnifiedSyntacticandEntitySemanticTree.Jo

19、urnalofChineseInformation(inChinese),Vol.24(5).pp.17-23(2010)MeiJ.J.,ZhuY.M.,GaoY.Q.,YinH.X.:TongYiCiCiLinsecondedition.Shanghai.ShanghaiLexicographicPublishingHouse(inChinese)(1996)CollinsM.,DuffyN.:CovolutionTreeKernelsforNaturalLanguage.NIPS2001:625-632(2001)BloehdornS.,MoschittiA.:ExploitingStru

20、ctureandSemanticsforExpressiveTextKernels.ProceedingsofthesixteenthACMconferenceonConferenceoninformationandknowledgemanagement,Lisbon,Portugal(2007)QianL.H.,ZhouG.D.,ZhuQ.M.:EmployingConstituentDependencyInformationforTreeKernel-basedSemanticRelationExtractionbetweenNamedEntities.ACMTransactiononAs

21、ianLanguageInformationProcessing.Vol.10(3),Article15(24pages)(2011)LinD.:AnInformation-theoreticDefinitionofSimilarity.InProceedingsofthe15thInternationalConferenceonMachineLearning.Madison,WI(1998)LiuQ.,LiS.J.:WordSimilarityComputingBasedonHow-net.ComputationalLinguistics,Chineseinformationprocessing.pp.59-76(2002)ZhangJ.,OuyangY.andLiW.J.:ANovelCompositeApproachtoChineseRelationExtraction.ICCPOL09(2009)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号