基于树核函数的人物关系抽取研究

上传人:博****1 文档编号:569267765 上传时间:2024-07-28 格式:PPT 页数:17 大小:600.50KB
返回 下载 相关 举报
基于树核函数的人物关系抽取研究_第1页
第1页 / 共17页
基于树核函数的人物关系抽取研究_第2页
第2页 / 共17页
基于树核函数的人物关系抽取研究_第3页
第3页 / 共17页
基于树核函数的人物关系抽取研究_第4页
第4页 / 共17页
基于树核函数的人物关系抽取研究_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《基于树核函数的人物关系抽取研究》由会员分享,可在线阅读,更多相关《基于树核函数的人物关系抽取研究(17页珍藏版)》请在金锄头文库上搜索。

1、基于树核函数的人物关系抽取研究Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope。有生命必有希望。有生命必有希望提纲引言相关工作研究动机我们的方法实验结果与分析下一步工作引言人物关系抽取人物关系抽取人物关系抽取是实体关系抽取的一个重要分支,旨在抽取人名实体之间的各种社会关系。 例如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系(CONTACT)。研究意义研究意义WEB给我们提供了一个巨大的信息库,其中隐藏着大量用户感兴趣的实体及其相互关系。人物关系抽取技术对社会网络的构建、问答系统等均具有重要意义。相关工作基

2、于共现的方法:基于共现的方法: Kautz等(1997): Referral Web. Mika(2005): Flink.基于机器学习方法:基于机器学习方法: Matsuo等(2006):基于决策树的C4.5分类器。 姚从磊等(2007):基于模拟退火算法。 Jing等(2007):基于命名实体识别、关系检测、事件检测。 Elson 等 (2010):基于角色名称识别和对话检测。 Agarwal等(2011):基于社会交互事件检测。研究动机n存在的问题:目前针对人物关系抽取的研究一般只涉及特定的领域或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较单一。n现有条件:随着基于核函数的广

3、泛采用,实体关系抽取技术得到迅速发展并日臻成熟。n能否利用树核函数从新闻领域文本中抽取丰富的人物关系?如何提高其抽取性能?人物关系抽取方法人物关系定义人物关系定义静态人物关系:ACE语料原有定义的PER-SOC关系(Business, Family, Lasting-Personal)。动态人物关系:重新定义ACE的CONTACT事件(Meet, Phone-Write)为交互关系。基于树核函数的人物关系抽取方法基于树核函数的人物关系抽取方法结构化信息的构造同义词词林语义信息的融合重采样技术的应用结构化信息的构造删除实体并列结构删除实体并列结构(RMV_ENTITY_CC)当连接两个实体节点的

4、路径中出现并列结构时,可以删除其中的一个并列部分。删除删除NP并列结构(并列结构(RMV_NP_CC_NP)当连接两个NP节点的路径中出现并列结构时,保留最短路径所通过的那个并列部分。恢复右侧动词(恢复右侧动词(EXT_RIGHT_VERB)扩展第二个实体到最低公共节点之间出现的动词短语结构。结构化信息的构造(续)语义信息融合n语义信息对实体间语义关系的抽取具有重要的指导作用,我们在句法树中加入了两个实体词汇在同义词词林的语义编码信息。重采样技术的应用实验实验设置实验设置人物关系语料库包括关系正例880个,关系负例18599个。人物关系类型主要为PER-SOC类和CONTACT类。本文实验采用

5、五倍交叉验证策略。选择SVM作为分类器,采用的开源工具为支持卷积树核函数的SVMLight TK工具包。评估标准采用常用的准确率(P),召回率(R)和F1指标(F1)。本文采用近似随机技术进行显著性测试,并分别使用双下划线、单下划线和无下划线表示 p0.01、0.01p0.05和p0.05,即差异非常显著、显著和不显著。实验结果裁剪特征的影响裁剪规则PER-SOCContactTotalPRF1PRF1PRF1SPT(baseline)80.738.952.375.810.518.478.831.845.3+RMV_ENTITY_CC80.939.552.979.611.519.979.932

6、.546.1(80.9)(39.5)(52.9)(79.6)(11.5)(19.9)(79.9)(32.5)(46.1)+RMV_NP_CC_NP82.439.853.581.718.229.681.634.348.3(81.5)(38.4)(52.0)(83.3)(21.0)(33.5)(81.3)(34.0)(47.8)+EXT_RIGHT_VERB81.839.653.381.221.533.981.035.048.8(80.9)(38.3)(52.8)(62.0)(11.0)(18.6)(75.9)(32.6)(45.5)结论:1.三种裁剪策略对总体性能提升显著。2. Contact类

7、型的F1值明显低于PER-SOC类型,同时,其性能提升幅度大于PER-SOC类型。实验结果语义信息的影响词林类别PER-SOCContactTotalPRF1PRF1PRF1SPT-OPT(baseline)81.839.653.381.221.533.981.035.048.8SPT-OPT+CL_B81.938.151.881.823.536.281.234.348.1SPT-OPT+CL_M78.741.654.379.422.534.978.236.749.9SPT-OPT+CL_S81.441.054.481.122.935.680.536.450.1SPT-OPT+CL_WG81.

8、942.755.982.423.536.481.337.751.4SPT-OPT+CL_AWG81.542.956.381.724.437.581.538.151.8结论:1.随着语义信息颗粒度的逐步提高,F1总体性能不断增加。2. F1值的提高均来源于召回率的大幅提高。实验结果重采样技术的影响POS:NEGPER-SOCContactTotalPRF1PRF1PRF11:127.967.439.528.252.636.628.863.339.51:241.859.048.839.446.442.641.455.447.41:349.656.752.848.244.045.949.253.25

9、1.11:457.053.154.858.442.148.957.250.153.31:561.851.555.954.638.244.759.848.053.11:663.550.556.161.037.346.262.646.953.51:767.749.056.765.832.043.066.744.553.31:872.447.957.568.431.743.370.744.254.41:971.646.456.266.832.043.270.041.752.41:1071.946.756.568.527.338.970.741.752.41:1174.245.956.670.429.

10、741.572.741.652.81:12(baseline)81.542.956.381.724.437.581.538.151.8欠采样对人物关系抽取的影响实验结果重采样技术的影响过采样对人物关系抽取的影响POS:NEGPER-SOCContactTotalPRF1PRF1PRF11:12(baseline)81.542.956.381.724.437.581.538.151.82:1278.643.255.571.029.741.876.339.852.23:1277.945.357.272.034.046.175.842.354.34:1275.046.156.964.836.346.

11、472.143.654.25:1274.646.156.865.936.346.871.943.554.16:1274.746.557.264.035.945.871.743.854.37:1274.846.557.264.435.946.371.943.854.48:1274.846.857.764.636.846.871.944.354.79:1274.746.857.764.636.846.871.944.354.710:1274.746.857.764.636.846.871.944.354.711:1274.746.857.764.636.846.871.944.354.712:1274.746.857.764.636.846.871.944.354.7结论:1.欠采样和过采样的性能基本上都高于完全样本训练时的F1值。2.过采样的性能普遍高于欠采样,且在一定比例范围内维持基本不变。3.无论对于欠采样还是过采样,Contact类的性能提升明显高于PER-SOC类。下一步工作本文提出了一种基于树核的人物关系抽取方法。该方法同时使用了结构化信息裁剪、词林语义信息、重采样技术等策略。今后的工作:利用搜索引擎构建一个大规模的人物关系语料库,在提高中文句法分析性能的基础上,生成更准确和简洁的人物关系结构化信息,从而进一步提高人物关系抽取的性能。Thanks!Questions?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号