基于树核函数的人物关系抽取研究

上传人:ldj****22 文档编号:50691507 上传时间:2018-08-10 格式:PPT 页数:17 大小:1.13MB
返回 下载 相关 举报
基于树核函数的人物关系抽取研究_第1页
第1页 / 共17页
基于树核函数的人物关系抽取研究_第2页
第2页 / 共17页
基于树核函数的人物关系抽取研究_第3页
第3页 / 共17页
基于树核函数的人物关系抽取研究_第4页
第4页 / 共17页
基于树核函数的人物关系抽取研究_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《基于树核函数的人物关系抽取研究》由会员分享,可在线阅读,更多相关《基于树核函数的人物关系抽取研究(17页珍藏版)》请在金锄头文库上搜索。

1、基于树核函数的人物关系抽取研究彭成 钱龙华 周国栋报告人:彭成苏州大学自然语言处理实验室http:/ CONTACT)。研究意义WEB给我们提供了一个巨大的信息库,其中隐藏着大量用户感兴趣的实体及其相互关系。人物关系抽取技术对社会网络的构建、问答系统等均具有重要意义。相关工作基于共现的方法:Kautz等(1997): Referral Web.Mika(2005): Flink.基于机器学习方法:Matsuo等(2006):基于决策树的C4.5分类器。姚从磊等(2007):基于模拟退火算法。Jing等(2007):基于命名实体识别、关系检测、事件检测。Elson 等 (2010):基于角色名称

2、识别和对话检测。Agarwal等(2011):基于社会交互事件检测。研究动机n 存在的问题:目前针对人物关系抽取的研究一般只涉及特定的领域 或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较 单一。n 现有条件:随着基于核函数的广泛采用,实体关系抽取技术得到迅 速发展并日臻成熟。n 能否利用树核函数从新闻领域文本中抽取丰富的人物关系?如何提 高其抽取性能?人物关系抽取方法人物关系定义 静态人物关系:ACE语料原有定义的PER-SOC关系(Business, Family, Lasting-Personal)。 动态人物关系:重新定义ACE的CONTACT事件(Meet, Phone-W

3、rite)为交互关系。基于树核函数的人物关系抽取方法 结构化信息的构造 同义词词林语义信息的融合 重采样技术的应用结构化信息的构造删除实体并列结构(RMV_ENTITY_CC)当连接两个实体节点的路径中出现并列结构时,可以删除其中的一个并列部分。删除NP并列结构(RMV_NP_CC_NP)当连接两个NP节点的路径中出现并列结构时,保留最短路径所通过的那个并列部分。恢复右侧动词(EXT_RIGHT_VERB)扩展第二个实体到最低公共节点之间出现的动词短语结构。结构化信息的构造(续)语义信息融合n 语义信息对实体间语义关系的抽取具有重要的指导作用,我们在句法树 中加入了两个实体词汇在同义词词林的语

4、义编码信息。重采样技术的应用实验实验设置 人物关系语料库包括关系正例880个,关系负例18599个。人物关系类 型主要为PER-SOC类和CONTACT类。 本文实验采用五倍交叉验证策略。 选择SVM作为分类器,采用的开源工具为支持卷积树核函数的 SVMLight TK工具包。 评估标准采用常用的准确率(P),召回率(R)和F1指标(F1)。 本文采用近似随机技术进行显著性测试,并分别使用双下划线、单下 划线和无下划线表示 p0.01、0.01p0.05和p0.05,即差异非常显著、显著和不显著。实验结果裁剪特征的影响裁剪规则PER-SOCContactTotalPRF1PRF1PRF1SPT

5、(baseline)80.738.952.375.810.518.478.831.845.3 +RMV_ENTITY_C C80.939.552.979.611.519.979.932.546.1(80.9)(39.5)(52.9)(79.6)(11.5)(19.9)(79.9)(32.5)(46.1) +RMV_NP_CC_NP82.439.853.581.718.229.681.634.348.3(81.5)(38.4)(52.0)(83.3)(21.0)(33.5)(81.3)(34.0)(47.8) +EXT_RIGHT_VE RB81.839.653.381.221.533.981.

6、035.048.8(80.9)(38.3)(52.8)(62.0)(11.0)(18.6)(75.9)(32.6)(45.5)结论: 1.三种裁剪策略对总体性能提升显著。 2. Contact类型的F1值明显低于PER-SOC类型,同时,其性能提升 幅度大于PER-SOC类型。实验结果语义信息的影响词林类别PER-SOCContactTotalPRF1PRF1PRF1SPT-OPT(baseline)81.839.653.381.221.533.981.035.048.8SPT-OPT+CL_B81.938.151.881.823.536.281.234.348.1SPT-OPT+CL_M78

7、.741.654.379.422.534.978.236.749.9SPT-OPT+CL_S81.441.054.481.122.935.680.536.450.1SPT-OPT+CL_WG81.942.755.982.423.536.481.337.751.4SPT-OPT+CL_AWG81.542.956.381.724.437.581.538.151.8结论: 1.随着语义信息颗粒度的逐步提高,F1总体性能不断增加。 2. F1值的提高均来源于召回率的大幅提高。实验结果重采样技术的影响POS:NEGPER-SOCContactTotal PRF1PRF1PRF1 1:127.967.43

8、9.528.252.636.628.863.339.5 1:241.859.048.839.446.442.641.455.447.4 1:349.656.752.848.244.045.949.253.251.1 1:457.053.154.858.442.148.957.250.153.3 1:561.851.555.954.638.244.759.848.053.1 1:663.550.556.161.037.346.262.646.953.5 1:767.749.056.765.832.043.066.744.553.3 1:872.447.957.568.431.743.370.74

9、4.254.4 1:971.646.456.266.832.043.270.041.752.4 1:1071.946.756.568.527.338.970.741.752.4 1:1174.245.956.670.429.741.572.741.652.8 1:12(baseline)81.542.956.381.724.437.581.538.151.8欠采样对人物关系抽取的影响实验结果重采样技术的影响过采样对人物关系抽取的影响POS:NEGPER-SOCContactTotal PRF1PRF1PRF1 1:12(baseline)81.542.956.381.724.437.581.5

10、38.151.8 2:1278.643.255.571.029.741.876.339.852.2 3:1277.945.357.272.034.046.175.842.354.3 4:1275.046.156.964.836.346.472.143.654.2 5:1274.646.156.865.936.346.871.943.554.1 6:1274.746.557.264.035.945.871.743.854.3 7:1274.846.557.264.435.946.371.943.854.4 8:1274.846.857.764.636.846.871.944.354.7 9:12

11、74.746.857.764.636.846.871.944.354.7 10:1274.746.857.764.636.846.871.944.354.7 11:1274.746.857.764.636.846.871.944.354.7 12:1274.746.857.764.636.846.871.944.354.7结论: 1.欠采样和过采样的性能基本上都高于完全样本训练时的F1值。 2.过采样的性能普遍高于欠采样,且在一定比例范围内维持基本不变。 3.无论对于欠采样还是过采样,Contact类的性能提升明显高于PER-SOC类 。下一步工作 本文提出了一种基于树核的人物关系抽取方法。 该方法同时使用了结构化信息裁剪、词林语义信息、重 采样技术等策略。 今后的工作:利用搜索引擎构建一个大规模的人物关系 语料库,在提高中文句法分析性能的基础上,生成更准 确和简洁的人物关系结构化信息,从而进一步提高人物 关系抽取的性能。Thanks!Questions?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号