《面向中文网络百科的属性和属性值抽取PPT课件》由会员分享,可在线阅读,更多相关《面向中文网络百科的属性和属性值抽取PPT课件(15页珍藏版)》请在金锄头文库上搜索。
1、面向中文网络百科的属性和属面向中文网络百科的属性和属性值抽取性值抽取汇报人:贾真汇报人:贾真20132013 . 11 . 18. 11 . 18 2实验分析实验分析4主要算法主要算法3方法概述方法概述2相关定义相关定义1 报告内容报告内容3句子序列句子序列p 句子序列是由一系列二元组组成的有序序列。p S=,其中,wi表示词语,ti表示wi的词性标注或实体标注。K元模式元模式p 由k个词语、词性标注或实体标注组成的有序序列p Pk= ,其中,xi表示词语、词性标注或实体标注。 置信度置信度p 词语(或短语)与命名实体标注之间的关联程度相关定义相关定义14实验分析实验分析4主要算法主要算法3相
2、关定义相关定义1方法概述方法概述2 报告内容报告内容5对文本进行分词、分句等自然语言预处理将属性值看做命名实体,通过频繁模式挖掘和关联分析获取属性采用自扩展方法获取属性触发词机制机制文本预处理文本预处理属性抽取属性抽取触发词抽取触发词抽取模式挖掘模式挖掘利用触发词自动获取模式,基于聚类算法过滤可信度低的模式属性值抽取属性值抽取利用模式从文本中抽取属性值方法概述方法概述26实验分析实验分析4相关定义相关定义1主要算法主要算法3方法概述方法概述2 报告内容报告内容7 算法1 k元模式提取算法输入输入:k;句子序列集合Sset=S1, S2, ., Sn;窗口W;词性POS集;命名实体标注集ENE;
3、输出输出:k元模式集合Pkset 算法2 词语语义相似度计算输入:输入:经过细粒度分词后的种子Seed=seg1, seg2, segn ;同义词词典Syndictionary ;输出:输出:扩充种子集合Seedsynset主要算法主要算法38 算法3 触发词提取算法输入输入:扩充种子词集合Seedsynset;属性值命名实体标注pos; k元模式集合Pkset与支持度计数;评分阈值min_score;相似度权重系数; 置信度权重系数; 匹配系数; 位置系数 输出:输出:属性触发词集合Trigger. 算法4 模式聚类算法输入:输入:候选模式集合Pattern;相似度阈值min_sim;簇中模
4、式最小个数min_count;模式最小支持度计数min_supp输出:输出:聚类后得到的簇Cluster=cluster1, cluster2, 主要算法主要算法39主要算法主要算法3相关定义相关定义1实验分析实验分析4方法概述方法概述2 报告内容报告内容10实验分析实验分析4六类六类乡镇乡镇工厂工厂行政村行政村大学大学中小学中小学公司公司约约6万个万个百科条目百科条目数据集数据集预处理工具预处理工具西南交通大学耶宝智慧中文分词平台西南交通大学耶宝智慧中文分词平台http:/11属性抽取属性抽取实验分析实验分析4类别准确率属性示例大学73.67%学校地址,建校年代,在校学生,现有教职工,纸质图
5、书,本科学制,专任教师,学校占地面积,校舍建筑面积,校长中小学 72.43%学校地址,学校占地面积,始建于,现有教职工,联系人,现有教学班,一级教师,校长,二级教师,建筑总面积乡镇65.46%位于,总面积,总人口,农民人均纯收入,辖行政村,总户数,主产,非农业人口,农业总产值,人均耕地面积行政村 69.17%位于,隶属于,人均耕地,外出务工,主要种植,农户数,年平均气温,农田面积,农村经济总收入,种植业收入工厂81.47%员工人数,法定代表人,地址,成立时间,年营业额,厂房面积,月产量,年出口额,注册资本,联系人公司82.23%实现销售收入,公司总部位于,董事长,成立日期,注册地址,集团董事局
6、主席,集团总裁,员工,股票代码,营业收入表1 类别属性抽取准确率与属性示例12属性值抽取属性值抽取实验分析实验分析4属性属性值总个数准确率召回率F值学校地址397981.23%80.33%80.78%建校年代410376.26%81.76%78.91%在校学生1336151.45%90.43%65.59%现有教职工265753.02%90.78%66.94%纸质图书350377.35%86.11%81.50%本科学制350874.57%90.02%81.57%专任教师800561.39%85.78%71.56%学校占地面积58171.96%88.66%79.44%校舍建筑面积50866.89%
7、90.75%77.01%校长184076.06%72.13%74.04%表2 大学类别属性值抽取结果13属性值抽取属性值抽取实验结果实验结果4类别宏平均准确率宏平均召回率宏平均F值大学69.02%85.68%77.35%中小学71.23%87.68%79.46%乡镇69.44%88.76%79.10%行政村71.76%89.27%80.52%工厂75.63%91.54%83.59%公司72.49%90.03%81.26%表3 类别属性值抽取结果14进一步提高属性值抽取的准确率和召回率,进一步提高属性值抽取的准确率和召回率,构建能够面向实际应用的中文网络百科知识构建能够面向实际应用的中文网络百科知识获取系统获取系统。今后今后努力方向努力方向15