大学基于词典和WEB资源的词汇关系抽取ppt课件

上传人:博****1 文档编号:578532050 上传时间:2024-08-24 格式:PPT 页数:28 大小:497KB
返回 下载 相关 举报
大学基于词典和WEB资源的词汇关系抽取ppt课件_第1页
第1页 / 共28页
大学基于词典和WEB资源的词汇关系抽取ppt课件_第2页
第2页 / 共28页
大学基于词典和WEB资源的词汇关系抽取ppt课件_第3页
第3页 / 共28页
大学基于词典和WEB资源的词汇关系抽取ppt课件_第4页
第4页 / 共28页
大学基于词典和WEB资源的词汇关系抽取ppt课件_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《大学基于词典和WEB资源的词汇关系抽取ppt课件》由会员分享,可在线阅读,更多相关《大学基于词典和WEB资源的词汇关系抽取ppt课件(28页珍藏版)》请在金锄头文库上搜索。

1、基于词典和基于词典和WEB资源的词汇关系抽资源的词汇关系抽取取词汇关系大纲引言同义词抽取资源中文概念词典CCD哈工大同义词词林扩展版百度百科百度翻译+有道翻译同义词抽取流程下位词抽取资源中文概念词典CCD百度百科互动百科维基百科百度相关搜索下位词抽取流程实验结果引言同义词和下位词的发如今自然言语处置领域中对信息检索,机器翻译等领域的研讨有重要的意义。传统的同义词和下位词的发现是基于词典知识库,如中文概念词典,同义词词林等知识库。随着Web的开展,网络上出现了大量的资源知识库。例如“百度百科、“有道翻译、“维基百科等Web资源。把传统的词典和Web资源各自优势进展结合,将会更加有效的抽取词汇关系

2、。1 同义词抽取资源同义词抽取资源中文概念词典CCD哈工大同义词词林扩展版百度百科百度翻译+有道翻译1.1 中文概念词典中文概念词典CCDCCD是一个WordNet类型的汉英双语语义词典,从关系语义学的观念出发,以同义词集(Synset)定义概念(concept),在概念之间定义关系(relation)来描画语义1.2 哈工大同义词词林哈工大同义词词林在原有的三层分类体系上添加两层,得到最终过的五层分类体系,独一的代表词典中出现词语的编码如: Ba01A02= 物质 质 素Cb02A01= 东南西北 四方Ba01A03 万物Cb06E09 民间Ba01B08# 固体 液体 气体 流体 半流体B

3、a01B10# 导体 半导体 超导体以上词语编码中第八位编码的标志“=、“、“#,“=代表“相等、“同义,“代表“自我封锁,“#代表“不等、“同类。1.3 百度百科百度百科(1/4)根据特征词进展方式识别,其中查询词用W(w),特征词用S(w)表示,其在百科中的同义词用T(w)表示,抽取的方式有: 1 W(w)+S(w)+T(w) 例如:“埃菲尔铁塔百科中内容:埃菲尔铁塔又译“艾菲尔铁塔是法国巴黎著名铁塔,坐落在塞纳河南岸马尔斯广场的北端。以上内容中查询词W(w):“埃菲尔铁塔,特征词S(w):“又译,同义词T(w):“艾菲尔铁塔 1.3 百度百科百度百科(2/4)2 T(w)+S(w)+W(

4、w)例如:“澳大利亚的百科内容中:澳大利亚联邦The Commonwealth of Australia简称澳大利亚Australia。以上内容中T(w):澳大利亚联邦,S(w):简称,W(w):澳大利亚1.3 百度百科百度百科(3/4)3 W(w)+T(w)+S(w)例如:“牦牛的百科内容中:牦牛.有“高原之舟之称。以上内容中W(w):牦牛,T(w):高原之舟,S(w):之称。1.3 百度百科百度百科(4/4)4 W(w)和T(W)是同义词,已合并。例如:“奥林匹克村百度百科中内容:奥林匹克村和奥运村是同义词,已合并。 以上内容中W(w):奥林匹克村,T(w):奥运村。1.4 百度翻译百度翻

5、译+有道翻译有道翻译经过百度翻译将同义词词汇进展翻译,如图1:图1 百度翻译词汇1.5 有道翻译有道翻译有道在线翻译将同义词词汇的英语进展翻译,如图2:图2 有道在线翻译2 同义词流程图同义词流程图2 同义词流程图同义词流程图例如:“安睡在CCD中的CSynset字段为“安睡 熟睡 睡 着 睡觉 熟睡2 同义词流程图同义词流程图例如:“抚慰在同义词词林中对应编码为“Ga07A01和“Hi35A01对应的内容2 同义词流程图同义词流程图例如:澳大利亚联邦The Commonwealth of Australia简称澳大利亚Australia。2 同义词流程图同义词流程图例如:奥林匹克村和奥运村是

6、同义词,已合并。 2 同义词流程图同义词流程图例如:“阿肯色州对应的英语为“Arkansas,经过有道翻译之后的结果为:-阿肯色州 +阿肯色 +阿肯色大学 +美国阿肯色州 3 下位词抽取资源下位词抽取资源中文概念词典CCD百度百科互动百科维基百科百度相关搜索3.1中文概念词典中文概念词典CCDCCD主要的语义关系有同义关系、反义关系、下位关系、整体部分关系等。在进展下位词的抽取中主要运用CCD的下位关系对下位词的抽取。3.2百度百科百度百科百度百科中分类的获取经过“tag:同义词词汇,如图3:图3 “平安软件百度百科标签分类3.3 互动百科互动百科互动百科分类标签,如图4:图4 “平安软件互动

7、百科分类3.4 维基百科维基百科维基百科分类标签,如图5:图5 “平安软件维基百科分类3.5 百度搜索百度搜索百度搜索相关搜索内容,如图6:图6 “平安软件相关搜索4 下位词流程图下位词流程图5 实验结果实验结果5.1 同义词结果宏平均宏平均准确率准确率宏平均宏平均召回率召回率宏平均宏平均F1值值微平均微平均准确率准确率微平均微平均召回率召回率微平均微平均F1值值ZZU10.29750.64230.35980.25300.67920.3687ZZU20.32560.69610.39270.25410.70720.3738MAX0.35880.69610.39840.30250.70720.41065 实验结果实验结果5.2 下位词结果宏平均宏平均准确率准确率宏平均宏平均召回率召回率宏平均宏平均F1值值微平均微平均准确率准确率微平均微平均召回率召回率微平均微平均F1值值ZZU10.56030.33210.37420.64920.35180.4563ZZU20.61190.59880.56050.62330.50450.5576MAX0.61190.59880.56050.78270.50450.5596谢谢大家

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号