用于中文信息自动分类的《中图法》知识库的构建

上传人:飞*** 文档编号:48497154 上传时间:2018-07-16 格式:PPT 页数:18 大小:301.50KB
返回 下载 相关 举报
用于中文信息自动分类的《中图法》知识库的构建_第1页
第1页 / 共18页
用于中文信息自动分类的《中图法》知识库的构建_第2页
第2页 / 共18页
用于中文信息自动分类的《中图法》知识库的构建_第3页
第3页 / 共18页
用于中文信息自动分类的《中图法》知识库的构建_第4页
第4页 / 共18页
用于中文信息自动分类的《中图法》知识库的构建_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《用于中文信息自动分类的《中图法》知识库的构建》由会员分享,可在线阅读,更多相关《用于中文信息自动分类的《中图法》知识库的构建(18页珍藏版)》请在金锄头文库上搜索。

1、用于中文信息自动分类的 中图法知识库的构建 侯汉清 薛春香 H南京农业大学信息科技学院全国第四次情报检索语言发展方向 研讨会上海(2005年6月6-7日)大纲v基于中图法知识库的自动标引与自 动分类系统演示v中图法知识库构建中图法知识库构建原理中图法知识库结构中图法知识库构建步骤中图法知识库功能全国第四次情报检索语言发展方向 研讨会系统流程图关键词序列待处理文本格式自动 检测与转换预处理文本自动分词自动分词后文本自动抽词加权词频 统计,排序标引词串语义相似度匹配分类知识库抽词词典停用词典对应主题词串 最佳分类号权重方案义类词典经规范处理的 主题词串同义词表辅助分类库标引经验库预处理规范标引经验

2、库类号关键词串对应 表兴趣度过滤相关度度量知识库构建自动标引自动分类基于中图法知识库的自动标引和自动分类系统处理流程全国第四次情报检索语言发展方向 研讨会中图法知识库构建原理和前提v理论保障:分类检索语言、主题检索语言、自然语言是三种 不同的情报语言系统,虽然标识和组织方式各不相同,但是本质上是 一样的,都是一种主题概念标识系统,分类号、主题词、关键词三者 之间存在隐含的概念对应关系,即兼容互换关系。分类检索语言主题检索语言自然语言分类号主题词关键词v语料保障:中文文献数据库中存在大量的人工标引记录, 如上海库、重庆库、清华库、万方库全国第四次情报检索语言发展方向 研讨会中图法体系结构中图法分

3、类号主题词对应表汉表索引复分表主表索引款目类目 主题类 号。 。 。 中国时代表 国际时代表 中国地区表 世界地区表 总论复分表类目类目词复分号类号 类名类级注释参见主题词款目主表主题 词代项属项参项用项分项分 类 号主 题 词 串图1 中图法的结构全国第四次情报检索语言发展方向 研讨会主题标引库主分类知识库辅助分类库停 用 词 表抽 词 词 典义 类 词 典同 义 词 表词素语义代码关键 词停 用 词主题 词关键词串类号中 图 法 索 引中分表标引数据地名表时代表文 献 类 型 表地名词、时代 词、文献类型 词复分号图2 中图法知识库的结构主题词串文献数据库中图法知识库的结构全国第四次情报检

4、索语言发展方向 研讨会中图法知识库构建步骤(一)v数据收集: 中图法索引(类号 类名词) 中分表(类号 主题词) 规范标引数据,如北图、上图的MARC数据(类号 主题词串) 自由标引数据,如维普库(类号 散标自由词) 题名库(类号 题名中关键词)全国第四次情报检索语言发展方向 研讨会v数据预处理 过滤错误数据 过滤重复数据 统一编码 统一格式v分面处理中图法知识库构建步骤(二)类号词串 F327.74地区开发农业经济 云南报告类号词串地名时代类型F327地区开发农业经 济云南报告全国第四次情报检索语言发展方向 研讨会v权值排序中图法知识库构建步骤(三)类号关键词 串 F123.16 (宏观经济

5、 管理 )社会主义市场经济 宏观经济 管理权值计算类号F123.16 关键词社会主义市场经济宏观经济 管理权值0.6090.9461.143排序结果类号关键词 串 F123.16宏观经济 管理市场经济 社会主义 排序前全国第四次情报检索语言发展方向 研讨会v兴趣度过滤中图法知识库构建步骤(四)支持度:反映了类号和词串的共现频度,共现频度越 高表示越多的标引员认可这种概念对应关系置信度:表示该类号与该词串具备概念对应关系的概 率。全国第四次情报检索语言发展方向 研讨会vDice测度解决类号与词串之间多对一和多对 多的关系中图法知识库构建步骤(四)string 1string 2string Nc

6、lass number Aclass number Cclass number B全国第四次情报检索语言发展方向 研讨会v确定分类知识库规模中图法知识库构建步骤(四)知识库分类知识库规 模类目总数抽词词 典ABD47228381361322 C3610847821139 E30843131919569 F631522710141433 G21128221046700 H57001152726211 I12380126331682 J13617159121814 K12882213149103全国第四次情报检索语言发展方向 研讨会分类知识库示例全国第四次情报检索语言发展方向 研讨会中图法知识库的

7、功能v自动主题标引,包括抽词标引和赋词标引v自动分类标引v概念检索和多途径检索v潜在功能:修订分类法、词表;构建新的 分类法;作为兼容互换工具。 示例:题名:阿根廷里奥银行因资 金不足面临支付危机主题自动标引为:银行+26资金+14支付危机+14桑坦德集团+6银行集团+5地名自动标引为:布宜诺斯艾利斯+4中图法自动分类: F83地名自动分类: (783) 全国第四次情报检索语言发展方向 研讨会中图法知识库自动标引与自动分类性能评测 (封闭测试)全国第四次情报检索语言发展方向 研讨会中图法知识库自动标引与自动分类性能评测 (开放测试)全国第四次情报检索语言发展方向 研讨会需进一步解决的问题v中图法知识库的完备性问题v中图法知识库的及时更新问题v推理规则的确定全国第四次情报检索语言发展方向 研讨会谢谢!全国第四次情报检索语言发展方向 研讨会

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号