中文图书自动标引与自动分类实验

上传人:E**** 文档编号:113631332 上传时间:2019-11-09 格式:PDF 页数:4 大小:153.39KB
返回 下载 相关 举报
中文图书自动标引与自动分类实验_第1页
第1页 / 共4页
中文图书自动标引与自动分类实验_第2页
第2页 / 共4页
中文图书自动标引与自动分类实验_第3页
第3页 / 共4页
中文图书自动标引与自动分类实验_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《中文图书自动标引与自动分类实验》由会员分享,可在线阅读,更多相关《中文图书自动标引与自动分类实验(4页珍藏版)》请在金锄头文库上搜索。

1、中文图书自动标引与自动分类实验+ 顾燕萍王晓红申卫国兰锦生夏海明 南京农业大学信息管理系近年来开发了基于中图法知识库的网页和期刊论文的中文 信息自动标引和自动分类系统。本文重点介绍利用该系统进行图书的自动标引和自动分类的 实验方案和结果。实验确定图书自动标引的标引源为题名、内容提要、目次、参考文献,并对这 些标引源的主题表述能力进行了测试。实验表明,该系统用于图书的自动标引与自动分类是 可行的。 目前,中文文献标引大多采用手工标引和计算机辅助标引,面对每年巨大的文献出版量, 手工标引逐渐暴露其缺点,诸如:检索效率低,标引不一致,标引深度小,大面积重复劳动,耗费 大量的人力物力,严重影响我国文献

2、数据库建设的进展。因此,国内不少学者正在开发中文信 息自动标引和自动分类的系统,以提高标引褥量,降低标引成本,提高建库速度;目前,国内新 闻出版总署等单位研究的E C I P ( 电子在版编目) 已经取得了进展,但图书的主题标引和分类的 自动化问题仍未解决。南京农业大学信息管理系近年来开发基于中图法知识库的中文信 息自动标引和自动分类系统,此前已有薛鹏军”o 、仲云云“、赵妍”o 等人进行;i 网页、期刊论 文等方面应用的研究。我们利用上述系统,进行了图书的自动标引和自动分类的实验,以测试 该系统对图书的适用性,并确定图书自动标引的标引源和标引方案,以便进一步改进该系统。 1 基于中图法知识库

3、的自动标引和自动分类系统介绍 该系统是一个基于中图法知识库的自动标引和自动分类系统,其中知识库是一个基于 中图法的专家知识组织系统,包括了中图法库、汉表库、分类号一主题词对照库、同义词库 等数据库,在此知识库的基础上,可以实现分类语言、主题语言和自然语言标引和检索的一体 化,实现自动标引和自动分类。 系统的技术路线是在确定基本信息标引源的基础上,运用基于词频的统计加权法,通过与 分类号一主题词对应库主题词串的词面相似度计算,进而完成中文信息的分类标引。其具体 实施步骤:( 1 ) 文本信息提取,即提取作为标引源的文本信息并放人数据库的不同字段备 用;( 2 ) 词切分,即利用停用词库或半停用词

4、库,将长字符串分割成若干较短的子串;( 3 ) 提取 关键词,即进行关键词抽词,抽词按正向最大匹配法进行分词,从而保证词长较大、专指的词汇 t 本文得到南京农业大学S R T 项目和南京农业大学信息科技学院研究项目的资助,在侯汉清教授指导 下完成。 1 2 9 能够优先抽出;( 4 ) 确定主题词,即将标引词由关键词转化为主题词,同时进行标引词的词频 权值统计、排序,从而完成主题标引;( 5 ) 在分类号一主题词对照库的作用下,采用词面相似度 算法,将主题词( 或词串) 转化为相应的分类号,从而完成分类标引。 2 测试方案设计 2 1 测试的总体设计及其目标 首先分析中文图书选取标引源,并确定

5、某一类图书为测试对象,同时收集所需的各项数 据;其次拟定各标引源的权值及测试方案,然后利用自动标引与自动分类系统进行自动标引分 类;最后对测试结果作统计分析。本次测试的目标是确定中文图书的标引源及其主题表达能 力,确定标引方案,测试系统对中文图书的适用性并评价系统的性能,提出一些改进建议。 2 2 标引源的选取及图书电子数据的收集 由于图书不同于报纸、期刊论文,它的篇幅通常比较长,至少百页以上,因而不宜将图书正 文选作标引源。除正文外,一般图书还包括题名、目次、内容提要、前言( 序言) 、后记、参考文 献等,因此我们经过调查分析,选取比较有代表性的几项一目次、题名、内容提要、参考文献 作为标引

6、源。我们确定以经济类图书作为测试对象,通过随机抽取,获得5 0 0 本各琨数据完备 的经济类国书,通过人王输入的方式,将所需的磊蹶数据录入数据表中对应的字段,建成一个 a c c e s s 数据库以备测试使用。 2 3 标引权值及标引方案韵确定 将题名、内容提要、目次、参考文献确定为标引源后,我们先分析计算这些标引源的主题表 达能力,进行权值确定时,借鉴赵妍等人在中文期刊论文自动标引加权设计中的加权方案,考 虑图书本身的特点,将各标引源的权值设为5 :4 :4 :3 。然后拟定待测试的标引方案,即单个标 引方案和组合标引方案。其中,单个标引方案是选取单个标引源进行标引测试,组合标引方案 是同

7、时选取几个标引源进行测试。后者采用了3 种组合标引方案,即:题名+ 内容提要, 题名+ 内容提要+ 目次,题名+ 内容提要+ 目次+ 参考文献。 2 4 测试方案的实施及统计工作 根据拟定的各种标引方案,我们利用自动标引和自动分类系统分别对数据进行了处理,得 到了不同的测试结果。测试结果统计包括两部分:分类结果统计与主题词覆盖率统计。在进 行分类结果统计时,把系统给出的分类号与人工分类的分类号作比较,将其分为4 种不同的情 况( 只比较主类号,不考虑复分号) :相同。分类号完全相符。基本相同。分类号前三级 相同但不完全相符。不同。分类号完全不相符。未分。系统没有给出分类号。分类结果 统计见表1

8、 。 1 3 0 表1 分类结果统计表 、分荑结果 相同基本相同不同未分相同与基本相同的分 标引方紊、 数量比例数量 比例 数量 比例 数量比例类结果所占比例 题名 2 0 34 0 6 7 5 1 5 O 1 1 8 2 3 6 1 0 4 2 0 8 5 5 6 内容提要 J S 23 6 4 9 3 1 8 6 1 1 3 2 2 6 1 1 22 2 4 5 5 O 目次 1 7 33 46 1 0 02 0 0 1 3 82 7 6 9 91 9 8 5 4 6 参考文献 1 5 83 1 6 1 0 62 1 2 1 6 03 2 0 7 61 5 2 5 28 题名+ 提要 1

9、9 63 9 2 9 61 9 2 1 1 82 3 6 9 01 8 0 5 8 4 题名+ 提要+ 1 9 43 8 8 1 0 4 2 08 1 3 4 2 6 8 6 81 3 6 5 9 6 目次 题名+ 提要+ 2 1 24 2 4 9 2 1 8 4 1 4 62 9 2 5 01 00 6 0 8 目次+ 参考 主题词覆盖率是指自动标引主题词与人工标引主题词相符的词的数量占人工标引主题词 的总数的比例。例如:人工标引给出主题词数为3 ,而系统经自动标引给出主题词数为5 ,其中 与人工标引主题词相符的词数有2 ,则主题词覆盖率为2 3 = 6 6 6 7 。这里作主题词比较时,

10、除词形完全相同外,还包括同义词和准同义词,统计的数据共4 1 0 个词。主题词覆盖率的统计 样例县表2 ,由表2 的数据进一步得出主题词覆盖率分布情况( 见表3 ) 。 表2 主题词覆盖率统计样例 拆引方案 题名+ 提要题名+ 提要十 序粤、 题名内容提要。目诙参考文献题名+ 提要 + 目次 目次+ 参考 1 03 3 3 3 0 呻3 3 3 3 3 3 3 3 0 0 0 0 0 0 3 3 3 3 表3 主题词覆盖率范围分布情况( 覆盖率用x 表示) 0 目次 参考文献。详细分析如下: ( 1 ) 根据表1 数据,标引方案为单个标引方案时,分类结果“相同”的数量最多的是题名, 其次是内容

11、提要、目次、参考文献,因此我们认为题名是主题表达能力最强的一项。原因是题 1 3 1 名往往能较好地反映文献主题,当然也有一部分题名存在题不达义的现象,但表3 显示题名的 主题覆盖率为1 1 3 0 的数量是最多的一项,主题词覆盖率在5 0 以上的达到了7 0 2 4 ,有力 地说明了题名是主题表达能力最强的一项。 ( 2 ) 表1 中以参考文献单独作为标引源时,其分类结果中“相同”的数量远少于其他的各 项,只有1 5 8 ,但是其分类结果“不同”的数量却是最多的;再结合表3 。中它的主题覆盖率分布 情况,其覆盖率为1 0 0 的数量是最少的,虽然仅次于内容提要的1 6 1 和目次的1 6 3

12、 ,但是其覆 盖率在5 0 之上所占比例是6 2 9 3 ,也是最小的。结合以上几点我们认为参考文献是所选 标引源中主题表达能力最差的一项。 ( 3 ) 将内容提要与目次作比较,由表1 可知,以内容提要单独作为标引源时其分类结果 “相同”的有1 8 2 ,大于目次的1 7 3 ;而从分类结果“不同”所占的百分率来看,内容提要的 2 2 6 0 小于目次的2 7 6 0 ;从主题词覆盖率分布情况看,目次与内容提要情况基本相同,这 说明两者主题表达能力基本相同。但考虑到分类结果的正确率以及内容提要一般多能较好地 反映图书的主要内容等因素,我们认为内容提要韵主题表达能力大于目次。 ( 4 ) 分析几

13、个标引源组合方案的统计结果,从分类结果上看,我们发现同时选取4 个标引 源时,与选取2 或3 个标引源相比其分类结果“相同”的数量是最多的;而组合标引方案与单 个标引方案比较,其分类结果“相同”和”基本相同”的数量占总量的比例多高于单个标引方 案。因此我们认为,在对图书进行自动标引与自动分类时,应选择多个标引源组合的标引方 案,这种方案更能全面表达主题,提高标引与分类的准确率。 、 4 结语 通过测试和统计分析,我们对系统作出了以下两点评价与建议: ( 1 ) 测试结果中尚有一定比例的图书分类结果较差,属于“不同”和“未分”。经分析发现 分类结果“不同”的其主题词覆盖率通常为o ,而“未分”的

14、则通常是系统给出的主题词( 或 词串) 无法与知识库相匹配,因而无法给出分类号。这些主要是由分类号主题词对应表 不完备造成的,导致了标引词串与知识库中的主题词串不能匹配,给不出分类号。因此建议进 一步完善知识库中的各个词表,以提高分类的分得率和准确率。 ( 2 ) 表1 显示,能够给出分类结果并且达到“相同”和“基本相同”的占总数的比例在5 2 6 0 之间,目前已经可以用于计算机辅助标引和分类,即机器给出标引词和分类号后仍需标 引员加以判别和补正。实验表明,基于中图法知识库的自动标引和自动分类系统现在用于 图书是基本可行的,当然需要对系统作适当的调整和优化。 本次测试限于时间未对原来用于期刊论文及网页处理的系统进行调整,测试数据也较少。 今后应当扩大测试规模,扩大实验范围,以便进一步完善该系统。 参考文献 1 侯汉清,薛鹏军基于知识库的网页自动标引和自动分类系统的设计大学图书馆学报,2 0 0 4 ( 1 ) 2 仲云云,侯汉清,薛鹏军网页自动标引方案的优选及标引性能的测评情报科学,2 0 0 2 ,2 0 ( 1 0 ) 3 赵妍等中文期刊论文自动标引加权设计研究新世纪图书馆,2 0 0 4 ( 1 ) 1 3 2

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号