中文图书自动标引与自动分类实验

资源描述

《中文图书自动标引与自动分类实验》由会员分享，可在线阅读，更多相关《中文图书自动标引与自动分类实验（4页珍藏版）》请在金锄头文库上搜索。

1、中文图书自动标引与自动分类实验+ 顾燕萍王晓红申卫国兰锦生夏海明南京农业大学信息管理系近年来开发了基于中图法知识库的网页和期刊论文的中文信息自动标引和自动分类系统。本文重点介绍利用该系统进行图书的自动标引和自动分类的实验方案和结果。实验确定图书自动标引的标引源为题名、内容提要、目次、参考文献，并对这些标引源的主题表述能力进行了测试。实验表明，该系统用于图书的自动标引与自动分类是可行的。目前，中文文献标引大多采用手工标引和计算机辅助标引，面对每年巨大的文献出版量，手工标引逐渐暴露其缺点，诸如：检索效率低，标引不一致，标引深度小，大面积重复劳动，耗费大量的人力物力，严重影响我国文献

2、数据库建设的进展。因此，国内不少学者正在开发中文信息自动标引和自动分类的系统，以提高标引褥量，降低标引成本，提高建库速度；目前，国内新闻出版总署等单位研究的E C I P ( 电子在版编目) 已经取得了进展，但图书的主题标引和分类的自动化问题仍未解决。南京农业大学信息管理系近年来开发基于中图法知识库的中文信息自动标引和自动分类系统，此前已有薛鹏军”o 、仲云云“、赵妍”o 等人进行；i 网页、期刊论文等方面应用的研究。我们利用上述系统，进行了图书的自动标引和自动分类的实验，以测试该系统对图书的适用性，并确定图书自动标引的标引源和标引方案，以便进一步改进该系统。 1 基于中图法知识库

3、的自动标引和自动分类系统介绍该系统是一个基于中图法知识库的自动标引和自动分类系统，其中知识库是一个基于中图法的专家知识组织系统，包括了中图法库、汉表库、分类号一主题词对照库、同义词库等数据库，在此知识库的基础上，可以实现分类语言、主题语言和自然语言标引和检索的一体化，实现自动标引和自动分类。系统的技术路线是在确定基本信息标引源的基础上，运用基于词频的统计加权法，通过与分类号一主题词对应库主题词串的词面相似度计算，进而完成中文信息的分类标引。其具体实施步骤：( 1 ) 文本信息提取，即提取作为标引源的文本信息并放人数据库的不同字段备用；( 2 ) 词切分，即利用停用词库或半停用词

4、库，将长字符串分割成若干较短的子串；( 3 ) 提取关键词，即进行关键词抽词，抽词按正向最大匹配法进行分词，从而保证词长较大、专指的词汇 t 本文得到南京农业大学S R T 项目和南京农业大学信息科技学院研究项目的资助，在侯汉清教授指导下完成。 1 2 9 能够优先抽出；( 4 ) 确定主题词，即将标引词由关键词转化为主题词，同时进行标引词的词频权值统计、排序，从而完成主题标引；( 5 ) 在分类号一主题词对照库的作用下，采用词面相似度算法，将主题词( 或词串) 转化为相应的分类号，从而完成分类标引。 2 测试方案设计 2 1 测试的总体设计及其目标首先分析中文图书选取标引源，并确定

5、某一类图书为测试对象，同时收集所需的各项数据；其次拟定各标引源的权值及测试方案，然后利用自动标引与自动分类系统进行自动标引分类；最后对测试结果作统计分析。本次测试的目标是确定中文图书的标引源及其主题表达能力，确定标引方案，测试系统对中文图书的适用性并评价系统的性能，提出一些改进建议。 2 2 标引源的选取及图书电子数据的收集由于图书不同于报纸、期刊论文，它的篇幅通常比较长，至少百页以上，因而不宜将图书正文选作标引源。除正文外，一般图书还包括题名、目次、内容提要、前言( 序言) 、后记、参考文献等，因此我们经过调查分析，选取比较有代表性的几项一目次、题名、内容提要、参考文献作为标引

6、源。我们确定以经济类图书作为测试对象，通过随机抽取，获得5 0 0 本各琨数据完备的经济类国书，通过人王输入的方式，将所需的磊蹶数据录入数据表中对应的字段，建成一个 a c c e s s 数据库以备测试使用。 2 3 标引权值及标引方案韵确定将题名、内容提要、目次、参考文献确定为标引源后，我们先分析计算这些标引源的主题表达能力，进行权值确定时，借鉴赵妍等人在中文期刊论文自动标引加权设计中的加权方案，考虑图书本身的特点，将各标引源的权值设为5 ：4 ：4 ：3 。然后拟定待测试的标引方案，即单个标引方案和组合标引方案。其中，单个标引方案是选取单个标引源进行标引测试，组合标引方案是同

7、时选取几个标引源进行测试。后者采用了3 种组合标引方案，即：题名+ 内容提要，题名+ 内容提要+ 目次，题名+ 内容提要+ 目次+ 参考文献。 2 4 测试方案的实施及统计工作根据拟定的各种标引方案，我们利用自动标引和自动分类系统分别对数据进行了处理，得到了不同的测试结果。测试结果统计包括两部分：分类结果统计与主题词覆盖率统计。在进行分类结果统计时，把系统给出的分类号与人工分类的分类号作比较，将其分为4 种不同的情况( 只比较主类号，不考虑复分号) ：相同。分类号完全相符。基本相同。分类号前三级相同但不完全相符。不同。分类号完全不相符。未分。系统没有给出分类号。分类结果统计见表1

8、。 1 3 0 表1 分类结果统计表、分荑结果相同基本相同不同未分相同与基本相同的分标引方紊、数量比例数量比例数量比例数量比例类结果所占比例题名 2 0 34 0 6 7 5 1 5 O 1 1 8 2 3 6 1 0 4 2 0 8 5 5 6 内容提要 J S 23 6 4 9 3 1 8 6 1 1 3 2 2 6 1 1 22 2 4 5 5 O 目次 1 7 33 46 1 0 02 0 0 1 3 82 7 6 9 91 9 8 5 4 6 参考文献 1 5 83 1 6 1 0 62 1 2 1 6 03 2 0 7 61 5 2 5 28 题名+ 提要 1

9、9 63 9 2 9 61 9 2 1 1 82 3 6 9 01 8 0 5 8 4 题名+ 提要+ 1 9 43 8 8 1 0 4 2 08 1 3 4 2 6 8 6 81 3 6 5 9 6 目次题名+ 提要+ 2 1 24 2 4 9 2 1 8 4 1 4 62 9 2 5 01 00 6 0 8 目次+ 参考主题词覆盖率是指自动标引主题词与人工标引主题词相符的词的数量占人工标引主题词的总数的比例。例如：人工标引给出主题词数为3 ，而系统经自动标引给出主题词数为5 ，其中与人工标引主题词相符的词数有2 ，则主题词覆盖率为2 3 = 6 6 6 7 。这里作主题词比较时，

10、除词形完全相同外，还包括同义词和准同义词，统计的数据共4 1 0 个词。主题词覆盖率的统计样例县表2 ，由表2 的数据进一步得出主题词覆盖率分布情况( 见表3 ) 。表2 主题词覆盖率统计样例拆引方案题名+ 提要题名+ 提要十序粤、题名内容提要。目诙参考文献题名+ 提要 + 目次目次+ 参考 1 03 3 3 3 0 呻3 3 3 3 3 3 3 3 0 0 0 0 0 0 3 3 3 3 表3 主题词覆盖率范围分布情况( 覆盖率用x 表示) 0 目次参考文献。详细分析如下： ( 1 ) 根据表1 数据，标引方案为单个标引方案时，分类结果“相同”的数量最多的是题名，其次是内容

11、提要、目次、参考文献，因此我们认为题名是主题表达能力最强的一项。原因是题 1 3 1 名往往能较好地反映文献主题，当然也有一部分题名存在题不达义的现象，但表3 显示题名的主题覆盖率为1 1 3 0 的数量是最多的一项，主题词覆盖率在5 0 以上的达到了7 0 2 4 ，有力地说明了题名是主题表达能力最强的一项。 ( 2 ) 表1 中以参考文献单独作为标引源时，其分类结果中“相同”的数量远少于其他的各项，只有1 5 8 ，但是其分类结果“不同”的数量却是最多的；再结合表3 。中它的主题覆盖率分布情况，其覆盖率为1 0 0 的数量是最少的，虽然仅次于内容提要的1 6 1 和目次的1 6 3

12、，但是其覆盖率在5 0 之上所占比例是6 2 9 3 ，也是最小的。结合以上几点我们认为参考文献是所选标引源中主题表达能力最差的一项。 ( 3 ) 将内容提要与目次作比较，由表1 可知，以内容提要单独作为标引源时其分类结果 “相同”的有1 8 2 ，大于目次的1 7 3 ；而从分类结果“不同”所占的百分率来看，内容提要的 2 2 6 0 小于目次的2 7 6 0 ；从主题词覆盖率分布情况看，目次与内容提要情况基本相同，这说明两者主题表达能力基本相同。但考虑到分类结果的正确率以及内容提要一般多能较好地反映图书的主要内容等因素，我们认为内容提要韵主题表达能力大于目次。 ( 4 ) 分析几

13、个标引源组合方案的统计结果，从分类结果上看，我们发现同时选取4 个标引源时，与选取2 或3 个标引源相比其分类结果“相同”的数量是最多的；而组合标引方案与单个标引方案比较，其分类结果“相同”和”基本相同”的数量占总量的比例多高于单个标引方案。因此我们认为，在对图书进行自动标引与自动分类时，应选择多个标引源组合的标引方案，这种方案更能全面表达主题，提高标引与分类的准确率。、 4 结语通过测试和统计分析，我们对系统作出了以下两点评价与建议： ( 1 ) 测试结果中尚有一定比例的图书分类结果较差，属于“不同”和“未分”。经分析发现分类结果“不同”的其主题词覆盖率通常为o ，而“未分”的

14、则通常是系统给出的主题词( 或词串) 无法与知识库相匹配，因而无法给出分类号。这些主要是由分类号主题词对应表不完备造成的，导致了标引词串与知识库中的主题词串不能匹配，给不出分类号。因此建议进一步完善知识库中的各个词表，以提高分类的分得率和准确率。 ( 2 ) 表1 显示，能够给出分类结果并且达到“相同”和“基本相同”的占总数的比例在5 2 6 0 之间，目前已经可以用于计算机辅助标引和分类，即机器给出标引词和分类号后仍需标引员加以判别和补正。实验表明，基于中图法知识库的自动标引和自动分类系统现在用于图书是基本可行的，当然需要对系统作适当的调整和优化。本次测试限于时间未对原来用于期刊论文及网页处理的系统进行调整，测试数据也较少。今后应当扩大测试规模，扩大实验范围，以便进一步完善该系统。参考文献 1 侯汉清，薛鹏军基于知识库的网页自动标引和自动分类系统的设计大学图书馆学报，2 0 0 4 ( 1 ) 2 仲云云，侯汉清，薛鹏军网页自动标引方案的优选及标引性能的测评情报科学，2 0 0 2 ，2 0 ( 1 0 ) 3 赵妍等中文期刊论文自动标引加权设计研究新世纪图书馆，2 0 0 4 ( 1 ) 1 3 2

展开阅读全文

中文图书自动标引与自动分类实验

最新文档