文档详情

第3章信息检索的方法和技术讲义教材

youn****329
实名认证
店铺
PPT
532KB
约17页
文档ID:242317355
第3章信息检索的方法和技术讲义教材_第1页
1/17

第3章 信息检索的方法和技术3.1 信息检索方法3.2 信息检索途径3.3 信息检索步骤3.4 信息检索效果评价3.5 信息检索技术3.1 信息检索方法 依据信息检索手段划分,信息检索方法通常可以分为手工检索和计算机检索两大类,如图3-1所示信息检索方法手工检索计算机检索追溯法工具法综合法命令检索菜单检索超文本检索超媒体检索图3-1 信息检索方法 1.手工检索方法 是指直接利用印刷型检索工具进行信息检索的方法,包括直接检索一次信息源的“直接检索”方式和利用手工检索工具获取信息线索的“间接检索”方式前者一般较少采用后者又可分为以下三种 (1)追溯法:在已获得一些所需文献的基础上,再依据文后所附“引用参考文献”信息追溯检索相关信息又称引文法 (2)工具法:首先利用传统检索工具获取所需信息线索,再依据所获线索查找原始文献全文,也称常规法,是最主要的检索方法依据课题需求对文献时限的要求,又可分为:顺查法倒查法抽查法 (3)综合法:将工具法和追溯法结合起来,交替使用,又称分段法、交替法或循环法按照具体应用又可分为:间隔交替法复合交替法 3.2 信息检索途径 依据文献外部特征和内容特征的不同标识,各种信息检索途径如图3-2所示。

检索途径文献外部特征文献内容特征著者途径题名途径机构途径代码途径信息源类型途径其它途径分类途径主题途径关键词途径 图3-3 信息检索途径1.根据文献外部特征的检索途径 (1)著者途径:使用著者索引(或字段)检索与某个著者相关的信息内容 (2)题名途径:利用题名索引(或字段)查找所需信息题名包括信息标题名(或篇名)、书名或刊名、标准名、文档名、数据库名等 (3)机构途径:在机构索引(或字段)中检索与特定机构名称相关的信息机构名称包括著者所在单位、书刊的出版发行者、数据库的研发生产者、特定网络系统的维护者以及有关信息服务单位的名称等等 (4)代码途径:从特定代码(或字段)入手检索所需信息,如ISBN、ISSN、专利号(或申请号、公开号)、报告号、合同号、馆藏号、文档号和IP地址等 (5)信息源类型途径:将具体信息所属的特定信息集合的类型作为检索入口的途径检索时需使用相应的辅助索引,例如:会议索引、图书索引、专利索引等 (6)其它检索途径:根据某些信息的特殊标识进行检索的方法 例如化学分子式、地域名称、生物属种、图案色彩等2.根据信息内容特征的检索途径 (1)分类途径:以学科性质和内容的相应类目和类号为特征标识来检索所需信息的途径。

检索时依据所需信息的学科属性,在相应检索工具的“分类目录”或“分类索引”中查找分类途径有助于族性检索和查全率的提高 (2)主题途径:以课题内容的主题性质进行检索其最大优点是易于掌握、概念集中、组配灵活,是最优最主要的检索途径 (3)关键词途径:在关键词索引(或字段)中检索所需信息关键词组配灵活、不需规范,使用方便单击此处编辑母版标题样式单击此处编辑母版副标题样式*93.3 信息检索步骤n 1. 检索策略 要完成某项课题的检索,需要分若干步骤执行检索步骤的科学组织和合理安排称为检索策略如图3-3所示需求课题用户主题分析选择检索系统确定检索工具具体操作制定检索表达式选择检索途径结果输出检索结束用户评价图3-3 检索步骤2. 检索步骤 (1)课题主题分析:是整个检索策略的基础,也是检索效率高低的关键,目的是明确信息需求的一些相关事项主要包括5个方面:信息需求涉及到的主题概念及其关系;信息需求的学科属性;所需信息的内容特征和外部特征;信息需求的类型;对查新、查准、查全、检索速度和检索费用的指标要求 (2)选择检索系统:需要明确检索系统是综合性的还是专业性的,是手工的还是计算机的 (3)确定检索工具:检索工具有综合性的也有专业性的;有手工的也有光盘的、联机的和网络的;有题录的和文摘的,也有全文的。

(4)选择检索途径:一般优先选择主题词和关键词途径,其次是分类途径;若已知著者、题名等,则可直接依据相应途径检索 (5)制定检索表达式:检索表达式是人与检索系统交流的入口语言,是检索步骤中最重要的一环;检索表达式分为下述两种: 简单表达式:单独使用一个检索词进行检索在手工检索中全部使用简单表达式,在计算机检索中简单表达式指使用单个字段属性值进行的检索 复合表达式:两个以上的检索词通过特定的算符组合而成专门应用于计算机检索系统 (6)执行具体检索操作及结果输出 (7)用户评价:主要在查新、查全、查准、有效性等方面作出评价3.4 信息检索效果评价 检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义检索效果包括技术效果和经济效果两方面,技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的;经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所确定的一些指标不仅可作定性的、也可作定量的评价,它们针对的是检索系统,也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素。

有6项评价检索效果的指标,它们由克兰弗登(Cranfield)在分析用户基本要求的基础上提出的,包括:收录范围、查全率、查准率、响应时间、用户负担及输出形式 在检索实践中,评价检索效果的基本指标有以下几种:查全率(Recall ratio)用R表示查准率(Precision ratio)用P表示漏检率(Omission ratio)用O表示误检率(Fall-out ratio)用F表示新颖率(Novelty ratio)用N表示有效性(Availability ratio)用A表示检索速度(Time ratio)用T表示查全率(R)= 检中的相关信息量/系统中的相关信息总量漏检率(O)= 1 - 查全率查准率(P)= 检中的相关信息量/检索出的信息总量误检率(F)= 1 - 查准率检索速度(T)= 检索出的相关信息量/检索用时新颖率(N)= 检中的在单位时间内发布的最新相关信息 量/单位时间内发布的最新相关信息总量 有效性(A)= 用户实际利用的相关信息量/检索出的相关 信息总量 将检索结果中的有关参量列于表中,讨论涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献 一系列的实验结果表明查全率与查准率之间存在互逆关系, 从不同检索语言出发得到的实验结果都表明了这种关系,即查全率高时,查准率较低,反之亦然。

要提高查准率,则要付出查全率降低的代价;要提高查全率,也会使查准率下降 提高检索效果的措施 一是提高检索系统的质量对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等二是提高用户使用检索系统的能力,充分发挥检索系统的功能检索语言、检索技术、方法的正确、灵活的使用,以使检索者(用户)能更好地与检索系统协调、配合另外,也要根据不同的检索课题的需要,适当调整对查全率和查准率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的苛刻要求一般来说泛指性的词用得多,或相关概念检索词用得多对提高查全率有利;反之,专指性的词用得多,或检索词互相限定多,则对提高查准率有利当代科技信息检索系统能达到的查全率和查准率分别是60-70和40-503.5 信息检索技术 信息检索技术指应用于检索过程中的原理、方法、策略、设备条件、检索手段等因素的总称关于信息检索技术,可以从两个方面进行理解:一是集中应用于计算机检索系统的检索技术;二是检索手段的技术变革 1.计算机检索技术:主要有:布尔逻辑检索技术截词检索技术限制检索技术加权检索技术全文检索技术网络检索技术。

详情见第7章 2.检索手段的技术变革:书刊式卡片式缩微品和磁带联机检索技术、光盘检索技术和网络检索技术。

下载提示
相似文档
正为您匹配相似的精品文档