第二章第二章 信息检索基础知识信息检索基础知识 2.3 2.3 文献信息检索的工具文献信息检索的工具 1、文献信息检索工具概述 检索工具是将大量分散无序的文献资料经过加 工整理,按照一定的规则和方法编制起来,用来报 道、存储和查找文献的工具,是附有检索标识的某 一范围文献条目的集合 传统的检索工具是人们利用手工方法编制的 工具书,有字典、词典、目录、百科全书、名录 、类书、政书、表谱、图录等这些工具书是人 们对当时日渐增多的知识进行的分析、归类、释 义和总结,是最早的文献信息检索工具 基于计算机和网络的检索工具主要有: 题录数据库 索引数据库 文摘数据库 搜索引擎 …… 2、文献信息检索工具的作用 (1)检索工具能将不同类型、不同语种的文 献按学科或主题加以集中、组织在一起,避免了 直接检索的分散性、盲目性和偶然性 (2)借助于检索工具检索文献可以缩短检索 过程,节省读者的时间 (3)检索工具中的标识(分类号、主题词等) 是按照一定的检索语言来编排的,因此,它可以提 供有规律的检索途径,使检索者得以根据需要灵活 地从多种角度进行检索 (4)帮助科技人员消除了语言文字的障碍目 前世界上出版的科技文献所使用的语言有60-70种 之多,科技人员直接查阅文献时,常常受到语种的 限制而漏查一些有重要参考价值的文献。
一种检索 工具可用一种语言来收录和报道不同文种的文献, 检索者只要掌握少数几种语言,就能查阅多种文字 的文献资料 3、检索工具的类型 按处理手段分类有:手工检索工具和计算机 检索工具 按收录范围分类有:综合性检索工具和专科 性检索工具 按文献信息载体划分有:书本式检索工具、 卡片式检索工具、缩微式检索工具和计算机数据 库检索工具 按照文献信息揭示方式划分,可以分为:目 录、题录、索引、文摘 (1)目录(书目) 目录又称书目,是著录一批相关文献并按照一 定的次序编排而成的一种揭示与报导文献的工具 目录对文献的描述比较简单,每一个条目的著 录项有:书(刊名)、卷(期)数、作者、出版年 月、出版地及书(刊)收藏情况等 著录是指在编制文献目录时,对文献内容和形 式特征进行分析、选择和记录的过程 书目书目 国家图书书目: 《全国总书目》、《中国国家书目》、 《全国新书目》; 《国际在版书目》、《英国国家书目》 国家报刊书目: 《中国报刊名录》、《中国报刊大全》 馆藏书目: 联合书目:CALIS联合目录、全国期刊联合目录 书目内容示例书目内容示例 馆藏书目内容示例馆藏书目内容示例 联合目录内容示例联合目录内容示例 (2)题录 题录是将图书和报刊中论文的篇目按照一定 的排检方法编排,供人们查找篇目出处的工具。
著录项:篇名、著者(或含其所在单位)和 来源出处无内容摘要 特点 :广、全、快 题录示例题录示例 (3)索引(引得) 索引是将书刊内容中所论及的篇名、语词、主 题等项目,按照一定的排检方法加以编制,注明出 处,供读者查检使用的检索工具 索引与目录的根本区别就在于著录的对象不同 ,目录所著录的是一个完整的出版单位,索引所著 录的则是完整的出版物的某一部分、某一观点、某 一知识单元,提高文献检索的深度和检索效率 索引类型索引类型 1)篇名索引:《全国报刊索引》 2)内容索引: 主题索引 《马克思恩格斯全集主题索引》 字句索引 《毛诗引得》《十三经索引》 人名索引 《史记人名索引》 地名索引 《中国地名索引》 索引示例索引示例 索引示例:革命人物志索引 教育学文集 · 索引 ((4 4)文摘)文摘 文摘是一种摘录文献内容要点来报道文献的检 索工具著录项目比题录多了一个文摘项 例: 《化学文摘》、《历史文摘》 《经济学文摘》、《中国农业文摘》 2.4 2.4 计算机信息检索的方法与策略计算机信息检索的方法与策略 1、计算机信息检索过程中的几个概念 数据库:至少由一个文档组成,并能满足某 一特定目的或某一特定处理系统需要的一种数据 集合。
根据载体不同,可分为: 联机数据库(online-database) 光盘数据库(CD-ROM-database) 网络数据库(networked-database) 中国科技期刊数据库初级检索界面 检索方式 检索途径 检索词 中文科技期刊数据库高级检索界面 限制条件 二次检索: 在前一次检索结果的基础上,进一步限定 检索条件所进行的再次检索二次检索可多次 使用,逐步缩小检索范围 二次检索 排序:指检索结果输出时的排列顺序 检索词匹配:一般表示为前方一致、后方一致、 完全一致(精确匹配)、任意一致(模糊匹配) 等 讨论1: 我馆书目查询系统共有多少种检索方式?其基 本检索有多少个检索字段? 讨论2: “中国学术期刊网络出版总库”有哪些检索方式? 中国科技期刊数据库初级检索界面 ? ? ? 2 2、、 信息检索方法信息检索方法 (1)常用法 ①顺查法 ②倒查法 ③抽查法 (2)回溯法 (3)循环法 (1)常用法 利用检索工具或检索系统查找文献资料的方 法 ①顺查法: 从课题分析所得出的该课题研究的起始年代起, 由远及近地进行逐年查找的检索方法 特点: 较高的查全率 在一定程度上反映出该课题研究发展的全过程 耗时费力, 效率较低 ②倒查法 利用选定的检索工具, 由近及远地逐年进行 查找的检索方法。
特点: 以“查准”为主 宜于新的研究课题 较节省时间, 效率较高 ③抽查法 是在课题研究所处的发展高峰期的若干年 中进行查找 特点: 快速检索的课题 较高的检索效率 前提是必须事先了解课题研究发展的历史 背景 (2)回溯法 回溯法又称追溯法、引文法,是利用文献末 所附的参考文献或引用文献,由近及远地进行追 踪查找 检索方法可以从已经掌握的一篇最新文献入 手,查找到它所引用的文献,再依据这些查出的 文献,查找到它们所引用的文献如此反复,即 可获得大量的文献信息 (3)循环法 是常用法与回溯法的结合,即先利用检索工具 查找出一批有用的文献,然后利用这些文献所附的 参考文献或原文中涉及的重要线索进行追溯查找 3、检索策略的含义和作用 所谓检索策略,即在分析检索课题内容实质 基础上,选择检索系统、检索途径、确定检索词 及其相互间的逻辑关系等的信息检索方案 关键:构造能够确切表达信息需求的检索式 4、检索表达式 简称检索式检索式一般由检索词和各种逻 辑运算符组成它是用检索系统规定的各种算符 将检索词之间的逻辑关系、位置关系等连接起来 ,构成的计算机可以识别和执行的检索命令式 检索表达式主要有逻辑表达式、截词表达式 等 。
(1)逻辑表达式 逻辑表达式是指利用布尔逻辑算符,对检索 词的关系进行表达,又称布尔逻辑表达式 布尔算符: “逻辑与”(“AND”) “逻辑或”(“OR”) “逻辑非”(“NOT”) 逻辑“与” 表示它所连接的两个检索词必须同时出现在结 果中,逻辑检索式可写为: A and B A * B A 与 B 如要查找关于“计算机检索”方面的信息,可表 述为:“计算机AND检索” 讨论:“大学生就业”用逻辑表达式如何表达 大学生 and 就业 逻辑“或” 表示它所连接的两个检索词中任意一个出现 在结果中就满足检索条件,检索式可写为: A OR B A + B A 或 B 如检索关于“计算机”的信息,可表达为:计 算机+电脑 逻辑“或”主要用于表达检索词的近义词、同 义词、全称和缩写等,以便全面、完整地表达相 关的概念 讨论:“高校学生”的逻辑表达式 大学生 or 本科生 or 研究生 or 大专生 or 高职生 逻辑“非” 表示它所连接的两个检索词中,应从第一个 概念中排除第二个概念,检索式可写为: A NOT B A - B A 非 B 如查找关于“研究生教育”的资料,但要求不包 括在职研究生,可将检索式写为: (研究生*教育)-在职研究生 研究生-在职研究生*教育 逻辑 “非”表示具有不包含某种概念关系的一组 组配,用来缩小检索范围。
但在实际检索中要慎重 使用 A AND B A OR B A NOT B 布尔逻辑算符示意图 同时具有A和BA或B,任何一个只有A,不包含B 在网络运用中,有的“完全支持”此布尔逻辑表 达式,有的则“部分支持” 一般运算顺序 ( ) - * + 检索“高校学生就业”的信息,但要求不包括 大专生、高职生,用逻辑表达式如何表达? (大学生or本科生or研究生)-(大专生or高职生 )and 就业 高校学生 and 就业 讨论 ((2 2)截词检索表达式)截词检索表达式 用截词符号“*”、“?”或“$”加在检索词的前 后或中间,以检索一组概念相关或同一词根的词 按截断的位置可分为: 前截断、中间截断、后截断 按截断的字符数量可分为: 有限截断(?)、无限截断(*) 如:输入检索式“Comput*”,将检出包含 Computer、Computing、Computed、 Computerization 等词汇的结果 输入“wom ?n”可同时检索到含有woman和 women的结果 检索禁用词检索禁用词 检索系统一般将出现频率特别高的词规定 为禁用词,它们不能在检索式中出现,除非是 用于“ ”标示的词组里。
这种规定是为了提高检 索效率 常见的英文禁用词有:a、about、all、also、an 、are、as、been、both、but、by、each、from、has 、have、in、into、of、on、some、such、than、that 、the、their、them、there、these、they、this、those 、through、to、was、were、when、where、which、 with、would等 不同的数据库可能有不同的禁用词列表 5、检索策略的制定步骤 信息检索策略的制定一般包括分析信息需求、 选择检索系统、确定检索用词、构造检索式、分析 检索结果等 具体过程如下: 分析信息需求,明确检索要求 选择检索系统 选择检索途径和方法,确定检索词或检索式 实施信息检索 获取原始文献 检索策略(不同的声音)检索策略(不同的声音) 1、积木型策略: 如:检索课题“轻金属的焊接” 检索式: (轻金属 OR 镁 OR 铝)AND(焊接 OR 铜焊) 2、引文珠形增长型策略 如:“中国学者对哥德巴赫猜想的研究贡献” 从“陈景润”入手,找到他的论文,根据论文内 容和参考文献,发现相关资料。
3、逐次分馏型策略: 大范围的对象集合 提高专指度 较小的命中结果集 最终结果 4、最专指面优先型策略 如:高等教育中学分制的由来及发展 2.5 2.5 信息检索效果评价信息检索效果评价 检索效果指开展检索时产生的有效结果检索 效果的评价主要根据以下几个指标进行:查全率、 查准率、响应时间、输出方式等 1、查全率 查全率指检出的相关文献信息量与检索系统相 关文献信息量总量的比率,它反映出信息检索系统 检出相关文献信息的能力具体公式如下: 查全率=[检出相关文献信息量/检索系统中相关文献 信息总量] ×100% 2、查准率 查准率指检出的相关文献信息量与检出文献 信息总量的比率,它反映出信息检索系统的精确 度具体公式如下: 查准率=(检出相关文献信息量 / 检出文献信息 总量)×100% 相关文献量非相关文献量 检出文献量 45 30 未检出文献量 45 2980 查全率=50% 查准率=60% 练习:构造检索式练习:构造检索式 1、检索“中国高等教育的发展趋势”,检索式为: 中国*高等教育*发展趋势 (中国+我国)*高等教育*(发展趋势+发展态势) 2、检索有关“文献保护”的资料,检索式可为: 文献*保护 (文献+图书+档案+资料)*(保护+防潮+防虫+防有害气体 ) 3、检索有关“欧洲专利”的文献。
检索式: 欧洲*专利 (欧洲+法国+德国+意大利+…)*专利 4、在外文数据库中检索有关“儿童的天才教。