信息检索技术与方法一资料

资源描述

《信息检索技术与方法一资料》由会员分享，可在线阅读，更多相关《信息检索技术与方法一资料（24页珍藏版）》请在金锄头文库上搜索。

1、1 第四章信息检索技术与方法（一）第四章信息检索技术与方法（一）本章主要介绍各种文本文本检索技术以及若干重要文献数据库检索系统和联机检索系统的使用方法（配合实习）。（10学时） 4.1 布尔检索布尔检索 4.2 截词检索截词检索 4.3 限制检索限制检索 4.4 位置检索位置检索 4.4a 聚类检索聚类检索 4.4b 联机辅助检索技术联机辅助检索技术 4.5 常用书目数据库及其检索常用书目数据库及其检索 4.6 常用全文数据库及其检索常用全文数据库及其检索 4.7 数值数据库及其检索服务系统数值数据库及其检索服务系统 4.8 著名联机检索服务系统著名联机检索服务系统 4.1 布尔检索布尔检

2、索布尔检索主要以倒排档（Inverted file）为基础，利用布尔逻辑算符对检索词或代码进行逻辑组配，是信息检索系统中最基本、最常用的一种检索技术。 4.1.1 布尔逻辑算符布尔逻辑算符 4.1.2 布尔逻辑算符的使用布尔逻辑算符的使用 4.1.3 布尔逻辑检索式的变换处理布尔逻辑检索式的变换处理 4.1.4 布尔检索的实现布尔检索的实现 A B 4.1.1 布尔逻辑算符布尔逻辑算符逻辑或OR 逻辑与AND 逻辑非NOT 逻辑异或XOR A BAB A B 2 4.1.2 布尔逻辑算符的使用布尔逻辑算符的使用运算优先次序运算优先次序早期的混乱状态某项系统的特殊做法组配使用方

3、法组配使用方法直接使用检索词进行组配先确定各个检索词的命中结果号，利用结果号进行组配允许检索词与命中结果号的混合组配检索式构造注意事项检索式构造注意事项逻辑OR问题逻辑NOT问题 4.1.3 布尔逻辑检索式的变换处理布尔逻辑检索式的变换处理逆波兰变换法（福岛法）准波兰变换法逆波兰变换法（福岛法）准波兰变换法占用工作区最少的逆波兰表达式范式法范式法任一布尔逻辑检索式都可以化成与之等价的析取（或合取）范式 AB+C*DE-F*+ AB+CD+* ABC*+ 逆波兰逆波兰表示法（后缀）表示法（后缀） +*+ABC*-DEF *+AB+CD +A*BC 正波兰表示法

4、（前缀）正波兰表示法（前缀）（A+B）*C+（D-E)*F （A+B）*（C+D） A+B*C 一般表示法（中缀）一般表示法（中缀） 4.1.3 布尔逻辑检索式的变换处理布尔逻辑检索式的变换处理(续续) 同一检索词可能会需要多次访问倒排档，检索速度稍慢基本无溢出4 化为析取范式，算法较简单逻辑范式法检索速度较快基本无溢出5 生成准波兰式，算法稍复杂准波兰变换法检索速度较快有时会溢出7 生成逆波兰式，算法较简单逆波兰变换法检索特点溢出情况内存工作区个数检索式的变换处理指标方法 3 4.2 截词检索截词检索截词检索是一种比较常用的书目

5、检索技术，尤其在西文检索中更是得到广泛使用。 4.2.1 截词检索的概念截词检索的概念 4.2.2 截词检索的类型截词检索的类型 4.2.3 截词检索的功能截词检索的功能 4.2.4 截词检索的实现截词检索的实现 4.2.2 截词检索的类型截词检索的类型按照截断的字符数量划分按照截断的字符数量划分有限截断无限截断按照截断的位置划分按照截断的位置划分后截断（前方一致检索）前截断（后方一致检索）中截断（内嵌字符截断或屏蔽）后截断后截断后截断检索技术最为常用，其主要用途有：词的单复数，例如：词的单复数，例如：book？，？，potato？年代，例如：年代，例如：199？，

6、？， 19？作者，例如：作者，例如：Lancaster * 同根词，例如：同根词，例如： biolog*， physic* 4 前截断前截断前截断因为实现技术上较困难，在检索系统中比较少见。其主要用途在于：进行一个学科的不同应用领域的检索。例如： *magnetic *phosphate 中截断中截断中截断一般仅允许有限截断，主要用于英美单词的不同拼写方式或单复数的特殊变化。例如： defen？e organi？ation 4.2.3 截词检索的功能截词检索的功能截词检索实际上是防止漏检的有力手段。作为一种后控制措施，目前在大多数检索系统中得到了实现。各种截词检索方法，具有

7、隐含的逻辑或（截词检索实际上是防止漏检的有力手段。作为一种后控制措施，目前在大多数检索系统中得到了实现。各种截词检索方法，具有隐含的逻辑或（OR）运算功能。运用截词检索，不仅能扩大检索范围，提高查全率（）运算功能。运用截词检索，不仅能扩大检索范围，提高查全率（R），而且还可以减少检索词的输入量，简化检索步骤（不需要用），而且还可以减少检索词的输入量，简化检索步骤（不需要用OR进行同义词的组配）。进行同义词的组配）。 4.2.4 截词检索的实现截词检索的实现以后截词检索为例。任何一个检索系统，如果要求具备后截词检索能力，其关键在于系统中词典文档（IX）的结构设计。词典

8、文档的结构设计主要考虑以下2方面因素：一要便于系统中数据库数据的维护与更新（主要是数据的添加）；二对检索词访问时具备一定的词扩展能力。此外，很多情况下还要考虑对词间关系的处理与维护。以树表结构为例，目前可以选用的数据结构主要有： AVL树（平衡二叉树）字符树（数字查找树或键树） B/B+树通常，各种DBMS软件系统都能对数据库中的索引字段建立高效的B/B+树或AVL树型索引，从而支持截词检索功能。 5 4.3 限制检索限制检索限制检索泛指检索系统中提供的缩小或约束检索结果的检索方法。主要有以下方式：字段检索在检索结果中再检索（二次检索）字段检索在检索结果中再检索（二次

9、检索）字段检索字段检索通常，可以进行字段限制检索的字段主要有两类，即主题字段和非主题字段。其中：主题字段主题字段（基本检索字段）（基本检索字段）：通常包括有：题名（TI- title）、关键词（ID-identifier或keyword）、主题词（DE- descriptor）、文摘（abstract）、分类号（CC-classification code）和全文（full text）等；非主题字段非主题字段（辅助检索字段）（辅助检索字段）：是指表达文献外部特征的字段，例如：作者（AU-author）、期刊名（JN-Journal name）、出版年（PY-publicat

10、ion year）、语种（LA-language）、文献类型（DT-document type）等。 4.4 位置检索位置检索位置检索是一种增强的“逻辑与”（AND）检索，一般用于全文数据库中。具体说来，又分为以下4种不同形式： 4.4.1 邻接检索邻接检索 4.4.2 同句检索同句检索 4.4.3 同字段检索同字段检索 4.4.4 同记录检索同记录检索 6 4.4.1 邻接检索邻接检索邻接检索需要通过专门的位置运算符（proximity operators）来规定检索式中的检索词在检索结果中出现的相对位置，以便使检索结果更加准确。常见的位置运算符有常见的位置运算符有：（W）与（

11、）与（nW）（nW）要求它所连接的两个检索词在检索结果中出现时，相互距离不超过n个词（或汉字），且前后顺序不能颠倒。n的取值范围一般在125。（N）与（）与（nN）（nN）要求它所连接的两个检索词在检索结果中出现时，相互距离不超过n个词（或汉字），但两个词的先后顺序可以变换。n的取值范围一般在125。 UMI数据库检索系统中使用的位置运算符：数据库检索系统中使用的位置运算符： w/n pre/n 4.4.2 同句检索同句检索使用邻接检索虽然能使检索结果更准确，但会丢失一些与检索课题相关但又不满足词位置关系的文献。的确，从语言的使用风格与技巧来观察，同一思想、同一概念的表达

12、可以有不同的形式。因此，在某些情况下，可以放松词位置检索要求，改用同句检索。同句检索要求参加检索运算的两个检索词必须在同一自然句中出现，其先后顺序不受限制。同句检索的运算符为：（S）sentence 4.4.3 同字段检索同字段检索对同句检索条件进一步放宽，可以使用同字段段检索。同字段检索的位置运算符为：（F）field （L）link 4.4.4 同记录检索同记录检索同记录检索在书目数据库中完全等同于逻辑与运算，在全文数据库中则略有不同。同记录检索的运算符为：（C）citation 7 4.4.5 各种位置检索功能的实现各种位置检索功能的实现位置检索功能的实现，要

13、求检索系统的倒排档记录能详细提供检索词在数据库中的每一次出现情况，具体信息包括：大小写标识，记录号，字段代码，句编号，词编号，段落编号大小写标识，记录号，字段代码，句编号，词编号，段落编号等。详细情况可以参见IBM公司提供的商业化检索软件STAIRS的倒排档结构设计。因为可以提供深入到文献原文内部词汇间位置关系的匹配，位置检索一般是建立在对文献的自动标引处理基础上的。唯有通过计算机对原文信息的扫描、自动分析与标引处理，才能获得标引词的各种位置信息，并记录在倒排文档中，从而为位置检索提供匹配的数据来源。因此，位置检索在有些文献中也被称为“自由文本检索” 或“全文检索”。 4.

14、4a 聚类检索聚类检索布尔检索、截词检索、限制检索和位置检索等具有布尔检索、截词检索、限制检索和位置检索等具有一个共同的特点，那就是它们都建立在布尔模型的检索一个共同的特点，那就是它们都建立在布尔模型的检索理论基础上，并在进行检索匹配时，只理论基础上，并在进行检索匹配时，只定性定性地考虑检索地考虑检索词的出现与不出现、是否同时出现以及出现的字段类型词的出现与不出现、是否同时出现以及出现的字段类型和具体位置信息等，并没有考虑到不同检索词揭示、区和具体位置信息等，并没有考虑到不同检索词揭示、区分文本信息内容的能力和重要性差别。事实上，文本检分文本信息内容的能力和重要性差别。事实上，文本

15、检索和检索词之间的组配关系，不仅可以从布尔逻辑的角索和检索词之间的组配关系，不仅可以从布尔逻辑的角度定性地加以表示，还可以用很多度定性地加以表示，还可以用很多定量定量定量定量的方式进行描述的方式进行描述和表示。下面将主要介绍基于向量空间模型理论的量化和表示。下面将主要介绍基于向量空间模型理论的量化文本检索知识，其中重点涉及到对聚类检索的概念及其文本检索知识，其中重点涉及到对聚类检索的概念及其技术实现等问题的讨论。技术实现等问题的讨论。 4.4a.1 聚类检索的概念聚类检索的概念 ? ? 聚类检索概念的提出，起源于向量空间模型（聚类检索概念的提出，起源于向量空间模型（VSMVSM）理论

16、。在向）理论。在向量空间模型中，由全体检索词（共量空间模型中，由全体检索词（共t t个）构成一个个）构成一个t t- -维向量空间，维向量空间，在该空间中，不仅文献可以用在该空间中，不仅文献可以用t t- -维向量进行形式化表示，用户的维向量进行形式化表示，用户的检索提问也可以用等长的检索提问也可以用等长的mm- -维提问向量表示，如此一来，文献与维提问向量表示，如此一来，文献与提问的检索匹配处理就转化为各自的文献向量与提问向量的相似提问的检索匹配处理就转化为各自的文献向量与提问向量的相似度计算问题。由此，文献聚类检索的思想便自然而然地萌发了。度计算问题。由此，文献聚类检索的思想便自然而然地萌发了。 ? ? 聚类

展开阅读全文