信息检索技术与方法一资料

上传人:f****u 文档编号:109332052 上传时间:2019-10-26 格式:PDF 页数:24 大小:166.30KB
返回 下载 相关 举报
信息检索技术与方法一资料_第1页
第1页 / 共24页
信息检索技术与方法一资料_第2页
第2页 / 共24页
信息检索技术与方法一资料_第3页
第3页 / 共24页
信息检索技术与方法一资料_第4页
第4页 / 共24页
信息检索技术与方法一资料_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《信息检索技术与方法一资料》由会员分享,可在线阅读,更多相关《信息检索技术与方法一资料(24页珍藏版)》请在金锄头文库上搜索。

1、1 第四章信息检索技术与方法(一)第四章信息检索技术与方法(一) 本章主要介绍各种文本文本检索技术以及若干重要文献数据库 检索系统和联机检索系统的使用方法(配合实习)。(10学时) 4.1 布尔检索布尔检索 4.2 截词检索截词检索 4.3 限制检索限制检索 4.4 位置检索位置检索 4.4a 聚类检索聚类检索 4.4b 联机辅助检索技术联机辅助检索技术 4.5 常用书目数据库及其检索常用书目数据库及其检索 4.6 常用全文数据库及其检索常用全文数据库及其检索 4.7 数值数据库及其检索服务系统数值数据库及其检索服务系统 4.8 著名联机检索服务系统著名联机检索服务系统 4.1 布尔检索布尔检

2、索 布尔检索主要以倒排档(Inverted file)为基础,利用 布尔逻辑算符对检索词或代码进行逻辑组配,是信息检索 系统中最基本、最常用的一种检索技术。 4.1.1 布尔逻辑算符布尔逻辑算符 4.1.2 布尔逻辑算符的使用布尔逻辑算符的使用 4.1.3 布尔逻辑检索式的变换处理布尔逻辑检索式的变换处理 4.1.4 布尔检索的实现布尔检索的实现 A B 4.1.1 布尔逻辑算符布尔逻辑算符 逻辑或OR 逻辑与AND 逻辑非NOT 逻辑异或XOR A BAB A B 2 4.1.2 布尔逻辑算符的使用布尔逻辑算符的使用 运算优先次序 运算优先次序 早期的混乱状态 某项系统的特殊做法 组配使用方

3、法 组配使用方法 直接使用检索词进行组配 先确定各个检索词的命中结果号,利用结果号进行组配 允许检索词与命中结果号的混合组配 检索式构造注意事项 检索式构造注意事项 逻辑OR问题 逻辑NOT问题 4.1.3 布尔逻辑检索式的变换处理布尔逻辑检索式的变换处理 逆波兰变换法(福岛法) 准波兰变换法 逆波兰变换法(福岛法) 准波兰变换法占用工作区最少的逆波兰表达式 范式法范式法任一布尔逻辑检索式都可以化成与之等价的析取 (或合取)范式 AB+C*DE-F*+ AB+CD+* ABC*+ 逆波兰逆波兰表示法 (后缀) 表示法 (后缀) +*+ABC*-DEF *+AB+CD +A*BC 正波兰表示法

4、(前缀) 正波兰表示法 (前缀) (A+B)*C+(D-E)*F (A+B)*(C+D) A+B*C 一般表示法 (中缀) 一般表示法 (中缀) 4.1.3 布尔逻辑检索式的变换处理布尔逻辑检索式的变换处理(续续) 同一检索词可能 会需要多次访问 倒排档,检索速 度稍慢 基本无溢出4 化为析取范 式,算法较 简单 逻辑范式 法 检索速度较快基本无溢出5 生成准波兰 式,算法稍 复杂 准波兰 变换法 检索速度较快有时会溢出7 生成逆波兰 式,算法较 简单 逆波兰 变换法 检索特点溢出情况 内存工作 区个数 检索式的 变换处理 指标 方法 3 4.2 截词检索截词检索 截词检索是一种比较常用的书目

5、检索技术,尤其在西文检索 中更是得到广泛使用。 4.2.1 截词检索的概念截词检索的概念 4.2.2 截词检索的类型截词检索的类型 4.2.3 截词检索的功能截词检索的功能 4.2.4 截词检索的实现截词检索的实现 4.2.2 截词检索的类型截词检索的类型 按照截断的字符数量划分 按照截断的字符数量划分 有限截断 无限截断 按照截断的位置划分按照截断的位置划分 后截断(前方一致检索) 前截断(后方一致检索) 中截断(内嵌字符截断或屏蔽) 后截断 后截断 后截断检索技术最为常用,其主要用途有: 词的单复数,例如:词的单复数,例如:book?,?,potato? 年代,例如:年代,例如:199?,

6、?, 19? 作者,例如:作者,例如:Lancaster * 同根词,例如:同根词,例如: biolog*, physic* 4 前截断 前截断 前截断因为实现技术上较困难,在检索系统中比较少见。其主要 用途在于:进行一个学科的不同应用领域的检索。例如: *magnetic *phosphate 中截断 中截断 中截断一般仅允许有限截断,主要用于英美单词的不同拼写方 式或单复数的特殊变化。例如: defen?e organi?ation 4.2.3 截词检索的功能截词检索的功能 截词检索实际上是防止漏检的有力手段。作为一 种后控制措施,目前在大多数检索系统中得到了实现。 各种截词检索方法,具有

7、隐含的逻辑或( 截词检索实际上是防止漏检的有力手段。作为一 种后控制措施,目前在大多数检索系统中得到了实现。 各种截词检索方法,具有隐含的逻辑或(OR)运算 功能。运用截词检索,不仅能扩大检索范围,提高查全 率( )运算 功能。运用截词检索,不仅能扩大检索范围,提高查全 率(R),而且还可以减少检索词的输入量,简化检索 步骤(不需要用 ),而且还可以减少检索词的输入量,简化检索 步骤(不需要用OR进行同义词的组配)。进行同义词的组配)。 4.2.4 截词检索的实现截词检索的实现 以后截词检索为例。任何一个检索系统,如果要求具备后 截词检索能力,其关键在于系统中词典文档(IX)的结构设计。 词典

8、文档的结构设计主要考虑以下2方面因素:一要便于系统中 数据库数据的维护与更新(主要是数据的添加);二对检索词访 问时具备一定的词扩展能力。此外,很多情况下还要考虑对词间 关系的处理与维护。以树表结构为例,目前可以选用的数据结构 主要有: AVL树(平衡二叉树) 字符树(数字查找树或键树) B/B+树 通常,各种DBMS软件系统都能对数据库中的索引字段建立高 效的B/B+树或AVL树型索引,从而支持截词检索功能。 5 4.3 限制检索限制检索 限制检索泛指检索系统中提供的缩小或约束检索 结果的检索方法。主要有以下方式: 字段检索 在检索结果中再检索(二次检索) 字段检索 在检索结果中再检索(二次

9、检索) 字段检索 字段检索 通常,可以进行字段限制检索的字段主要有两类,即 主题字段和非主题字段。其中: 主题字段主题字段(基本检索字段)(基本检索字段):通常包括有: 题名(TI- title)、关键词(ID-identifier或keyword)、主题词(DE- descriptor)、文摘(abstract)、分类号(CC-classification code) 和全文(full text)等; 非主题字段非主题字段(辅助检索字段)(辅助检索字段):是指表达文献外部特征的 字段,例如:作者(AU-author)、期刊名(JN-Journal name)、 出版年(PY-publicat

10、ion year)、语种(LA-language)、文献类 型(DT-document type)等。 4.4 位置检索位置检索 位置检索是一种增强的“逻辑与”(AND)检索,一般 用于全文数据库中。具体说来,又分为以下4种不同形式: 4.4.1 邻接检索邻接检索 4.4.2 同句检索同句检索 4.4.3 同字段检索同字段检索 4.4.4 同记录检索同记录检索 6 4.4.1 邻接检索邻接检索 邻接检索需要通过专门的位置运算符(proximity operators)来规定检索式中的检索词在检索结果中出 现的相对位置,以便使检索结果更加准确。 常见的位置运算符有常见的位置运算符有: (W)与(

11、)与(nW) (nW)要求它所连接的两个检索 词在检索结果中出现时,相互距离不超过n个词(或汉字),且前 后顺序不能颠倒。n的取值范围一般在125。 (N)与()与(nN) (nN)要求它所连接的两个检索词 在检索结果中出现时,相互距离不超过n个词(或汉字),但两个 词的先后顺序可以变换。n的取值范围一般在125。 UMI数据库检索系统中使用的位置运算符:数据库检索系统中使用的位置运算符: w/n pre/n 4.4.2 同句检索同句检索 使用邻接检索虽然能使检索结果更准确,但会丢失 一些与检索课题相关但又不满足词位置关系的文献。的 确,从语言的使用风格与技巧来观察,同一思想、同一 概念的表达

12、可以有不同的形式。因此,在某些情况下, 可以放松词位置检索要求,改用同句检索。 同句检索要求参加检索运算的两个检索词必须在同 一自然句中出现,其先后顺序不受限制。 同句检索的运算符为: (S)sentence 4.4.3 同字段检索同字段检索 对同句检索条件进一步放宽,可以使用同字段段检 索。 同字段检索的位置运算符为: (F)field (L)link 4.4.4 同记录检索同记录检索 同记录检索在书目数据库中完全等同于逻辑与运算, 在全文数据库中则略有不同。 同记录检索的运算符为: (C)citation 7 4.4.5 各种位置检索功能的实现各种位置检索功能的实现 位置检索功能的实现,要

13、求检索系统的倒排档记录能详细提供 检索词在数据库中的每一次出现情况,具体信息包括:大小写标识, 记录号,字段代码,句编号,词编号,段落编号 大小写标识, 记录号,字段代码,句编号,词编号,段落编号等。详细情况可以 参见IBM公司提供的商业化检索软件STAIRS的倒排档结构设计。 因为可以提供深入到文献原文内部词汇间位置关系的匹配,位 置检索一般是建立在对文献的自动标引处理基础上的。唯有通过计 算机对原文信息的扫描、自动分析与标引处理,才能获得标引词的 各种位置信息,并记录在倒排文档中,从而为位置检索提供匹配的 数据来源。因此,位置检索在有些文献中也被称为“自由文本检索” 或“全文检索”。 4.

14、4a 聚类检索聚类检索 布尔检索、截词检索、限制检索和位置检索等具有布尔检索、截词检索、限制检索和位置检索等具有 一个共同的特点,那就是它们都建立在布尔模型的检索一个共同的特点,那就是它们都建立在布尔模型的检索 理论基础上,并在进行检索匹配时,只理论基础上,并在进行检索匹配时,只定性定性地考虑检索地考虑检索 词的出现与不出现、是否同时出现以及出现的字段类型词的出现与不出现、是否同时出现以及出现的字段类型 和具体位置信息等,并没有考虑到不同检索词揭示、区和具体位置信息等,并没有考虑到不同检索词揭示、区 分文本信息内容的能力和重要性差别。事实上,文本检分文本信息内容的能力和重要性差别。事实上,文本

15、检 索和检索词之间的组配关系,不仅可以从布尔逻辑的角索和检索词之间的组配关系,不仅可以从布尔逻辑的角 度定性地加以表示,还可以用很多度定性地加以表示,还可以用很多定量定量定量定量的方式进行描述的方式进行描述 和表示。下面将主要介绍基于向量空间模型理论的量化和表示。下面将主要介绍基于向量空间模型理论的量化 文本检索知识,其中重点涉及到对聚类检索的概念及其文本检索知识,其中重点涉及到对聚类检索的概念及其 技术实现等问题的讨论。技术实现等问题的讨论。 4.4a.1 聚类检索的概念聚类检索的概念 ? ? 聚类检索概念的提出,起源于向量空间模型(聚类检索概念的提出,起源于向量空间模型(VSMVSM)理论

16、。在向)理论。在向 量空间模型中,由全体检索词(共量空间模型中,由全体检索词(共t t个)构成一个个)构成一个t t- -维向量空间,维向量空间, 在该空间中,不仅文献可以用在该空间中,不仅文献可以用t t- -维向量进行形式化表示,用户的维向量进行形式化表示,用户的 检索提问也可以用等长的检索提问也可以用等长的mm- -维提问向量表示,如此一来,文献与维提问向量表示,如此一来,文献与 提问的检索匹配处理就转化为各自的文献向量与提问向量的相似提问的检索匹配处理就转化为各自的文献向量与提问向量的相似 度计算问题。由此,文献聚类检索的思想便自然而然地萌发了。度计算问题。由此,文献聚类检索的思想便自然而然地萌发了。 ? ? 聚类

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号