第3章计算机信息检索3讲义资料

上传人:yuzo****123 文档编号:141436891 上传时间:2020-08-08 格式:PPT 页数:59 大小:712.50KB
返回 下载 相关 举报
第3章计算机信息检索3讲义资料_第1页
第1页 / 共59页
第3章计算机信息检索3讲义资料_第2页
第2页 / 共59页
第3章计算机信息检索3讲义资料_第3页
第3页 / 共59页
第3章计算机信息检索3讲义资料_第4页
第4页 / 共59页
第3章计算机信息检索3讲义资料_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《第3章计算机信息检索3讲义资料》由会员分享,可在线阅读,更多相关《第3章计算机信息检索3讲义资料(59页珍藏版)》请在金锄头文库上搜索。

1、第一节 概述第二节 计算机检索系统 第三节 机检技术,第三章 计算机检索技术,一、计算机检索 1、定义 简称机检,指是利用计算机通过网络来查找、利用各种信息资源。 包括图书馆的公共书目(- Public Access Catalogue)、各种联机数据库、Internet上的信息资源等。,二、计算机信息检索的发展历程 脱机检索阶段 联机检索阶段 光盘检索阶段 网络化检索阶段,2、联机检索阶段 联机检索是指利用检索终端,通过通信网络和检索系统联机,从检索系统中的数据库中进行检索 时间:20世纪60年代80年代 用户 检索策略“人机对话” 获取所需信息,联机检索,联机检索的优缺点 优点 检索速度快

2、,效率高; 检索范围广泛、全面; 检索途径多,方便、灵活; 检索内容新,实时性强; 检索辅助功能完善(人机对话、检索结果输出方式灵活,输出格式多样等)。,缺点 检索费用高; 对检索系统及其文档(数据库)的收录、标引、特点等问题较难了解、熟悉; 检索技术和技巧不易掌握。,3、光盘检索阶段 时间:20世纪80年代以来 储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),可随时修改检索策略而具有很高的查全率和查准率等优点。,光盘检索阶段 单机光盘检索、联机光盘检索 光盘库(2-6个光驱,多达500光盘)/光盘塔(8-64个光驱),4、网络化检

3、索阶段 利用INTERNET,对网络上各种资源进行检索 时间:20世纪90年代以来 INTERNET是联结了一百多个国家、几万个信息网络、几百万台主机、几千万个终端用户,并能够跨越时空,进行实时信息检索、资源共享的国际性超级计算机网络。目前,90%的国际联机检索系统都已进入INTERNET,世界上许多国家(包括中国)都从INTERNET上获取重要的科技和经济信息资源,网络信息资源检索的优点: 速度快,效率高; 检索途径多; 用户界面友好,使用方便; 资源更新快; 直接输出检索结果; 信息内容的广泛、访问快速且搜索具有网络性。,网络信息资源检索的缺点: 检索费用较高; 缺乏思维能力和灵活性; 文

4、献回溯检索能力不强; 网上检索,线路紧张时速度慢。,计算机检索系统的构成 从物理构成来说,包括计算机硬件、软件和数据库、通讯线路和检索终端五部分,数据库的结构 文档记录字段 文档(file):数据库中一部分记录的有序集合 记录(record):数据库的信息单元,每条记录描述了一个原始信息的外部特征和内部特征。 字段(field):比记录更小的单位,是组成记录的数据项目,数据库的种类 从存贮信息内容的种类,可分为:书目数据库、源数据库、混合型数据库,(1)书目数据库 书目数据库(Bibliographic databases)也称参考数据库(Reference databases)或二次文献数据

5、库。 指引用户到另一信息源以获得原文或其他细节的数据库。它本身不直接提供用户所需情报,而是起着一种牵线搭桥的作用。包括书目数据库和指南数据库(如人物传记数据库、机构名录数据库、产品数据库等)。,(2)源数据库 能直接提供具体数据或原始资料的数据库,用户不必再查阅其他信息源。包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库。如科学数据库、期刊全文库、法律全文库、照片数据库、图案数据库等。,(3)混合型数据库 兼具以上两类数据库的特点,能同时存贮多种不同类型数据的数据库。如指南数据库、光盘数据库、多媒体数据库、超文本数据库。,电子图书(electronic books),指供在

6、电脑上阅读的一种新型的数字化书籍, 是多媒体技术和超文本技术发展的产物。一般有专用电子图书阅读器。如:超星数字图书馆,中国数字图书馆有限公司的网上图书馆,书生之家“中华图书网”,方正Apabi电子图书,电子报纸(electronic newspaper),将电子技术应用到涉及报刊出版、发行、利用的全过程 纽约时报(Http:/) 华盛顿邮报( 泰晤士报(Http:/www.thetimes.co.uk) 人民日报(Http:/) 光明日报(Http:/) 中国日报(Http:/),第三节 机检技术 机检过程中,为保证检索结果准确全面、经济高效、各检索系统均为用户提供了多种不同的检索功能。 如:

7、布尔逻辑检索技术、截词检索技术、位置检索技术、加权与限制检索。,计算机检索式(逻辑表达式),检索词+有关算符 布尔逻辑算符 截词检索算符 位置检索算符 加权与限制检索算符,1、布尔逻辑检索 利用布尔逻辑运算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。 常用的布尔逻辑运算符有三种,分别是逻辑或 OR、逻辑与 AND、逻辑非 NOT。 用这些逻辑运算符将检索词组组合成检索提问式,计算机将根据提问式与数据库中的记录进行匹配,当两者一致时则命中,并自动输出改文献记录。,(1)逻辑与 : AND 铝 AND 复合材料 检索提问式:A*B或A AND B 含义 两个或以上概念的相交

8、部分。 作用 缩小检索范围,增强检索的专指 性,提高查准率。,(2)逻辑或:OR 除雪机OR扫雪机 检索提问式:A+B或A OR B 含义 两个或以上概念的总和。 作用 扩大检索范围,提高查全率。,(3)逻辑非: NOT 燃料 NOT 煤 检索提问式:A- B或A NOT B 含义 在含检索词 A 的文献中, 去掉含检索词 B 的记录。 作用 排除不需要的文献,缩小检索范围,提高查准率。,【实例分析】 下面以“计算机”和“文献检索” 两个词来解释三种逻辑算符的含义。,“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。 “计算机”OR“文献检索”,表示查

9、找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。 “计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。,优先级运算 ()NOTANDOR,2、截词检索法 截词 是指检索者将检索词在他认为比较合适的地方截断,也称模糊检索,又称词干检索法 截词符号 一般为“ ?”,也常用“# ”,“*”。,截词检索 截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。,截词检索的种类 按截断的位置来分:包括前

10、截词检索、后截词检索、中截词检索和前后截词检索。,前截断(后方一致) 例如: *英语考试 可检:四级英语考试,六级英语考试,研究生英语考试 *computer 可检minicomputer,micro computer 使用很少。,中截断(前后一致) 例如:信息 ?类型 可检:信息资源类型,信息交流类型 F ? t 可检:foot,feet 查找英美不同拼法最有效,单复数及因单词词根的元辅音变换而构成的派生词。,后截断(前方一致) 例如:生产*,可检:生产,生产力,生产工具,生产方式 comput*,可检computer,computers, computing 主要用于: 词的单复数,com

11、pany、companies; 年代检索,199?; 词根检索,socio*,可检sociobiology、socioecology、sociolinguistics、sociology等20多个词汇。 *不宜将词截得过短,否则容易造成误检。,前后截断(中间一致) 例如: *考试* 可检:英语考试,考试试题,计算机等级考试指南,考生考试前的心理调整 * comput * 可检minicomputer,microcomputers 查找英美不同拼法最有效。,使用截断符号做替代符进行截词检索是一种检索方式,目前的检索系统多使用窗口下拉菜单选项方式来实现截词检索。通常下拉菜单中模糊检索选项是三种检索

12、效果的总和或者是前方致、后方一致、中间一致、前后一致的选项限制就是该技术的实际应用。,词位置检索(positional operator) 位置运算符,利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能 (Full text searching)。 所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词

13、义含糊或误检。,为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 *全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: 规定的位置算符不同; 位置算符的职能和使用范围不同。,下面介绍几种数据库经常使用的位置运算符:,1.W - With W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。 例: electric (W) vehicles Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n

14、个单元词。 例: electric ( w1) vehicles electric vehicles 和 electric rail vehicles,2. N Near,N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。 例: intelligent (NEAR) robot* ( Ei CPX Web) Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。 例: intelligent ( N1) robot* (OCLC FirstSearch ),3. Adj - adjacency,邻接算符,

15、表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。 例: intelligent adj robot* (Elsevier Science SDOS),4. F - Field 同字段邻接 例: environment (F) protection 5. P - Paragraph 同自然段邻接 例: environment (P) protection 6. S - Sentence 同句邻接词序可以颠倒,两词必须出现在同一句子(子字段)中 例: environment(S) protection,字段检索 (range searching

16、) 字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码来表示,如下表所示。,常有的字段: 篇(题)名字段 TI=Title 文摘字段 AB=Abstract 叙词字段 DE=Descriptor 自由词字段 ID=Identified 著者字段 AU=Author 著者机构字段 CS=Corporate Source 刊名字段 JN=Journal 出版年字段 PY=publication Year 文献类型字段 DT=Document Type 语种字段 LA=Language 分类号字段 CC=Classification 注意:目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。 在进行字段检索时,为了避免出现检索误差, 应先看一下该数据库的使用指南或说明。,4、加权检索

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号