《计算机信息检索》由会员分享,可在线阅读,更多相关《计算机信息检索(59页珍藏版)》请在金锄头文库上搜索。
1、第一节第一节 概述概述第二节第二节 计算机算机检索系索系统 第三节第三节 机检技术机检技术第三章第三章 计算机检索技术计算机检索技术 一、计算机检索一、计算机检索1、定义、定义简称机检,指是利用计算机通过网简称机检,指是利用计算机通过网络来查找、利用各种信息资源。络来查找、利用各种信息资源。包包括括图图书书馆馆的的公公共共书书目目(-PublicAccessCatalogue)、各各种种联联机机数据库、数据库、Internet上的信息资源等。上的信息资源等。二、计算机信息检索的发展历程二、计算机信息检索的发展历程脱机检索脱机检索阶段阶段联机检索阶段联机检索阶段 光盘检索阶段光盘检索阶段网络化检
2、索阶段网络化检索阶段1、脱机检索阶段、脱机检索阶段脱机检索是指利用本机数据库中存脱机检索是指利用本机数据库中存储的数据信息进行检索储的数据信息进行检索时间:时间:20世纪世纪50年代年代60年代年代检索人员检索人员检索策略检索策略成成批检索批检索用户用户不足:不足:地理上的障碍;时间上的地理上的障碍;时间上的迟滞;封闭式的检索迟滞;封闭式的检索2、联机检索阶段、联机检索阶段联机检索是指利用检索终端,通过联机检索是指利用检索终端,通过通信网络和检索系统联机,从检索系通信网络和检索系统联机,从检索系统中的数据库中进行检索统中的数据库中进行检索时间:时间:20世纪世纪60年代年代80年代年代用户用户
3、检索策略检索策略“人机对话人机对话”获取所需信息获取所需信息联机检索联机检索联机检索的优缺点联机检索的优缺点优点优点检索速度快,效率高;检索速度快,效率高;检索范围广泛、全面;检索范围广泛、全面;检索途径多,方便、灵活;检索途径多,方便、灵活;检索内容检索内容新,实时性强;新,实时性强;检索辅助功能完善(人机对话、检索检索辅助功能完善(人机对话、检索结果输出方式灵活,输出格式多样等)。结果输出方式灵活,输出格式多样等)。缺点缺点v检索费用高;检索费用高;v对检索系统及其文档(数据库)的对检索系统及其文档(数据库)的收录、标引、特点等问题较难了解、收录、标引、特点等问题较难了解、熟悉;熟悉;v检
4、索技术和技巧不易掌握。检索技术和技巧不易掌握。3、光盘检索阶段、光盘检索阶段时间:时间:20世纪世纪80年代以来年代以来储量极大而体积微小,要求设备储量极大而体积微小,要求设备简单,可随地安装,使用方便、简单,可随地安装,使用方便、易于操作,检索费用低(不需要易于操作,检索费用低(不需要昂贵的联机检索通讯费用),可昂贵的联机检索通讯费用),可随时修改检索策略而具有很高的随时修改检索策略而具有很高的查全率和查准率等优点。查全率和查准率等优点。光盘检索阶段光盘检索阶段单机光盘检索、联机光盘检索单机光盘检索、联机光盘检索光盘库(光盘库(2-6个光驱,多达个光驱,多达500光盘)光盘)/光光盘塔(盘塔
5、(8-64个光驱)个光驱)4、网络化检索阶段、网络化检索阶段利用利用INTERNET,对网络上各种资源进行检索对网络上各种资源进行检索时间:时间:20世纪世纪90年代以来年代以来INTERNET是联结了一百多个国家、几万个信是联结了一百多个国家、几万个信息网络、几百万台主机、几千万个终端用户,并息网络、几百万台主机、几千万个终端用户,并能够跨越时空,进行实时信息检索、资源共享的能够跨越时空,进行实时信息检索、资源共享的国际性超级计算机网络。目前,国际性超级计算机网络。目前,90%的国际联机的国际联机检索系统都已进入检索系统都已进入INTERNET,世界上许多国家世界上许多国家(包括中国)都从(
6、包括中国)都从INTERNET上获取重要的科技上获取重要的科技和经济信息资源和经济信息资源网络信息资源检索的优点:网络信息资源检索的优点:l速度快,效率高;速度快,效率高;l检索途径多;检索途径多;l用户界面友好,使用方便;用户界面友好,使用方便;l资源更新快;资源更新快;l直接输出检索结果;直接输出检索结果;l信息内容的广泛、访问快速且搜索具有网络信息内容的广泛、访问快速且搜索具有网络性。性。网络信息资源检索的网络信息资源检索的缺点:缺点: 检索费用较高;检索费用较高; 缺乏思维能力和灵活性;缺乏思维能力和灵活性; 文献回溯检索能力不强;文献回溯检索能力不强; 网上检索,线路紧张时速度慢。网
7、上检索,线路紧张时速度慢。计算机检索系统的构成计算机检索系统的构成从物理构成来说从物理构成来说,包括计算机硬件、包括计算机硬件、软件和数据库、通讯线路和检索终软件和数据库、通讯线路和检索终端五部分端五部分数据库的结构文档记录字段文档记录字段文档(文档(file):数据库中一部分记录):数据库中一部分记录的有序集合的有序集合记录(记录(record):数据库的信息单):数据库的信息单元,每条记录描述了一个原始信息元,每条记录描述了一个原始信息的外部特征和内部特征。的外部特征和内部特征。字段(字段(field):比记录更小的单位,):比记录更小的单位,是组成记录的数据项目是组成记录的数据项目数据库
8、的种类数据库的种类 从存从存贮信息内容的种信息内容的种类,可分,可分为:书目数据库、书目数据库、源数据库、混合型数据库源数据库、混合型数据库 (1)(1)书目数据库书目数据库 书目数据库(书目数据库(Bibliographic databasesBibliographic databases)也称也称参考数据库(参考数据库(Reference databasesReference databases)或二次文献数或二次文献数据库。据库。 指引用户到另一信息源以获得原指引用户到另一信息源以获得原文或其他细节的数据库。它本身不直文或其他细节的数据库。它本身不直接提供用户所需情报,而是起着一种接提供
9、用户所需情报,而是起着一种牵线搭桥的作用。包括书目数据库和牵线搭桥的作用。包括书目数据库和指南数据库(如人物传记数据库、机指南数据库(如人物传记数据库、机构名录数据库、产品数据库等)。构名录数据库、产品数据库等)。(2)(2)源数据源数据库 能直接提供具体数据或原始资能直接提供具体数据或原始资料的数据库,用户不必再查阅其他料的数据库,用户不必再查阅其他信息源。包括数值数据库、文本信息源。包括数值数据库、文本- -数数值数据库、全文数据库、术语数据值数据库、全文数据库、术语数据库、图像数据库。如科学数据库、库、图像数据库。如科学数据库、期刊全文库、法律全文库、照片数期刊全文库、法律全文库、照片数
10、据库、图案数据库等。据库、图案数据库等。(3)(3)混合型数据混合型数据库 兼具以上两类数据库兼具以上两类数据库的特点,能同时存贮多种的特点,能同时存贮多种不同类型数据的数据库。不同类型数据的数据库。如指南数据库、光盘数据如指南数据库、光盘数据库、多媒体数据库、超文库、多媒体数据库、超文本数据库。本数据库。电子图书(electronic books)指供在电脑上阅读的一种新型的数字化书籍, 是多媒体技术和超文本技术发展的产物。一般有专用电子图书阅读器。如:超星数字图书馆,中国数字图书馆有限公司的网上图书馆,书生之家“中华图书网”,方正Apabi电子图书电子报纸(electronic newsp
11、aper)q将电子技术应用到涉及报刊出版、发行、利用的全过程q纽约时报(Http:/)q华盛顿邮报(http:/q泰晤士报(Http:/www.thetimes.co.uk)q人民日报(Http:/)q光明日报(Http:/)q中国日报(Http:/)第三节第三节 机检技术机检技术机机检检过过程程中中,为为保保证证检检索索结结果果准准确确全全面面、经经济济高高效效、各各检检索索系系统统均均为为用户提供了多种不同的检索功能。用户提供了多种不同的检索功能。如如:布布尔尔逻逻辑辑检检索索技技术术、截截词词检检索索技技术术、位置检索技术、加权与限制检索。位置检索技术、加权与限制检索。计算机检索式(逻辑
12、表达式)检索词检索词+有关算符有关算符l布尔逻辑算符布尔逻辑算符l截词检索算符截词检索算符l位置检索算符位置检索算符l加权与限制检索算符加权与限制检索算符1 1、布布尔逻辑检索索利用布尔逻辑运算符进行检索词或代码的利用布尔逻辑运算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用逻辑组配,是现代信息检索系统中最常用的一种方法。的一种方法。 常用的布尔逻辑运算符有三种,分别是常用的布尔逻辑运算符有三种,分别是逻辑或逻辑或 OROR、逻辑与与 ANDAND、逻辑非非 NOTNOT。 用这些逻辑运算符将检索词组组合成检用这些逻辑运算符将检索词组组合成检索提问式,计算机将根据提问式与数据库索提问
13、式,计算机将根据提问式与数据库中的记录进行匹配,当两者一致时则命中,中的记录进行匹配,当两者一致时则命中,并自动输出改文献记录。并自动输出改文献记录。( (1)1)逻辑与与 : ANDAND铝铝AND复合材料复合材料检索提索提问式:式:A*B或或AANDB含含义 两个或以上概念的相交部分。两个或以上概念的相交部分。作用作用 缩小小检索范索范围,增,增强检索的索的专指指 性,提高性,提高查准率。准率。( (2)2)逻辑或:或:OROR除雪机除雪机OR扫雪机扫雪机检索提问式:检索提问式:A+B或或AORB含含义 两个或以上概念的两个或以上概念的总和。和。作用作用 扩大大检索范索范围,提高,提高查全
14、率。全率。(3)(3)逻辑非非: NOT: NOT燃料燃料NOT煤煤检索提问式:检索提问式:A-B或或ANOTB含含义 在在含含检索索词 A A 的的文文献献中中, 去掉含去掉含检索索词 B B 的的记录。作作用用 排排除除不不需需要要的的文文献献,缩小小检索范索范围,提高,提高查准率。准率。【实例分析】 下面以“计算机”和“文献检索” 两个词来解释三种逻辑算符的含义。 “计算机计算机”AND“文献检索文献检索”,表示查找文献内容,表示查找文献内容中既含有中既含有“计算机计算机”又含有又含有“文献检索文献检索”词的文词的文献。献。“计算机计算机”OR“文献检索文献检索”,表示查找文献内容,表示
15、查找文献内容中含有中含有“计算机计算机”或含有或含有“文献检索文献检索”以及两词以及两词都包含的文献。都包含的文献。“计算机计算机”NOT“文献检索文献检索”,表示查找文献内容,表示查找文献内容中含有中含有“计算机计算机”而不含有而不含有“文献检索文献检索”的那部的那部分文献。分文献。优先级运算优先级运算()()NOTANDOR2 2、截、截词检索法索法截词截词 是指检索者将检索词在他认为比较是指检索者将检索词在他认为比较合适的地方截断,也称模糊检索,合适的地方截断,也称模糊检索,又称词干检索法又称词干检索法 截词符号截词符号一般为一般为“ “ ?”,也常用,也常用“# # ”,“*”,“*”
16、。截词检索截词检索截词检索在西文数据库中广泛使截词检索在西文数据库中广泛使用。是在词干后可能变化的位置用。是在词干后可能变化的位置加上截词符号。检索词的单复数加上截词符号。检索词的单复数形式,同一词英、美不同拼法,形式,同一词英、美不同拼法,词根相同的词都可用截词检索。词根相同的词都可用截词检索。这样既可减少检索词的输入量这样既可减少检索词的输入量,又又可扩大查找范围,提高查全率。可扩大查找范围,提高查全率。截词检索的种类截词检索的种类按截断的位置来分:包括按截断的位置来分:包括前前截词检索截词检索、后截词检索、中后截词检索、中截词检索和前后截词检索截词检索和前后截词检索。前截断(后方一致)前
17、截断(后方一致)例如:例如:*英语考试英语考试可检:四级英语考试,六级英语考试,研究生英语考试可检:四级英语考试,六级英语考试,研究生英语考试*computer可检可检minicomputer,microcomputer使用很少。使用很少。中截断(前后一致)中截断(前后一致)例如:信息例如:信息?类型类型可检:信息资源类型,信息交流类型可检:信息资源类型,信息交流类型F?t可检可检:foot,feet查找英美不同拼法最有效查找英美不同拼法最有效,单复数及因单词词根的元辅音单复数及因单词词根的元辅音变换而构成的派生词。变换而构成的派生词。后截断(前方一致)后截断(前方一致)例如:生产例如:生产*
18、,可检:生产,生产力,生产工具,生产,可检:生产,生产力,生产工具,生产方式方式comput*,可检可检computer,computers,computing主要用于:主要用于:词的单复数,词的单复数,company、companies;年代检索,年代检索,199?;?;词根检索,词根检索,socio*,可检可检sociobiology、socioecology、sociolinguistics、sociology等等20多个词汇多个词汇。*不宜将词截得过短,否则容易造成误检。不宜将词截得过短,否则容易造成误检。前后截断(中间一致)前后截断(中间一致)例如:例如:*考试考试*可检:英语考试,
19、考试试题,计算机可检:英语考试,考试试题,计算机等级考试指南,考生考试前的心理调等级考试指南,考生考试前的心理调整整*comput*可检可检minicomputer,microcomputers查找英美不同拼法最有效。查找英美不同拼法最有效。 使使用用截截断断符符号号做做替替代代符符进进行行截截词词检检索索是是一一种种检检索索方方式式,目目前前的的检检索索系系统统多多使使用用窗窗口口下下拉拉菜菜单单选选项项方方式式来来实实现现截截词词检检索索。通通常常下下拉拉菜菜单单中中模模糊糊检检索索选选项项是是三三种种检检索索效效果果的的总总和和或或者者是是前前方方致致、后后方方一一致致、中中间间一一致致
20、、前前后后一致的选项限制就是该技术的实际应用。一致的选项限制就是该技术的实际应用。词位置检索词位置检索(positionaloperator)位置位置运算符运算符 利用布尔逻辑算符对检索词进行逻辑组配时利用布尔逻辑算符对检索词进行逻辑组配时,未限未限定检索词之间的位置关系定检索词之间的位置关系,会影响某些课题的查准会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索系统都提供文中自由词检索功能,也称全文检索功能功能(Fulltextsearching)。所谓全文检索是利用文献记录中任何有实义的关所谓全
21、文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置关系可以用位置运算符来表达。位置运算符位置运算符的使用,进一步强化了对概念的限制,比布尔逻的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免辑运算符更能表达复杂的概念,并避免AND逻辑逻辑组配产生的词义含糊或误检。组配产生的词义含糊或误检。为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 *全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: 规定的位置算符不同; 位置算符的职能和使
22、用范围不同。下面介绍几种数据库经常使用的位置运算符:1.W-With W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。例: electric (W) vehicles Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。 例:例:electric(w1)vehicleselectricvehicles和和electricrailvehicles2. N Near N算符是Near的缩写,表示此算符两侧的检索词必
23、须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。 例: intelligent (NEAR) robot* ( Ei CPX Web)Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。例: intelligent ( N1) robot* (OCLC FirstSearch )3. Adj - adjacency 邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。 例: intelligent adj robot* (Elsevier Science SDOS) 4.F-Field 同
24、字段邻接 例: environment (F) protection5.P-Paragraph 同自然段邻接 例: environment (P) protection6.S-Sentence 同句邻接词序可以颠倒,两词必须出现在同一句子(子字段)中 例: environment(S) protection字段检索 (range searching) 字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码来表示,如下表所示。 常有的字段:常有的字段: 篇(题)名字段 TI=Title 文摘字段 AB=Ab
25、stract 叙词字段 DE=Descriptor 自由词字段 ID=Identified 著者字段 AU=Author 著者机构字段 CS=Corporate Source 刊名字段 JN=Journal 出版年字段 PY=publication Year 文献类型字段 DT=Document Type 语种字段 LA=Language 分类号字段 CC=Classification 注意:注意:目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。在进行字段检索时,为了避免出现检索误差, 应先看一下该数据库的使用指南或说明。 4 4、加、加权检索索是一种定量检
26、索的技术是一种定量检索的技术在每个提在每个提问词后面给定一个数值表示其重要问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词是否存在,然后计算存在的检索词的权值总和。权值之和超过阈的权值总和。权值之和超过阈(yu)值,该记录为命中文献值,该记录为命中文献缩小检索范围提供检索准确率的有缩小检索范围提供检索准确率的有效方法效方法查找计算机情报检索自动化方面的文献资料,查找计算机情报检索自动化方面的文献资料,用加权法列提问式如下:用加权法列提问式如下:W=计算机计算机
27、(1)情报检索情报检索(4)自动化自动化(2)A代表计算机代表计算机,B代表自动化代表自动化,C代表情报检索代表情报检索聚类检索聚类检索是在对文献进行自动标引的基础上,构造文聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示即文献向量,然后通过一定的聚类方献的形式化表示即文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技高的文献集中在一起,形成一个个的文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体
28、系。在这样的类目体系中,主题相近、层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。内容相关的文献便聚在一起,而相异的则被区分开来。聚类检索的出现,为文献检索尤其是计算机化的信息聚类检索的出现,为文献检索尤其是计算机化的信息检索开辟了一个新的天地。检索开辟了一个新的天地。文献自动聚类检索系统能文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。备族性检索和特性检索的功能。因此,这种检索方式因此,这种检索方式将有可能在未来的信息检索中大有用武之地。将有可能在未来的
29、信息检索中大有用武之地。构造检索提问式示例:课题:数字化图书馆的文献检索服务 检索概念分析: document retrieval 并列概念并列概念 document delivery document delivery system digital library 同义词同义词 virtual library electronic library检索提问式: (document W retrieval or document W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*) record found : 11 (OCLC Firstsearch)禁用词表在西文数据库中,系统对信息进行标引时,不能做标引词或检索词的语词包括介词、冠词、代词、连接词、某些形容词或副词等如a、and、for、in、she、should、the、well、only完