《第6章联机信息检索》由会员分享,可在线阅读,更多相关《第6章联机信息检索(35页珍藏版)》请在金锄头文库上搜索。
1、第6章 联机信息检索6.1 联机信息检索的含义、构成及原理含义:是信息用户使用检索终端设备通过通讯网络与存储信息的联机检索中心相连,进行人机对话,从联机检索中心的数据库中查获所需信息的过程构成:联机检索中心、通讯网络、检索终端、和系统关联的人原理:用户通过检索终端,将信息需求按一定的查询语言和检索命令经通讯网络传至系统的主机及其控制的数据库,系统将用户的提问与数据库中存储的数据进行匹配运算,并把检索结果立即通过网络返回给终端,实现人机实时对话,这种交互作用可能要进行多次,直至完成检索任务6.2 联机信息检索的特点检索速度“快”检索范围“全”检索命中文献“准”检索方法“便”例1:某医学院要查找建
2、校50年来在国外刊物上发表的该校学报的文章例2:有人联机查找溶氧分析课题,用ESA系统的CHEMABS数据库。经分析课题题意,确定检索词为DISSOLVED、OXYGEN、 ANALYSIS,填写提问单,要求文献量不超过100篇,最好检出文献的题目中都包含检索词?b2File 2: CHEMABS: Vol66-102, 14(COPR.1985 BY THE-AMER.CHEM.SOC.)?S dissolved1 7480 DISSOLVED? S Oxygen2 117304 OXYGEN? S Analysis3 362391 ANALYSIS? C 1*2*34 241 1*2*3?
3、L4/ti, ct, ut5 142 4/TI, CT, UT? L5/ti6 46 5/TI? t6/1/1-46上例说明,联机检索不仅快、全、准,而且检索深度可根据需要控制,可指定任意信息属性为检索途径,并可通过人机实时对话,扩大或缩小检索范围。它还具有检索的灵活性,可选择不同的输出方式和格式,可以显示阅读、联机或脱机打印,可以输出完整的记录(如文摘),也可输出部分记录(如题目和作者等)总的说来,联机检索具有检索速度快、检索功能强、检索途径多、收录文献信息数量大、范围广、更新快、使用灵活方便等优点。但也存在检索费用高、容易泄露研究机密等缺点。6.3 联机检索的沿革与发展计算机检索经历了脱机
4、检索(1954-1964)、联机检索(1965-1972)、网络化联机检索(1973-现在)三个阶段的发展。目前,联机检索已与 Internet融为一体,进入信息通讯计算机三位一体的新阶段,呈现出联机检索产业化、系统发展大型化、服务方式多样化、联机系统网络国际化和标准化等趋势。80年代后期,购并风行,更促进了联机检索的商业化发展。90年代以来,随着多项技术和检索软件的发展,系统功能不断增强,费用成本不断下降。预计将有更大的普及。6.4 DIALOG系统简介目前世界上最大的国际性联机检索服务机构1998年拥有900多个数据库,内容涉及自然科学、工程技术、社会科学、商业新闻和工业分析、公司信息和金
5、融数据、报纸新闻等等方面,用户遍及120多个国家和地区的2万多个机构。其数据库类型有:书目数据库,全文数据库,指南数据库,数值数据库,复合数据库。现在其联合数据查询目录量是WWW网总量的50多倍,占世界机存文献总量的50%以上,向全世界提供最全面、最权威的信息资源。1998年1月,在中国开设第一间办公室,其网址是:http: / www. dialog. comDIALOG系统提供八种服务:(1)商业信息的菜单检索服务(2)电子邮政服务(3)定题检索服务(4)联机文献订购服务(5)数据库总索引(6)一次性检索(7)KR光盘(8)联机检索通信软件DIALOG系统目前有四种检索模式:(1)菜单式检
6、索(2)命令检索(3)目标检索(4)WWW上运行的检索界面KR Science Base6.5 Dialog联机检索基础6.5.1 数据库索引DIALOG系统的每个数据库都有两种索引:基本索引( BASIC INDEX)和辅助索引(ADDITION INDEX),前者主要反映文献的内容特征,后者则仅表明文献的外表特征。在命令检索中,它们用后缀代码(Suffix Code )和前缀代码(Prefix Code)来区别后缀代码主要有四种:/TI(Title)、/AB(Abstract)、/DE(Descriptor)、/ID(Identifier)有的数据库还有其他一些基本索引的后缀代码,详见各数
7、据库蓝页(Database Bluesheets)前缀代码的基本种类有:AU= 著者 LA= 文种AN= 文摘号 RN= 报告号CC= 分类代码 PY= 出版年份CS= 机构来源 UD= 更新日期DT= 文献类型 JC= 杂志代码PA= 专利代理人 DC= 标识代码PN= 专利号 PC= 产品分类JN= 期刊名 EC= 销售事态分类代码 6.5.2 禁用词(Stop Word)词表AN FOR THEAND FROM TOBY OF WITH在检索时碰到禁用词时处理方式有2种:(1)当检索字段是用单元词标引的,检索时用位置算符(W)或(N)替代词间的禁用词,如检索 ORBITS AND TRA
8、JECTORIES方面的文献,用如下检索式:S ORBITS (1W) TRAJECTORIES(2)当检索字段是用词组标引的,检索时用双引号将词组引起来,如检索刊名为JOURNAL OF PHYSICS AND CHEMISTRY OF SOLIDS的文献,用如下检索式:S JN= “JOURNAL OF PHYSICS AND CHEMISTRY OF SOLIDS”6.5.3 逻辑算符(Logical Operators)NOTAND *OR +如要检索关于“计算机动画电影”方面的非俄文文献,其检索策略(检索式)如下:S COMPUTER AND (ANIMAION OR CARTOON
9、 OR GRAPHIC) AND (MOVIE OR MOTION (W) PICTURE OR CINEMA OR FILM) NOT LA=RUSSIAN或S COMPUTER * (ANIMAION + CARTOON + GRAPHIC) * (MOVIE + MOTION (W) PICTURE + CINEMA + FILM) NOT LA=RUSSIAN6.5.4 位置算符(1)(W)或()算符表示相连两词必须按次序连接,中间不能插词,但两词间可以有标点、连字符或空格等。例:S COMPUTER (W) ANIMATION(2)(nW)算符表示相连两词之间可插入最多n个单词,但相
10、连次序不变。例:S COMPUTER (1W) ANIMATION(3)(N)算符表示相连两词位置可以互换,但两词中间不能插词。例:S COMPUTER (N) ANIMATION(4)(nN)算符表示相连两词间最多可插入n个词,且词序可互换。例:S COMPUTER (1N) ANIMATION(5)(L)算符要求相连两词必须在同一主题词(DE)字段中例:S SOLAR (L) ENERGY(6)(S)算符表示相连两词必须在同一子字段中,一般是用句号、分号作为该子字段的结束符。例:S COMPUTER (S) ANIMATION命中的一篇文献中两词的位置如下:Abstract: .Topic
11、s discussed include computer graphics,complexity,animation,image processing,computer simulation. (7)(F)算符表示所连两词必须在同一字段中出现,如题目或文摘字段等。例:S COMPUTER (F) ANIMATION(8)(NOT)位置算符一共有五种:(NOT W)、(NOT N)、(NOT L)、(NOT S)、(NOT F),分别表示相连两词不能以W、N、L、S、F位置相连,此位置算符一般不常用。主要位置算符按照检索精确度排序为:W nW N nN S F 渐弱 同时出现位置算符和逻辑算符及
12、括号,优先级排序为: 括号中检索词 高(W),(N),(S)或(L),(F) NOT AND OR 低6.5.5 截词符?(1)中间截断在词间加一个或几个?,如:wom?n,分别检索了woman,women两词(2)有限截断在词尾加几个?,以?的个数表示词后最多可跟字母的个数,若限定只可跟一个字母,则在词尾加?空格?。如:computer?,分别检索了computer,computers(3)无限截断在词尾加一个?,表示词后可跟任意个字母。如:factor?,分别检索了factory、factories、factorisation、factorization等词。但要注意词头不可太短,以免机时
13、增加及检索相关度降低6.5.5 关系算符在数据库的辅助索引中,有些是数值型字段,可以用称为范围检索(Range Searching)的关系算符来执行,如以下算符:: 包含范围 如 PY=1990:1996 大于= 大于等于= 小于等于6.5.7 DIALOG系统的基本检索指令(1) DIALOG系统的指令输入格式?指令 空格 数据 回车指令长度不能超过240个字符指令的三种形式:指令字、缩写字母和替代符,如BEGIN的三种形式为BEGIN、B和!SELECT的三种形式为SELECT、S和#(2) DIALOG系统的基本指令简介1)调文档指令BEGIN(或B)n(或文档名称)功能:用于指定编号为
14、n的文档,以便检索使用该指令,开始建立检索的集合号(步骤号),并立即消除先前的检索过程,显示此前的联机检索费用,并启动检索该文档作业的时钟,以便计时例如:? begin 10 30 may 94 10:20:42 USER 27019$0.27 0.018 Hrs File1File 10:AGRICOLA-1979-94/Apr. & 1979 SupplementalSee File 110(thru 1978)Begin指令仅在每次开始检索或检索过程中更换文档时使用。检索中发生故障中断,再联机后,不能再使用此命令,应采用回顾检索步骤指令2)更换文档指令File n功能:转换到n号文档Fi
15、le指令功能与Begin指令相近,但它不消除原来的检索过程,集合号继续累计,仍继续先前的检索步骤,允许回到先前的文档进行检索3)基本检词指令SELECT(或S)功能:用于基本索引和辅助索引的检索。检索用户所选择的词、词组在数据库中出现的频率Select指令后可跟检索词、词组、前缀代码、后缀代码、Expand号和含有运算符的检索式。例:?S labor or labour 4282 LABOR 117 LABOUR S1 4313 LABOR OR LABOUR对一条Select指令,仅给一个步骤号Sn查基本索引:例:?S television/ti, ab, id ?S monday/de ?
16、 S spice查辅助索引:例:?S AU=RESTON.HARLEY S1 65 AU=RESTON.HARLEY4)扩词指令EXPAND(或E)5)翻页指令PAGE(或P)功能:Expand指令是在指定的文档中显示该文档基本和辅助索引的一部分,即该文档词库的字顺表或相关词表。Page指令的功能是翻页。6)分步检词指令SELECT STEPS(或SS)功能:分步骤检索系统对每个检索词都赋予一个步骤号例: ? SS labor or labour S1 4280 LABOR S2 118 LABOUR S3 4317 S1 OR S27)选文档指令SELECT FILES(或SF)功能:在DI
17、ALINDEX(411号文档)中用于选择多个文档。例:?SF 234,2368)逻辑组配指令COMBINE(或C)功能:用布尔算符AND、OR或NOT连接提问步骤号,即只能组配步骤号(使用时去掉S),不能组配检索词例:?C 1 and 2 ? C 1 and (2 or 3)一个组配式最多可以组配29个步骤号9)显示指令DISPLAY(或D)功能:在终端屏幕上显示检索命中的文献记录格式:提示符 指令字 步骤号/输出格式/命中文献记录号例:?D 8/5/8-11 ?D 5/5/all10)回顾检索步骤指令DISPLAY STEPS(或DS)功能:回顾自Begin命令以来所进行的检索步骤,或检索过
18、程因故发生中断时,在重新联机后,使用DS指令以显示检索过程例:?DS ?DS 2-511)联机打印指令TYPE(或T)功能:联机打印结果格式:指令字 步骤号/输出格式/命中文献记录号例:?T 4/5/2-3 ?T 2/3/2-4,17-18,9 ?T 3/6/all系统内定输出格式为2号格式;当不指明打印某条记录时,即输出某步的第一条;当不指明某步骤号时,则输出最后一步的第一条记录例:? T ? T 4/5 ? T 312)脱机打印指令PRINT(或Pr)功能:脱机打印用户指定的检索结果格式:指令字 步骤号/输出格式/命中文献记录号例:?Pr 8/5/1-216 ?Pr 4/3/15 ?Pr
19、8/5/all系统内定输出格式为2号格式;当不指明打印某条记录时,即输出某步的前50条记录;当不指明某步骤号时,则输出最后一步的前50条记录例:?Pr ?Pr 4 ?Pr 8/513)关机指令LOGOFF功能:脱离DIALOG系统。系统会自动显示日期、时间、用户号、机时费、文档号、打印费、本文档的总费用和联机以来的总费用例:? Logoff 27 sep 93 18:28:54 User 091112 $5.58 0.062 Hrs Files 399 $1.55 31 Types in format 1 $4.60 20 Types in format 3 $6.15 51 Types $1
20、1.73 Estimated cost this file $13.41 Estimated total session cost 0.171 Hrs Logoff : level 9. 1. 9 A 18:28:54 14)暂时关机指令LOGOFF HOLD功能:暂时关机30分钟例: ? logoff hold 21 sep 93 11:48:34 User 3464 $0.32 0.007 Hrs File 4 LOGOFF 11:48:39 ENTER YOUR DIALOG PASSWORD RECONNECT File 4 Fri 21 sep 93 11:50:26 Porto 9
21、B6.6 联机检索步骤和检索策略6.6.1 联机检索步骤(1)弄清信息需求,明确检索目的信息需求是人们客观上或主观上对各种情报信息的一种需求,是人们索取情报信息的出发点,也是联机信息检索时选择数据库、确定检索策略以及评价检索效果的依据。不同类型的课题,其信息需求的范围和程度也不尽相同。有关信息的形式需求要明确的问题有:明确检索目的明确所需的文献量明确所需文献的语种、年代范围、类型、作者或其他外表特征关于信息的内容需求要明确的问题有:明确检索课题内容涉及的主要学科范围分析检索课题的主要内容,用自然语言表达这些内容要求(2)选择数据库,确定检索途径选择数据库时首先应了解的内容:数据库收录的信息所涉
22、及的学科领域收录的文献类型及主要来源收录的时间范围数据库的基本索引和辅助索引数据库的检索费用应利用数据库目录和使用指南等了解数据库可根据已知条件确定一个或几个检索途径(3)确定课题的概念组面和检索标识当检索课题包含较复杂的主题内容时,应明确组成课题内容的几个概念组面,并通过一定的逻辑组配形成一定的复合概念或概念关系来表达用户的信息需求还须将概念组面转换成检索标识,它应符合切题性和匹配性的要求,一般有规范词、规范化的代码、自由词三种形式(4)拟定检索提问式,确定具体的查找程序检索提问式是指计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配
23、连接符号组成。从某种意义上讲,检索式是检索策略的体现,其质量好坏关系到检索成败6.6.2 联机检索策略含义:就是在分析信息需求实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排美国人鲍纳提出的五种联机检索策略:(1)最专指面优先策略(2)最少记录面优先策略例:属于美国女童子军成员的学生在高等教育中的成功率(3)积木型概念组策略(4)引文珠型增长策略(5)逐次分馏策略扩大检索的方法:(1)选全同义词、相关词,或采用分类号检索,增加网罗度(2)调整位置算符,由严变松,(W)(F)(3)丢掉一些次要的或者太专指的概念组面,减少AND运算(4)取消某些过严的限制符,如字段限制符等(5)进行截词检索,可以采用的有后截断、前截断、前后截断等截词方法(6)增加检索途径,如将主题途径与非主题途径结合起来使用缩小检索的方法:(1)提高检索式的专指度,增加或者换用下位词或专指性较强的自由词(2)调整位置算符,由松变严,(F)(W)(3)增加概念组面,进行AND运算(4)用后缀符限制检索字段,如常限在TI、DE字段中检索(5)利用文献的外部特征限制,如出版年代、语种、作者等(6)利用NOT限制与信息提问不相关文献的输出,减少检索噪声(7)进行加权检索,从定量角度加以控制