《文献检索技术》ppt课件

上传人:tian****1990 文档编号:74186512 上传时间:2019-01-27 格式:PPT 页数:44 大小:698.31KB
返回 下载 相关 举报
《文献检索技术》ppt课件_第1页
第1页 / 共44页
《文献检索技术》ppt课件_第2页
第2页 / 共44页
《文献检索技术》ppt课件_第3页
第3页 / 共44页
《文献检索技术》ppt课件_第4页
第4页 / 共44页
《文献检索技术》ppt课件_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《《文献检索技术》ppt课件》由会员分享,可在线阅读,更多相关《《文献检索技术》ppt课件(44页珍藏版)》请在金锄头文库上搜索。

1、第3讲 文献检索技术,2005.7,一、布尔逻辑检索技术,在检索实际中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。 为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。,1 逻辑“与”,含义:检出的记录必须同时含有所有的检索词。 基本作用:一种用于交叉概念或限定关系的组配,可以缩小检索范围,有利于提高检索的专指性。 用and 或*表示 例如:查找同时含有概念A 和概念B 的文献,可表 示为:“A and B”或“A*B”,2 逻辑“或”,含义:检出的

2、记录中,至少含有两个检索词中的一个。 基本作用:用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。可以避免了命中文献的重复出现。 用OR 或“+”表示 例如:检索含有检索项A 或检索项B 的文献,可表 示为:“A OR B”或“A+B”,3 逻辑“非”,含义:排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。 基本作用:用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。 用“NOT”或“-”表示,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆。 例如:在含有概念A 的文献集合中,排除同时含有 概念B 的文献,可表

3、示为:“A NOT B”或 “A-B”。,4 运算优先级,运算优选级顺序为(),NOT,OR ,AND ; 可以用括号改变它们之间的运算顺序。通常在有括号的情况下,括号内的逻辑运算先执行,有多层括号时,先执行最内层的括号。 例如:(A OR D) AND B,表示先执行“A OR D”的 检索,再与B进行AND运算。,5 注意事项,1)有的检索工具以符号形象地表达布尔检索的功能,如“+”表示逻辑与,“-”表示逻辑非。有的检索工具直接把布尔逻辑隐含在菜单中,例如,Lycos以“match all terms”表示逻辑与,以“match any term”表示逻辑或。绝大多数检索工具的高级检索完全

4、用表格和文字来表达布尔关系,如,Excite以“必须包括(MUST contain)”表示逻辑与,用“一定不含”(MUST NOT contain)表示逻辑非。 有的检索工具部分支持布尔关系,如Yahoo!尚不支持逻辑非。,2)用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。布尔算符使用正确但却不能达到应有检索效果的例子很多。 OR逻辑 有些检索词表达的概念,存在整体与部分的关系。在检索中,这类关系如果处理不好,就不能得到满意的检索效果。对此,一般原则是,如果检索词涉及到表达整体的概念,就要针对具体情况分别列出每一个表达部分概念的检索词,否则将

5、出现漏检。 NOT逻辑 在检索逻辑中使用NOT,能排除含有由NOT指定的检索词的文献,协助检索出更准确的文献。但是,使用NOT必须慎重。因为, 如果两个关系紧密的检索词同在一个检索逻辑中,对其中一个使用NOT逻辑会导致含另一个词的文献也被排除。,6 小结,检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。 用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。 另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。,示例:使用布尔逻辑运算符,表明查询结果中必须

6、同时包含intelligent robot和control,表明查询结果中至少包含两个检索词中的任意一个,intelligent robot或control,表明检索结果包含intelligent robot,但同时必须去掉和control相关的内容,Intelligent robot and control(intelligent robot*control),Intelligent robot or control(intelligent robot+control),Intelligent robot not control(intelligent robot-control),注:英文

7、数据库通常用字母,中文数据库要用符号。,二、位置检索(邻近检索)技术,表明两或多个检索词之间关系的符号。 适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。可以看成特殊功能的AND算符。AND算符不限制两个检索词的位置和出现顺序。 例如:communication AND satellite 命中的文献可能有 communication satellite; satellite communication; communicaticn devices for satellites; communicaticn links without satellites; 位置算符可以改进AND算符

8、的这种不足,它是特殊功能的AND算符。按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一位置算符,检索系统不同,规定的位置算符也不同。,1)“(W)” 含义: “(W)”算符中的W含义为“With”。表示其两侧的检索词必须紧密相连,除开空格和标点号外,不得插入其他词或字母,两词的词序不可颠倒。其简略形式为()。 例如: communication (W) satellite communication () satellite 两者相同,2)“(nw)” “(nW)”中的“W”的含义为“Word”,它允许两词间插入最多为n个其他词,包括实词和系统禁用词,词序不变。 例如: comm

9、unication (2W) satellite 则会检出 communication satellite communication though satellite communication on the satellite,3)“(N)” 含义:“(N)”中的N含义为“Near”。表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。,4)“(nN)” 含义:“(nN)”是“(N)”算符的变形,不同之处为允许两词间插入最多为n个其他词,包括实词和系统禁用词。 例如: COTTON (2N) PROCESSING 则命中: Cotton proc

10、essing; processing of cotton; processing of Egyptian cotton,5)“(F)” 同字段检索 含义:“(F)”算符中F的含义为“Field”。这个算符表示其两侧的检索词必须在同一个词段中出现,(例如;同在题目字段或文摘字段)词序不限,中间可插任意检索词项。 例如: POLLUTION (F) CONTRON 可命中 Contron and management of industrial pollution 同在题目中 (F)邻近算符与AND布尔逻辑主要区别在于:(F)使两个检索项在同一字段,AND布尔逻辑中两个检索词会发生在不同字段中。,

11、6)“(s)”同句检索 含义: “(s)”算符中的S含义为“Sentence”。这个算符表示其两侧的检索词必须在同一自然句子(子字段)中出现,两词的词序可以颠倒。 放宽了词位置检索的要求,使表达同一概念但不满足词位置条件的文献也可以被检索出来,从而提高了查全率。,以上介绍的各种位置算符,按照限制程度的大小,(W)、(nW)最强,(N)、(nN)次之,(S)再次之。 当(nN)的n 10时,其作用已经相当于(S)。,三、 截词检索技术,含义:用截断的词(词的片段)的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。 检索者将检索词在合适的地方截断,然后截出的片断

12、进行检索。, 原因: 由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。 为了保证查全,就得在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,输入检索词的时间太久,同时也占太多机时。,截词的方式,(1)按截断的字符数量来分:有限截断和无限截断 有限截断:有具体截去的字符数。 无限截断:不指明具体截去的字符数。 (2)按截断的位置区分:后截断、前截断以及中间截断。 (3)截断常使用截断符号,各检索系统所使用的截断符号有所不同,常用的符号有 “?”,“”,“”以

13、及“ *” 。以下举例中用“?”来表示有限截断,用“*”表示无限截断。 注意:不同的数据库所用的截词符不一样,使用应先查 一下各数据库的帮助加以确认。,1 后方截词(前方一致或右截断),含义:将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。 (1)词尾的有限截断 相同字符串后可能变化一个字符时,则在其后使用一个“?”、空格、再加一个“?”,常用来表示检索词的单复数变化。 例如:用system?可以查出sytem 和systems 的文献。 相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。 例如:?表示两个字符,?表示三个字符,以此类

14、推。,(2)词尾的无限截断,相同字符串后可能变化任何字符串时,则在其后使用一个“?”。这种方法可以查找出含有相同字符串的所有检索词。 例如: comput? 可查出compute , computer , computing,computation,computerisation 等。,(3)后截词主要使用在如下4个方面,词的单复数,如book?,potato?; 年代,如198?(80年代),19?(20世纪); 作者,如用Lancaster*可检出所有姓Lancaster的作者; 同根词,如用biolog*,可检出biological、biologist、biology等同根词。,注意,(

15、1)有限截断比较精确,只检索出用户需要的词汇; (2)使用时无限截断必须注意:词干不要太短,否则会检出许多无关的文献; (3)应尽量选用不会引起误检的截断词。,2 中间截词(中间屏蔽),将提问字符串中间的字符用符号代替,主要用于英式美式不同拼法的英文单词,或单复数不同的单词。 截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。 例如:“ woman ” 和“ women ” , 可用“ wom?n” 代替; “ defence ” 和“ defense ” 可用“defen?e”代替。 检索时为防止漏检可用中间屏蔽的检索方法: m?n wom?n org

16、ani?ation defen?e 当然使用中间屏蔽的方法也要注意是否可能误检其它词汇的 文献。,3 前截断(后方一致或左截断),前截断检索常用于复合词。 例如:?computer表示minicomputer,microcomputers等。 前截断与后截断也可以组合起来使用。 例如: *chemi* 可以检出下列词汇 chemical、chemistry、chemist、 eletrochemical、electrochemistry、 physicochemistry、thermochemistry等。,四、字段限定检索,含义:限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。(规定的字段范围内出现的信息方为命中信息的一种检索方法。) 适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率。由于字段限制采用前缀和后缀的形式,又可称为前缀限制和后缀限制。,限制检索主要有两种方式: 字段检索利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号