文档详情

第四章 检索式编制

ni****g
实名认证
店铺
DOCX
38.17KB
约10页
文档ID:502047887
第四章 检索式编制_第1页
1/10

第四章检索式编制【知识框架】•什么是检索式?・ 指搜索引擎理解和运算的查词串,由关键词、逻辑运算符、搜索指 令(搜索语法)等构成•主要逻辑算符・ 布尔逻辑算符:与或非・ 优先算符・ 邻接算符・ 字段算符・ 截词算符・ 加权算符・ 词组或短语•如何构建合理的检索式?♦常用检索方法与策略【补充教材2.4-4章】【主要内容】1、检索式和运算符 检索式:用运算符将检索词连接起来构成的能让计算机识别的式子 运算符:又称逻辑算符,是表达检索词之间逻辑关系和限制关系的运算符号,它是复合 检索式中必不可缺的构件2、布尔逻辑算符1)逻辑“与”逻辑“与”可用“ AND ”或“*”表示,检索词用“ AND ”或“ * ”相连,含义是检出的记录中 同时含有所有检索词逻辑“与”运算符的基本作用是对检索词加以限定,逐步缩小检索 范围,减少命中文献量,提高检索结果的查准率,适用于不同概念组面之间以及同一组 面内不同含义的词之间的组配2) 逻辑“或”逻辑“或”可用“OR ”或“+”表示,检索词用“OR”或“+”相连,含义是检出的记录中, 至少含有检索词中的一个逻辑“或”算符的基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索 结果的查全率。

适用于同义词或同族概念的组配,如同义词、近义词等3) 逻辑“非”逻辑“非”可用“NOT”或“一”表示,检索词用“NOT”或“一,湘连,表示排除NOT”或 “-”算符后的词语,检出含有算符前检索词的所有记录逻辑“非”算符的基本作用是缩小检索范围,减少文献输出量的作用,但不一定能提 高文献命中的准确率同时应注意在有两个以上运算符的复杂逻辑式中,“ NOT”出现次 数不能太多,否则检出结果极少,影响检出效果使用布尔检索需要注意问题: (1)布尔检索执行顺序:布尔检索运算执行顺序通常是NOT、AND、OR有括号时,先执行括号内的逻辑运算 有多层括号时,先执行最内层括号中的运算2)绝大部分网络信息检索工具都支持布尔检索功能,但不同的检索工具之间有差别第一,不同的检索工具表示布尔逻辑关系时使用的符号不同,有的用“&”、“ ”和“!” 分别表示布尔关系的AND、OR和NOT,有的用+、-分别表示布尔关系的AND、OR,有 的则用表格、文字、空格或菜单来体现不同的布尔关系使用的时候要注意使用帮助系统了 解代表某种逻辑关系的符号第二,有的检索工具检索词之间默认关系为AND,有的检索工具检索词之间默认关系 为 OR。

第三,支持布尔逻辑的程度不同,有的完全支持三种运算,如Infoseek ;有的仅在高级 检索中完全支持,而简单检索中则部分支持,如Lycos;而Yahoo则不支持布尔关系NOT3、 优先处理算符优先处理算符用“()”表示,含义是优先对()内的算符进行逻辑运算,在实际检索中, 有时要调整逻辑运算符的运算顺序,使某些算符优先进行逻辑匹配,或者是简化逻辑算式, 在这些情况下,将使用算符“()”4、 邻接算符 邻接算符又称词位置逻辑检索符、全文查找逻辑算符,相邻度检索算符,原文检索符 在检索中,会遇到如下一些情况:某个概念需用词组形式表达; 两个或两个以上的词要紧密相邻; 在这些情况下,需要用邻接算符限定检索词之间的间隔距离或是词语出现的顺序1)(W)W的含义是“With”,其用法为A (W) B,表示(W)前后所连接的A、B两个检索词 在检出结果中必须紧密相邻,且词序不能颠倒2)(nW)W的含义是“Word”,n代表单词个数,用法为A (nW) B,表示A、B两词之间允许插 入最多为n个的其他词语,插入词可以是实词或系统禁用词,同时A、B两词的前后顺序保 持不变3) (N)N的含义是“Near”,用法为A (N) B,表示在检出结果中A、B两词必须紧密相邻, 并允许词序发生颠倒。

4)(nN)N的含义仍是“Near”,用法为A (nN) B,表示A、B两词之间允许插入最多为n个的 其他词语,插入词可以是实词或系统禁用词,两词的前后顺序可以颠倒5、 (X),这是无间隔有序检索符检索式为A(X )B,表示这个算符两边的检索词必须完全 一致,并以指定的顺序相邻,中间不允许插入任何单词或字母6、 (nX),这是有间隔有序检索符检索式为A(nX)B,表示两个检索词之间最多可以插入n 个单元词,两边的检索词必须完全一致5、字段限制在联机数据库或光盘数据库检索系统中,都提供字段限制的检索功能,其作用是检索范 围限定在某一字段内如题目、作者等以DIALOG检索系统,基本字段限制为四个:题目 (TI)、叙词(DE)、标引词(ID)、文摘(AB)心例8:检索式COMPUTER/TI- 表示在题目中查找含有COMPUTER 一词的文献除了基本字段以外,检索系统中的其它字段都可称为辅助字段,其表达方式与基本字段 有所不同,它是在检索词前面加上字段代码和运算符“=”,心 例 9:检索式 CS=BEIJING UNIBERSITY・表示检索著者单位为北京大学的所有文献网络检索的字段限制♦字段“site:”表示检索应该在一定的站点上进行,♦ “url: ”表示检索词应该是网址的一部分,♦:* “title:”表示检索词应在网页标题中出现,♦:* “alt: ”表示检索词应在图像替代文字中。

♦在搜索引擎Google的检索框键入link: 可以得到所有链接到 Google 主页的网页6、截词算法♦ 截词检索是利用检索词的词干或不完整的词形查找信息的一种检索方法用户可以在检索式中用截词符号(如“*”、“? ”或“$”等等)表示检索词的某 一部分允许有一定的词形变化,而不必输入完整的检索词检索时,检索工具将用户输入的检索式到数据库中进行查找,凡是与检索式 相匹配的字符,不论其后或其前是什么字符都属命中内容截词检索可以降低输入次数,简化检索程序,扩大检索范围,提高查全率 -一般情况下,“?”代表一个字符,而“ *”表示通配所有字符1) 按截断的字符数量划分♦ 截词检索可以分为有限截词和无限截词・ 有限截词,又称有限截断,指对词干以外可以出现的字母数量进行限定女口: studen??,截词符''??”表示检索含有studen和studen后只跟有两个字母的检 索词的文献无限截词,又称无限截断,指对词干前后出现的字母数量不作限定,一切与 输入的词干相匹配的字符串,不论词干后或词干前是什么字符串、有多少字 符串都属于要检索的信息2) 按截断的位置划分♦ 截词检索可以分为前截词、后截词、前后截词和中间截词。

♦ 前截词,又称左截词,前截断・允许检索词的前端有一定形式的变化检索时将截词符放在一个字符串的左 方,表示其右的有限或无限个字符不影响该字符串的检索这实际上是一种 后方一致的检索,对汉语中的复合词组的检索非常方便♦ 后截词,又称右截词,后截断・ 允许检索词的尾部有若干形式的变化检索时将截词符号放在一个字符串的 右方,凡是有截词符左方所有字符串的文献都符合检索要求这实际上是一 种前方一致的检索目前大多数网络检索工具都支持截词检索,但与联机和光盘数据库检索系统 的截词功能相比仍存在一定距离,数据库支持全部截词功能,而在网络检索 工具中,较多支持右截词,部分支持中间截词,左截词较少综含各粪检索系统说明邻近(位Jt)葬苻含义臭 笛功能检索曲呆W: W / N- V1TTH:.wmnN两伺硏轴入时顺 序井列EdEicadon (W) srhoo) 或EilutcilluiL WITH sduunjlEducalion cirhoaLElLiiculLuil SbChuijbnW同上,两词中间允许擂 入n亍词Educadcn (lWj ichoolEducathm schoolEdiicatliiri EEhaoteEducatiaii. and scIidvIN. W/U?、ART两词相翠顺乍可以顛Edncatior (Nl school 或Educadon [SEAR sclioolEducathm schoolEflicatlotli EtlwukSclool of cdhraticEnN同上,两词中插 入T1个诃EdacELdon (IN) schoolEdmattan GchoolRrlinnl nF prhirarlniiiEducatiau tuid. iimjic 圧 oheol Srhool of music aiudedn calloiir两牛词同左一卜标引 宁段中EilUtilllUlL (F) slIiulj]卸如可时出现在题名或文 摘宁收中7、词组或短语检索•:・词组或短语检索是一般数据库中最常用的方法。

・:♦在网络信息检索工具中,如在检索框中输入两个或两个以上的检索词,这两个检索 词之间又不加任何符号,那么检索工具会将这两个检索词之间的关系设为默认值(有 的默认值为AND,有的默认值为OR)如要将这两个或多个检索词作为一个词组或 短语进行检索,中间不允许插入任何字符,就必须使用一定的符号来表明这是词组 或短语,最常用的符号是双引号“”或括号( )8、加权检索♦加权检索的基本方法是:・ 在每个检索词后面给定一个数值,表示其重要性程度,这个数值称为权值通过加权明确了各检索词的重要程度,使检索更有针对性,并且能依据权值 的大小,对命中记录的重要性进行排序检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索 词的权值之和・只有当数据库记录的权值之和达到或超过预先给定的阈值时,该记录才算命 中♦最先支持加权检索的网络信息检索工具是Excite,它用符号“人”表示给某个检索 词指定了权值现在大多数网络信息检索工具采用“+”、“-”来表示检索词在检索 提问中的分量9、构造检索提问式♦在检索中,有两个最为关键的步骤,・一是概括检索提问,选择精确的检索词;-二是正确构造检索提问式,达到检出目的。

一)灵活运用各种运算符号 要考虑检索提问中的关键词是否有同义词、近义词,以及词形的各种变化,灵活运用各 种运算符号,如逻辑“或”算符、截词符号、邻接算符等,扩大词语的检索范围,降低漏检 的可能性,提高检出效果二) 准确构造检索式♦ 构造步骤:・1、分析检索词之间的逻辑关系,形成“子逻辑式”・2、根据检索提问中涉及的主要主题概念,构造检索提问式・3、尽量选专指词、特定概念或专业术语作关键词,避免普通词和太泛指的 词语■ 4、用双引号提咼查找精度・5、用截词符扩检对于英语,有不同的单复数形式和时态变换,可使用截 词符号扩大检索范围,但有些搜索引擎不支持该功能,如Google■ 6、使用邻接算符可以提高检索的准确性和灵活性,例如,Lycos用adj、near、 far 或 before 来限定词与词之间的关系■ 7、利用符号“+”、“-”在关键词前加上不同的算符,可表示词的重要程度, 大部分搜索引擎在关键词前使用符号+,表示结果中一定含有该词,如输入 +CIA,则返回的每篇文章中都含有CIA (即中央情报局);与之相反的是在 词前加-,表示检索结果一定不含该词(三) 制定合理的检索式 【构造原则】1、 使用搜索引擎检索之前,应首先阅读搜索指南或帮助,熟悉搜索规则以及运算符号 的含义。

2、 引擎一般提供简单检索和高级检索,在高级检索。

下载提示
相似文档
正为您匹配相似的精品文档