信息检索技术方法及搜索引擎

上传人:公**** 文档编号:431922269 上传时间:2023-04-18 格式:DOCX 页数:8 大小:24.06KB
返回 下载 相关 举报
信息检索技术方法及搜索引擎_第1页
第1页 / 共8页
信息检索技术方法及搜索引擎_第2页
第2页 / 共8页
信息检索技术方法及搜索引擎_第3页
第3页 / 共8页
信息检索技术方法及搜索引擎_第4页
第4页 / 共8页
信息检索技术方法及搜索引擎_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《信息检索技术方法及搜索引擎》由会员分享,可在线阅读,更多相关《信息检索技术方法及搜索引擎(8页珍藏版)》请在金锄头文库上搜索。

1、信息检索技术方法及搜索引擎第一节:信息检索技术数字资源的检索技术布尔逻辑检索技术1截词检索技术2邻近检索技术3字段检索技术4布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索 方法.主要的布尔逻辑关系词有:逻辑与(AND),逻辑或(OR),逻辑非(NOT)1 布尔逻辑检索技术逻辑与逻辑乘:and或*表示组配方式:A*B或者A and B表示两个概念的交叉和限定关系,只有同时含有这两个概念的记 录才算命中信息作用: 增加限制条件, 即增加检索的专指性, 以缩小提问范围, 减少文献输出量, 提高查准率. 逻辑或又称逻辑和:or,+组配方式:A OR B或者A+B,表示

2、检索含有A词,或含有B词,或同时包含A,B两词的文章. 作用: 放宽提问范围, 增加检索结果, 起扩检作用, 提高查全率.逻辑非又称逻辑差: not -组配方式:A-B,表示检索出含有A词而不含有B词的文章.作用: 逻辑非用于排除不希望出现的检索词 , 它和*的作用相似, 能够缩小命中文献范围, 增 强检索的准确性.例如检索:打印机驱动程序查询关键词: 打印机, 驱动程序 检索表达式: 打印机 AND 驱动程序 例如检索:微型计算机方面的有关信息 查询关键词: 微型计算机, 微机 检索表达式: 微型计算机 OR 微机 布尔逻辑检索举例 布尔运算符优先级比较 有括号时: 括号内的先执行;无括号时

3、:NOT AND OR例: 检索唐宋诗歌的有关信息.关键词: 唐, 宋, 诗歌;检索表达式:(唐OR宋)AND诗歌;唐 AND 诗歌 OR 宋 AND 诗歌;错误表达式:唐 OR 宋 AND 诗歌 ;唐 AND 宋 AND 诗歌 ;唐 OR 宋 OR 诗歌 ;唐 AND 宋 OR 诗歌; 布尔逻辑运算符优先级、士、,亠请注意在不同的数据库中,所使用的逻辑符号可能是不同的,有的用and,or,n。t有的用*,+,- 一些检索工具会完全省略任何符号和关系, 直接把布尔逻辑关系隐含在菜单中. 一些网络检索工具如搜索引擎甚至用,-(即空格, 逗号, 减号)来表示.主要应用于西文数字资源的检索 定义:是

4、指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变 化.作用:主要是提高查全率 截词符一般用 或*表示2 截词检索技术截词位置 按截词位置可分为前截词, 后截词, 前后截词和中间截词; 按截断字符数的不同,可分为有限截断和无限截断.右截词,又称后截词,前方一致.允许检索词尾有若干变化.例如comp ut*将检索出 comp uter ,comp uti ng,comp ut erised,comp ut erized,comp ut eriza tion 等结果.中间截词,又称前后方一致允许检索词中间有若干变化例如wom*n,检索到woman,women的 结果.英美的

5、不同拼法,defen*e可同时检出defence和defense的结果.左截词 , 又称前截词 , 后方一致 , 允许检索词前有若干变化 , 例如 *physics 就可检索到 physics,as tr ophysics,biophysics,chemophysics,geophysics 等词的结果.前后截词 :词干的前后各有一个截词符 , 允许检索词的前端和尾部各有若干变化形式 . 如 computer可检索computer,computers,computerize,computerized,computerization,minicomputer,minicom put ers,mi

6、crocomp ut er,microcomp ut ers 等结果.请注意在不同的数据库和联机检索系统中 ,所使用的截词符号没有统一的标准,有的用 ,有的用 *,有的用#,用的用$等.即便常用的 和*在不同的数据库中其用法也是不一定相同的. 在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见. 我们将要使用的一些数据库,一般用*代表一个字符串,用 代表任意一个字符. 邻近检索又称位置检索, 主要是通过检索式中的专门符号来规定检索词在结果中的相对位置. 例如检索生物防治的文献,若用检索式biological*control检索,则会将抑制生物 (con trol biol

7、ogical)的文献也查出来,这显然不是所需文献.主要有相邻位置算符(W),(nW),(N),(nN),句子位置算符(S),字段算符(F).3 邻近检索技术(W) 算符(W)是with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变, 且两词之间不许有其他的词或字母, 但允许有一空格或标点符号.如 biological (W) control 相当于检索 biological controlCD (W) ROM 相当于检索 CD ROM 或 CD-ROM.(nW) 算符(nW)是n words的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变. 如

8、 wear (1W) material 相当于检索 wear materials,wear of materials 等.(N) 算符(N) 是 near 的缩写, 表示此算符两侧的检索词必须紧密相连, 词序可变, 词间不允许插入其他 词或字母, 但允许有一空格或标点符号.information(N)retrieval可检出: information retrievalretrieval information(nN) 算符(nN) 表示两词间可插入最多 n 个词, 词序可变.如 检 索 式 environment (2N) protection 就 可 检 索 出 包 含 environme

9、nt protection,environment of the protection ,environment of water protection,protection of forest environment(S),(F) 算符(S) 是 sentence 的缩写, 表示两个检索词须同时出现在文献记录的同一子字段中, 两词的词序 不限, 两词间插入词的数量不限.(F)算符:在联机检索中还有对同字段进行检索的(F)算符.(F)表示此算符两侧的检索词必须 同时出现在信息记录的同一个字段内, 两词的词序不限, 两词间插入词的数量不限. 用此算符 时须 指定所要查找的 字 段 , 如题名字

10、段, 文摘字 段, 叙词 字 段等. 例如 digital (F) computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息. 字段检索是限定检索词在记录中出现的字段范围, 检索时, 计算机只对限定字段进行查找.3 字段检索技术 数据库中的字段包括TI(题名),AB(摘要),DE(主题词),ID(标识词),SU(主题词),KW(关键词)AU(著者),BN(国际标准书号),SN(国际标准刊号),CC(分类类目),CS(机构),DT(文献类型)或 PT(出版物类型),JN(刊名)或JA(刊号),LA(语种),PY(出版年),S0 (来源出版物) 注意:不同的数据库其字段代码

11、可能不同.举例在 EBSCO 数据库检索中, 某一用户需检索有关数字图书馆与信息检索, 参考咨询方面的文献 信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数, 主题为信息检索 information retrieval 或参考咨询 reference, 请编制其检索策略(检索 式).(ti:digital librar* or ab:digital librar*) and su:(reference or information n2 retrieval)第二节: 信息检索方法信息需求分析 选择信息资源 选定检索词 构造检索表达式确定检索途径

12、对检索策略进行调整实施并输出检索结果1 信息需求分析 分析信息检索目的,制定检索目标. 分析所需信息涉及的学科,确定检索的学科范围. 分析所需信息的类型,年代,确定检索的信息类型和年代范围.2 选择信息资源( 数据库的选择) 数据库的类型 学科范围 时间范围3 选定检索词 分析主题,找出课题所包含的显性概念和隐含概念. 找出核心概念,排除无关概念和重复概念. 从待检数据库和检索工具的词表中选取规范化的词或词组. 选用上位词,近义词或下位词作为检索词.4 构造检索表达式 分析检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式. 找出在编制检索提问式时,准确,合理地运用位置逻辑算符,截词符

13、,字段符等技术是编制检索 式的基本要求.5 确定检索途径 第一类是表示主题概念的检索词-主题词,包括标题词,单元词,叙词,关键词. 第二类是表示学科分类的检索词,如分类号.第三类是表示作者的检索词,如作者姓名,机构名称等. 第四类是表示特殊意义的检索词,如专利号,国际标准书号,分子式等 举例 一个研究生在做论文题:数字图书馆中的元数据体系与互操作研究,这是一个计算机科学, 信息科学方面的课题,请你帮助他在维普数据库中找到最新的参考文献.第三节:搜索引擎Search Engine 搜索引擎利用情况 搜索引擎的概念和作用 搜索引擎的工作原理 搜索引擎的分类 搜索引擎的一般检索技术 搜索引擎利用技巧

14、 主要搜索引擎 目录搜索引擎的应用现状 从用户使用的角度,国外的调查发现: 网上搜索信息的人很少考虑如何找到他们所需要的信息,因此搜索信息时象动物猎食般盲目; 只有 18%的用户表示总能在网上搜索到需要的信息.68%的用户说他们对搜索引擎很失望; 平均每个搜搜者在12 分钟的徒劳搜索后就感到恼火和受挫.46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎. 国外的应用状况那些每周平均花5 个小时以上时间上网的人,将其上网时间的71%都花在了搜索引擎上;人机界面高手 nielsen(google 的设计者)研究表明: 略超过 1/2 的互联网用户属于 search-dominant, 约

15、 1/5 用户属于 link-dominant, 其它用户的搜索倾向属于混合行为型.search- dominant 在到达一个网站后直接就奔向搜索按钮,他们对浏览网站不感兴趣,他们有 明确的目的,倾向于以最快速度找到信息.相反,link-dominant喜欢点击浏览一个网站,即使他们想找特殊信息时也是这样,只有在他 们用点击超链的方法已经实在找不到了,才会想起搜索按钮.国内的应用状况 国内的调查发现: cnnic2004 年 1 月的调查:61.6%的中国互联网用户经常使用搜索引擎(仅次于E-mail). 83.4%的中国互联网用户得知新网站的主要途径是搜索引擎.赛迪咨询的搜索引擎调查:截止2000年8月,92.9%的网民使用过搜索引擎,同时有六成左右的 网民将搜索引擎列为经常使用的网络服务.新浪搜索的统计表明:第1 条搜索结果获得的点击量,是第2页第1 条的150倍. 百度公司:百度2001 年中国互联网用户搜索热点统计 搜索引擎是一个用来搜索世界各地 Internet 网络资源的 WEB 服务器. 它像一本书的目 录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣 的信息所在的 WEB

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号