[2017年整理]计算机检索技术概述

上传人:油条 文档编号:48597500 上传时间:2018-07-17 格式:PPT 页数:53 大小:1.55MB
返回 下载 相关 举报
[2017年整理]计算机检索技术概述_第1页
第1页 / 共53页
[2017年整理]计算机检索技术概述_第2页
第2页 / 共53页
[2017年整理]计算机检索技术概述_第3页
第3页 / 共53页
[2017年整理]计算机检索技术概述_第4页
第4页 / 共53页
[2017年整理]计算机检索技术概述_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《[2017年整理]计算机检索技术概述》由会员分享,可在线阅读,更多相关《[2017年整理]计算机检索技术概述(53页珍藏版)》请在金锄头文库上搜索。

1、第四讲计算机检索技术概述3.1 计算机检索简况3.2 计算机检索的相关概念3.3 检索式的拟订3.4 检索步骤3.1 计算机检索简况计算机检索指利用计算机及相关设备进行的文献信息检索。信息检索技术正向两个方向迅速发展:一是在深度上提高管理和组织信息的能力传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展.二是在广度上提高管理和组织信息的能力文献资源的网络化和分布化,面向Internet中浩瀚无垠的资源。 1检索系统 信息检索系统包括两个子系统:存储子系统和检 索子系统。 2联机检索 利用与检索系统或信息中心的主机连接,在中央 处理机控制下查询系统内的数据库,并能够与系统实 时对

2、话,随时调整检索策略。 3数据库是在计算机存储设备上按一定方式存储的相互关 联的数据集合。3.2 计算机检索的相关概念字段(field):如在数据库中题名、作者、作者单位 、期刊名、摘要、全文等等均是字段;一条记录由多 个字段值组成;对计算机检索来说字段相当于检索入 口。字段(字段(FieldField)记录(记录(RecordRecord)文档文档( (FileFile) )数据库数据库常用字段缩写:TITitle 文章题目ABAbstract 文章摘要KWKey Word 关键词AUAuthor 作者AFAffiliation 作者单位SOSource 文章来源(刊名信息等)ISSN(IS

3、BN) International standard Serial (book) Number PYPublication year 出版年LALanguage 语种记录(Record)由若干字段组成的文献单元,在 全文数据库中,一条记录相当于一篇完整的文献, 在书目数据库中,一条记录相当于一条文摘或题录 。文档(File)由若干个逻辑记录构成的信息集合 ,是数据库的基本内容,分为顺排文档和倒排文档 。顺排文挡是数据库的主体内容,倒排文档是将记 录中的一切可检字段或属性值提取出来,按某种顺 序重新加以组织所得到的文档。顺排文档(记录)倒排文档(索引)数据库(database)由计算机进行处理的

4、一定数 量同类信息的有序集合,是用来存储和查找文献信 息的电子化检索工具。数据库的类型书目数据库全文数据库文摘数据库按信息处理层次划分期刊论文数据库书目及图书全文数据库专利数据库学位论文数据库产品数据库按收录的文献类型划分图像数据库文本数据库数值数据库声音数据库视频数据库多媒体数据库按媒体信息划分综合性数据库专业性数据库按收录文献信 息的范围划分单机数据库联机数据库网络数据库按服务模式划分3.3 检索式的拟订3.3.1布尔逻辑检索算符 3.3.2位置检索算符3.3.3截词检索算符3.3.4字段揭示及限制算符3.3.5其它符号3.3.6注意事项精确与 模糊检 索 基本技术词间位置检索 加权检 索

5、 布尔逻辑检 索 限定字段检索 限定范围检索 截词检索 1.逻辑 “与” (AND),表示为 A and B 或 A * B 2.逻辑 “或”(OR),表示为 A or B 或 A + B 3.逻辑 “非”(NOT),表示为 A not B 或 A - B3.3.1 布尔逻辑检索算符逻辑“与”用“and”、“*”或者空格表示。在网络搜 索引擎中习惯用空格代替“and”。表示检出的记 录必须同时包含所有的检索词,可以缩小检索范围 ,减少命中文献量,提高查准率。ABA and B例:检索“太阳能”文献太阳能源【实例】检索“中国人民政府”这个网站 ,可以输入“中国*政府”、“中国 and 政府”、“

6、中国 政府”等。 【实例】检索课题“中国外汇储备规模的 研究”不是一篇文章,需要检索有关的期 刊文章,其检索式宜表达为“中国 and 外汇 and 储备 and 规模”逻辑“或”用“or”、“”或逗号表示。在网络搜索引擎 中习惯用逗号代替“OR”。表示检出的记录中至少含有 多个检索词中的任何一个,可以扩大检索范围,增加命 中文献量,防止漏检。常用于连接同义词,相关词等。ABA or B例:检索“光盘和磁盘”文献光盘磁盘【实例】在搜索引擎中输入“计算机OR多 媒体OR Windows98”则查询至少包含“计 算机”、“多媒体”、“Windows 98”三 者之一的信息。逻辑“非”(NOT)表示检

7、索结果中排除含有某些词的记录,可 以缩小检索范围,减少文献输出量,但并不一定 能提高查准率。ABA not B例:检索“除核能以外有关能源”文献能源核能【实例】输入“automobile not car”, 就要求查询的结果中包含automobile(汽 车),但同时不能包含car(小汽车)。 【实例】在搜索引擎中输入“电视台-中 央电视台”,查询结果不包含“中央电视 台”。相同的检索词在不同的字段中检索到的结果不同。【实例】用中文科技期刊数据库检索机械产品采用计算机 辅助设计的论文。 用不同字段作为途径,如下所示: 选择”u=任意字段” 输入“计算机辅助*产品”,查出2902篇 ; 选择”m

8、=题名或关键词” 输入“计算机辅助*产品”,查出626 篇; 选择“t=题名”输入“计算机辅助*产品”,查出139篇; 选择“k=关键词”输入“计算机辅助*产品”,查出545篇;检索入口 选择“c=分类号”输入“机械产品”的分类号 “TH122”年限设定,查到11206条。也叫“邻接检索”, 表示两个或多个检索词之间的关 系检索方式,常用的位置算符有:1. w (with)表示两个检索词前后次序固定,二者之间只能间隔连字 符、空格或者是逗号。【实例】在OCLC中输入communication w satellite;2 . wN (with N)表示两个检索词前后次序固定,二者之间最多间隔N个

9、 字符。【实例】在EBSCO中输入communication w3 satellite;3.3.2 3.3.2 位置检索算符位置检索算符3. n( Near)表示两个检索词可以互换顺, 二者之间只能间隔连字符、空格或者是逗号 。 【实例】在OCLC中输入communication n satellite;4. nN( Near N)表示两个检索词可以互换 顺,二者之间最多间隔N个字符。 【实例】在EBSCO中输入communication n3 satellite; 比较:在EBSCO中输入source and law、 source w2 law3.3.3 截词检索算符n检索colorn检索

10、computer、microcomputer、minicomputer截词符(通配符)提高查全率,防止漏 检的有力手段,也可以简化输入,包括有限截词 和无限截词,常用的截词符有:*, ?, #,!,$有限截词一个符号表示一个字符,一般使用“? ”(英文半角问号)代表0-1个字符。比如: chip? 可检索出:chips(右截断)无限截词一个符号表示任意多个字符,标准符号 是“*”,代表0-n个字符,也称为通配符。比如:comput* 可检出:compute, Computer, computers, computing, Computerize等.注:不同的数据库所用的截词符不一样,使用应先查

11、 一下各数据库的帮助加以确认3.3.3 截词检索算符后截断无限截断如:physic?截词检索与截词检索算符Physic physicsphysicstphysicalismPhysic physicsphysicst如:physic*有限截断中文数据库里面中文数据库里面 习惯称为习惯称为“ “前方一前方一 致致” ”中截断前截断如:如:m?nmanmen如:如:* *computercomputerminicomputerminicomputercomputercomputermicrocomputermicrocomputer 中文数据库里面中文数据库里面 习惯称为习惯称为“ “后方一后方一

12、 致致” ”nTitle (ti): computernPy=2008nLa=englishn限定网站:site:link:whitehouse.govn限定网页:inurl:midi 沧海一声笑n限定文件类型:filetype:3.3.4 字段限制检索3.3.5 其它符号1括号括在其中的操作符先起作用。 三聚氰胺*(农产品 +鸡蛋+牛奶 +大米) 2引号引号内的检索项以整体形式出现。如:information retrieval 表示 information AND retrieval 而 “information retrieval ” 则表示一个词组3个别数据库使用的特殊符号某些搜索引擎

13、使用加号(+)表示该单词必须出现。在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。个别数据库例如“国研网”、山东标准网使用“英语中的a about also and any as at be between by both for some so not this with等 介词或冠词等检索策略是对检索的全面策划,在操作上 主要指检索式的编制和数据库的选择。检索策略在计算机检索中直接决定检索结果 的准与全。3.3.6检索策略n确定检索词切分:是对课题的语句以词为单位进行切分 ,转换为检索的最小单元。例:检索“吸烟与肺癌的关系研究”相

14、关文献 。例:检索“肺气肿病人的血氧测定法”方面的 相关文献。注意:应保持词意义的完整。删除:对不具有检索意思的虚词或过分宽泛的限定词应予以删除。替换:是对表达不清晰或容易造成检索误 差的词用更明确、更具体的词予以替换。如公交公共交通,绿色包装-环保包装等增加:针对一词多义或者在检索结果中有 很多干扰信息时,可采用增加检索词达到“限 义”的手段。例:神经网络在旋转机械故障诊断中的应用研究1.本课题包含“神经网络” “旋转机械” “故障诊断”三个 概念,“应用”和“研究”属于意义过于宽泛的词,不应该作 为检索词。2.扩展神经网络:相关的上位词有人工智能旋转机械故障诊断:相关词有故障定位、故障检测

15、,上位词有 容错技术3.检索式: (神经网络 OR 人工智能)AND(旋转机械)AND (故障诊断 OR 故障定位 OR 故障检测 OR 容错技术)检索式示例1.检索关于研究鲁迅的论文,应选择什么检索字段。 【题解】必须选择标题或者关键词,不能选择为作者途径 。 2. “知识产权”一词还可析出哪些隐含概念。 【题解】“专利权”、“版权”、“著作权”等概念。 3.用中文科技期刊数据库检索著名经济学家胡鞍钢在 公共管理学报 上面发表的论文。 【题解】“A=胡鞍钢*J=公共管理学报 ” 。 4.写出“研究法律与经济和政治的关系“的课题的检索式 。 【题解】“法律*(经济+政治)” 5.检索有关“中国

16、国内商业银行的信贷管理或信贷风险的 研究”方面的相关文献。 【题解】(商业银行-外资银行)*(信贷管理+信贷风险 )3.4检索步骤1检索准备 2选择合适的检索工具3选择检索途径4拟订检索式5实施检索6筛选文献7索取原文1.弄清课题学科属性、专业范围及其 相关内容首先明白是单一学科还是涉及多 学科或跨学科。当课题涉及多学科时,以主要学 科为检索重点,次要学科为补充。 例:超声波技术在兽医上的应用。3.4.13.4.1检索准备检索准备2.弄清检索课题的信息类型和时间要求时间要求上,研究层次低、学科发展快的,则检索的时段可以适当缩短。例如:查“超声波技术在医学上的应用”和查国内外研究社会保障制度的文章。3.考虑课题的特殊要求4.明确用户自身的信息需求.要从概念入手,而不是从字面意思入手;.概念扩展时要考虑同义词、相关词、上位词/下位词等( 既词表中提到的用、代、分、属、参、族),还要注意中英文混 用的现象 ;3.当课题

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号