第二章 计算机检索精简版

上传人:飞*** 文档编号:46395768 上传时间:2018-06-26 格式:PPT 页数:55 大小:748.50KB
返回 下载 相关 举报
第二章 计算机检索精简版_第1页
第1页 / 共55页
第二章 计算机检索精简版_第2页
第2页 / 共55页
第二章 计算机检索精简版_第3页
第3页 / 共55页
第二章 计算机检索精简版_第4页
第4页 / 共55页
第二章 计算机检索精简版_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《第二章 计算机检索精简版》由会员分享,可在线阅读,更多相关《第二章 计算机检索精简版(55页珍藏版)》请在金锄头文库上搜索。

1、第二章 计算机信息检索第一节 计算机检索简介 第二节 计算机检索系统的构成 第三节 计算机检索的方法和步骤 第四节 应用图书馆网站检索第一节 计算机检索简介一、计算机检索1、定义简称机检,指利用计算机查找文献信息的过程。第一节 计算机检索简介 一、计算机检索2、检索原理(p32)检索提问匹配运算数据库命中文献图2-1 检索原理示意图 (1)利用某个检索系统查找某课题文献, 假设检索出文献总量为20篇,但经判断 有4篇文献与课题无关,那么查准率为多 少? (2)利用某检索系统查找某课题相关文 献,假设差找出的与该课题相关文献总 量为30篇,经测算查全率为75%,试问 该数据库中还应该有多少篇与课

2、题相关 的文献没有检索出来?国外计算机信息检索发展概况计算机信息检索经历了4个发展阶段脱机检索(1954-1964)联机检索(1965-1972)光盘检索(1985至今 ) 网络检索(1990至今 )二、计算机信息检索发展历程1.脱机检索阶段(1954-1964)l脱机检索是指利用本机数据库中存储的 数据信息进行检索l检索人员检索策略成批检索用户l不足:地理上的障碍;时间上的迟滞; 封闭式的检索2.联机检索阶段(1965-1972)l联机检索是指用户利用检索终端,通过通 信网络与检索系统联机,从检索系统中的 数据库中进行检索。如:Dialog国际联机 检索系统。l用户检索策略“人机对话”用户获

3、得 所需信息3.光盘检索阶段(1985-至今)l光盘检索是指以光盘作为信息存储载体 ,利用计算机和光盘驱动器读取光盘上 的信息进行检索l检索费用低(不需要昂贵的联机检索通讯费用)4.网络检索阶段(1990-至今)l网络检索是指利用Internet,对网络上 各种资源进行检索lInternet是联结了一百多个国家、几万 个信息网络、几百万台主机、几千万个 终端用户,进行实时信息检索、资源共 享的国际性超级计算机网络。国内计算机信息检索发展状况第一阶段 (1974-1979年)学习、引进 第二阶段 (1980-1993年)起步、研究 第三阶段 (1994年) 发展、商业应用 第二节 计算机检索系统

4、的构 成 v计算机检索系统v包括硬件部分、软件部分、数据库和通信 网络。第二节 计算机检索系统的构 成 v1、硬件部分;v主机:计算机的核心部件 v外围设备:外部存贮器:磁盘、光盘输入输出设备:键盘、鼠标、扫描仪等 其他:运算器、控制器第二节 计算机检索系统的构 成 v2、软件部分; 软件:是用来管理、控制与规定计算机运 行步骤的各种程序的总称。包括系统软件 、应用软件。第二节 计算机检索系统的构 成 v3、 数据库v定义:数据库(Database)是在计算机存 贮设备上按一定方式存贮的数据的集合, 通常由一组相关的文档组成。v 数据库的构成由“文档记录字段”三个层次构成。数据库是由一个或多个

5、文档(File)构成 的集合 ,每个文档由若干记录(Record)组成,每条记录 由若干字段( Field)构成。 认识数据库 数据库是组织信息的一种常见的方法,内容结构如下:文档1(file):一张表就是一个文档字段(field)记录 (record)文档2文档n数据库 (database)数据库结构图1)文档结构(File)(p25)是数据库中一部分记录的集合。许多大型数 据库往往包含有数个以万计的记录,为便利用户 检索,常划分为若干文档。2)记录(Record)是构成数据库或文档的基本单元,它 是对有关文献或数据的整体描述,。每一条记录都由若干字段构成。字段 是构成记录的数据单元,每个字

6、段就相当 于文献的一个著录项,都是一条检索记录 的途径。论 文 题 目:计算机病毒的通用防护技术 作者 :刘小玲 单位 :浙江大学计算机学院 母体文献 :计算机学报 出版地 :北京 出版时间 :2005 卷、期 :15(4) 页码 :18-22 字段(数据库)=款目(著录、标引)=检索点/检 索入口/检索字段(检索界面)/检索项/检索途径基本索引字段:反映 记录中主题内容特征 的字段。如题名、摘 要、关键词等辅助索引字段;反映 记录的外表特征的字 段。如作者、作者单 位、期刊名、出版年 份等3)字段是记录的基本单元。(p36)一、 检索方法 逻辑检索法 位置检索法 字段检索法 截词检索法第三节

7、 计算机信息检索方法及步骤用布尔逻辑算符把若干个检索词或词组 连接起来,构成检索提问式。1)逻辑“与” “同时”的关系:表示被命中文献 必须同时含有检索词。逻辑算符:AND;* 例如:查数字图书馆网络安全方面的文章数字图书馆 AND 网络安全(数字图书馆*网络 安全)1、逻辑组合检索(p34)2)逻辑“或”“或者”的关系 :表示命中文献中 含有两词之一或同时包含两词。逻辑算符:OR;+例如:查二氧化硫方面的文章二氧化硫 OR SO2(二氧化硫 + SO2)3)逻辑“非” “不属于”的关系:表示被检索文 献在含有检索词A而不含有检索词B时才被命中。逻辑算符:NOT;-例如:查非酒精饮料方面的文章

8、饮料 NOT 酒精 (饮料 酒精)逻辑算符的优先级 逻辑算符的优先级从高到低依次为: 逻辑非“NOT”逻辑与“AND”逻辑或 “OR”。 组配检索的执行顺序是:有括号时,先括号内后括号外;没有括 号或在同一括号内的次序是从左到右.4) 嵌套检索根据检索需求多次运 用逻辑算符例:查本科生或研究生的就业问题(本科生 OR 研究生)AND 就业例如,查找“细菌对染料破坏”方面的文献检索词:细菌、破坏、染料 逻辑运算符:and 检索结果:命中同时用这三个词标引的文献细菌对染料破坏 染料对细菌的破坏 位置检索法又称邻近检索法,是用位置算 符来规定检索词在检出结果中的相对位置 关系和前后次序的一种检索方法

9、。 位置算符主要有: 邻近位置算符W(Word或With)、N( Near)、nW、nN; 字段位置算符F(Field); 句子位置算符S(Sentence); 2、位置检索法(p35) (W)或( )算符:“With”的缩写 词序不许颠倒 两词之间不许插词,只许空格或连字符号 A(W)B或A()B 表示A之后紧跟B例 CD(W)ROM 将命中 CD ROM 或 CD-ROM邻近位置算符 (nW)算符:“n words”的缩写 检索词之间允许插入0n个词 词序不许颠倒 A(nW)B A与B之间最多可插入n个单词,位置 不能颠倒 例 control (1W) system 可检出 control

10、 system 和 control in system contro of system (N)算符:“Near”的缩写 词序可以颠倒 两词之间不许插词 A(N)B A、B之间位置可以颠倒,中间不能插词例 信息(N) 传播可检出 信息传播 和 传播信息 (nN)算符: 检索词之间允许插入0n个词 词序可以颠倒 A(nN)B A、B位置可颠倒,中间可插入n个词 例子:检索式control (1N)system 检索出:control system ;control in system;system of control等 字段位置算符(F) :“ Field”的缩写 算符两侧的检索词必须在同一字

11、段内 词序及两词间插入的词数不限例 digital (F) computer / TI表示检索题名中含有digital computer方面的文献。字段位置算符 句子位置算符(S) :“Sentence” 的缩写 算符两侧的检索词必须在同一句子 词序及两词间插入的词数不限句子位置算符 在检索系统中,使用缩小和限定检索范 围的方法叫限制检索。 限制检索法又称字段检索法,指限定检 索词必须在数据库记录中规定的字段范 围内出现的一种检索方法。3、字段检索法p36最常用的字段限制符 基本字段检索用后缀限制符“/”表示 例:在题名字段和文摘字段中检索有关计算机的文献。 检索式:computerTI,AB

12、基本字段检索法 辅助字段用前缀限制符“=”表示。 例:查找1999年出版的文献 检索式:PY=1999 例:检索2008年关于欧洲旅游方面的文献 检索式:欧洲AND旅游AND PY=2008辅助字段检索法4、截词检索 (truncation) 截词符截词是指将检索词在适当的地方截断,截词检索是 用截断词的一个局部进行的检索,凡是满足这个截词所有 字符(串)的记录,系统都为命中。截词符用于代替检索词的词尾或其它部位的字符 。常用的截词符有:* ? $ #等表示。 无限截词符*(一个符号可代替任意个字母) ,表示允许在词干后出现的字符数不限 有限截词符? (一个符号只代替零或一个字 母),表示允许

13、出现的字符个数。截词方式有很多,按截词位置可以分为:前截断(后方一致) :?oman后截断 (前方一致): woma?中间截断(两端一致): wom?n截词检索法1)后截断后截断是在检索词词干后面加截词符,表示不限制或限制词 尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲, 后截断是前方一致检索。例: librar? 相当于Libraries,librarian,library 主要用于:词的单复数,company、companies年代检索,200?词根检索2)中截断 (通配符或屏蔽)是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。例:

14、organi?ation, 可检索到包含organization和organisation的记录。一个?代表零个或一个字符。例: colo?r ,可检索到包含 color、colour的记录。3)前截断(后方一致) :是将截词符号放置在检索词词干前面,表示不限制或限制词头可变化的字符数,即查找词尾相同的所有词。例:*Chemistry 检中结果:chemistry、biochemistry、Electrochemistry、physicochemistry(物理化学)等。 截词检索在中文数据库中截的是词意,例:“西北*” ,分别检出了:西北农林科技大学学报、 西北园艺、西北纺织学院学报等。 在

15、外文数据库中截的是词的后缀,截断派生出的词汇 和原来的词义基本一致。例:金属“ metal*”,分别检出了:metal 、 metals、metaled、metalist等。利用截词检索时,注意截词的部位,一定不能截的 太深,否则误检率会很大。截词检索法扩大检索范围,提高查全率的方法扩大检索范围,提高查全率的方法 1、考虑同义词或近义词(使用布尔逻辑符or连接)2、选择较大检索范围的字段如摘要3、使用截词符4、使用上位词(如飞行器 _航天飞机_ 载人航天飞机)缩小检索范围,提高查准率的方法1、使用and 、not等限制检索范围2、使用位置算符3、选择检索范围较小的字段4、使用二次检索5、使用下位词6、使用精确检索,如对于固定短语来说可用“”引起来缩小检索范围,提高查准率的方法三、机检程序 1分析课题需求、确定检索内容和检索范围 2选择检索系统和数据库 3. 选择检索词,编写检索提问式,制定检索策略 (1)选择检索词 (2)编写检索提问式 检索提问式的编写步骤: 将课题语句切分成检索词。 删除那些不具有检索意义的虚词和其它词及过分宽泛和 过分具体的限定词、存在蕴含关系的可合并词。 对检索词进行组合,构成检索提问式。 (3)制定检索策略 4.上机检索操作 5.分析检索结果,调整检索策略三 分析课题确定检索词和检索词之间的关系1 课题涉

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 其它考试类文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号