计算机检索技术概述1

上传人:san****019 文档编号:84765874 上传时间:2019-03-04 格式:PPT 页数:53 大小:1.55MB
返回 下载 相关 举报
计算机检索技术概述1_第1页
第1页 / 共53页
计算机检索技术概述1_第2页
第2页 / 共53页
计算机检索技术概述1_第3页
第3页 / 共53页
计算机检索技术概述1_第4页
第4页 / 共53页
计算机检索技术概述1_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《计算机检索技术概述1》由会员分享,可在线阅读,更多相关《计算机检索技术概述1(53页珍藏版)》请在金锄头文库上搜索。

1、第四讲,计算机检索技术概述,3.1 计算机检索简况 3.2 计算机检索的相关概念 3.3 检索式的拟订 3.4 检索步骤,3.1 计算机检索简况,计算机检索指利用计算机及相关设备进行的文献信息检索。 信息检索技术正向两个方向迅速发展: 一是在深度上提高管理和组织信息的能力 传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展. 二是在广度上提高管理和组织信息的能力 文献资源的网络化和分布化,面向Internet中浩瀚无垠的资源。,1检索系统 信息检索系统包括两个子系统:存储子系统和检索子系统。 2联机检索 利用与检索系统或信息中心的主机连接,在中央处理机控制下查询系统内的数据库,

2、并能够与系统实时对话,随时调整检索策略。 3数据库 是在计算机存储设备上按一定方式存储的相互关联的数据集合。,3.2 计算机检索的相关概念,字段(field):如在数据库中题名、作者、作者单位、期刊名、摘要、全文等等均是字段;一条记录由多个字段值组成;对计算机检索来说字段相当于检索入口。,字段(Field),记录(Record),文档(File),数据库,常用字段缩写: TITitle 文章题目 ABAbstract 文章摘要 KWKey Word 关键词 AUAuthor 作者 AFAffiliation 作者单位 SOSource 文章来源(刊名信息等) ISSN(ISBN) Intern

3、ational standard Serial (book) Number PYPublication year 出版年 LALanguage 语种,记录(Record)由若干字段组成的文献单元,在全文数据库中,一条记录相当于一篇完整的文献,在书目数据库中,一条记录相当于一条文摘或题录。 文档(File)由若干个逻辑记录构成的信息集合,是数据库的基本内容,分为顺排文档和倒排文档。顺排文挡是数据库的主体内容,倒排文档是将记录中的一切可检字段或属性值提取出来,按某种顺序重新加以组织所得到的文档。 顺排文档(记录) 倒排文档(索引) 数据库(database)由计算机进行处理的一定数量同类信息的有序

4、集合,是用来存储和查找文献信息的电子化检索工具。,数据库的类型,3.3 检索式的拟订,3.3.1布尔逻辑检索算符 3.3.2位置检索算符 3.3.3截词检索算符 3.3.4字段揭示及限制算符 3.3.5其它符号 3.3.6注意事项,精确与模糊检索,基本技术,词间位置检索,加权检索,布尔逻辑检索,限定字段检索,限定范围检索,截词检索,1,2,3,4,5,6,7,1.逻辑 “与” (AND),表示为 A and B 或 A * B 2.逻辑 “或”(OR),表示为 A or B 或 A + B 3.逻辑 “非”(NOT),表示为 A not B 或 A - B,3.3.1 布尔逻辑检索算符,逻辑“

5、与” 用“and”、“*”或者空格表示。在网络搜索引擎中习惯用空格代替“and”。表示检出的记录必须同时包含所有的检索词,可以缩小检索范围,减少命中文献量,提高查准率。,A,B,A and B,例:检索“太阳能”文献,太阳,能源,【实例】检索“中国人民政府”这个网站,可以输入“中国*政府”、“中国 and 政府”、“中国 政府”等。 【实例】检索课题“中国外汇储备规模的研究”不是一篇文章,需要检索有关的期刊文章,其检索式宜表达为“中国 and 外汇 and 储备 and 规模”,逻辑“或” 用“or”、“”或逗号表示。在网络搜索引擎中习惯用逗号代替“OR”。表示检出的记录中至少含有多个检索词中

6、的任何一个,可以扩大检索范围,增加命中文献量,防止漏检。常用于连接同义词,相关词等。,A,B,A or B,例:检索“光盘和磁盘”文献,光盘,磁盘,【实例】在搜索引擎中输入“计算机OR多媒体OR Windows98”则查询至少包含“计算机”、“多媒体”、“Windows 98”三者之一的信息。,逻辑“非”(NOT) 表示检索结果中排除含有某些词的记录,可以缩小检索范围,减少文献输出量,但并不一定能提高查准率。,A,B,A not B,例:检索“除核能以外有关能源”文献,能源,核能,【实例】输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不

7、能包含car(小汽车)。 【实例】在搜索引擎中输入“电视台-中央电视台”,查询结果不包含“中央电视台”。,相同的检索词在不同的字段中检索到的结果不同。,【实例】用中文科技期刊数据库检索机械产品采用计算机辅助设计的论文。 用不同字段作为途径,如下所示: 选择”u=任意字段” 输入“计算机辅助*产品”,查出2902篇; 选择”m=题名或关键词” 输入“计算机辅助*产品”,查出626篇; 选择“t=题名”输入“计算机辅助*产品”,查出139篇; 选择“k=关键词”输入“计算机辅助*产品”,查出545篇; 检索入口 选择“c=分类号”输入“机械产品”的分类号“TH122”年限设定,查到11206条。,

8、也叫“邻接检索”, 表示两个或多个检索词之间的关系检索方式,常用的位置算符有: 1. w (with) 表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或者是逗号。 【实例】在OCLC中输入communication w satellite; 2 . wN (with N) 表示两个检索词前后次序固定,二者之间最多间隔N个字符。 【实例】在EBSCO中输入communication w3 satellite;,3.3.2 位置检索算符,3. n( Near)表示两个检索词可以互换顺,二者之间只能间隔连字符、空格或者是逗号。 【实例】在OCLC中输入communication n sat

9、ellite; 4. nN( Near N)表示两个检索词可以互换顺,二者之间最多间隔N个字符。 【实例】在EBSCO中输入communication n3 satellite; 比较:在EBSCO中输入source and law、source w2 law,3.3.3 截词检索算符,检索color 检索computer、microcomputer、minicomputer 截词符(通配符)提高查全率,防止漏检的有力手段,也可以简化输入,包括有限截词和无限截词,常用的截词符有:*, ?, #,!,$,有限截词一个符号表示一个字符,一般使用“?”(英文半角问号)代表0-1个字符。 比如: ch

10、ip? 可检索出:chips(右截断) 无限截词一个符号表示任意多个字符,标准符号是“*”,代表0-n个字符,也称为通配符。 比如:comput* 可检出:compute, Computer, computers, computing, Computerize等. 注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认,3.3.3 截词检索算符,后截断,无限截断,如:physic?,截词检索与截词检索算符,Physic,physics,physicst,physicalism,Physic,physics,physicst,如:physic*,有限截断,中文数据库里面习惯称为

11、“前方一致”,中截断,前截断,如:m?n,man,men,如:*computer,minicomputer,computer,microcomputer,中文数据库里面习惯称为“后方一致”,Title (ti): computer Py=2008 La=english 限定网站:site: link:whitehouse.gov 限定网页:inurl:midi 沧海一声笑 限定文件类型:filetype:,3.3.4 字段限制检索,3.3.5 其它符号,1括号 括在其中的操作符先起作用。 三聚氰胺*(农产品 +鸡蛋+牛奶 +大米) 2引号 引号内的检索项以整体形式出现。如:informatio

12、n retrieval 表示information AND retrieval 而 “information retrieval ” 则表示一个词组 3个别数据库使用的特殊符号 某些搜索引擎使用加号(+)表示该单词必须出现。 在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 个别数据库例如“国研网”、山东标准网使用“&”代替“and”;欧洲专利局光盘数据库的“without”、美国专利商标局数据库的“andnot”就是通用的“not”。,4.英语或汉语中都有许多虚词,不能作为检索词。 如:汉语中“的、地、得、了”等助词; 英语中的a

13、about also and any as at be between by both for some so not this with等介词或冠词等,检索策略是对检索的全面策划,在操作上主要指检索式的编制和数据库的选择。 检索策略在计算机检索中直接决定检索结果的准与全。,3.3.6检索策略,确定检索词 切分:是对课题的语句以词为单位进行切分,转换为检索的最小单元。 例:检索“吸烟与肺癌的关系研究”相关文献。 例:检索“肺气肿病人的血氧测定法”方面的相关文献。 注意:应保持词意义的完整。 删除:对不具有检索意思的虚词或过分宽泛的限定词应予以删除。,替换:是对表达不清晰或容易造成检索误差的词用

14、更明确、更具体的词予以替换。如公交公共交通,绿色包装-环保包装等 增加:针对一词多义或者在检索结果中有很多干扰信息时,可采用增加检索词达到“限义”的手段。,例:神经网络在旋转机械故障诊断中的应用研究 1.本课题包含“神经网络” “旋转机械” “故障诊断”三个概念,“应用”和“研究”属于意义过于宽泛的词,不应该作为检索词。 2.扩展 神经网络:相关的上位词有人工智能 旋转机械 故障诊断:相关词有故障定位、故障检测,上位词有容错技术 3.检索式: (神经网络 OR 人工智能)AND(旋转机械)AND (故障诊断 OR 故障定位 OR 故障检测 OR 容错技术),检索式示例,1.检索关于研究鲁迅的论

15、文,应选择什么检索字段。 【题解】必须选择标题或者关键词,不能选择为作者途径。 2. “知识产权”一词还可析出哪些隐含概念。 【题解】“专利权”、“版权”、“著作权”等概念。 3.用中文科技期刊数据库检索著名经济学家胡鞍钢在公共管理学报 上面发表的论文。 【题解】“A=胡鞍钢*J=公共管理学报 ” 。 4.写出“研究法律与经济和政治的关系“的课题的检索式。 【题解】“法律*(经济+政治)” 5.检索有关“中国国内商业银行的信贷管理或信贷风险的研究”方面的相关文献。 【题解】(商业银行-外资银行)*(信贷管理+信贷风险),3.4检索步骤,1检索准备 2选择合适的检索工具 3选择检索途径 4拟订检

16、索式 5实施检索 6筛选文献 7索取原文,1.弄清课题学科属性、专业范围及其相关内容 首先明白是单一学科还是涉及多学科或跨学科。 当课题涉及多学科时,以主要学科为检索重点,次要学科为补充。 例:超声波技术在兽医上的应用。,3.4.1检索准备,2.弄清检索课题的信息类型和时间要求 时间要求上,研究层次低、学科发展快的,则检索的时段可以适当缩短。 例如:查“超声波技术在医学上的应用”和查国内外研究社会保障制度的文章。 3.考虑课题的特殊要求 4.明确用户自身的信息需求,.要从概念入手,而不是从字面意思入手; .概念扩展时要考虑同义词、相关词、上位词/下位词等(既词表中提到的用、代、分、属、参、族),还要注意中英文混用的现象 ; 3.当课题比较生疏时,应当首先利

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号