文献检索第二讲

上传人:mg****85 文档编号:56664067 上传时间:2018-10-14 格式:PPT 页数:51 大小:446.50KB
返回 下载 相关 举报
文献检索第二讲_第1页
第1页 / 共51页
文献检索第二讲_第2页
第2页 / 共51页
文献检索第二讲_第3页
第3页 / 共51页
文献检索第二讲_第4页
第4页 / 共51页
文献检索第二讲_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《文献检索第二讲》由会员分享,可在线阅读,更多相关《文献检索第二讲(51页珍藏版)》请在金锄头文库上搜索。

1、第二章 情报检索的原理与技术,中国药科大学图书馆 2010年9月,日本经济发展的启示,日本人均国民生产总值:1945年只有20美元,1955年为200美元,1965年为1000美元,1980年为10000美元,1982年为12000美元,1989年为16100美元,1991年为27326美元(当年美国是22550美元)且仅次于瑞士(35100美元),1994年为34630美元,居世界银行评出的十大富国的第三位(十大富国:卢森堡、瑞士、日本、丹麦、挪威、美国、德国、奥地利、冰岛、瑞典)。,数据来源:远东经济评论(Economic Review of Far East),日本是第二次世界大战战败国

2、,而且地处孤岛,资源缺乏,但它只花了20年的时间就令全国经济获得飞速发展,原因何在?,最重要的一条就是每个国民及整个国家都竭尽全力地追求信息,走一条“引进、消化、综合、创新、返销、赚钱”的富国之路。,资料显示,1952年日本出口总额只有8亿美元,由于它在战后花了20年时间和57亿美元购买外国的情报和专利,大大促进了经济的发展,到1990年,日本的出口总额竟达到2860亿美元,1995年则达到4400亿美元,出口总额仅次于德国、美国,居世界第三位。,日本人收集情报信息的手段多种多样,而且具有独创性。每年在近千种科技文献、政府报告和报刊上获得美国有价值的论文约7万篇,内容几乎涉及所有的科技领域。日

3、本企业在美国的大学情报站有上千个,这些情报站多是高薪聘用美国的专家为日本服务的。,国际情报公司(International Information Company, IIC)一位人士说,日本人收集情报、信息像梭子鱼一样,极其厉害,什么都不放过。,第一节 情报检索原理 第二节 情报检索技术,第一节 情报检索原理,一情报检索概念 二. 情报检索类型 三情报检索语言 四情报检索工具,1.情报检索“检索”一词源自英文“Retrieval”,其含义是“查找”。将大量相关情报按一定的方式和规律组织和存储起来,形成某种情报集合,并能根据用户特定需求快速高效地查找出所需情报的过程称情报检索。,一情报检索概念,

4、总结:从大量的信息情报集合中查找出所需情报的活动、过程与方法。(狭义)将信息情报按照一定方式组织、存贮起来,并针对用户需求的需要查找出所需情报的过程。(广义),2.情报检索原理存贮过程:搜集情报、筛选加工、形成检索工具、组成检索系统检索过程:明确需求、分析课题、利用检索工具、得出检索结果,主题分析,文献情报内容,用户情报需求,主题概念,主题概念,情报检索语言,标识,标识,情报检索系统,结果,主题分析,输入,检索,1. 根据检索内容分类文献检索(Document Retrieval)数据检索(Data Retrieval)事实检索(Fact Retrieval),二. 情报检索类型,2.根据检索

5、手段分类手工检索 特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的检索。 计算机检索 特点是速度快、效率高、查全率较高。不足之处是成本高、费用大,查准率通常不尽如人意。,1. 检索语言的概念情报检索语言是根据检索需要而创制的人工语言,也称检索标识系统。它专门用于各种手工和计算机情报检索系统,其实质是表达一系列概括文献内容的概念及其相互关系的概念标识系统。,三情报检索语言,2. 检索语言的类型检索语言的种类很多,按其构成原理一般可分为分类语言(又称分类法)、主题语言和代码语言三种。 其中分类语言又有体系分类法和组配分类法

6、的区别,主题语言又有标题词语言、叙词语言和关键词语言的区别。,检索语言,表达文献情 报主题概念,表达文献情 报外部特征,分类语言,主题语言,标题词语言 单元词语言 叙词语言 关键词语言,书名、刊名、篇名等 著者(作者)名称 号码(如报告号、专利 号、文献序号) 文献类型,1. 检索工具的概念检索工具是用以报道、存储和查找文献信息的一切工具与设备。它以各种类型的原始文献为素材,在广泛收集、筛选、分析的基础上,用选定的检索语言进行描述和标引,并按特定规则组织编排而成的二次文献。,四情报检索工具,(1)按检索手段划分 手工检索工具机械检索工具计算机检索工具,2. 检索工具的类型,(2)按载体形态划分

7、 书本式检索工具、卡片式检索工具、缩微式检索工具、磁性材料检索工具(磁盘、光盘等),(4)按著录对象和方式划分 目录型检索工具 题录型检索工具 文摘型检索工具 参考型检索工具 搜索引擎,(3)按收录范围划分综合性检索工具专业性检索工具专题性检索工具单一性检索工具,第二节 情报检索技术,一. 传统检索技术 二. 现代检索技术 三. 检索策略,传统意义上的检索技术包括布尔逻辑检索、位置检索、截词检索、限制检索等,不同的数据库使用该技术的情况各不相同,具体使用时应结合实际情况选用。,一传统检索技术,1. 布尔逻辑检索(Boolean Logic Retrieval),通过对一些简单概念检索词的组配,

8、表达一个复杂概念。表达概念间的并列关系、相交关系和排斥关系,分别是逻辑或(or)、逻辑与(and)、逻辑非(not)。,“或”用于组配具有同义或同组概念的词,如同义词或近义词。用于并列关系,可以扩大检索范围,防止漏检,增加查全率。检索式 写作 A or B 或 A + B表达意义 数据库中凡有检索词A或者B,或同时有A和B的记录均为命中记录。,(1)逻辑“或” “or”或“+”,“与”用于概念交叉和限定关系的组配。可以缩小检索范围,减少命中文献量,提高查准率。 检索式写作 A and B 、 A * B 或A B表达意义 数据库中同时有检索词A和B的记录才为命中记录。,(2)逻辑“与” “an

9、d”、“*”或“”,表示排除某些不需要的和影响检索结果的概念,基本作用是缩小检索范围,提高查准率。检索式写作 A not B 或 A - B表达意义 数据库中凡有检索词A而不含检索词B的记录才为命中记录。,(3)逻辑“非” “not”或“”,布尔逻辑检索算式优先执行顺序通常是NOT、AND、OR,在有括号的情况下,先执行括号内的运算,在多层括号时,先执行最内层括号的运算。布尔逻辑检索比较容易掌握,但使用不当会造成大量误检和漏检,尤其是非运算符的运用应特别小心。,注意:,2. 位置算符检索,位置检索也叫邻近检索,是用一些特定的算符(位置算符)来表达检索词与检索词之间的邻近关系,并且可以不依赖主题

10、词表而直接使用自由词进行检索的技术方法。位置关系包括词距(单词间的间隔)和词序(单词的先后顺序)两个方面。,(1)(W)或()(W)算符是With或word 的缩写, 表示两侧的词必须紧密相连,次序不得颠倒,中间不得有其他词或者字母(两个词之间可以有一个空格、或一个标点符号、或一个连接号)。 例如:CD()ROM(nW)n Word n为一个数字,表示算符两侧的检索词间允许插入n个实词或虚词,顺序不能颠倒。例如:price (2w) inflation,(2)(N)(N)算符是Near的缩写,表示算符两侧的词必须紧密相连,中间不得有其他字符,但词序可以颠倒。(nN) nNear n是一数字,表

11、示在两个检索词之间最多可以插入n个单词,且词序可以颠倒。(3)(F)Field同字段检索,检索词必须同时出现在同一字段中。(4)(S)Subfield或sentence ,同子字段或同句检索,参加检索的两个词必须出现在同一个自然句中。,3. 截词检索,由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一意义的词,英、美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等。截词是在检索词的某个局部截断,采用截词符构成模糊检索,防止漏检。截词符(通配符) ? ? ? *意义 截词检索具有逻辑or 的运算特性。,(1)按照截词的位置 后截断:将截词符号放在一个字符串的

12、右方,满足截词符左方所有字符的记录均为命中记录。 性质上讲,是一种前方一致的检索。例如 market* (market or marketable or marketing or )199? (1990-1999) 前截断:将截词符号放在一个字符串的左方,是一种后方一致检索。 中截断:又称中间屏蔽法,用截词符屏蔽词中不同字符的方法,中间一致检索。,(2)按照截取字符的数量有限截断:是在检索词后截去有限的字符。例如 computer? (computer or computers)computer? 三个字符无限截断:在检索词后跟任意个字符均为命中文献。例如 comput* (computer

13、or computing or computered ),4. 字段限制检索,字段限制检索是限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本索引字段和表达文献外部特征的辅助索引字段。基本索引字段包括篇名、文摘、叙词、自由标引词四个字段;辅助索引字段包括除基本索引字段外的所有字段,如著者字段、著者机构字段、文献类型字段、语种字段等。基本索引字段一般用后缀表示,如 medicine/TI,或medicine In TI ;辅助索引字段一般用前缀表示,如AU=Smith D. ,再如PY=2005。,AB A

14、bstract文摘TI Title 题名AD Address of Author著者地址AU Author著者CP Country of Publication出版国LA Language of Article文献语种PT Publication Type出版物类型PY Publication Year出版年,检索式 business information /TI or business information in TI 表示检索在题名中出现business information 的所有文献。分析 review in TIAU=Gordon and PY=2005 表示检索Gordon所

15、写的2005年发表的所有文献。分析 PT=patent and LA=Chinese,词组检索是将一个词组(通常用双引号“ ”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。词组检索实际上体现了邻近位置运算(Near运算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系。,5词组检索,加权检索是在某些检索系统中出现的一种定量检索技术。加权检索的基本方法是:在每个检索提问词后面给定一个数值表示其重要程度,这个数值称为权。在检索时,首先查找这些检索词在数据库记录中是否存在,然后计算存在的检索

16、词的权值总和。当权值之和达到或超过预先设定的阈值,该记录即为命中记录。,6加权检索,1. 全文检索全文检索系统是为人们获取文献原文而不仅仅是文献线索而产生的一种现代检索技术。近年来,全文检索的应用范围不断拓展,它与出版技术的结合,使各种科技期刊、专利文献、新闻报纸等全文数据库应运而生。一些年鉴、手册、百科全书、参考书等也成为全文系统处理的对象,有些著名的文学作品也可以转换成全文数据库。,二. 现代检索技术,2. 多媒体检索多媒体检索技术是把文字、声音、图像(形)等多种信息的传播载体通过计算机进行数字化加工处理而形成的一种综合技术。视频检索。这种检索要在大量的视频数据中查找所需要的视频片断。如关于卫星云图的变化、人体内器官的运作等。声音检索。包括:用序号查找一段声音;以匹配方式检索给定样值的声音;对声音文本的检索等。图像检索。它通过分析图像的内容,如颜色、纹理等建立特征索引,并存储在特征库中。用户查询时,只要把自己对图像的模糊印象描述出来即可在大容量图像信息库中找到所要的图像。,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号