计算机检索基本原理

上传人:s9****2 文档编号:584456557 上传时间:2024-08-31 格式:PPT 页数:79 大小:1.02MB
返回 下载 相关 举报
计算机检索基本原理_第1页
第1页 / 共79页
计算机检索基本原理_第2页
第2页 / 共79页
计算机检索基本原理_第3页
第3页 / 共79页
计算机检索基本原理_第4页
第4页 / 共79页
计算机检索基本原理_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《计算机检索基本原理》由会员分享,可在线阅读,更多相关《计算机检索基本原理(79页珍藏版)》请在金锄头文库上搜索。

1、网络资源与信息检索网络资源与信息检索文献检索教研室文献检索教研室2013.2.25主讲人主讲人:李永霞李永霞2第三讲第三讲中文数据库资源中文数据库资源 第六讲第六讲英文全文数据库检索英文全文数据库检索网络资源与信息检索课程安排第四讲第四讲搜索引擎检索搜索引擎检索 第二讲第二讲计算机检索基本原理计算机检索基本原理第七讲第七讲数字信息资源综合利用数字信息资源综合利用 第五讲第五讲英文综合参考数据库检索英文综合参考数据库检索第一讲第一讲概述概述3v本章具体内容安排:本章具体内容安排:v2.1 2.1 计算机检索基本原理概述计算机检索基本原理概述v2.2 2.2 计算机检索基本原理和检索语言计算机检索

2、基本原理和检索语言v2.3 2.3 文献信息数据库的基本概念文献信息数据库的基本概念v2.4 2.4 计算机检索策略的构建与调整计算机检索策略的构建与调整v要求:初步掌握计算机检索的基本原理、要求:初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。基本类型及其检索策略的构建与调整。 第二讲第二讲 计算机检索基本原理计算机检索基本原理42.1 2.1 计算机检索基本原理概述计算机检索基本原理概述2.1.1计算机检索概念计算机检索概念通过计算机进行的文献信息检索称为计通过计算机进行的文献信息检索称为计算机检索。算机检索。 随着计算机技术、远程通讯技术和信息随着计算机技术、远程通讯技术

3、和信息存储技术的飞速发展,存储技术的飞速发展,信息检索由手工检索信息检索由手工检索过渡到了计算机信息检索过渡到了计算机信息检索。计算机检索的成。计算机检索的成功应用,为我们更为及时、准确、全面地继功应用,为我们更为及时、准确、全面地继承、利用和发展人类的科研成果提供了先进承、利用和发展人类的科研成果提供了先进的手段。的手段。52.1计算机检索基本原理概述计算机检索基本原理概述2.1.22.1.2计算机检索发展计算机检索发展第一个阶段:脱机检索阶段(第一个阶段:脱机检索阶段(5050年代至年代至6060年代)年代) 脱机检索(脱机检索(Offline RetrievalOffline Retri

4、eval):即批处理检索):即批处理检索 检索要求检索要求 检索系统检索系统 检索结果检索结果 检索人员检索人员检索策略检索策略成批检索成批检索用户用户 缺点:缺点:1. 1. 地理上的障碍地理上的障碍( (远、不便于检索结果的获取)远、不便于检索结果的获取)2. 2. 时间上的迟滞(定期检索,不能及时获取)时间上的迟滞(定期检索,不能及时获取)3. 3. 封闭式的检索(指检索策略一经输入系统就不能封闭式的检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索式)更改,更不能依据机检应答来修改检索式)62.1计算机检索基本原理概述计算机检索基本原理概述第二个阶段:联机检索阶段第二

5、个阶段:联机检索阶段(OnlineRetrieval)()(60-80年代年代)终端设备终端设备 通讯网络通讯网络 检索系统检索系统用户用户 检索策略检索策略 人机对话人机对话 获取信息获取信息 三个时期:三个时期:6060年代开发试验;年代开发试验;7070年年代末应用阶段;代末应用阶段;8080年代以后进入年代以后进入信息信息计算机计算机卫卫星通信星通信三维一体的新阶段,即以信息文献不受地区、三维一体的新阶段,即以信息文献不受地区、国家限制而真正实现全世界资源共享为目的的国际国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。联机信息检索阶段。72.1计算机检索基本原理概述计算机

6、检索基本原理概述著名的国际联机检索系统有美国的著名的国际联机检索系统有美国的DIALOGDIALOG系统、系统、ORBITORBIT系统、系统、BRSBRS系统以及系统以及MEDLARSMEDLARS系统,还有欧洲系统,还有欧洲的的ESA/IRSESA/IRS系统、英国的系统、英国的BLAESEBLAESE系统等。系统等。 这些系统很快发展成为国际性情报检索系统,这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:数据库种类及其检索存储记录都在迅速增加,如:美国的美国的DialogDialog系统系统,19841984年就有年就有200200多个数据库,多个数据

7、库,其中包括其中包括美国的美国的医学索引医学索引、荷兰、荷兰医学文摘医学文摘、美国美国生物学文摘生物学文摘、美国、美国化学文摘化学文摘等。等。 如今此联机检索系统仍然是世界上最有影响的如今此联机检索系统仍然是世界上最有影响的联机检索系统。联机检索系统。 82.1计算机检索基本原理概述计算机检索基本原理概述第三阶段:光盘检索阶段第三阶段:光盘检索阶段 19831983年,出现了一种新的存储器,年,出现了一种新的存储器,CD-ROMCD-ROM光盘。光盘。光盘检索具有储量极大而体积微小,要求设备简单,光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低可随地安装

8、,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点。改检索策略而具有很高的查全率和查准率等优点。 例:例: Chemical Abstracts IndexChemical Abstracts Index光盘(光盘(1987-1987-19911991):由美国化学文摘社与美国剑桥光盘公司联):由美国化学文摘社与美国剑桥光盘公司联合研制,收录合研制,收录1987-19911987-1991年年化学文摘化学文摘的全部内的全部内容。容。 92.1计算机检索基本原理概述计算机检索基本原理概

9、述ScienceCitationIndex(SCI)光盘)光盘(科学引科学引文索引文索引):由美国费城科学情报研究所编辑出版,:由美国费城科学情报研究所编辑出版,收录收录1961年以来有关生命科学、医学、物理、化年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的文献及学、农业、工程技术、行为科学等方面的文献及引文引文CAJ(中国学术期刊):是由清华大学开发研(中国学术期刊):是由清华大学开发研制,分题录、文摘、全文三个层次的数据库,其制,分题录、文摘、全文三个层次的数据库,其中全文数据库是国内最常用的全文数据库。中全文数据库是国内最常用的全文数据库。102.1 2.1 计算

10、机检索基本原理概述计算机检索基本原理概述第四阶段:网络化检索阶段第四阶段:网络化检索阶段 进入进入9090年代,随着卫星通讯、公共数据通讯、年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的迅光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大联网。猛发展,计算机情报检索走向了全球大联网。 网上资源具有具有信息的时效性、内容的广泛网上资源具有具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性性、访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身五大特点,那么要及时、准确、有效地获取与自身

11、需求相关的实用信息,对所有网络用户都非常具有需求相关的实用信息,对所有网络用户都非常具有挑战性。挑战性。 11计算机检索发展阶段图计算机检索发展阶段图光盘信息检索系统光盘信息检索系统光盘信息检索系统光盘信息检索系统联机信息检索系统联机信息检索系统联机信息检索系统联机信息检索系统网络信息检索系统网络信息检索系统网络信息检索系统网络信息检索系统脱机检索系统脱机检索系统脱机检索系统脱机检索系统198019801990199019197 70 0122.1计算机检索基本原理概述计算机检索基本原理概述INTERNET就是这个时期的最杰出代表。它能就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索

12、、资源共享的国际够跨越时空,进行实时信息检索、资源共享的国际性计算机网络。性计算机网络。INTERNET飞速的发展,已成为飞速的发展,已成为人们进行人们进行全球范围的合作、信息交流与资源共享的全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式不可替代的通讯交流方式。随着计算机技术的智能化、数据库载体的高随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,密度化和多媒体化、通讯技术的网络化,计算机情计算机情报检索将走向办公室化、家庭化报检索将走向办公室化、家庭化。132.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言一般地说,计算机检索包括一般

13、地说,计算机检索包括信息的存储信息的存储和和检索检索两个两个部分,即对应数据库的建立和查找两个部分。部分,即对应数据库的建立和查找两个部分。2.2.12.2.1信息存储信息存储 就是文献标引人员对文献内容进行主题分析,即就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干能代表文献主题的概把文献包含的信息内容分析成若干能代表文献主题的概念,并用词表、分类表等规范化标识的情报检索语言对念,并用词表、分类表等规范化标识的情报检索语言对文献主题进行标引文献主题进行标引、按所选数据库结构的索引结构输入、按所选数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标识到

14、计算机进行存储,同时把入选文献中的其他特征标识(标题、著者、文摘、原文出处等)也一起输入计算机,(标题、著者、文摘、原文出处等)也一起输入计算机,编制成一系列索引数据库编制成一系列索引数据库,这便是信息的存储。,这便是信息的存储。 142.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言2.2.2 2.2.2 信息检索信息检索 1 1、检检索索者者对对检检索索课课题题进进行行主主题题分分析析、明明确确检检索索范范围围,形成能代表情报需求的若干主题概念。形成能代表情报需求的若干主题概念。 2 2、把把这这些些主主题题概概念念转转换换成成计计算算机机信信息息检检索索语语言言,即即用用数数

15、据据库库检检索索工工具具书书对对各各概概念念选选词词和和进进行行逻逻辑辑组组配配,编编制制成检索提问式。成检索提问式。 3 3、用用计计算算机机检检索索系系统统功功能能在在文文献献资资料料数数据据库库中中将将信信息息需需求求主主题题概概念念和和数数据据库库内内文文献献主主题题概概念念标标识识进进行行匹匹配配,找找到命中文献。到命中文献。 用图表示如下:用图表示如下:15计算机检索原理的示意图计算机检索原理的示意图一次一次一次一次信息信息信息信息标识标识检检检检索索索索语语语语言言言言分析分析信信息息检检索索工工具具(系系统)统)检检索索结结果果信息信息信息信息特征特征特征特征信息信息信息信息需

16、求需求需求需求检索检索检索检索提问提问提问提问标识标识存储存储过程过程检索检索过程过程分析分析标引标引标引标引输入输入检索检索检索检索162.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言2.2.3信息检索语言信息检索语言 又称文献存储和检索语言,是根又称文献存储和检索语言,是根据文献信息存储与检索的需要而创制据文献信息存储与检索的需要而创制的一种人工语言,是汇集、组织、存的一种人工语言,是汇集、组织、存储、检索文献信息的工具和手段。储、检索文献信息的工具和手段。标引语言标引语言标引语言标引语言索引语言索引语言索引语言索引语言检索语言检索语言检索语言检索语言编制编制 索引索引文献文

17、献 检索检索文献文献 整序整序17文献内容特征文献内容特征文献外表特征文献外表特征分类语言分类语言代码语言代码语言主题语言主题语言题名索引题名索引作者索引作者索引引文索引引文索引序号索引序号索引分分 类类检检索索语语言言2.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言18定义:定义:以数字、字母与数字结合作为基本以数字、字母与数字结合作为基本字符,采用字符直接连接并以圆点字符,采用字符直接连接并以圆点(或其它符号)作为分隔符的书写(或其它符号)作为分隔符的书写法,以基本类目作为基本词汇,以法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的类目的从属关系来表达复杂概念的一

18、类检索语言。一类检索语言。分类语言分类语言分类法分类法2.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言19国外主要分类法简介国外主要分类法简介 杜威十进分类法杜威十进分类法(DDC)国际十进分类法国际十进分类法(UDC)美国国会图书馆分类法美国国会图书馆分类法(LCC) 美国国立医学图书馆分类法美国国立医学图书馆分类法(NLMC) 冒号分类法冒号分类法(CC) 布利斯书目分类法布利斯书目分类法(BC2)2.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言20国内主要分类法简介国内主要分类法简介中国图书馆分类法中国图书馆分类法(CLC) * *中国图书资料分类法中国图书资

19、料分类法中国人民大学图书馆图书分类法中国人民大学图书馆图书分类法中国科学院图书馆图书分类法中国科学院图书馆图书分类法中国档案分类法中国档案分类法2.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言212.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言222.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言v中图法分类号由字母和数字组成,采用等级列中图法分类号由字母和数字组成,采用等级列举表达从属关系举表达从属关系: :T 工业技术一级类目 TH 机械、仪表工业二级类目 TH12 机械设计、计算与制图三级类目 TH121 标准、规格四级类目 TH126

20、机械制图四级类目 TH126.1 识图法五级类目 TH126.2 作图法五级类目232.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言T-0 工业技术理念工业技术理念T-1 工业技术现状与发展工业技术现状与发展.TP 自动化、计算机技术自动化、计算机技术TQ 化学工业化学工业TS 轻工业、手工业轻工业、手工业TU 建筑科学建筑科学TV 水利工程水利工程TP1 自动化基础理论自动化基础理论TP2 自动化技术及设备自动化技术及设备TP3 计算机技术计算机技术TP6 射流技术射流技术TP7 遥感技术遥感技术TP8 运动技术运动技术TP30 一般性问题一般性问题TP31 计算机软件计算机软

21、件TP32 一般计算器一般计算器TP33 电子数字计算机电子数字计算机TP34 电子模拟计算机电子模拟计算机TP35 混合电子计算机混合电子计算机TP36 微型计算机微型计算机TP37 多媒体技术多媒体技术TP38 其他计算机其他计算机TP39 计算机的应用计算机的应用T 工工业业技技术术(一级)(一级)(二级)(二级)(三级)(三级)(四级)(四级)24分类语言的优缺点分类语言的优缺点p优点优点以学科和专业集以学科和专业集中文献的,有较中文献的,有较好的族性检索效好的族性检索效果果将概念逐级划分,将概念逐级划分,便于扩大和缩小便于扩大和缩小检索范围检索范围p缺点缺点对新兴学科、边缘对新兴学科

22、、边缘学科或交叉学科而学科或交叉学科而产生的类目不能及产生的类目不能及时体现。时体现。必须了解科学分类必须了解科学分类体系,否则不容易体系,否则不容易找到准确的类目。找到准确的类目。2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言25代码语言代码语言 根据文献中论述事物的代码作为标识根据文献中论述事物的代码作为标识和检索系统的索引语言。和检索系统的索引语言。例:例:化学文摘化学文摘中的分子式索引中的分子式索引C2H6O4SSn Tin, dimethylsulfato(2-)-O-44657-51-4,91:99600jC2H6O4S2 Disulfone, dimet

23、hyl-10383-49-0, 94:138838b2.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言26主题语言主题语言定义:定义:以主题词来表达信息主题概念的语言。以主题词来表达信息主题概念的语言。它按事物对文献信息进行浓缩、描述和它按事物对文献信息进行浓缩、描述和整序,借用自然语言的词语,作为信息整序,借用自然语言的词语,作为信息检索的内容标识检索的内容标识,又可分为关键词语言、又可分为关键词语言、叙词语言、标题词语言及单元词语言等。叙词语言、标题词语言及单元词语言等。的检索语言。的检索语言。分类:分类:主主 题题 词词关关 键键 词词2.2 2.2 计算机检索基本原理和检索

24、语言计算机检索基本原理和检索语言27主题词主题词 经人工经人工规范化处理规范化处理的最能表达文中主的最能表达文中主题概念的语词。题概念的语词。规范化处理规范化处理:文献存储时,对文献中的同文献存储时,对文献中的同义词、近义词、多义词等加以义词、近义词、多义词等加以规范,并采用参照系统间接反规范,并采用参照系统间接反映主题概念之间的关系,从而映主题概念之间的关系,从而体现主题词的单一性。体现主题词的单一性。2.2计算机检索基本原理和检索语言计算机检索基本原理和检索语言28 从文献的题名、摘要、章节标题或正文从文献的题名、摘要、章节标题或正文中抽取的,能表达文献的主题内容,具有中抽取的,能表达文献

25、的主题内容,具有实际检索意义的语词。实际检索意义的语词。关键词关键词优点:能及时反映最新信息,用法简便优点:能及时反映最新信息,用法简便缺点:自然语言的形态使同一主题概念的文缺点:自然语言的形态使同一主题概念的文献标引相对分散,容易漏检或误检献标引相对分散,容易漏检或误检。2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言29关键词语言举例关键词语言举例 在在计算机在道路勘测与道路设计中的应计算机在道路勘测与道路设计中的应用用一文中,每个关键词仅从题名中抽取,一文中,每个关键词仅从题名中抽取,检索者无论从哪一个关键词入手都会检索到检索者无论从哪一个关键词入手都会检索到文献

26、号为文献号为067294067294的文献。的文献。道路勘测道路勘测 道路设计道路设计 计算机计算机 067294067294道路设计道路设计 计算机计算机 道路勘测道路勘测 067294067294计算机计算机 道路勘测道路勘测 道路设计道路设计 0672940672942.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言30叙词语言叙词语言 叙词语言是以表达文献主体内容的概念叙词语言是以表达文献主体内容的概念单元为基础,经过规范化处理,可以进行逻单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言。叙词是经过规范化辑组配的一种主题语言。叙词是经过规范化处理的以基本

27、概念为基础的表达文献信息和处理的以基本概念为基础的表达文献信息和检索提问的主题的词和词组。叙词语言是当检索提问的主题的词和词组。叙词语言是当代受控检索语言的主流。代受控检索语言的主流。 常用的叙词表有常用的叙词表有汉语主题词表汉语主题词表,EiEi的(的(Ei ThesaurusEi Thesaurus)2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言31叙词语言的特点叙词语言的特点p规范性强,标引和检索都从叙词表中选词,规范性强,标引和检索都从叙词表中选词,保证了标引和检索的一致性。保证了标引和检索的一致性。p利用叙词组配,适合表达各种复杂的主题,利用叙词组配,适合表

28、达各种复杂的主题,尤其是最新出现的主题。尤其是最新出现的主题。p同时适用于手工检索工具和计算机检索系同时适用于手工检索工具和计算机检索系统。统。2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言32分类语言和主题语言的比较分类语言和主题语言的比较1、体系结构不同、体系结构不同分类语言以学科逻辑体系为中心,体分类语言以学科逻辑体系为中心,体现学科的系统性、从属性和派生;现学科的系统性、从属性和派生;主题语言以概念和语言为中心,不主题语言以概念和语言为中心,不管学科体系,用文字标记。管学科体系,用文字标记。2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语

29、言332、揭示事物的角度不同、揭示事物的角度不同分类语言以线性系列来揭示事物之分类语言以线性系列来揭示事物之间的联系,有垂直、平等、从属之间的联系,有垂直、平等、从属之分,关系明确;分,关系明确;主题语言以特定事物为中心,可主题语言以特定事物为中心,可以反映与之有关的全部问题。以反映与之有关的全部问题。2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言343、标识符号不同、标识符号不同分类语言以人为的标记符号作为标分类语言以人为的标记符号作为标识,可以沟通不同文种的文献检索识,可以沟通不同文种的文献检索主题语言是以规范化的语言作为表主题语言是以规范化的语言作为表示概念的标

30、记单元,直观、易记示概念的标记单元,直观、易记2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言354、基本功能不同、基本功能不同分类语言能完整地反映学科的系统性分类语言能完整地反映学科的系统性和从属性,能满足族性检索的要求。和从属性,能满足族性检索的要求。主题语言不受学科体系的约束,专主题语言不受学科体系的约束,专指性强,能满足特性检索的要求。指性强,能满足特性检索的要求。2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言36检索方法检索方法顺查法顺查法倒查法倒查法抽查法抽查法追溯法追溯法从远到近的时间顺序查找文献信息从远到近的时间顺序查找文献信息

31、的方法。的方法。由近到远地回溯性查找文献信息的由近到远地回溯性查找文献信息的方法。方法。针对某一学科领域内的课题,重点针对某一学科领域内的课题,重点对某一时间段进行检索。对某一时间段进行检索。利用文献后的参考文献或引用文献利用文献后的参考文献或引用文献追踪查找相关文献的方法。追踪查找相关文献的方法。2.2 2.2 计算机检索基本原理和检索语言计算机检索基本原理和检索语言372.3 2.3 文献信息数据库的基本概念文献信息数据库的基本概念2.3.12.3.1数据库的定义和类型数据库的定义和类型 一、数据库定义:根据一、数据库定义:根据ISO/DIS 5127ISO/DIS 5127号标准(文号标

32、准(文献与情报工作术语),数据库(献与情报工作术语),数据库(databasedatabase)的定义)的定义为:为:“至少由一种文档组成,并能满足某一特定目至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,数据库是计算定方式存储的相互关联的数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要机技术与情报检索技术相结合的产物,是现代重要的信息资源管理工具,是情报检索系统的核心部分的信息资源

33、管理工具,是情报检索系统的核心部分之一。之一。数据库的质量直接影响情报检索系统的功能数据库的质量直接影响情报检索系统的功能和效率和效率。382.3文献信息数据库的基本概念文献信息数据库的基本概念二、数据库类型二、数据库类型 按照国际上通用的分类方法,常划分为以按照国际上通用的分类方法,常划分为以下类型:下类型:1.1.参考数据库参考数据库(reference databasesreference databases): :指引用户指引用户到另一信息源以获得原文或其他细节的一类数据库。到另一信息源以获得原文或其他细节的一类数据库。包括书目数据库和指南数据库两种。包括书目数据库和指南数据库两种。

34、(1)(1)书目数据库(书目数据库(bibliographic databasesbibliographic databases) 指存储某个领域的二次文献(如文摘、题录、目录指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库。例如,美国化学文摘等书目数据)的一类数据库。例如,美国化学文摘数据库数据库CA SearchCA Search,中国机械工程文摘数据库,各,中国机械工程文摘数据库,各国生产发行的机读目录(国生产发行的机读目录(MARCMARC)等,即属于此类型)等,即属于此类型。392.3 2.3 文献信息数据库的基本概念文献信息数据库的基本概念(2)(2)指南数据库

35、(指南数据库(reference databasesreference databases) 指存储关于某些机构、人物、出版物、项指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户获取目、程序、活动等对象的简要描述,指引用户获取更详细的信息的一类数据库。亦称指示性数据库。更详细的信息的一类数据库。亦称指示性数据库。例如,各种机构名录数据库、人物传记数据库、产例如,各种机构名录数据库、人物传记数据库、产品数据库、软件数据库、研究开发项目数据库、基品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。金数据库等,均属此类。2.2.源数据库源数据库(source

36、 databasessource databases): : 提供原始资料或具体数据的数据库。它又提供原始资料或具体数据的数据库。它又可分为以下几种类型:可分为以下几种类型:402.3文献信息数据库的基本概念文献信息数据库的基本概念(1 1)数值数据库)数值数据库(numeric databases) (numeric databases) 指专门提指专门提供以数值方式表示的数据(或包括其统计处理表示供以数值方式表示的数据(或包括其统计处理表示法)的一种源数据库,如各种统计数据库、财务数法)的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。据库、科学技术数据库等。(2 2)文本)

37、文本- -数值数据库(数值数据库(textual-numeric textual-numeric databases)databases):同时提供文本信息和数值数据的一种:同时提供文本信息和数值数据的一种源数据库,如某些公司信息库、产品市场报告数据源数据库,如某些公司信息库、产品市场报告数据库、毒物数据库和物性数据库等。库、毒物数据库和物性数据库等。(3 3)全文数据库()全文数据库(full-text databasesfull-text databases) 指存指存储文献全文或其中主要部分的一种源数据库,简称储文献全文或其中主要部分的一种源数据库,简称全文库,如法律法规全文库、期刊全文

38、库等。全文库,如法律法规全文库、期刊全文库等。412.3 2.3 文献信息数据库的基本概念文献信息数据库的基本概念(4 4)术语数据库()术语数据库(terminological bankterminological bank) 指专门存储名词术语信息一种源数据库,指专门存储名词术语信息一种源数据库,各种电子化辞书也包括在内。各种电子化辞书也包括在内。(5 5)图像数据库()图像数据库(graphics databasesgraphics databases) 指用来存储各种图像或图形信息及有关文指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设字说明资料的一种源

39、数据库,主要应用于建筑、设计、广告、产品目录、图片或照片等资料类型的计计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。算机存储与检索。 除了上述几种类型的数据库以个,还有能除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合型数据库同时存储多种不同类型数据的数据库混合型数据库(mixed databasesmixed databases)。)。422.3文献信息数据库的基本概念文献信息数据库的基本概念2.3.2 2.3.2 数据库的构成数据库的构成 从使用观点来看,数据库主要由文档、记录、从使用观点来看,数据库主要由文档、记录、字段三个层次构成。字段三个层次构成

40、。1 1、文档:、文档: 若干个逻辑记录构成的信息集合称为文若干个逻辑记录构成的信息集合称为文档(档(filefile)。用户选择所需的联机系统数据库时,)。用户选择所需的联机系统数据库时,多数数据库以单一的文档编号出现。此时文档多数数据库以单一的文档编号出现。此时文档(filefile)的概念和数据库()的概念和数据库(databasedatabase)相当。但有)相当。但有些数据库因规模庞大,被分成若干个文档。例如,些数据库因规模庞大,被分成若干个文档。例如,在在DAILOGDAILOG系统中,系统中,CA SearchCA Search数据库被分成数据库被分成308308号号(1967-

41、19711967-1971),),309309号(号(1977-19811977-1981),),311311号号(1982-19861982-1986)和)和312312号(号(1986-1986-)等文档)等文档。432.3文献信息数据库的基本概念文献信息数据库的基本概念2 2记录记录 记录是由若干字段组成的文献单记录是由若干字段组成的文献单元,是计算机检索系统存储文献款目和标元,是计算机检索系统存储文献款目和标引的信息载体。引的信息载体。 在全文数据库中,一个记录相当在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或

42、题录。比较典型个记录相当于一条文摘或题录。比较典型的的COMPENDEXCOMPENDEX,INSPECINSPEC,美国专利数据库,美国专利数据库的记录。的记录。442.3文献信息数据库的基本概念文献信息数据库的基本概念3 3字段:字段: 是文献著录的是文献著录的基本单元基本单元,它是对实体的具体,它是对实体的具体属性进行描述的结果。在书目数据库中,记录中含属性进行描述的结果。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。有题名、著者、出版年、主题词、文摘等字段。 文献数据库字段分为文献数据库字段分为基本字段和辅助字段基本字段和辅助字段两两类。基本字段和辅助字段在检索策略

43、的构成方法上类。基本字段和辅助字段在检索策略的构成方法上往往有些区别。往往有些区别。 基本字段通常是默认的主题途径检索范围,基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助字段,通常如果需要查找专门的基本字段或者辅助字段,通常要以某种方法予以指定。常见的字段名称和代码要以某种方法予以指定。常见的字段名称和代码(也称段码)如下表所示。(也称段码)如下表所示。45文献数据库中常见的字段和段码文献数据库中常见的字段和段码462.4 2.4 计算机检索策略的构建与调整计算机检索策略的构建与调整检索策略检索策略 是为实现检索目标而制定的全盘计是为实现检索目标而制定的全盘计划和方案

44、划和方案, ,是对整个检索过程的谋划和指导。是对整个检索过程的谋划和指导。 也可以说,所谓检索策略,就是也可以说,所谓检索策略,就是在在分析情报提问实质的基础上,确定检索途分析情报提问实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排。系与查找步骤的科学安排。472.4.1 2.4.1 计算机检索策略的构建计算机检索策略的构建1 1、布尔逻辑、布尔逻辑 规定检索词之间的逻辑关系的算符规定检索词之间的逻辑关系的算符, ,称为布尔称为布尔逻辑算符。布尔逻辑算符包括逻辑逻辑算符。布尔逻辑算符包括逻辑“或(或(OROR)”、逻辑逻辑“

45、与(与(ANDAND)”和逻辑和逻辑“非(非(NOTNOT)”。(1 1)、逻辑)、逻辑“或或”(OROR)运算符)运算符 也可用也可用“+ +”代替,是用来组配具有同义或同代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。其含义是,检族概念的词,如同义词、相关词等。其含义是,检出的记录中,至少含有两个检索词中的一个。出的记录中,至少含有两个检索词中的一个。OROR算算符的符的基本作用是扩大检索范围,增加命中文献量,基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索结果的查全率防止漏检,提高检索结果的查全率,OROR运算符还有运算符还有一个去重的功能。一个去重的功能。482.

46、4.1 2.4.1 计算机检索策略的构建计算机检索策略的构建例如,如果以提问式例如,如果以提问式“SSPIPETUBE”检索检索EICOMPENDEX(1998)文档,所得结果为:)文档,所得结果为:S11834PIPES22022TUBES33647PIPEORTUBE(2)逻辑逻辑与与(AND)运算符)运算符也可用也可用*代替,用来组配不同检索概念。其代替,用来组配不同检索概念。其含义是检出的记录必须同时含有所有的检索词。含义是检出的记录必须同时含有所有的检索词。AND算符的算符的基本作用是对检索词加以限定,逐步缩基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的

47、查小检索范围,减少命中文献量,提高检索结果的查准率准率。在实际检索中,不同概念组面之间以及同一。在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用组面内的不同含义的词之间通常使用AND算符。算符。492.4.1 2.4.1 计算机检索策略的构建计算机检索策略的构建例如:以提问式例如:以提问式SSCOMMUNICATIONANDSATELLITE检索检索EICOMPENDEX(1998)文)文档,所得结果为:档,所得结果为:S112940COMMUNICATIONS22173SATELLITES3842COMMUNICATIONANDSATELLITE(3)逻辑逻辑非非(NO

48、T)运算符)运算符也可用也可用-代替,但在检索时建议使用代替,但在检索时建议使用NOT,以避免与词间的分隔符以避免与词间的分隔符-混淆,混淆,NOT算符是排除算符是排除含有某些词的记录的,即检出的记录中只能含有含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。算符前的检索词,但不能同时含有其后的词。502.4.1 2.4.1 计算机检索策略的构建计算机检索策略的构建NOT算符的算符的基本作用是缩小检索范围,但并不一定基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,往往只是起到减少文献能提高文献命中的准确性,往往只是起到减少文献输出量的作用输出量的

49、作用。在联机检索中,可降低检索费用。在联机检索中,可降低检索费用。例如,以例如,以PATENTNOTGERMAN检索检索EICOMPENDEX(1998)文档,所得结果为:)文档,所得结果为:S1110PATENTS2325GERMANS3108PATENTNOTGERMAN2优先处理算符优先处理算符“()”上述逻辑上述逻辑OR和和AND算符的使用方法,如果归纳算符的使用方法,如果归纳成一个模式,比如有成一个模式,比如有A、B、C、D四个检索词(其四个检索词(其中中A和和B,C和和D分别为同义概念),分别为同义概念),512.4.1计算机检索策略的构建计算机检索策略的构建检索提问可以分成三组:

50、检索提问可以分成三组: ?S1 A OR BS1 A OR B ?S2 C OR DS2 C OR D ?S S1 AND S2 S S1 AND S2 在实际检索中,上例检索提问可改为:在实际检索中,上例检索提问可改为: ? S S (A OR BA OR B)ANDAND(C OR DC OR D) 计算机输出的检索结果与上述三组式的计算机输出的检索结果与上述三组式的提问策略是一样的。提问策略是一样的。3 3位置算符位置算符 位置算符又称邻接算符(位置算符又称邻接算符(adjacent adjacent operatorsoperators), ,适用于适用于两个检索词以指定间隔距离两个检

51、索词以指定间隔距离或者指定的顺序出现的场合或者指定的顺序出现的场合。 522.4.1 2.4.1 计算机检索策略的构建计算机检索策略的构建在在AND运算符查得的记录中,尽管同时含有所运算符查得的记录中,尽管同时含有所希望的检索词,但希望的检索词,但AND算符并不限制两个检索算符并不限制两个检索词的位置和出现顺序。仍以上面输入的词的位置和出现顺序。仍以上面输入的“communicationANDsatellite”这个策略为例,这个策略为例,命中的文献中可能既含有命中的文献中可能既含有“communicationsatellite”,又含有,又含有“satellitecommunication”

52、;也可能既含有;也可能既含有“communicationdevicesforsatellite”,又含,又含有有“communicationlinkswithoutsatellites”等等,显然其中的有些记录与课题要求毫无关等等,显然其中的有些记录与课题要求毫无关系。系。53以以DIALOGDIALOG联机检索系统使用的位置算符为例说明联机检索系统使用的位置算符为例说明(1)“(W)”“(W)”算符中的算符中的W含为含为“With”。这个。这个算符表示其两侧的检索词必须算符表示其两侧的检索词必须紧密相连紧密相连,除开,除开空格和标点符号外,不得插入其他词或字母,空格和标点符号外,不得插入其他

53、词或字母,两词的两词的词序不可颠倒词序不可颠倒。“(W)”算符还可以算符还可以使用其简略形式使用其简略形式“()”。例如,检索策略为例如,检索策略为“COMMUNICATION(W)SATELLITE”(或者(或者“communication()satellite”)时,系统将只)时,系统将只检索含有检索含有communicationsatellite词组的记录。词组的记录。54以以DIALOG联机检索系统使用的位置算符为例说明联机检索系统使用的位置算符为例说明(2)“(nW)”“(nW)”中的中的“W”的含义为的含义为“Word”,它,它允许允许两词间插入最多为两词间插入最多为n个其他词个其

54、他词,例如,检索策,例如,检索策略为略为“COMMUNICATION(2W)SATELLITE”时,系时,系统将只检索含有统将只检索含有communicationsatellite、communicationthoughsatellite、communicationonthesatellite词组的记录。词组的记录。(3)“(N)”“(nN)”算符的算符的N含义为含义为“Near”。表示其。表示其两侧的检索词必须两侧的检索词必须紧密相连紧密相连,除空格和标点符号外,除空格和标点符号外,不得插入其他词或字母,两词的不得插入其他词或字母,两词的词序可以颠倒词序可以颠倒。55以以DIALOGDIAL

55、OG联机检索系统使用的位置算符为例说明联机检索系统使用的位置算符为例说明(4)“(nN)”“(nN)”是是“(N)”算符的变形,不同之处算符的变形,不同之处为允许两词间插入最多为为允许两词间插入最多为n个其他词。例如,检索个其他词。例如,检索策略为策略为“COTTON(2N)PROCESSING”时,凡含时,凡含有有cottonprocessing,processingofcotton和和processingofEgyptiancotton的文献记录都的文献记录都算命中。算命中。(5)“(F)”“(F)”算符中算符中F的含义为的含义为“Field”。这个。这个算符表示其两侧的检索词必须在算符表

56、示其两侧的检索词必须在同一字段同一字段(例如同(例如同在题目字段或文摘字段)中出现,在题目字段或文摘字段)中出现,词序不限,中间词序不限,中间可插任意检索词可插任意检索词。56以以DIALOG联机检索系统使用的位置算符为例说明联机检索系统使用的位置算符为例说明例如,例如,pollution(F)control可查出可查出controlandmanagementofindustrialpollution,检索词在同一题目字段中。由于,检索词在同一题目字段中。由于(F)邻近算符限制性差,所以在文中检索多个)邻近算符限制性差,所以在文中检索多个叙词字段时不宜使用。叙词字段时不宜使用。(F)邻近算符与

57、)邻近算符与AND布尔逻辑组配主要区布尔逻辑组配主要区别在于:别在于:(F)邻近算符使两个检索项在同一字段,)邻近算符使两个检索项在同一字段,AND布尔逻辑组配中两个检索词会发生在不同布尔逻辑组配中两个检索词会发生在不同字段中。字段中。57以以DIALOG联机检索系统使用的位置算符为例说明联机检索系统使用的位置算符为例说明(6)“(S)”“(S)”算符中的算符中的S含义为含义为“Sentence”。这。这个算符表示其两侧的检索词必须在个算符表示其两侧的检索词必须在同一句子同一句子(子字(子字段)中出现,两词的词序可以颠倒。例如,段)中出现,两词的词序可以颠倒。例如,“COMMUNICATION

58、(S)SATELLITE”时,系统将检时,系统将检索句子(同一子字段)中含有索句子(同一子字段)中含有communicationsatellite和和satellitecommunication词组的记录。词组的记录。以上介绍的各种位置算符,按照限制程度的以上介绍的各种位置算符,按照限制程度的大小,(大小,(W)、()、(nW)最强,()最强,(N)、()、(nN)次)次之,(之,(S)再次之;()再次之;(F)的最弱。当()的最弱。当(nN)的)的n10时,其作用已经相当于(时,其作用已经相当于(S)。)。582.4.1计算机检索策略的构建计算机检索策略的构建4 4字段限制字段限制 字段限制

59、也是调整检索策略的一种重要字段限制也是调整检索策略的一种重要的手段。多数检索系统对不指定字段的检索词,的手段。多数检索系统对不指定字段的检索词,通常在所有基本字段中进行搜索,如果想指定通常在所有基本字段中进行搜索,如果想指定在文献的题目等字段中查找所希望的检索词,在文献的题目等字段中查找所希望的检索词,就需要使用字段限制。就需要使用字段限制。 字段限制字段限制适用于在已有一定数量输出适用于在已有一定数量输出记录的基础上,通过指定字段的方法记录的基础上,通过指定字段的方法 ,减少输,减少输出篇数,提高检索结果的查准率出篇数,提高检索结果的查准率。59字段限制(字段限制(DIALOG联机检索系统为

60、例)联机检索系统为例)(1)(1)基本字段限制基本字段限制 基本字段主要是指题目、叙词、识别词和基本字段主要是指题目、叙词、识别词和文摘四个字段。基本字段限制的用法是在需要指定文摘四个字段。基本字段限制的用法是在需要指定的字段的检索词后加上后缀运算符的字段的检索词后加上后缀运算符“/ /”和段码。和段码。 例如,检索策略例如,检索策略“OPTICAL/TI AND OPTICAL/TI AND FIBER/TIFIBER/TI”的含义是指定在题目字段中查找含有的含义是指定在题目字段中查找含有“opticaloptical”和和“fiberfiber”两词的所有记录。两词的所有记录。 字段段码可

61、以多个连用,段码之间加字段段码可以多个连用,段码之间加“,”即可。即可。 例如例如“FIBER/TIFIBER/TI,DEDE”的含义是指定在的含义是指定在题目和叙词字段是查找以题目和叙词字段是查找以“fiberfiber”为词的所有记为词的所有记录。录。60字段限制(字段限制(DIALOG联机检索系统为例)联机检索系统为例)(2)(2)辅助字段限制辅助字段限制 除基本字段以外的可检索字段都可称为辅除基本字段以外的可检索字段都可称为辅助字段。辅助字段运算符的用法是在需要指定字段助字段。辅助字段运算符的用法是在需要指定字段的检索词的检索词( (有时检索词须放在双引号内有时检索词须放在双引号内)

62、)之前加上段之前加上段码和前缀运算符码和前缀运算符“= =”。例如,。例如,AU=AU=“RobertRobert,S.S.”的含义是在作者字段中查找含人名为的含义是在作者字段中查找含人名为“RobertRobert,S.S.”的所有记录。的所有记录。 下面是其他常用的辅助字段限制及其实例:下面是其他常用的辅助字段限制及其实例: 指定刊物名称指定刊物名称 JN=APPLIED PHYSICS JN=APPLIED PHYSICS 指定语言字段指定语言字段 LA=ENGLISHLA=ENGLISH 指定年份字段指定年份字段 PY=1999PY=1999612.4.1计算机检索策略的构建计算机检索

63、策略的构建5 5截词算符截词算符 截词算符就是使计算机保留检索词中的相截词算符就是使计算机保留检索词中的相同词干部分,允许检索词可有一定范围的变化,这同词干部分,允许检索词可有一定范围的变化,这种功能可减少输入步骤,简化检索程序,扩大检索种功能可减少输入步骤,简化检索程序,扩大检索范围,提高查全率。不同的数据库有不同的截字符,范围,提高查全率。不同的数据库有不同的截字符,DIALOGDIALOG系统用系统用“?”,ORBITORBIT系统用系统用“+ +”,功能基本,功能基本相同。相同。 截词有截词有前方一致前方一致、后方一致后方一致、中间一致中间一致和和中间屏蔽中间屏蔽四种形式。前方一致,允

64、许词尾有所变化;四种形式。前方一致,允许词尾有所变化;后方一致,允许词头有所变化,中间一致,词头、后方一致,允许词头有所变化,中间一致,词头、词尾都可变化;中间屏蔽,允许词中间的某些字母词尾都可变化;中间屏蔽,允许词中间的某些字母有变化。有变化。622.4.1计算机检索策略的构建计算机检索策略的构建例如,当使用前方一致算符时,例如,当使用前方一致算符时,Textile?Textile?可同时可同时查找含有查找含有TextileTextile和和TextilesTextiles的文献;当使用后方的文献;当使用后方一致算符时,?一致算符时,?PolymerPolymer可同时查找含有可同时查找含有

65、HomopolymerHomopolymer,CopolymerCopolymer等的文献;当使用中间等的文献;当使用中间一致算符?一致算符?Wave?Wave?可同时查找含有可同时查找含有WavesWaves,MicrowaveMicrowave等的文献;当使用中间屏蔽算符时,等的文献;当使用中间屏蔽算符时,Fib?sFib?s相当于查找含有相当于查找含有FibersFibers和和FibresFibres的文献。的文献。 截词是计算机检索中常用的方法,尤其截词是计算机检索中常用的方法,尤其是英语的单词词尾变化较多,为避免漏检,经常是英语的单词词尾变化较多,为避免漏检,经常要使用前方一致的截

66、词检索。要使用前方一致的截词检索。632.4.1计算机检索策略的构建计算机检索策略的构建6 6范围限制范围限制 查找范围算符的作用主要是用户利用查找范围算符的作用主要是用户利用辅助索引时,对查找文献的年限范围进行限制。辅助索引时,对查找文献的年限范围进行限制。等于:如在日期检索项输入等于:如在日期检索项输入“1990*1990*”,则表示,则表示19901990年发表的文献年发表的文献大于:输入大于:输入“1990*1990*” 大于等于:大于等于:“=1990*=1990*”不等于:不等于:“1990*1990*” 范围:如在日期检索项输入范围:如在日期检索项输入“1991*1991*:19

67、94*1994*”,则表示查找,则表示查找1991199419911994年的文献年的文献其它:短语检索、自然语言检索其它:短语检索、自然语言检索( (小节小节) )642.4.1计算机检索策略的构建计算机检索策略的构建小结:小结: 计算机检索策略的构建计算机检索策略的构建 1. 1.布尔逻辑布尔逻辑 2. 2.优先处理算符优先处理算符 3. 3.位置算符位置算符 4. 4.字段限制字段限制 5. 5.截词算符截词算符 6. 6.范围限制范围限制652.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法1.分析课题分析课题(1)一般的课题概念分析方法一般的课题概念分析方法:分析主要

68、概念,找出能代表这些概念的若干分析主要概念,找出能代表这些概念的若干个词或词组,对新学科、交叉学科和边缘学科的课个词或词组,对新学科、交叉学科和边缘学科的课题,要搞清楚这些概念关系。概念分析的结果应以题,要搞清楚这些概念关系。概念分析的结果应以概念组为单元的词或词组形式列出,以便下一步制概念组为单元的词或词组形式列出,以便下一步制订检索策略。订检索策略。例如,例如,“聚乙烯的合成(聚乙烯的合成(synthesisofpolyethylene)”这个课题可划分为两个概念,即这个课题可划分为两个概念,即“聚乙烯(聚乙烯(polyethylene)”与与“合成合成(synthesis)”。662.4

69、.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法(2)隐含概念的分析隐含概念的分析:课题所隐含的概念从专业角度作深入分析,才课题所隐含的概念从专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。能提炼出能够确切反映课题内容的检索概念。例如,例如,“垃圾的处理垃圾的处理”中的中的“处理处理”一词隐含一词隐含着着“回收回收”“再生再生”等具体的处理方法,再如,课等具体的处理方法,再如,课题题“大型机械电子渗漏仪大型机械电子渗漏仪”,其中,其中“电子电子”(electronic)一词,在该专业中往往是用)一词,在该专业中往往是用“传传感器感器”来表示,即用来表示,即用“sens

70、or”、“transducer”或或“load-cell”等来表示。类似的,诸如等来表示。类似的,诸如“工艺工艺”、“分析分析”、“应用应用”,以及诸如,以及诸如“有机物有机物”、“无无机物机物”、“重金属重金属”、“轻金属轻金属”、“高分子材料高分子材料”等外延十分宽的概念,一般都应转换成具体的方等外延十分宽的概念,一般都应转换成具体的方法或材料、化合物来表示。法或材料、化合物来表示。672.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法(3)核心概念的选限核心概念的选限:有些检索词中已经含有的某些概念,在概念有些检索词中已经含有的某些概念,在概念予以排除。例如,课题予以排除

71、。例如,课题“玻璃纤维增强石膏制品玻璃纤维增强石膏制品”,从字面上看,这个课题可划为三个概念:即,从字面上看,这个课题可划为三个概念:即“玻玻璃纤维璃纤维”、“增强增强”、“石膏制品石膏制品”。但石膏制品。但石膏制品中加入玻璃纤维,其目的就是为了增强石膏制品,中加入玻璃纤维,其目的就是为了增强石膏制品,因此可将因此可将“增强增强”这一概念排除之外。这一概念排除之外。如果有些检索概念已经体现在数据库中,这些如果有些检索概念已经体现在数据库中,这些概念也应该予以排除。如陶瓷文摘数据库概念也应该予以排除。如陶瓷文摘数据库(CeramicAbstracts),),“陶瓷(陶瓷(ceramic)”这一概

72、念一般可以排除;而这一概念一般可以排除;而COMPUTER一词在计一词在计算机数据库(算机数据库(TheComputerDatabase)中一般)中一般也应予以排除。也应予以排除。682.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法另外有一些比较泛指、检索意义不大的概念,另外有一些比较泛指、检索意义不大的概念,例如,例如,“发展发展”,“趋势趋势”,“现状现状”等在不是专等在不是专门查找综述尖文献时也应予以排除。门查找综述尖文献时也应予以排除。2.选择数据库选择数据库不同的数据库学科范围不同,检索指令不同,不同的数据库学科范围不同,检索指令不同,收费标准也不同。所以,应在检索

73、之前阅读有关数收费标准也不同。所以,应在检索之前阅读有关数据库的使用介绍,以便选择数据库时做到心中有数。据库的使用介绍,以便选择数据库时做到心中有数。在做联机检索时,还可以通过在做联机检索时,还可以通过总索引文档总索引文档(例如(例如DIALOG系统的系统的411文档)了解与检索课题有关的文档)了解与检索课题有关的每一个文档中的文献篇数,以选取文献量最大的一每一个文档中的文献篇数,以选取文献量最大的一个或数个文档作为检索文档。个或数个文档作为检索文档。692.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法选择数据库,我们一般遵循以下几条原则:选择数据库,我们一般遵循以下几条原则

74、:(1)按照课题的检索要求和目的,选择收录文献)按照课题的检索要求和目的,选择收录文献种类、专业覆盖面、年代跨度种类、专业覆盖面、年代跨度对口对口的数据库。的数据库。(2)当需要查找)当需要查找最新最新文献信息时,选择数据更新文献信息时,选择数据更新周期短的数据库。周期短的数据库。(3)当还需要获取原文时,选择)当还需要获取原文时,选择原文原文获取较容易获取较容易的数据库。的数据库。(4)要选好数据库,就要弄清所选数据库的标引)要选好数据库,就要弄清所选数据库的标引特征、不同特征、不同检索特点检索特点等。等。702.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法3.制定检索策略

75、制定检索策略(1)做到情报提问与情报需求的)做到情报提问与情报需求的一致性一致性。(2)机检前,)机检前,手检手检几篇作联机检索时参考。几篇作联机检索时参考。(3)选择一个或多个与需求相适应的数据库和)选择一个或多个与需求相适应的数据库和联联机检索机检索系统。系统。(4)指出几个主要概念组面和)指出几个主要概念组面和检索词检索词,并标明它,并标明它们的们的逻辑关系逻辑关系。(5)对每一个单独检索组面考虑同义词、近义词、)对每一个单独检索组面考虑同义词、近义词、用用OR组配成一个概念面的组配成一个概念面的单独集单独集。(6)对上述形成的概念或由)对上述形成的概念或由OR组配成的概念面进组配成的概

76、念面进行行AND和和NOT组配,并编成一个组配,并编成一个检索表达式检索表达式。712.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法(7)进入机检系统,输入()进入机检系统,输入(6)的检索表达式。)的检索表达式。(8)评论中间结果,如不满意可考虑用备用策略)评论中间结果,如不满意可考虑用备用策略来处理。来处理。(9)反复进行检索,直到得到满意的结果,输出、)反复进行检索,直到得到满意的结果,输出、打印或拷盘打印或拷盘4.检索策略的调整:检索策略的调整:检索策略输入检索系统后,系统响应的检索结检索策略输入检索系统后,系统响应的检索结果有时不一定能满足课题的要求,例如,输出的篇

77、果有时不一定能满足课题的要求,例如,输出的篇数过多,或者输出的文献数量极少,有时甚至为零,数过多,或者输出的文献数量极少,有时甚至为零,这时就需要调整检索策略。这时就需要调整检索策略。722.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法(1)输出篇数过多:)输出篇数过多:此时多数是由误检造成,原因可能有以下两点:此时多数是由误检造成,原因可能有以下两点:1)主题词本身的多义性导致误检,例如,使)主题词本身的多义性导致误检,例如,使用仅用仅“DNP”(邻苯二甲酸二壬酯)作为检索词查(邻苯二甲酸二壬酯)作为检索词查找,结果找出的文献含有找,结果找出的文献含有“DNP邻苯二甲酸二壬

78、酯邻苯二甲酸二壬酯”、“DNP动态核极化动态核极化”、“DNP糖尿病患者糖尿病患者”、“DNP防老剂防老剂”和和“DNP表面活性剂表面活性剂”等多种内容。等多种内容。2)对所选的检索词的截词截得过短,例如,使)对所选的检索词的截词截得过短,例如,使用用“CAT?”甚至甚至“CA?”查找查找“CATALYST,又如,又如,使用使用“PREP?”查找查找“PREPARATION”,都会造成,都会造成误检。误检。732.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法策略调整方法:策略调整方法:减少同义词或同族相关词;减少同义词或同族相关词;增加限制概念,用逻辑增加限制概念,用逻辑“与

79、与”(AND)将它)将它们连接起来。例如,将们连接起来。例如,将DNP*DETERGENT(洗(洗涤剂)组配,就可将涤剂)组配,就可将DNP表示的另四种含义的文献表示的另四种含义的文献删去;删去;使用字段限制,或者限制检索词在指定的基使用字段限制,或者限制检索词在指定的基本字段出现,或者指定辅助字段,限制结果的文献本字段出现,或者指定辅助字段,限制结果的文献类型、语种、出版国家;类型、语种、出版国家;使用适当的位置算符;使用适当的位置算符;使用使用“非(非(NOT)”算符,排除无关概念。算符,排除无关概念。742.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法(2)输出篇数过少

80、:输出篇数过少:此时多数是由漏检造成,原因可能有以下几点:此时多数是由漏检造成,原因可能有以下几点:1)选用了不规范的主题词或某些产品的俗称、商)选用了不规范的主题词或某些产品的俗称、商品名作为检索词品名作为检索词例如,没有使用例如,没有使用“泡沫塑料泡沫塑料”或或“泡沫橡胶泡沫橡胶”,而使,而使用了俗名用了俗名“海绵海绵”,又如,没有使用,又如,没有使用“表面活性剂表面活性剂”而使而使用了商品名称用了商品名称“迪恩普迪恩普”,都会造成漏检。,都会造成漏检。2)同义词没能运用全)同义词没能运用全例如,希望查找例如,希望查找“设备设备”时,只使用了时,只使用了“APPARATUS”,没有使用,没

81、有使用“EQUIPMENT”和和“DEVICE”等;查找等;查找“品牌品牌”时,时,没有考虑到还有没有考虑到还有“名牌名牌”、“牌号牌号”以及以及“商标商标”也都可以使用。也都可以使用。752.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法3)上位概念或下位概念没有完整运用,上位概念或下位概念没有完整运用,如,如,“燃料燃料”是上位概念,下位概念是上位概念,下位概念“固体燃固体燃料料”,“液体燃料液体燃料”,“气体燃料气体燃料”,甚至,甚至“煤煤”,“油油”,“煤气煤气”,“天然气天然气”等,这些概念在等,这些概念在查找查找“燃料燃料”时,都应考虑。时,都应考虑。又如,又如,C

82、4,C5的上位概念是石油制品的上位概念是石油制品(PETROLEUMPRODUCTS),下位概念有),下位概念有“丁烷丁烷”或或“1,3丁二烯丁二烯”等,检索等,检索“C4,C5”时,时,这些上下位概念也可以根据需要加以考虑。这些上下位概念也可以根据需要加以考虑。762.4.2计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法4)其他造成漏检的原因其他造成漏检的原因位置算符用得过严,概念不规范或新概念,布位置算符用得过严,概念不规范或新概念,布尔算符尔算符“(AND)与)与”用得过多等。用得过多等。策略调整方法:策略调整方法:减少减少“与(与(AND)”算符,增加同义词可同算符,增加同义

83、词可同族相关词用逻辑族相关词用逻辑“或或”(OR)将它们连接起来;)将它们连接起来;在词干相同的单词后使用截词符(?);在词干相同的单词后使用截词符(?);去除已有的字段限制、位置算符限制(或者去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。改用限制程度较小的位置算符)。实际检索时,最好事先制定好几种策略,以实际检索时,最好事先制定好几种策略,以供随时调整,使检索活动达到最佳的效果。供随时调整,使检索活动达到最佳的效果。(END)77本讲思考题本讲思考题1.1.计算机检索的基本原理计算机检索的基本原理2.2.调整检索策略的方法调整检索策略的方法78参考文献参考文献1.谢新洲

84、编著电子信息源与网络检谢新洲编著电子信息源与网络检索北京:索北京:北京图书馆出版社,北京图书馆出版社,1998122.穆安民编著穆安民编著.科技文献检索实用教程科技文献检索实用教程.重重庆重庆庆重庆大学出版社,大学出版社,1996.63.张惠惠主编张惠惠主编.信息检索信息检索.北京北京:机械工业出版社机械工业出版社,2000.84.王春芳王春芳,石晓华石晓华.网络信息的分类组织网络信息的分类组织.图书馆论坛,图书馆论坛,2000.(6).72-745.王辉王辉.网络信息资源开发浅析网络信息资源开发浅析.现代图书情报技术现代图书情报技术.2001.(2)文献检索教研室文献检索教研室联系方式联系方式:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号