《信息检索原理》由会员分享,可在线阅读,更多相关《信息检索原理(19页珍藏版)》请在金锄头文库上搜索。
1、信息检索原理信息检索原理1、信息检索语言 分类检索语言主题检索语言 分类检索语言 分类检索语言是一种按学科范围和体系来划分事物的检索语言,是用分类号和相应分类款目来表达各种主题概念的。信息检索中常用的分类检索语言是等级体系分类语言(简称分类法)。如:中国图书馆分类法(简称中图法)、中国科学院图书馆图书分类法(简称科图法)、美国国会图书馆分类法(LC)、杜威十进制分类法(DDC)等都是分类检索语言。分类检索语言的具体表现形式主要由分类表、辅助表和使用说明三个部分组成。 主题检索语言 主题检索语言又称主题法,它是以表达信息主题内容特征的主题词汇概念为基础,经规范化处理形成的检索语言。由于主题词汇表
2、达概念准确,主题途径是检索信息的主要途径。主题检索语言的具体表现形式是主题词表和主题索引,它按照主题的性质不同,又分为关键词语言、标题词语言、叙词语言和单元词语言。2、信息检索工具和系统 检索工具检索工具信息检索系统信息检索系统 检索工具 检索工具是在一次文献信息的基础上,经过加工、整理编辑出来的二次文献,但存储的文献并非全文,而是把它们的内容特征或外部特征著录下,成为一条条信息线索(信息标识),最后将信息标识有序化,排列为有条不紊的整体。而分类索引、主题索引、著者索引等索引都是检索工具提供的辅助检索功能。 检索工具根据不同的划分标准可分为不同的类型: 根据信息的检索方式划分,有手工检索工具、
3、机械检索工具。 根据信息的收录范围划分,有综合性检索工具、专业性检索工具和单一性检索工具。 根据信息载体形式划分,有书本式、卡片式、缩微式和磁性材料。 根据著录信息的格式划分,有目录、题录、文摘、搜索引擎。 信息检索系统 信息检索系统是根据一定社会需要和为达到特定的信息交流目的而建立的一种有序化的信息资源集合体。信息检索系统通常应是一个拥有选择、整理、加工、存储、检索信息的设备与方法,并能向用户提供信息服务的多功能开放系统。 3、信息检索技术布尔逻辑检索技术位置逻辑检索技术 截词检索技术 限定检索技术 对虾养殖 布尔逻辑检索技术 利用布尔逻辑算符进行检索词的逻辑组配,是常用的一种检索技术。在联
4、机检索中, 按照所研究课题的要求,虽然已选定检索词,但是这些单项检索词,尚不能准确地表达用户对课题提问的语法要求。这时利用布尔逻辑运算符进逻辑组配,才能满足要求。 布尔逻辑组配符有:AND(*)、OR(+)、NOT(-) 水产养殖 位置逻辑检索技术 位置逻辑检索持续术是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索。它是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术。这种检索技术增强了选词的灵活性,采用具有限定检索词之间位置关系功能的位置逻辑符进行组配运算,可弥补布尔检索技术只是定性规定参加运算的检索词在检索中的出现规律满足检索逻辑即为命中结果,不考虑检索词词间
5、关系是否符合需求,而易造成误检的不足。在不同的检索系统中,位置逻辑算符的种类和表达形式不完全相同,使用位置逻辑检索技术时,注意所利用系统的使用规则。 在位置逻辑符中,常用的位置逻辑算符有(W)与(nW)、(N)与(nN)、(S)、(F)。 截词检索技术 截词检索技术是预防漏检提高查全率的一种常用检索技术。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,可节省输入的字符,又可达到较高的查全率。尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。在截词检索技术中,较常用的是后截词和中截词。按所截断的字符数分,有无限截词和有限截词两种。 限定检索技术 使用截词检索,简
6、化了布尔逻辑检索中的逻辑或功能,并没有改善布尔逻辑检索的性质。使用位置逻辑检索,只能限制检索词之间的相对位置,不能完全确定检索词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制查找的范围。常用的字段代码有标题(TI)、文摘(AB)、叙词或受控词(DE或 CT)、标识词或自由词(ID或 UT)、作者(AU)、语种(LA)、刊名(JN)、文献类型(DT)、年代(PY)等。这些限制符在不同的系统有不同的表达形式和使用规则,在进行字段限制检索时,应参阅系统及有关数据库的的使用说明,避免产生检索误差。 4、信息检索步骤分析课题 选择检索工具或者检索系统选择检索方式构造检索策略
7、索取原始文献信息 分析课题 分析课题,是实施检索中最重要的一步,也是检索效率高低或成败的关键。在课题分析中,要注意如下三点:弄清课题研究的目的性和重要性,明确课题所属的学科范围;掌握与课题有关的专业知识;明确课题的检索范围和要求,检索范围包括学科范围和年代范围等;检索要求则指对文献水平、类型、语种等方面的要求。 选择检索工具或者检索系统 选择检索工具或者检索系统,它们的选择是否恰当,将直接影响检索质量。应根据已确定的检索范围和要求来选择检索工具或者检索系统。一般来说,应从本单位、本地区现有的检索工具或系统的实际出发,选择专业对口、质量高的检索工具或者检索系统。而检索工具或者检索系统的质量主要由
8、以下指标来确定:文献的收录量,文献的摘录和标引质量,文献报道的时效,使用的难易程度等。在选择检索工具或系统时一般先选择综合性,然后选择专业性的加以补充。在语种方面应先考虑选用中文的检索工具或系统,然后再考虑英文语种,最后使用其他语种的。 选择检索方式 检索工具或系统的检索方式具体到不同的库就有不同的类型,一般有分类检索、初级检索、高级检索及其它形式的检索。分类检索也被称为浏览(Brows),初级检索也被称为传统检索、基本检索、一般检索(General Search)和快速检索(Quick Search)等,高 级 检 索 (Advanced Search)也 被 称 为 专 家 检 索(Exp
9、ert Search)等,其它检索就包括一些辞典式检索、和专业结合紧密的检索等。 如果检索目标不是很明确,或者只是通过对按学科进行分类的大量资料进行阅读,就可以选择分类检索。如果想对某一主题的资料进行快速的查找,就可以选择初级般检索。如果进行较深的专业性查找,就可以选择高级检索。 构造检索策略 构造检索策略包含三方面内容:选择检索途径、确定检索词、利用检索技术。 选择检索途径:在利用检索工具或检索系统查找信息时,要确定检索的入口,即通过哪种检索途径来查找文献的线索。常用的检索途径有分类检索途径、主题检索途径、著者检索途径、序号检索途径及专科途径。分类途径是按照学科分类体系和事物性质作为检索标识
10、来检索信息的一种途径。主题途径是以代表文献内容实质的,经过规范化的名词或词组作检索标识来检索信息的一种途径。著者途径是根据已知著者姓名来查找该著者发表的信息的一种途径。号码检索途径是以文献信息特有编号特征,并按编号顺序编排和检索信息的途径。专科途径是根据学科特点特别设置的便于专科性检索的一种途径。一般说,如果对要检索文献信息的专业学科分类比较明确,常使用分类途径;若对所查专业学科分类不了解或多涉及多个学科,则多使用主题途径;在已知著者的名称的情况下,著者途径是最佳的选择;若已知文献信息的序号,包括专利号、ISBN号、ISSN号、登记号等,则选择序号途径。 确定检索词:检索词可以是一个单元词,表
11、达一个单一概念;也可以是一个或多个词组,表达多个概念。检索词可以由检索用户提出,也可以在数据库中的受控词表(主题词表、分类表等)中选择,在人工检索语言和自然检索语言并用的数据库中,最好先浏览一下主题词表、叙词表和分类表,二者并用,以保证查全查准。 利用检索技术:用布尔逻辑检索技术、位置逻辑检索技术、截词检索技术和限制检索技术来组配检索词,构造检索式。 索取原始文献信息 利用检索工具或系统查出了有关文献信息线索(通过检索系统进行全文检索可直接得到原文信息,则不用索取原始文献信息),进而了解到所需信息的题目、作者、类型等,由此可知出处及收藏地点,从而通过借阅或复印获得信息。 由于文献类型的多样性,
12、收藏、管理部门不同,因而索取的途径有别,下面对各种文献信息原文的收藏单位作一些介绍,以供参考。 图书主要收藏于国家、省、市及高等院校的图书馆,中小学图书室及信息服务及研究机构也有收藏。另与主编或出版社也有可能得到原文。 期刊主要由各高校图书馆及国家部(委)、省、市的科技信息研究所收藏。 收藏会议文献的有:中国科技信息所、国家图书馆、中科院图书馆、国防科技信息中心等部门。 中国科技信息研究所是引进科技报告最主要单位,上海科技信息研究所也有美国四大报告的原文。 专利文献主要收藏在国家专利局文献馆,上海科技信息研究所、中国科技信息研究中心等也部分收藏。 标准文献主要收藏国家技术监督局及各部、省、市的技术监督局。国家技术监督局收藏了全部国内技术标准和世界发达国家的技术标准。学位论文除收藏于学位授予单位外,国家图书馆、中国科技信息研究所、中科院文献中心是国家法定的学位论文收藏单位。