第一章第一章 文献信息检索基文献信息检索基础知识础知识第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 一.文献、信息、信息源一.文献、信息、信息源 1.1.定义定义 文献:文献:记录有知识和信息的一切载体、记录有知识和信息的一切载体、媒体(媒体(mediamedia) 即用文字、图形、符号、声频、视频等手段记录下来的知即用文字、图形、符号、声频、视频等手段记录下来的知识 信息:信息:指对接收者来说预先不知道的报道辞海)指对接收者来说预先不知道的报道辞海) 是用来通信的事实,在观察中得到的数据、新闻和知是用来通信的事实,在观察中得到的数据、新闻和知识韦氏字典)识韦氏字典) 是一切思想、事实和富有想象力的作品,它们以各种是一切思想、事实和富有想象力的作品,它们以各种方式进行记录和传播信息专家)方式进行记录和传播信息专家) 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 信息源:信息源:是指人们为需求而借以获得信息的一切来源。
是指人们为需求而借以获得信息的一切来源凡是能产生、存储、加工、传递信息的社会活动场所、机凡是能产生、存储、加工、传递信息的社会活动场所、机构、人物、产品和自然物质都是信息源信息源可分为非构、人物、产品和自然物质都是信息源信息源可分为非文献信息源和文献信息源文献信息源和文献信息源 2.文献信息源的类型文献信息源的类型 文献信息源:文献信息源:是指用一定的记录手段将系统化的信息是指用一定的记录手段将系统化的信息内容储存在纸张、胶片、磁带和光盘等物质载体上而形成内容储存在纸张、胶片、磁带和光盘等物质载体上而形成的一类信息源的一类信息源第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 按文献的载体介质划分为按文献的载体介质划分为 印刷型印刷型 Printed form::以手写和印刷技术为手段,以以手写和印刷技术为手段,以纸张记录信息的载体形式存在纸张记录信息的载体形式存在 缩微型缩微型 Microform::以感光材料记录文字及其相关信以感光材料记录文字及其相关信息的载体。
息的载体 声像型(视听型)声像型(视听型)Audio-Visual form::记录声音、图记录声音、图像信号的信息载体像信号的信息载体 机读型(电子型)机读型(电子型)Machine Readable form::以电子版以电子版本形式存在电子版本包括:本形式存在电子版本包括:floppy, Magnetic tape, CD-ROM, online, network 多媒体多媒体 multi-media::计算机对数字化视听信息交互存计算机对数字化视听信息交互存取 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 文献的级别文献的级别 一次文献一次文献/信息信息 primary Literature/ info 二次文献二次文献/信息信息 secondary literature /info 三次文献三次文献/信息信息 Tertiary literature/ info 按文献的出版类型划分按文献的出版类型划分 图书(阅读类、工具类)图书(阅读类、工具类) 期刊(一次文献、二次文献)期刊(一次文献、二次文献) 特种文献(专利、科技报告、会议录、政府出版物、特种文献(专利、科技报告、会议录、政府出版物、学位论文、标准、技术档案、产品目录等)学位论文、标准、技术档案、产品目录等) 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 可具体分为可具体分为 科技图书科技图书 Sci-Tech book,,Monograph, Anthology, Textbook,,Reference book 科技期刊科技期刊 Sci-Tech Journal (magazine*, serial, periodical…) 科技报告科技报告 Sci-Tech Report 专利文献专利文献 Patent Document,,Patent specification/bulletin 会议文献会议文献 Conference paper,,Proceedings, compilation, collected paper, records,,meeting,,seminar, colloquium, symposium, conference 学位论文学位论文 Dissertation, Thesis 标准文献,产品资料,标准文献,产品资料, 技术档案,政府文献技术档案,政府文献第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 科技图书(科技图书(Book):):对已有的研究成果或生产经验所对已有的研究成果或生产经验所作的概括论述。
作的概括论述 特点:特点: 带有总结性、成熟定型;出版周期长,信息传带有总结性、成熟定型;出版周期长,信息传递慢;传授知识,而不是报道最新情报递慢;传授知识,而不是报道最新情报 图书一般分为两类:图书一般分为两类: 阅读型:教科书、专著等阅读型:教科书、专著等 工具型:字典、百科全书、年鉴、手册工具型:字典、百科全书、年鉴、手册 科技期刊(科技期刊(journal, periodic)) 特特点点::名名称称固固定定、、有有连连续续的的卷卷、、年年月月顺顺序序号号、、出出版版周周期短,报道速度快、数量大,内容丰富期短,报道速度快、数量大,内容丰富 据据估估计计,,从从期期刊刊获获取取的的科科技技情情报报占占整整个个情情报报来来源源的的60%-70%第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 会议文献(会议文献(conference paper ):):是指在各种学术会议是指在各种学术会议上发表的论文。
特点:传递信息及时、针对性强、内容新上发表的论文特点:传递信息及时、针对性强、内容新颖一部分科研成果就是通过学术会议首次发表一部分科研成果就是通过学术会议首次发表 表示会议的相关词:表示会议的相关词:Proceedings, compilation, collected paper, records,,Meeting,,seminar, colloquium, symposium, conference 科技报告(科技报告(technical report ):):指学术团体、科研机指学术团体、科研机构、大学研究所的研究报告及研究过程的记录构、大学研究所的研究报告及研究过程的记录 目的:向上级主管部门汇报目的:向上级主管部门汇报 特点:每份单独成册,有专门的编号;内容具体,有特点:每份单独成册,有专门的编号;内容具体,有科研项目的研究方案,实验记录,实验数据,图表等;理科研项目的研究方案,实验记录,实验数据,图表等;理论性强,是了解某一领域科研进展状况、发展动态的重要论性强,是了解某一领域科研进展状况、发展动态的重要信息源;报道比期刊早;保密或控制发行。
信息源;报道比期刊早;保密或控制发行第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 世界上著名的科技报告有美国四大报告:世界上著名的科技报告有美国四大报告: PB——美国商业部美国商业部 AD——美国军事国防部美国军事国防部 NASA——美国宇航局美国宇航局 DOE——美国能源部美国能源部 这四大报告每年公开和解密部分约这四大报告每年公开和解密部分约6万件 科技人员对科技报告的需要量约占其全部文献量的科技人员对科技报告的需要量约占其全部文献量的10%-20%,特别在是发展迅速、竞争激烈的高科技领域特别在是发展迅速、竞争激烈的高科技领域第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 专利文献(专利文献(patent document)) 专利文献是一切与专利制度有关的专利文件的统称,专利文献是一切与专利制度有关的专利文件的统称,如专利申请书和专利说明书、专利公报。
如专利申请书和专利说明书、专利公报 专利说明书是公开的文献,但只能由各国专利局发行,专利说明书是公开的文献,但只能由各国专利局发行,它反映了当前最新的技术成果它反映了当前最新的技术成果 学位论文(学位论文(dissertation, thesis)) 是作者为获得某种学位而撰写的科学论文博士论文是作者为获得某种学位而撰写的科学论文博士论文具有较高的参考价值:具有较高的参考价值: 一般偏重于理论,附有大量的参考文献,借此可以看一般偏重于理论,附有大量的参考文献,借此可以看出有关专题的发展过程和方向出有关专题的发展过程和方向 学位论文一般不出版发行,而是保存在授予学位单位学位论文一般不出版发行,而是保存在授予学位单位的图书馆里的图书馆里第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 标准文献(标准文献(standard)) 主要指技术规范、技术标准、操作规程、建议、准则、主要指技术规范、技术标准、操作规程、建议、准则、术语、专门名词等在内的各种技术文件。
术语、专门名词等在内的各种技术文件 技术标准是得到管理机构认可,适用于一定专业领域技术标准是得到管理机构认可,适用于一定专业领域的技术规范,具有法定性;技术标准主要包括尺寸标准、的技术规范,具有法定性;技术标准主要包括尺寸标准、材料标准、性能标准、方法标准、操作规程、术语和图形材料标准、性能标准、方法标准、操作规程、术语和图形符号标准、文献标准等符号标准、文献标准等 政府出版物(政府出版物(government document )) 是各国政府部门及其所属机构颁布和出版的文件资料,是各国政府部门及其所属机构颁布和出版的文件资料,内容主要分为:行政性文件(如法令、统计等)、科技文内容主要分为:行政性文件(如法令、统计等)、科技文件两大类件两大类 对了解一个国家的科技和经济政策及其演变情况有一对了解一个国家的科技和经济政策及其演变情况有一定的参考价值定的参考价值 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 产品资料产品资料 提供产品技术规格的文献。
是产品制造商为推销产品提供产品技术规格的文献是产品制造商为推销产品而印发的介绍产品情况的各种商业宣传品,如公司介绍、而印发的介绍产品情况的各种商业宣传品,如公司介绍、产品目录、产品样本、产品说明书等介绍的一般是已投产品目录、产品样本、产品说明书等介绍的一般是已投产和行销的产品产和行销的产品l 具有技术成熟可靠、产品和技术信息较完整、及时性、具有技术成熟可靠、产品和技术信息较完整、及时性、图文并茂等特点图文并茂等特点 技术档案技术档案 指在科技生产活动中形成的一系列以工程技术图纸、指在科技生产活动中形成的一系列以工程技术图纸、任务书、协议、合同、设计方案以及与此有关的调查统计任务书、协议、合同、设计方案以及与此有关的调查统计数据等材料组成的文件数据等材料组成的文件 技术档案具有技术性、适用性、保密性等特征技术档案具有技术性、适用性、保密性等特征 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 ((1)一次文献)一次文献/信息信息 primary Literature/ info 概念:第一次书写的、第一次报道的或第一次出版的概念:第一次书写的、第一次报道的或第一次出版的文献;以作者自己的研究成果、工作经验和实践体会为原文献;以作者自己的研究成果、工作经验和实践体会为原始依据,信息内容具体、丰富。
始依据,信息内容具体、丰富 特点:新颍性、创造性、系统性特点:新颍性、创造性、系统性 如:如:Journal literature ((期刊论文)期刊论文) Sci-Tech report((科技报告)科技报告) Proceedings ((会议录)会议录) Paper((会议论文)会议论文) Thesis、、Dissertation ((学位论文)学位论文) 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 ((2)二次文献)二次文献/信息信息 secondary literature /info 概念:对一次文献的加工、提炼和浓缩概念:对一次文献的加工、提炼和浓缩 特点:浓缩性、汇集性、有序性特点:浓缩性、汇集性、有序性 文摘文摘 Abstract 索引索引 Index 目录目录 Catalog 题录题录 Bibliography ((3))三次文献三次文献/信息信息 Tertiary literature/ info 概念:对一次文献和二次文献进行汇集、综合、分析、概念:对一次文献和二次文献进行汇集、综合、分析、详述等深度加工而形成的产物。
详述等深度加工而形成的产物Reference book 如:词典、百科全书、年鉴、名录等如:词典、百科全书、年鉴、名录等 综述、述评、二次书目、指南综述、述评、二次书目、指南 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 一、二、三次文献的区别一、二、三次文献的区别 对象不同:对象不同: 二次文献以二次文献以““篇篇””或或““本本””为单位进行加工;为单位进行加工; 三次文献则归纳了较多的一次文献内容三次文献则归纳了较多的一次文献内容 用途不同:用途不同: 二次文献为检索一次文献的工具;二次文献为检索一次文献的工具; 三次文献能直接提供检索答案三次文献能直接提供检索答案 学习文献检索课的目的:学习文献检索课的目的: 如何通过二次文献去检索一次文献如何通过二次文献去检索一次文献 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 文献信息检索文献信息检索 检索的手段 手检:书本型工具(刊)检索的手段 手检:书本型工具(刊) 机检:数据库系统机检:数据库系统 检索点(途径):检索点(途径):Access Point 用文献各种内外特征,作为检索出发点,用文献各种内外特征,作为检索出发点, 从不同角度从不同角度来检索文献信息。
来检索文献信息 分类(分类(Classified):所属学科性质,类别,分类体系 ):所属学科性质,类别,分类体系 现期检索现期检索 主题(主题(Subject):): 所属主题内容,主题词,回溯检索所属主题内容,主题词,回溯检索 著者(著者(Author);团体著者();团体著者(Corporate Author/Authors’ Affiliation)) 名称(名称(Title)) 代码(代码(Code/Coden)) 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 检索的类型检索的类型 事实型:事实事实型:事实fact 、、 数据数据data((直接直接, 确定)确定) Reference book ;;Numeric Database ;;Property Database ;;Textual-numeric Database 全文型全文型 full-text ::Full-text Database 目录型:馆藏目录、联合目录(目录型:馆藏目录、联合目录(Union Catalog)) 类型:印刷型目录、机读型目录类型:印刷型目录、机读型目录 MARC OPAC ::Online Public Access Catalog OCLC::Online Computer Library Center 检索点:检索点:Author、、Title、、Call Number、、Subject 、、Keyword、、ISBN、、ISSN第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 图书分类法图书分类法 1.中国图书分类法(中国图书分类法(中图法)中图法) 用字母数字混合制标记,一个或两个英文字母和一串阿拉伯用字母数字混合制标记,一个或两个英文字母和一串阿拉伯数字来代表一个具体的类目。
数字来代表一个具体的类目 2.《《中国科学院图书馆图书分类法中国科学院图书馆图书分类法》》(科图法)(科图法) 中科院图书馆编制,主要用户为中科院系统,用户数居全国中科院图书馆编制,主要用户为中科院系统,用户数居全国第二,类号标记采用纯数字第二,类号标记采用纯数字 3.《《 中国人民大学图书馆图书分类法中国人民大学图书馆图书分类法》》(人大法)(人大法) 中国人民大学图书馆编制,适合人大图书馆所藏书目,类号中国人民大学图书馆编制,适合人大图书馆所藏书目,类号采用纯数字采用纯数字 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念《《Dewey Decimal Classification System》》杜威十进分类法杜威十进分类法 《《Library of Congress Classification》》美国国会图书馆图书分美国国会图书馆图书分类法类法 《《Universal Decimal Classification》》国际十进分类法国际十进分类法 索书号索书号——排架号排架号(分类号(分类号+文献次序号、分类号文献次序号、分类号+著者号)著者号) 第第1 1节节 文献信息检索的基本概念文献信息检索的基本概念 原文获取:原文获取: ILL/DD ILL::Interlibrary Loan ((馆际互借)馆际互借) DD:: Document Delivery((文件传递)文件传递) Mail, Fax, E-mail 一体化服务:联机检索一体化服务:联机检索/借阅借阅/定购定购/电子传送电子传送 特种文献收藏馆特种文献收藏馆 专利文献:专利局文献馆专利文献:专利局文献馆 科技报告:科技报告: 中国科技信息研究所(中信所)中国科技信息研究所(中信所) 、北京文、北京文献服务处(国防科技信息中心)献服务处(国防科技信息中心) 。
会议文献会议文献 :国家图书馆:国家图书馆 、大学、大学/研究型图书馆、中科研究型图书馆、中科院图书馆、邮电大学图书馆(院图书馆、邮电大学图书馆(IEEE)) 学位论文:国图、中信所、授予机构学位论文:国图、中信所、授予机构/院校院校 第第2节节 数据库及检索方法数据库及检索方法 一、基本概念一、基本概念 1. 数据库数据库 至少由一种文档组成,并能满足某一特定目的或某一至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合或者说:数据库特定数据处理系统需要的一种数据集合或者说:数据库是在计算机存储设备上按一定方式存储的相互关联的数据是在计算机存储设备上按一定方式存储的相互关联的数据集合 2. 数据库分类数据库分类 数据库分为:数据库分为: 文献型数据库、非文献型数据库文献型数据库、非文献型数据库 文献型数据库分为文献型数据库分为 目录型数据库、题录文摘型数据库、全文数据库。
目录型数据库、题录文摘型数据库、全文数据库第第2节节 数据库及检索方法数据库及检索方法 目录型数据库:目录型数据库:主要是指各图书馆的馆藏图书、期刊主要是指各图书馆的馆藏图书、期刊目录亦称联机目录这种数据库的信息以图书或者期刊为目录亦称联机目录这种数据库的信息以图书或者期刊为单位,其数据库内容详细,除描述标题、作者、出版项等单位,其数据库内容详细,除描述标题、作者、出版项等书目信息外,还可以提供相关的分类号、索取号、馆藏等书目信息外,还可以提供相关的分类号、索取号、馆藏等信息 题录文摘型数据库:题录文摘型数据库:收录的内容与题录文摘型工具书收录的内容与题录文摘型工具书基本一致,是以文献为基本单元数据库的著录项目包括基本一致,是以文献为基本单元数据库的著录项目包括了文献号、文献题目、作者以及工作单位、文献来源(如了文献号、文献题目、作者以及工作单位、文献来源(如期刊名称、出版年、卷、期、页码等)、文摘、主题词、期刊名称、出版年、卷、期、页码等)、文摘、主题词、文中所附图表数和参考文献数特点是收藏文献种类数量文中所附图表数和参考文献数特点是收藏文献种类数量多、检索速度快。
多、检索速度快第第2节节 数据库及检索方法数据库及检索方法l 全文数据库:全文数据库:是指存储全文信息或主要部分的数据库,是指存储全文信息或主要部分的数据库,数据库的存储内容还可以细分为期刊全文数据库、专利全数据库的存储内容还可以细分为期刊全文数据库、专利全文数据库、百科全书全文数据库等类型文数据库、百科全书全文数据库等类型 非文献型数据库包括非文献型数据库包括 数据型数据库:如实验数据、化学分子式、价格数据型数据库:如实验数据、化学分子式、价格 事实型数据库:百科全书、人名录、公司名录事实型数据库:百科全书、人名录、公司名录 概念型数据库:各种名词术语或语言资料,来源于词概念型数据库:各种名词术语或语言资料,来源于词典 图像数据库:卫星图片、云图、工程设计图图像数据库:卫星图片、云图、工程设计图第第2节节 数据库及检索方法数据库及检索方法 3. 数据库结构特点数据库结构特点 ((1)字段:是数据库中最基本的单元,是文献的著录)字段:是数据库中最基本的单元,是文献的著录项目。
可分为项目可分为3种基本字段:检索系统的存取号字段、基本种基本字段:检索系统的存取号字段、基本索引字段、辅助索引字段索引字段、辅助索引字段 ((2)记录:几个不同字段的集合构成记录,记录是数)记录:几个不同字段的集合构成记录,记录是数据库的基本数据单位每条记录相当于题录文摘型检索刊据库的基本数据单位每条记录相当于题录文摘型检索刊物的一条著录款目在同一个数据库中的记录往往含有相物的一条著录款目在同一个数据库中的记录往往含有相同的字段同的字段 ((3)文档:文档是按照一定结构组织的相关记录的集)文档:文档是按照一定结构组织的相关记录的集合文档是文献型数据库组织的基本形式文档的组织方合文档是文献型数据库组织的基本形式文档的组织方式与检索系统的硬件和软件功能密切相关式与检索系统的硬件和软件功能密切相关第第2节节 数据库及检索方法数据库及检索方法 基本索引字段基本索引字段::又称主题字段,用来表达文献内容特又称主题字段,用来表达文献内容特征的字段,如:征的字段,如: 篇名字段(篇名字段(Title Field / TI)) 文摘字段(文摘字段(Abstract Field / AB)) 叙词字段(叙词字段(Descriptor Field / DE))• 辅助索引字段(辅助索引字段(Additional Index Fields):):用来表达用来表达文献外部特征的字段,如:文献外部特征的字段,如:ü 著者字段(著者字段(Author Field / AU))ü 出版年字段(出版年字段( Publication Year Field / PY))ü 刊名字段(刊名字段(Journal Field / SO或或JN))ü 语种字段(语种字段(Language Field / LA))ü 文献类型字段(文献类型字段(Document Type Field /DT)) 辅助字段种类很多,且随数据库的不同而各有差异。
辅助字段种类很多,且随数据库的不同而各有差异第第2节节 数据库及检索方法数据库及检索方法 检索词检索词 检检索索词词是是用用户户或或检检索索人人员员给给出出的的字字、、词词、、字字符符或或短短语语,,用于查找含有它(它们)的记录用于查找含有它(它们)的记录 检索词分类及其特点检索词分类及其特点 受受控控词词::受受控控词词是是事事先先规规范范化化的的检检索索语语言言,,取取自自主主题题词词表表、、叙叙词词表表、、分分类类表表等等如如果果数数据据库库对对数数据据采采用用了了受受控控标标引引,,并并有有机机读读式式或或印印刷刷版版主主题题词词表表时时,,应应优优先先选选用用其其中中的受控词的受控词 叙叙词词::指指来来自自文文献献和和用用户户并并经经过过严严格格的的多多方方面面控控制制、、用以表达文献主题或信息需求的单义词或代码用以表达文献主题或信息需求的单义词或代码 主题词:主题词:以规范化的词汇来表达文献内容的主题以规范化的词汇来表达文献内容的主题。
第第2节节 数据库及检索方法数据库及检索方法 受控词特点受控词特点 两两类类检检索索词词中中,,受受控控词词的的检检索索效效率率高高,,一一旦旦选选定定适适当当的的概概念念,,系系统统就就能能检检出出这这一一概概念念的的全全部部内内容容,,而而且且,,由由于于标标引引人人员员已已事事先先解解决决了了自自然然语语言言中中的的同同义义、、近近义义关关系系,,使使检索相对容易检索相对容易 但但由由于于其其先先组组性性质质,,受受控控词词不不能能及及时时反反映映新新事事物物的的发发展展,,而而且且概概念念数数量量有有限限、、结结构构复复杂杂,,不不能能适适应应数数量量众众多多、、要求各异的信息用户,也不易为非专业人员掌握要求各异的信息用户,也不易为非专业人员掌握 第第2节节 数据库及检索方法数据库及检索方法 非受控词非受控词 非受控词是指非规范化的自然语言词汇,又称非受控词是指非规范化的自然语言词汇,又称自由词自由词l 特特点点::非非受受控控词词可可以以在在一一定定程程度度上上弥弥补补受受控控词词的的不不足足,,非非受受控控词词可可以以是是任任意意选选词词,,其其专专指指性性强强,,而而且且不不需需要要熟熟悉悉词词表表,,新新产产生生的的名名词词术术语语可可以以及及时时检检索索与与新新概概念念有有关关的的文文献献。
但但非非受受控控词词一一般般不不能能提提供供概概念念的的等等级级结结构构,,不不能能检检索索宽宽泛泛概概念念,,不不能能解解决决同同义义词词、、近近义义词词、、相相关关词词的的结结合合或或连连接问题 受受控控词词和和非非受受控控词词的的作作用用是是互互补补的的,,数数据据库库的的词词表表与与要要查查询询的的主主题题概概念念并并非非存存在在一一一一对对应应的的关关系系,,很很多多概概念念得得不不到到反反映映,,所所以以,,当当检检索索结结果果不不满满意意时时,,要要分分析析检检索索词词,,根据具体情况决定增减或替换检索词根据具体情况决定增减或替换检索词 第第2节节 数据库及检索方法数据库及检索方法l 4. 检索语言检索语言(retrieval language)l 检索语言是信息检索系统和检索时所使用的共同语言检索语言是信息检索系统和检索时所使用的共同语言即在文献存储时文献的内容特征(如分类、主题)和外表即在文献存储时文献的内容特征(如分类、主题)和外表特征(如书名、刊名、著者等)按照一定的语言来描述,特征(如书名、刊名、著者等)按照一定的语言来描述,检索文献时的提问也按照一定的语言来表达。
检索文献时的提问也按照一定的语言来表达 检索语言分为:自然语言和受控语言检索语言分为:自然语言和受控语言 自然语言(自然语言(非规范)非规范)::是采用直接来自于文献或用户是采用直接来自于文献或用户提问的检索语言,自然语言用的检索词一般是从文献篇名、提问的检索语言,自然语言用的检索词一般是从文献篇名、正文或文摘中抽取有实际检索意义的词语,亦称关键词或正文或文摘中抽取有实际检索意义的词语,亦称关键词或自由词 关键词或自由词均属于非受控词或非规范词,特点是关键词或自由词均属于非受控词或非规范词,特点是不受专业词控制不受专业词控制第第2节节 数据库及检索方法数据库及检索方法 受控语言(受控语言(规范)规范)::是指受到信息检索系统控制的一是指受到信息检索系统控制的一类索引语言的总称(又称类索引语言的总称(又称“人工语言人工语言”或或“规范化语言规范化语言”) 在一个检索系统中,所有规范词集合在一起构成了词在一个检索系统中,所有规范词集合在一起构成了词表包括:主题词表、叙词表、标题词表。
构成了标题词语表包括:主题词表、叙词表、标题词表构成了标题词语言、单元词语言、叙词语言、分类语言言、单元词语言、叙词语言、分类语言 在文献存储时,文献的内容特征(如分类、主题)和在文献存储时,文献的内容特征(如分类、主题)和外表特征(如书名、刊名、著者等)按照一定的语言来描外表特征(如书名、刊名、著者等)按照一定的语言来描述,检索文献时的提问也按照一定的语言来加以表达述,检索文献时的提问也按照一定的语言来加以表达第第2节节 数据库及检索方法数据库及检索方法 二、网络相关概念二、网络相关概念 1. IP地址:地址:为了保证因特网上的计算机(主机)在通为了保证因特网上的计算机(主机)在通信时能相互识别,就要使网上的每一台计算机都有一个独信时能相互识别,就要使网上的每一台计算机都有一个独一无二的地址,这个地址就是一无二的地址,这个地址就是IP地址IP地址由地址由4组数字组组数字组成,每组数字中间用点间隔,如成,每组数字中间用点间隔,如202.112.175.7是中国农业大是中国农业大学图书馆的主机在学图书馆的主机在Internet 上的上的IP地址。
地址 2. 域名系统:域名系统:入网的每一台主机都具有这样的域名:入网的每一台主机都具有这样的域名:主机名主机名.机构名机构名.网络名网络名.顶级域名顶级域名 中国农业大学图书馆的域名为中国农业大学图书馆的域名为: Lib为主机名、为主机名、 cau为机构名、为机构名、edu为网络名、为网络名、cn为顶级为顶级域名 3. 万维网万维网(World Wide Web,,WWW):):是是一种基于一种基于超文本方式的信息查询工具超文本方式的信息查询工具第第2节节 数据库及检索方法数据库及检索方法 域名的规定域名的规定 全球互联网络信息中心全球互联网络信息中心(InterNIC)和和Internet国际特别国际特别委员会规定了三类顶级域名,通用的顶级域名有:委员会规定了三类顶级域名,通用的顶级域名有: com(commercial)——商业性团体、机构;商业性团体、机构; edu(education) ——教育及研究团体、机构;教育及研究团体、机构; gov(government)——政府机构;政府机构; mil(military)——军事机构;军事机构; net(network)——网络服务机构;网络服务机构; org(organization)——专业团体、组织。
专业团体、组织 国家级顶级域名是指每个国家被赋予一个唯一的顶级国家级顶级域名是指每个国家被赋予一个唯一的顶级域名,如域名,如cn(China), uk(United kingdom), de(German), au(Australia), jp(Japan)分别为中国、英国、德国、澳大利分别为中国、英国、德国、澳大利亚、日本的顶级域名亚、日本的顶级域名 第第2节节 数据库及检索方法数据库及检索方法 4. 统一资源定位符统一资源定位符(Uniform Resource Locator,URL)::是因特网上是因特网上“文件文件”的地址它可以指向一个文件、一个的地址它可以指向一个文件、一个讨论组或其他工具所在的位置当使用浏览器浏览网页时,讨论组或其他工具所在的位置当使用浏览器浏览网页时,要在浏览器的地址栏中输入统一资源定位符(网址)才能要在浏览器的地址栏中输入统一资源定位符(网址)才能浏览网页信息基本写法为:协议:浏览网页信息基本写法为:协议://域名域名/路径路径/文件名 如:如: 5. 浏览器浏览器(browser) ::浏览器是用户访问万维网的工浏览器是用户访问万维网的工具,浏览器主要有具,浏览器主要有Netscape Navigator和和Microsoft Internet Explorer((简称简称IE)。
浏览器由菜单栏、工具栏、地址栏和浏览器由菜单栏、工具栏、地址栏和显示区几部分组成显示区几部分组成IE浏览器是目前应用最普遍的浏览器浏览器是目前应用最普遍的浏览器 第第2节节 数据库及检索方法数据库及检索方法 三、计算机检索技术三、计算机检索技术 1.布尔逻辑检索.布尔逻辑检索 布尔检索有布尔检索有3种:逻辑与、逻辑或、逻辑非种:逻辑与、逻辑或、逻辑非 逻辑与(逻辑乘):逻辑与(逻辑乘):用用“and” 或或 “* ”表示,检索式表示,检索式写作写作A and B(即(即A * B),),表明数据库中同时有检索词表明数据库中同时有检索词A和和B的记录才为命中记录如下图所示:的记录才为命中记录如下图所示:AB第第2节节 数据库及检索方法数据库及检索方法 逻辑或(逻辑和):逻辑或(逻辑和):用用“or”或或“+”表示,检索式写表示,检索式写作作A or B(即(即A+B),),表明数据库中凡有检索词表明数据库中凡有检索词A或者或者B,,或同时有或同时有A和和B的记录均为命中记录。
如下图所示:的记录均为命中记录如下图所示:AB第第2节节 数据库及检索方法数据库及检索方法 逻辑非(逻辑差):逻辑非(逻辑差):用用“not”或或“-”表示,检索式写表示,检索式写作作A not B((即即A-B),),表明数据库中凡有检索词表明数据库中凡有检索词A而不含检而不含检索词索词B的记录才为命中记录如下图所示:的记录才为命中记录如下图所示:AB第第2节节 数据库及检索方法数据库及检索方法 2.截词检索.截词检索 在在检检索索中中,,常常会会遇遇到到一一些些词词干干相相同同、、词词义义相相近近的的检检索索词词或或有有英英、、美美英英语语不不同同拼拼写写的的词词,,为为了了减减少少检检索索词词的的频频繁繁输输入入,,扩扩大大检检索索范范围围,,可可使使用用截截词词符符((通通配配符符)),,以以提提高高检检索索效效率率又又称称词词干干检索、模糊检索,该方法能很好地避免漏检现象检索、模糊检索,该方法能很好地避免漏检现象 所所谓谓截截词词,,是是指指在在检检索索词词的的某某个个局局部部截截断断,,利利用用某某些些检检索索词词的的词词干干或或不不完完整整词词形形加加上上截截词词符符进进行行检检索索,,其其目目的的是是查查找找某某一一词词干干的的不不同同变变化化形形式式,,做做到到一一“词词”多多用用,,防防止止漏漏检检,,从从而而达达到到较较高的查全率。
高的查全率 截词方式有前截断、后截断、前后截断和中间截断截词方式有前截断、后截断、前后截断和中间截断4种 系统不同,截词符也不同,一般用系统不同,截词符也不同,一般用“#” “??” “*”等第第2节节 数据库及检索方法数据库及检索方法 前前截截词词::将将截截词词符符放放在在词词根根的的前前面面,,后后方方一一致致,,表表示示在在词词根根的的前前方方有有无无限限个个或或有有限限个个字字符符变变化化多多用用于于复复合合词词较较多多的的文文献献检检索,或一个学科的不同应用领域的检索,但有此功能的系统不多索,或一个学科的不同应用领域的检索,但有此功能的系统不多l 例例如如,,computer((计计算算机机)),,在在该该词词根根前前加加“??”,, 即即为为“??Computer”,,可检出可检出Microcomputer、、Minicomputer等l 后截词:后截词:l 将将截截词词符符放放在在词词根根后后面面,,前前方方一一致致是是最最常常用用的的截截词词方方法法,,主要用在词的单、复数、年代、作者、查同词根等。
主要用在词的单、复数、年代、作者、查同词根等l 例例如如,,computer((计计算算机机)),,在在该该词词根根后后加加“??”,,即即为为“Computer??”,,可可检检出出computers、、computerised、、computerization等第第2节节 数据库及检索方法数据库及检索方法 前后截词:前后截词: 将截词符放在词根的前面和后面,中间一致将截词符放在词根的前面和后面,中间一致 例例如如,,computer((计计算算机机)),,在在词词根根前前后后都都加加“??”,,即即为为 “?? computer?? ”,, 可可 检检 出出 microcomputer、、minicomputer、、 computer、、 computers、、 computerised、、computerization等 中间截词:中间截词: 中中间间截截词词又又称称为为“通通用用字字符符法法”或或“内内嵌嵌字字符符截截断断” ,,它它是是将将截截词词符符置置于于检检索索词词的的中中间间,,而而词词的的前前后后方方一一致致,,主主要要用用于于拼拼写写不不同同的的词词或或有有些些词词在在某某个个元元音音位位置置上上出出现现的的单复数的不同拼写。
单复数的不同拼写 例如,例如,colo??r可检出可检出colour((英音)、英音)、color((美音)美音)第第2节节 数据库及检索方法数据库及检索方法 根据截词的多少,可把截词符分成有限截词符和无限根据截词的多少,可把截词符分成有限截词符和无限截词符两种截词符两种 有限截词符:有限截词符:是在检索词后截去有限的字母,是在检索词后截去有限的字母, smok?? ??其后只允许加一个字符其后只允许加一个字符可检出:可检出:smoke, smoky等等 如:如: ioni?ation 可可检出:检出:ionization、、ionisation 如如:: fib??board 可检出:可检出:fiberboard、、fibreboard 如:如:stud??? ?,,表示截三个字母,可检索出带有表示截三个字母,可检索出带有study, studies, studied和和studing等的文献等的文献第第2节节 数据库及检索方法数据库及检索方法 无限截词符:无限截词符: 无无限限截截词词是是在在检检索索词词根根后后加加一一个个“??”或或“*”,,表表示示该该词词后后带带任任意意字字母母的的词词都都可可检检出出,,如如输输入入comput? 则则可可检检出含有出含有computers, computing, computered等文献。
等文献 非限定性截词非限定性截词 ? smok? 其后可加字符数不限其后可加字符数不限 controlled Length truncationsmok??? 其后最多加三个字符其后最多加三个字符 可检出:可检出:smoke, smoky, smoker, smokers,smokes, smoking等等 第第2节节 数据库及检索方法数据库及检索方法 3. 限制检索限制检索 运运用用布布尔尔逻逻辑辑算算符符检检索索时时,,只只对对检检索索词词进进行行逻逻辑辑组组配配,,未未限限定定检检索索词词之之间间的的位位置置关关系系及及检检索索词词在在记记录录中中的的位位置置在在有有些些情情况况下下,,若若不不限限制制检检索索词词之之间间的的位位置置关关系系会会影影响响查查准率,所以在检索系统中设置了位置限定运算符准率,所以在检索系统中设置了位置限定运算符 位置限制检索位置限制检索 位置算符位置算符(proximation operator) 用位置算符检索的词之间,位置不能改变用位置算符检索的词之间,位置不能改变 (W)及及(nW)与,与,with 第第2节节 数据库及检索方法数据库及检索方法 如:如:building(W)construction 可检出:可检出: building construction building-construction等等 如:如:building(1W)construction 可检出可检出: building and construction building under construction等等 邻近算符:邻近算符:(N)及及(nN)邻近,邻近, near 如:如:information(1N)retrieval 可检出可检出: information retrieval retrieval of information等等第第2节节 数据库及检索方法数据库及检索方法 字段限制检索字段限制检索l 对检索词在记录中出现的字段进行限制:对检索词在记录中出现的字段进行限制:l 字字段段检检索索是是限限定定检检索索的的一一种种,,即即指指定定检检索索词词在在记记录录中中出出现现的的字字段段。
位位置置算算符符只只能能限限定定词词与与词词间间的的相相对对位位置置,,但但不不能能确确定定检检索索词词在在文文献献记记录录中中的的位位置置,, 在在检检索索过过程程中中用用字字段段名名来来限限制制查查找找的的字字段段范范围围,,可可以以提提高高检检索索效效率率字字段段检检索有两种方式:后缀方式和前缀方式索有两种方式:后缀方式和前缀方式l 常用的检索符号有:常用的检索符号有:in、、/、、=、、<=、、>=、、>、、< 等等第第2节节 数据库及检索方法数据库及检索方法 对检索词在记录中出现字段的限制:对检索词在记录中出现字段的限制: ((1)检索字段后缀式:)检索字段后缀式: /AB 限定在文摘字段限定在文摘字段 information/AB /TI 限定在篇名字段限定在篇名字段 information/TI /DE 限定在叙词字段限定在叙词字段 information/DE 即即将将检检索索词词放放在在后后缀缀字字段段代代码码之之前前。
可可用用此此方方式式的的是是文文档档中中的的基基本本索索引引字字段段((又又称称主主题题字字段段)),,如如篇篇名名字字段段((TI)、)、叙词字段(叙词字段(DE))和文摘字段(和文摘字段(AB))等 DIALOG系统中:用系统中:用 / ;;SPIRS系统中:系统中: 用用 in 例如:例如:Smith J/AU apple??/TI Smith—J in AU apple* in TI第第2节节 数据库及检索方法数据库及检索方法 ((2)检索字段前缀式:)检索字段前缀式: 字段名称字段名称 表示方式表示方式 著者著者 author AU=li, ming 机构机构 corporate source CS=tsinghua 来源出版物来源出版物 source publication SO=IEEEl 例如:例如:AU=WANG; JN=NATURE; PY>=1996等。
等 l 即即将将检检索索词词放放在在前前缀缀字字段段代代码码之之后后可可用用此此方方式式的的是是文文档档中中的的辅辅助助索索引引字字段段((又又称称非非主主题题字字段段)),,如如作作者者字字段段((AU))、、刊刊名名字字段段((JN))、、出出版版年年字字段段((PY))、、国国际际标标准书号字段(准书号字段(BN))等第第2节节 数据库及检索方法数据库及检索方法 在网络资源检索中字段包括:在网络资源检索中字段包括: 标题字段标题字段 代码:代码:title URL字段字段 代码:代码:URL 域名字段域名字段 代码:代码:domain,site 链接字段链接字段 代码:代码:link 出版物字段出版物字段 代码:代码:pub 第第2节节 数据库及检索方法数据库及检索方法 在数据库检索中字段包括:在数据库检索中字段包括: ti——title,,题名题名 au——author,,作者作者 ad——address,,作者单位作者单位 so ——source,,文献来源文献来源 ab——abstract,,文摘文摘 su——subject,,主题词主题词 kw——keyword,,关键词关键词第第2节节 数据库及检索方法数据库及检索方法 常见的字段代码常见的字段代码 BN=ISBN((国际标准书号)国际标准书号) CC=CAL Classification Code((分类号)分类号) CC= CAL Classification Heading((分类类目)分类类目) CD=conference Date((会期)会期) CL=Conference location((会址)会址) CS=corporate Source((机构)机构) CT=Conference Title((会名)会名) CY= Conference year DT=Document Type((文献类型)文献类型) JN=Journal Name(( 刊名)刊名) LA=Language PY=Publication Year SP=conference Sponsor 第第2节节 数据库及检索方法数据库及检索方法 4. 词表助检词表助检 有些数据库有自已的主题词表,词表不仅用于标引文有些数据库有自已的主题词表,词表不仅用于标引文献,也可用于助检。
献,也可用于助检 检索者在选用检索词时,可查阅词表有些联机检索检索者在选用检索词时,可查阅词表有些联机检索系统,将词表存入计算机,帮助用户进行检索它能将用系统,将词表存入计算机,帮助用户进行检索它能将用户输入的非标准检索词,自动地转换为规范词,还可以自户输入的非标准检索词,自动地转换为规范词,还可以自动扩检索,如使用同义词检索动扩检索,如使用同义词检索第第2节节 数据库及检索方法数据库及检索方法l 5. 检索式表达检索式表达l 检检索索式式也也称称检检索索提提问问表表达达式式,,是是要要求求系系统统执执行行的的检检索索语语句句简简单单的的检检索索式式由由一一个个检检索索词词和和一一个个字字段段名名构构成成,,复复杂杂的的检检索索式式则则由由多多个个检检索索词词和和字字段段名名通通过过关关系系算算符符((包包括括逻逻辑辑算算符符与与位位置置算算符符等等))连连接接而而成成总总之之,,检检索索式式由由检检索索词和连接算符组成词和连接算符组成l 例:例:apple in ti l ( (corn or maize) and harvest* ) in ti第第2节节 数据库及检索方法数据库及检索方法 检索式编制实例检索式编制实例 题目:高层建筑的抗震结构设计题目:高层建筑的抗震结构设计 检索词:检索词: 高层建筑高层建筑: tall buildings、、high-rise buildings 抗震抗震: earthquake resistance 结构设计结构设计: structural design 制定检索式制定检索式: 1. tall 2. high(w)rise 3. buildings 4. earthquake resistance 5. structural design 检索式检索式: (1+2)*3*4*5第第2节节 数据库及检索方法数据库及检索方法 6. 检索方案制订检索方案制订 ((1)分析课题,详细了解欲检索课题内容及要求;)分析课题,详细了解欲检索课题内容及要求; ((2)根据内容选择适当的数据库;)根据内容选择适当的数据库; ((3)确定检索入口(作者、主题、关键词、机构名等);)确定检索入口(作者、主题、关键词、机构名等); ((4)制订检索词及检索式;)制订检索词及检索式; ((5)实施检索;)实施检索; ((6)索取原文。
索取原文第第2节节 数据库及检索方法数据库及检索方法 检索词的确定检索词的确定 自由语言与标引语言要对等自由语言与标引语言要对等 例:海绵的制造工艺例:海绵的制造工艺 检索词检索词“海绵海绵”与与“泡沫塑料泡沫塑料”、、“泡沫橡胶泡沫橡胶”类物质等同类物质等同实际是:海洋中的多孔类动物实际是:海洋中的多孔类动物例:例:“维生素维生素C” 即即“抗坏血酸抗坏血酸”第第2节节 数据库及检索方法数据库及检索方法少用或不用对课题检索意义不大的词少用或不用对课题检索意义不大的词1.词义泛指度过大的词,如.词义泛指度过大的词,如“展望展望”——趋势、现状、近况、动态等趋势、现状、近况、动态等“应用应用”——作用、利用、用途、用法等作用、利用、用途、用法等还有如还有如“开放开放”、、“研究研究”、、“方法方法”、、“影响影响”、、“效率效率”等等2.词义伸展过多的词,如.词义伸展过多的词,如“制造制造”——制备、生产、加工、工艺等制备、生产、加工、工艺等“提炼提炼”——精炼、提取、萃取、回收、利用等精炼、提取、萃取、回收、利用等。