第一章信息检索绪论PPT课件

上传人:工**** 文档编号:570313382 上传时间:2024-08-03 格式:PPT 页数:73 大小:941.50KB
返回 下载 相关 举报
第一章信息检索绪论PPT课件_第1页
第1页 / 共73页
第一章信息检索绪论PPT课件_第2页
第2页 / 共73页
第一章信息检索绪论PPT课件_第3页
第3页 / 共73页
第一章信息检索绪论PPT课件_第4页
第4页 / 共73页
第一章信息检索绪论PPT课件_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《第一章信息检索绪论PPT课件》由会员分享,可在线阅读,更多相关《第一章信息检索绪论PPT课件(73页珍藏版)》请在金锄头文库上搜索。

1、信息存储与检索信息存储与检索Information Storage and Retrieval 信息管理系徐晓芳 副教授2013.22021/7/241课程主要内容第一章第一章 绪论绪论 第一节第一节 信息与信息检索简介信息与信息检索简介主要介绍信息、信息检索、信息检索语言、主要介绍信息、信息检索、信息检索语言、检索工具及检索系统的定义;简单介绍信检索工具及检索系统的定义;简单介绍信息检索的发展息检索的发展 第二节第二节 信息资源信息资源 第三节第三节 信息检索的类型信息检索的类型2021/7/242第二章第二章 信息检索的理论与基本方法信息检索的理论与基本方法 第一节第一节 信息检索语言与检

2、索途径信息检索语言与检索途径(1 1)分类语言)分类语言(2 2)主题语言)主题语言(3 3)分类主题一体化语言)分类主题一体化语言(4 4)代码语言)代码语言(5 5)引文语言)引文语言1 1、内容特征检索途径、内容特征检索途径(1 1)分类途径)分类途径(2 2)主题途径)主题途径(3 3)分类主题途径)分类主题途径2 2、外部特征检索途径、外部特征检索途径(1 1)责任者途径)责任者途径(2 2)题名途径)题名途径(3 3)序号途径)序号途径(4 4)引文途径)引文途径2021/7/243第二节第二节 事实数据信息的检索工具事实数据信息的检索工具 一、字典、词典(辞典)一、字典、词典(辞

3、典)二、百科全书二、百科全书三、手册三、手册四、年鉴四、年鉴五、名录五、名录 第三节第三节 文献检索工具简介文献检索工具简介一、目录型检索工具一、目录型检索工具二、题录型检索工具二、题录型检索工具三、文摘型检索工具三、文摘型检索工具 第四节第四节 索引介绍索引介绍 著者索引、著者索引、 主题索引(关键词索引)、主题索引(关键词索引)、 分类索分类索引、引、 题名索引、其他索引题名索引、其他索引 第五节第五节 计算机信息检索基础计算机信息检索基础 2021/7/244第三章第三章 中文文献信息检索中文文献信息检索 中国学术期刊数据库中国学术期刊数据库 ( (中知库)中知库)维普科技期刊数据库维普

4、科技期刊数据库 万方资源数据库万方资源数据库 中国资讯行中国资讯行 人大复印资料人大复印资料 2021/7/245第四章第四章 外文文献信息检索外文文献信息检索 一、一、 Ei Village Ei Village数据库数据库 Ei Compendex Web(EI Ei Compendex Web(EI 网络版)网络版)INSPECINSPEC是科学文摘是科学文摘(Science Abstracts(Science Abstracts,简,简称称SA)SA)的电子版,的电子版,专利专利 (Patents) (Patents): USPTO Patents USPTO Patents 为美国专

5、利和为美国专利和商标局的全文专利数据库。商标局的全文专利数据库。TechstreetTechstreet标准标准 (Techstreet Standards) (Techstreet Standards)世界上世界上最大的工业标准集之一最大的工业标准集之一ScirusScirus是迄今为止因特网上最全面的科技专用搜是迄今为止因特网上最全面的科技专用搜索引擎索引擎2021/7/246二、二、ISIWebofKnowledge平台信息资源组成信息资源组成WebofScience(WOS)INSPECMEDLINEDerwentInnovationsIndexCurrentContentsConne

6、ctISIeSearchISTP(IndextoScientific&TechnicalProceedingsISSHP(IndextoSocialScience&HumanitiesProceedingsScienceCitationIndexExpandedSocialScienceCitationIndexArts&HumanitiesCitationIndexIndexChemicus(IC)CurrentChemicalReactions(CCR)3个引文个引文数据库数据库2个会议个会议论文引文论文引文数据库数据库2个化学数个化学数据库据库ISIChemistry2021/7/247

7、第五章第五章Internet信息检索信息检索第一节第一节Internet概述概述第二节第二节Internet搜索引擎搜索引擎搜索引擎搜索技术、网络信息检索技巧、搜索引擎搜索技术、网络信息检索技巧、国内外综合型检索工具国内外综合型检索工具第三节第三节主要搜索引擎主要搜索引擎2021/7/248实验安排中国学术期刊数据库中国学术期刊数据库 ( (中知库)中知库)维普科技期刊数据库维普科技期刊数据库 万方资源数据库万方资源数据库 中国资讯行中国资讯行 人大复印资料人大复印资料 Ei Village Ei Village数据库数据库WebofScienceInternet搜索引擎搜索引擎2021/7/

8、249教学目的与要求 掌握文献信息、数字信息检索的基本掌握文献信息、数字信息检索的基本原理和方法,了解国内外重要的文献检索原理和方法,了解国内外重要的文献检索工具和检索系统的特点、编排体例以及使工具和检索系统的特点、编排体例以及使用方法,较熟练地掌握几种工具和系统的用方法,较熟练地掌握几种工具和系统的检索方法和技巧,最终使学生能够达到利检索方法和技巧,最终使学生能够达到利用检索工具查阅所需资料的水平,为以后用检索工具查阅所需资料的水平,为以后从事相关工作打下基础。从事相关工作打下基础。2021/7/2410教材及参考书1、马景娣实用信息检索教程, 浙江教育出版社, 2004年2、叶继元信息检索

9、导论(第2版,电子工业出版社, 2009年3、王立清信息检索教程(第2版, 中国人民大学出版社, 2008年2021/7/2411本课程的实践环节本课程的实践环节16学时,以上机实验为主。学时,以上机实验为主。关于课程的考试关于课程的考试本课程的学生成绩由以下三部分组成:本课程的学生成绩由以下三部分组成:平时的上机实验成绩及平时作业成绩平时的上机实验成绩及平时作业成绩30%期中考试成绩期中考试成绩30%(理论考试)(理论考试)上机考核上机考核40%(实践考试)(实践考试)根据平时上课的考勤情况酌情加减分根据平时上课的考勤情况酌情加减分2021/7/2412第一章 绪论第一节第一节信息存储与检索

10、简介信息存储与检索简介一、什么是信息一、什么是信息(Information)?汉语中的汉语中的“信息信息”一词中,一词中,“信信”与与“息息”的意思相近,的意思相近,前者侧重于消息、征兆,后者强调情况、音讯。两字前者侧重于消息、征兆,后者强调情况、音讯。两字连成一词使用,最早见于三国志中的连成一词使用,最早见于三国志中的“正数(天正数(天意、天数)欲来,信息甚大。意、天数)欲来,信息甚大。”在西方英文中在西方英文中information一词有情报、资料、一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成国家有

11、关部门核准,统一译成“信息信息”。在我国台湾、。在我国台湾、香港地区,该词被译为香港地区,该词被译为“资讯资讯”。2021/7/2413信息化的创始人香农(申农信息化的创始人香农(申农)(美国数学家、信)(美国数学家、信息论的创始人息论的创始人 )19481948年在通信的数学理论中年在通信的数学理论中将信息定义为将信息定义为“两次否定性之差两次否定性之差”。他指出:。他指出:“凡是凡是在一种情况下能减少不确定性的任何事物都叫做在一种情况下能减少不确定性的任何事物都叫做信息。信息。”这一定义是从通信科学的角度来探讨信息这一定义是从通信科学的角度来探讨信息概念的,也就是说,通讯的意义就在于减少或

12、消概念的,也就是说,通讯的意义就在于减少或消除通讯者的某种不定性,那么收信者被消除的不除通讯者的某种不定性,那么收信者被消除的不定性的大小就表示其所收到的信息量。定性的大小就表示其所收到的信息量。2021/7/2414这种定义没有从信息的语义因素给出定义,这种定义没有从信息的语义因素给出定义,也没有考虑信息的含义价值,因此不能直接用于也没有考虑信息的含义价值,因此不能直接用于研究人类的信息传播。但这一定义指出了信息的研究人类的信息传播。但这一定义指出了信息的一个价值一个价值减少不确定性,这是信息的认知知减少不确定性,这是信息的认知知识功能,即当一个信息为人们所感知和确认后,识功能,即当一个信息

13、为人们所感知和确认后,这一信息就成为一定意义上的知识,形成后的知这一信息就成为一定意义上的知识,形成后的知识又可以作为信息来传递;而尚未被认识的原始识又可以作为信息来传递;而尚未被认识的原始信息,则成为人们努力探讨的对象,在尚未认识信息,则成为人们努力探讨的对象,在尚未认识它们之前还不是知识(未知信息)。它们之前还不是知识(未知信息)。2021/7/2415美国数学家、美国数学家、控制论的创始者维纳控制论的创始者维纳Wiener将信息引将信息引入控制论,认为信息就是组织程度,它能使系统的有入控制论,认为信息就是组织程度,它能使系统的有序性增强,减少破坏、混乱、噪声。序性增强,减少破坏、混乱、噪

14、声。钟义信(北京邮电大学原副校长钟义信(北京邮电大学原副校长 ):信息是事物存在:信息是事物存在的方式或运动的状态,以及这种方式或状态直接或间的方式或运动的状态,以及这种方式或状态直接或间接的表达。接的表达。辞海:辞海:“信息是指对消息接收者来说预先不很有信息是指对消息接收者来说预先不很有知道的报道。知道的报道。”美国图书馆学会的信息专家:美国图书馆学会的信息专家:“信息是一切思想、事信息是一切思想、事实和富有想像力的作品,它们以各种方式进行了记录实和富有想像力的作品,它们以各种方式进行了记录和传播。和传播。”2021/7/2416教材定义:(P4) 信息是被反映物的属性再现,信息的信息是被反

15、映物的属性再现,信息的属性在于表现它物。也就是说,信息不是属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、完整的信息过程,包括信息的传递、接收、贮存、加工和利用。贮存、加工和利用。2021/7/2417信息、知识与

16、情报的逻辑关系信息、知识与情报的逻辑关系信息信息知识知识情报情报2021/7/2418信息具有以下特征:(1)普遍性)普遍性(2)时效性:信息在一定的时间内是有效的信息,在此时)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。需要经过一定的时间,都有其时滞性。(3)传递性)传递性(4)可转换性:信息是可以由一种形态转换成另一种形态。)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有信息一般有4种形态:数据、文本、声音、图像。这种形态:数据、文本、声音、图

17、像。这4种形种形态可以相互转化,例如,照片被传送到计算机,就把图像态可以相互转化,例如,照片被传送到计算机,就把图像转化成了数字。转化成了数字。(5)可再生性)可再生性(6)共享性:同一信源可以供给多个信宿,因此信息是可)共享性:同一信源可以供给多个信宿,因此信息是可以共享的以共享的,且不因共享而减少,且不因共享而减少(7)可识别性)可识别性:信息是可以识别的,识别又可分为直接认:信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识是指通过各种测试手段的识别。不

18、同的信息源有不同的识别方法。别方法。(8)可存储性:信息是可以通过各种方法存储的。)可存储性:信息是可以通过各种方法存储的。2021/7/2419二、信息检索二、信息检索1、定义、定义(1)从通信的角度认识信息检索:强调信息发布者和接受者之)从通信的角度认识信息检索:强调信息发布者和接受者之间的通信,是两者关系的变化和延伸。间的通信,是两者关系的变化和延伸。1950年年,美国学者莫尔斯美国学者莫尔斯CalvinN.Mooers在把信息检索在把信息检索看做是时间性的通信一文中首创了看做是时间性的通信一文中首创了“信息检索信息检索”这一术语。并认这一术语。并认为信息检索是一种时间性通信形式,此种通

19、信是在时间上从一个为信息检索是一种时间性通信形式,此种通信是在时间上从一个时刻通往较晚的时刻,而在空间上可能还在同一地点。也就是说,时刻通往较晚的时刻,而在空间上可能还在同一地点。也就是说,通过信息检索得到了一些文献,从而使得信息发布者与信息用户通过信息检索得到了一些文献,从而使得信息发布者与信息用户之间建立了一种通信。这个观点在于说明,信息传递是种特殊的之间建立了一种通信。这个观点在于说明,信息传递是种特殊的通信形式,正是这种通信促使了人类思想、文化、科学上的交流。通信形式,正是这种通信促使了人类思想、文化、科学上的交流。莫尔斯强调在通信双方中,信息发送者尽可能发送一切信息,是莫尔斯强调在通

20、信双方中,信息发送者尽可能发送一切信息,是时间性通信的被动一方,而信息接收者是主动活跃的一方,正是时间性通信的被动一方,而信息接收者是主动活跃的一方,正是接收者才决定什么时候接收以及接收什么信息。因此,信息检索接收者才决定什么时候接收以及接收什么信息。因此,信息检索的问题就在于,如何把一个可能的用户指引向所存储的信息。的问题就在于,如何把一个可能的用户指引向所存储的信息。2021/7/2420(2)从信息检索过程的角度认识信息检索)从信息检索过程的角度认识信息检索这种观点认为,信息检索就是查找出含有用户这种观点认为,信息检索就是查找出含有用户所需信息的文献的过程。这是一种传统的主流观所需信息的

21、文献的过程。这是一种传统的主流观点。美国信息检索专家兰卡斯特说:信息检索系点。美国信息检索专家兰卡斯特说:信息检索系统并不是检索信息。那是检索什么呢?他认为是统并不是检索信息。那是检索什么呢?他认为是检索文献。因为信息是无形的,必须依附于文献检索文献。因为信息是无形的,必须依附于文献而存在。虽然信息检索的最终结果是满足用户的而存在。虽然信息检索的最终结果是满足用户的信息需求,但检索的直接对象还是文献,当用户信息需求,但检索的直接对象还是文献,当用户阅读文献并理解其内容时,用户的信息需求才被阅读文献并理解其内容时,用户的信息需求才被满足。满足。2021/7/2421(3)从信息处理的角度认识信息

22、检索)从信息处理的角度认识信息检索从信息处理的角度来看,信息检索的基本问题,是从信息处理的角度来看,信息检索的基本问题,是如何处理信息和信息的结构。这种认识偏重于信息管理如何处理信息和信息的结构。这种认识偏重于信息管理领域,认为信息检索不仅限于传统文献的范围,图像、领域,认为信息检索不仅限于传统文献的范围,图像、声音、数据等也都能反映信息,并把信息检索视为计算声音、数据等也都能反映信息,并把信息检索视为计算机科学技术的一个分支。机科学技术的一个分支。如何看待现代信息和信息的结构问题:如何看待现代信息和信息的结构问题:信息的内容发生很大的变化。由于学术团体、政府信息的内容发生很大的变化。由于学术

23、团体、政府机关、商业部门、个人、民间组织等任何组织或个人都机关、商业部门、个人、民间组织等任何组织或个人都可以以多种形式发布信息,对信息缺乏控制和管理。可以以多种形式发布信息,对信息缺乏控制和管理。信息的形式从印刷型向多种形式并存的方向发展,信息的形式从印刷型向多种形式并存的方向发展,不仅仅是视觉和静态形式,而且是动态的多媒体的。不仅仅是视觉和静态形式,而且是动态的多媒体的。信息资源的种类不仅仅是正式出版物,电子期刊、信息资源的种类不仅仅是正式出版物,电子期刊、图书、非正式出版物、灰色文献、数据库、软件、新闻图书、非正式出版物、灰色文献、数据库、软件、新闻组、组、BBS等。等。2021/7/2

24、422(4)从信息获取方式来认识信息检索分为:)从信息获取方式来认识信息检索分为:直接检索:直接从信息源中获取信息,获直接检索:直接从信息源中获取信息,获取方式直接,但很难广、快、精、准地查取方式直接,但很难广、快、精、准地查到所需的全部信息到所需的全部信息间接检索:通过信息检索工具或检查系统间接检索:通过信息检索工具或检查系统获取所需的信息。(本课程主要学习)克获取所需的信息。(本课程主要学习)克服了直接检索的缺点,在掌握一定检索技服了直接检索的缺点,在掌握一定检索技巧前提下可以较全面、准确、快速地检索巧前提下可以较全面、准确、快速地检索到相关信息。到相关信息。2021/7/2423(5)从

25、实际检索工作的角度出发,对信息检索这样)从实际检索工作的角度出发,对信息检索这样表达:表达:广义:将信息按一定的方式组织和存储起来,并广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具取即信息查找,是通过某种查询机制从检索工具

26、或检索系统中查找出用户所需的特定信息或获取或检索系统中查找出用户所需的特定信息或获取其线索的过程。其线索的过程。狭义:仅仅指信息查找的过程。即取的环节。狭义:仅仅指信息查找的过程。即取的环节。2021/7/2424信息源信息源选择信息选择信息构造检索式构造检索式相关性判断与反馈相关性判断与反馈初步检索结果集初步检索结果集词汇替换词汇替换检检索索词词与与标标引引词词匹匹配配运运算算信息数据库信息数据库概念分析概念分析信息需求信息需求词汇替换词汇替换概念分析概念分析获取所需信息获取所需信息系系统统检检索索语语言言信信息息存存储储信信息息检检索索信息用户信息用户检索提问检索提问信息存储与信息存储与检

27、索流程图检索流程图2021/7/2425本课程将侧重信息检索部分:信息检索( information retrieval):信息用户为处理解决各种问题,运用检索工具或数据库等情况集合,从中查找、识别、获取相关的事实、数据、知识的活动及过程。2021/7/24262、检索语言(retrieval language) 又称为情报语言、情报存储和检索语言、又称为情报语言、情报存储和检索语言、信息组织语言,是信息存储与检索过程中信息组织语言,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的用于描述信息特征和表达用户信息提问的一种人工语言,是实现人与检索系统对话一种人工语言,是实现人与检索系统

28、对话的交流语言。的交流语言。检索语言可划分为:分类语言、主题语检索语言可划分为:分类语言、主题语言、分类主题语言、代码语言、引文语言言、分类主题语言、代码语言、引文语言等。(下章详细介绍)等。(下章详细介绍)2021/7/24273、检索工具检索工具 是用来报道、存和查找信息的工具,通常是是用来报道、存和查找信息的工具,通常是指以书本或卡片形式呈现、采用手工方式进行的指以书本或卡片形式呈现、采用手工方式进行的设施,如检索期刊、书目索引和卡片目录等。设施,如检索期刊、书目索引和卡片目录等。检索工具必须具备的条件:检索工具必须具备的条件:(1)对所收录的信息资料的各种特征(包括外部特)对所收录的信

29、息资料的各种特征(包括外部特征和内容特征)要有详细的描述。征和内容特征)要有详细的描述。(2)每条描述记录都要标明可供检索用和标识,以)每条描述记录都要标明可供检索用和标识,以便按某种方式将这些描述记录组织起来,为编织便按某种方式将这些描述记录组织起来,为编织各种索引做准备。各种索引做准备。(3)全部描述记录要科学地组织成一个有机的整体,)全部描述记录要科学地组织成一个有机的整体,使这些记录存放有序,方便存取。使这些记录存放有序,方便存取。(4)具有多种必要的检索手段以满足用户从多种角)具有多种必要的检索手段以满足用户从多种角度查找信息的要求。度查找信息的要求。2021/7/24282021/

30、7/24292021/7/24302021/7/24312021/7/24324、检索系统检索系统:由一定的检索设备(如探针、选卡机、电子计算由一定的检索设备(如探针、选卡机、电子计算机等)和加工整理并存储在相应的载体(如穿孔机等)和加工整理并存储在相应的载体(如穿孔卡片、磁带、磁盘等)上面的文档或数据库及其卡片、磁带、磁盘等)上面的文档或数据库及其他必要设备共同构成的,具有存储和检索功能的他必要设备共同构成的,具有存储和检索功能的信息服务设施。它往往由多个子系统或模块构成,信息服务设施。它往往由多个子系统或模块构成,需借助专门设备进行检索。需借助专门设备进行检索。 穿孔卡片检索系统、缩微品检

31、索系统、光盘检穿孔卡片检索系统、缩微品检索系统、光盘检索系统、计算机检索系统、网络信息检索系统索系统、计算机检索系统、网络信息检索系统2021/7/2433检索工具和检索系统的基本作用相同,都检索工具和检索系统的基本作用相同,都服务于信息检索,都是传播信息的重要媒服务于信息检索,都是传播信息的重要媒介和实现情报检索的主要手段。检索工具介和实现情报检索的主要手段。检索工具属于传统的检索设施,今天仍发挥着重要属于传统的检索设施,今天仍发挥着重要的作用,检索系统是在手工检索工具的基的作用,检索系统是在手工检索工具的基础上发展起来的,是信息检索础上发展起来的,是信息检索机械化和自机械化和自动化的必然产

32、物,目前在信息检索中已起动化的必然产物,目前在信息检索中已起到主导作用。它们的区别主要表现在内部到主导作用。它们的区别主要表现在内部结构、信息表示方式和匹配机制等方面。结构、信息表示方式和匹配机制等方面。 2021/7/2434(1)内部结构:检索工具的结构较为简单,以纸内部结构:检索工具的结构较为简单,以纸介质为记录材料和存贮设备;检索系统一般以非介质为记录材料和存贮设备;检索系统一般以非纸介质为记录和存贮设备,检索系统的构造通常纸介质为记录和存贮设备,检索系统的构造通常较复杂,包含有多个功能子系统(如文献采集子较复杂,包含有多个功能子系统(如文献采集子系统、标引子系统、建库子系统、提问处理

33、子系系统、标引子系统、建库子系统、提问处理子系统、系统用统、系统用/户接口、词表管理子系统等)和多种户接口、词表管理子系统等)和多种设施(如输入、输出设备、数据库,中央处理机设施(如输入、输出设备、数据库,中央处理机和通讯设施等)。和通讯设施等)。 (2)信息表示方式:检索工具用自然语言或准自)信息表示方式:检索工具用自然语言或准自然语言描述信息特征;检索系统用机器语言或机然语言描述信息特征;检索系统用机器语言或机器可读语言表示信息。器可读语言表示信息。 (3)匹配机制:检索工具依靠人的智力和知识来)匹配机制:检索工具依靠人的智力和知识来进行信息比较选择,功能也相对较弱;检索系统进行信息比较选

34、择,功能也相对较弱;检索系统依靠某种匹配机制来筛选相关信息,其功能强弱依靠某种匹配机制来筛选相关信息,其功能强弱与构造和设备的先进性密切相关。与构造和设备的先进性密切相关。2021/7/2435三、信息检索的发展信息检索的发展1、第一阶段:完全手工检索阶段、第一阶段:完全手工检索阶段2、第二阶段:半机械检索系统、第二阶段:半机械检索系统-机电、光电机电、光电检索系统的发展阶段检索系统的发展阶段3、第三阶段:计算机检索系统的发展阶段、第三阶段:计算机检索系统的发展阶段4、第四阶段:基于、第四阶段:基于Internet的网络化检索的网络化检索系统阶段系统阶段2021/7/2436 第二节第二节信息

35、资源信息资源一、信息资源的概念一、信息资源的概念信息资源是人们获取信息的来源。信息资源是人们获取信息的来源。1、定义、定义美国信息资源管理专家霍顿:单数概念的信息资源美国信息资源管理专家霍顿:单数概念的信息资源是指某种内容的来源,即包含在文件和公文中的信是指某种内容的来源,即包含在文件和公文中的信息内容息内容;复数概念的信息资源是指支持工具,包括供复数概念的信息资源是指支持工具,包括供给、设备、环境、人员、资金等。给、设备、环境、人员、资金等。中国乌家培教授:狭义的是指信息内容本身;广义中国乌家培教授:狭义的是指信息内容本身;广义的是指除信息内容外,还包括与其紧密相关的信息的是指除信息内容外,

36、还包括与其紧密相关的信息设备、信息人员、信息系统、信息网络等。设备、信息人员、信息系统、信息网络等。中科院霍国庆:信息资源是可利用的信息的集合,中科院霍国庆:信息资源是可利用的信息的集合,是经过人类开发与组织的信息集合。是经过人类开发与组织的信息集合。联合国教科文组织出版的文献术语中把信息资联合国教科文组织出版的文献术语中把信息资源定义为:源定义为:“个人为满足其信息需要而获得信息的来个人为满足其信息需要而获得信息的来源。源。”2021/7/2437具体讲,凡能产生、生产、载有、储具体讲,凡能产生、生产、载有、储存、加工、传递信息的社会活动场所、存、加工、传递信息的社会活动场所、机构、人物、产

37、品和自然物质都是信机构、人物、产品和自然物质都是信息资源。息资源。2021/7/24382、特性、特性(1)普遍性:为人们获取信息提供了广泛)普遍性:为人们获取信息提供了广泛的来源的来源(2)潜在性:指一些具有使用价值的信息)潜在性:指一些具有使用价值的信息往往潜伏在信息资源中,人们欲获得价值往往潜伏在信息资源中,人们欲获得价值的信息,必须对信息资源的特点、变化规的信息,必须对信息资源的特点、变化规律进行认真分析,寻求获取信息的途径和律进行认真分析,寻求获取信息的途径和方法。方法。(3)运动性:一切信息资源都处于运动和)运动性:一切信息资源都处于运动和变动中,欲获得信息资源中的有用信息,变动中

38、,欲获得信息资源中的有用信息,必须擅于捕捉获取信息的机会,以达到开必须擅于捕捉获取信息的机会,以达到开发利用有价值信息的目的。发利用有价值信息的目的。2021/7/2439二、 信息资源的分类:1、信息源可分为自然信息源和社会信息信息源可分为自然信息源和社会信息源。源。自然信息源广泛存在于自然界中,是物自然信息源广泛存在于自然界中,是物质运动和生物生存活动的结果。如山川、土质运动和生物生存活动的结果。如山川、土地、气候、能源、动物、植物、微生物等,地、气候、能源、动物、植物、微生物等,它们是人类生存最基本的自然环境和物质条它们是人类生存最基本的自然环境和物质条件,是自然信息的发生源。社会信息源

39、则存件,是自然信息的发生源。社会信息源则存在于人类活动中,是社会的直接产物。无论在于人类活动中,是社会的直接产物。无论是自然信息源还是社会信息源,其开发利用是自然信息源还是社会信息源,其开发利用均在社会中进行,社会信息源是信息源的主均在社会中进行,社会信息源是信息源的主体。体。2021/7/24402、按信息资源所依附的载体划分、按信息资源所依附的载体划分(1)体裁信息资源:以人体为载体并能为他人识)体裁信息资源:以人体为载体并能为他人识别的信息资源。按其表述方式又可分为口语信息别的信息资源。按其表述方式又可分为口语信息源和体语信息源。口语信息源是人类以口头方式源和体语信息源。口语信息源是人类

40、以口头方式表述但未被记录下来的口语信息,如:谈话、讲表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。势、姿态等方式表述的体语信息。(2)实物信息资源:以实物为载体的信息资源。)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:又分为自然实物信息源与人工实物信息源。如:化石、产品、样品等。化石、产品、样品等。(3)文献信息资源:以文字、图形、符号、声频、)文献信息资源:以文字、

41、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。视频等发生记录在各种载体上的知识和信息资源。(4)网络信息资源:以网络为纽带连接起来的信)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储的手段息资源和以网络为主要交流、传递、存储的手段与形式的信息资源。与形式的信息资源。2021/7/24413、按信息资源传递的范围划分:、按信息资源传递的范围划分:(1)公开信息资源:又称共享信息资源或白色信息)公开信息资源:又称共享信息资源或白色信息资源(资源(whiteinformation),指公开发行、流通和),指公开发行、流通和传递的信息资源,其蕴涵的信息人人可

42、以使用。一传递的信息资源,其蕴涵的信息人人可以使用。一般来说,公开信息资源的数量最大,而且能够作为般来说,公开信息资源的数量最大,而且能够作为信息商品进行流通领域。信息商品进行流通领域。(2)半公开信息资源:又称灰色信息资源()半公开信息资源:又称灰色信息资源(greyinformation),指非公开发行、流通和传递,从常),指非公开发行、流通和传递,从常规途径难以获取的信息(内部信息)。这类信息出规途径难以获取的信息(内部信息)。这类信息出版量小,发行渠道复杂,流通传递范围有限,不易版量小,发行渠道复杂,流通传递范围有限,不易收集。例如:内部的刊物、技术报告、仁义资料等。收集。例如:内部的

43、刊物、技术报告、仁义资料等。(3)非公开信息资源:又称黑色信息资源()非公开信息资源:又称黑色信息资源(blackinformation),指人们未破译或未被识别的,也指),指人们未破译或未被识别的,也指处于保密状态的信息。例如:考古发现的古老文字、处于保密状态的信息。例如:考古发现的古老文字、未解密的政府文件、内部档案、个人日记、私人信未解密的政府文件、内部档案、个人日记、私人信件等。件等。2021/7/24424、信息可分为可检信息和不可检信息。、信息可分为可检信息和不可检信息。问:哪些信息源是可检索的或不可检索的问:哪些信息源是可检索的或不可检索的?2021/7/2443自然信息均属于不

44、可检信息。社会信息中,人自然信息均属于不可检信息。社会信息中,人类以口头方式表述但未被记录下来的口语信息,类以口头方式表述但未被记录下来的口语信息,以及表情、手势、姿态等方式表述的体语信息,以及表情、手势、姿态等方式表述的体语信息,存储在人的大脑中的思维过程和各种思想都属于存储在人的大脑中的思维过程和各种思想都属于不可检信息,这些信息是在特定时间、地点产生,不可检信息,这些信息是在特定时间、地点产生,通过直接交流、接触获取并进行传播的。可检信通过直接交流、接触获取并进行传播的。可检信息是指人类用文字、图像、声频、视频等方式加息是指人类用文字、图像、声频、视频等方式加工记录在一定载体上的信息,通

45、过学习一定的手工记录在一定载体上的信息,通过学习一定的手段和方法可以检索,我们也称为文献。可检信息段和方法可以检索,我们也称为文献。可检信息可以跨时空进行传播并被人类利用,信息检索实可以跨时空进行传播并被人类利用,信息检索实际是就是对这些信息的检索。际是就是对这些信息的检索。2021/7/2444三、文献信息资源1、按信息资源所依附的载体的物质形态划分、按信息资源所依附的载体的物质形态划分(1)刻写型:)刻写型:包括手稿、日记、信件、原始档案、碑包括手稿、日记、信件、原始档案、碑刻等。刻等。(2)印刷型)印刷型:主要是指以纸张为载体,以印刷、手写:主要是指以纸张为载体,以印刷、手写为记录手段,

46、把信息内容固化在纸张上的形式。其优为记录手段,把信息内容固化在纸张上的形式。其优点是便于直接阅读、使用方便,其缺点是较笨重、存点是便于直接阅读、使用方便,其缺点是较笨重、存储密度低、收藏占用空间大、加工保存等花费人力物储密度低、收藏占用空间大、加工保存等花费人力物力大、识别和提取难以实现机械化和自动化。力大、识别和提取难以实现机械化和自动化。(3)缩微型)缩微型:以感光材料为载体,以缩微照相为记录:以感光材料为载体,以缩微照相为记录手段而产生的一种载体形式,如缩微胶卷、缩微胶片手段而产生的一种载体形式,如缩微胶卷、缩微胶片等。其优点是存储密度较大、体积小、便于收藏保存等。其优点是存储密度较大、

47、体积小、便于收藏保存和远距离传递。缺点是不能直接阅读、需借助缩微阅和远距离传递。缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使用。读机或阅读复印机才能使用。缩微型一般针对于数量大、利用率低但又有较大缩微型一般针对于数量大、利用率低但又有较大保存和利用价值的信息资源。保存和利用价值的信息资源。2021/7/2445(4)声像型)声像型:以磁性和感光材料为载体,借:以磁性和感光材料为载体,借助特殊的机械装置(如复录机、摄像机、助特殊的机械装置(如复录机、摄像机、录像机等)直接记录声音、图像信号的信录像机等)直接记录声音、图像信号的信息载体,又称视听资料,如唱片、录音带、息载体,又称视听资料

48、,如唱片、录音带、录像带、幻灯片、电影片、多媒体资料等。录像带、幻灯片、电影片、多媒体资料等。其优点是可以闻其声、观其形,直观而其优点是可以闻其声、观其形,直观而真切,给人以生动鲜明的印象。其缺点是真切,给人以生动鲜明的印象。其缺点是制造成本较高,且需要借助于一定的设备制造成本较高,且需要借助于一定的设备才能使用。才能使用。2021/7/2446(5)电子型)电子型:电子文献是指经过数字化技术处理后:电子文献是指经过数字化技术处理后以电子形式存在,利用计算机及现代通讯方式提以电子形式存在,利用计算机及现代通讯方式提供信息的一种新兴载体。供信息的一种新兴载体。其优点是存储密度高,读取速度快,更新

49、及时,其优点是存储密度高,读取速度快,更新及时,并利用电子手段随时对内容进行增、删、改,可并利用电子手段随时对内容进行增、删、改,可以高速度、远距离传递信息,具有交互性,便于以高速度、远距离传递信息,具有交互性,便于信息交流和共享。信息交流和共享。电子文献种类很多,按出版类型划分有电子教科电子文献种类很多,按出版类型划分有电子教科书、电子专著、电子工具书、电子杂志、电子报书、电子专著、电子工具书、电子杂志、电子报纸、电子版书目数据、计算机软件等。纸、电子版书目数据、计算机软件等。按电子文献载体形式划分其类型有磁性型文献、按电子文献载体形式划分其类型有磁性型文献、光盘型文献和网络型文献。光盘型文

50、献和网络型文献。按信息结构组织形式划分有文本型、多媒体型、按信息结构组织形式划分有文本型、多媒体型、超文本型及超媒体型。超文本型及超媒体型。2021/7/2447文本型文本型:指的只包含纯文字的文件。指的只包含纯文字的文件。多媒体型多媒体型:指的是能传播文字、声音、图形、图象、指的是能传播文字、声音、图形、图象、动画和电视等多种类型信息的手段、方式或载体。动画和电视等多种类型信息的手段、方式或载体。超文本型超文本型(Hypertext):是用超链结的方法,将各种是用超链结的方法,将各种不同空间的文字信息组织在一起的网状文本。不同空间的文字信息组织在一起的网状文本。超媒体型超媒体型(hyperm

51、edia):如果超文本节点中的信如果超文本节点中的信息除文本块以外息除文本块以外,还有图形、图像、声音、视频等还有图形、图像、声音、视频等多媒体信息多媒体信息,则称为超媒体则称为超媒体(hypermedia)。2021/7/24482、按信息资源的加工深度和结构等级划分、按信息资源的加工深度和结构等级划分(1)零次文献:)零次文献:指未经过任何加工的原始文献。如:指未经过任何加工的原始文献。如:实验记录、手稿、原始录音、原始录像、谈话记录。实验记录、手稿、原始录音、原始录像、谈话记录。(2)一次文献:)一次文献:未经加工或粗略加工的原始信息资未经加工或粗略加工的原始信息资源,以本人的研究成果为

52、基本素材而创作的文献,源,以本人的研究成果为基本素材而创作的文献,具体、详尽和系统化。如期刊论文、专利文献、科具体、详尽和系统化。如期刊论文、专利文献、科技报告、会议录、学位论文等等。技报告、会议录、学位论文等等。 (3)二次文献:)二次文献:它是将大量分散、零乱、无序的一它是将大量分散、零乱、无序的一次文献进行进行加工、整理、标引、著录、浓缩,次文献进行进行加工、整理、标引、著录、浓缩,并按照一定的逻辑顺序和科学体系加以编排存储,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。如:目录、题录、使之系统化,以便于检索利用。如:目录、题录、索引、文摘。具有报道和检索功能。

53、索引、文摘。具有报道和检索功能。(4)三次文献:)三次文献:通过二次信息资源提供的线索,对通过二次信息资源提供的线索,对某一范围内的一次信息资源进行分析、研究、加工某一范围内的一次信息资源进行分析、研究、加工而成的信息资源,它包括综述、述评、专题情报研而成的信息资源,它包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、手册、词典等。究报告、百科全书、年鉴、指南、手册、词典等。2021/7/2449一次文献是二次文献和三次文献的基础,是文献一次文献是二次文献和三次文献的基础,是文献检索的主要对象;二次文献具有浓缩性,是一次检索的主要对象;二次文献具有浓缩性,是一次文献的简略及有序化,是文献

54、检索的工具;三次文献的简略及有序化,是文献检索的工具;三次文献具有综合性,既是检索对象,又可提供一定文献具有综合性,既是检索对象,又可提供一定的检索途径与检索手段。的检索途径与检索手段。总之,文献经过加工、压缩,从零次信息到三次总之,文献经过加工、压缩,从零次信息到三次信息,使科技信息由分散到集中,由无序到有序,信息,使科技信息由分散到集中,由无序到有序,由无组织到系统化,由博而精的对知识信息进行由无组织到系统化,由博而精的对知识信息进行不同层次的加工的过程。不同层次的加工的过程。2021/7/24503、信息的不同出版类型划分、信息的不同出版类型划分(1)图书)图书:包括专著、教科书、各种科

55、普读物及专业:包括专著、教科书、各种科普读物及专业参考工具书等,特点是:内容系统、成熟、定型、信参考工具书等,特点是:内容系统、成熟、定型、信息经筛选,可靠性强,出版周期长,更新速度慢,从息经筛选,可靠性强,出版周期长,更新速度慢,从检索角度,图书一般不作为主要检索对象。检索角度,图书一般不作为主要检索对象。(2)期刊)期刊:定期或不定期刊行的连续出版物,如杂志、:定期或不定期刊行的连续出版物,如杂志、年度报告、年鉴、丛书、学会的会议录、学报和纪要年度报告、年鉴、丛书、学会的会议录、学报和纪要等,特点是:数量大、品种多,内容丰富多样、出版等,特点是:数量大、品种多,内容丰富多样、出版周期短、报

56、道速度较快、发行、流通面很广泛,连续周期短、报道速度较快、发行、流通面很广泛,连续性强,伴随着相应的学科领域发展前进。职能:记录性强,伴随着相应的学科领域发展前进。职能:记录正式的公开的科学技术活动,传播科技信息的主要工正式的公开的科学技术活动,传播科技信息的主要工具。具。2021/7/2451(3)科技报告)科技报告scientificandtechnicalreport :报道(记:报道(记录)研究工作和开发调查工作的成果或进展情况的一种文献录)研究工作和开发调查工作的成果或进展情况的一种文献类型。又称研究报告、报告文献。出现于类型。又称研究报告、报告文献。出现于20世纪初,第二次世纪初,

57、第二次世界大战后迅速发展,成为科技文献中的一大门类。大多与世界大战后迅速发展,成为科技文献中的一大门类。大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。查寻科技报告有专门的检科研工作,是一种重要的信息源。查寻科技报告有专门的检索工具。索工具。特点:特点:反映新的科研成果迅速。以科技报告形式反映科研成反映新的科研成果迅速。以科技报告形式反映科研成果比这些成果在期刊上发表,一般要早一年左右,有的则不果比这

58、些成果在期刊上发表,一般要早一年左右,有的则不在期刊上发表。在期刊上发表。内容多样化。它几乎涉及整个科学、技术内容多样化。它几乎涉及整个科学、技术领域和社会科学、行为科学以及部分人文科学领域。领域和社会科学、行为科学以及部分人文科学领域。保密保密性。大量科技报告都与政府的研究活动、高新技术有关,使性。大量科技报告都与政府的研究活动、高新技术有关,使用范围控制较严。用范围控制较严。报告质量参差不齐。大部分科技报告是报告质量参差不齐。大部分科技报告是合同研究计划的产物,由工程技术人员编写,由于撰写受时合同研究计划的产物,由工程技术人员编写,由于撰写受时间限制、因保密需要以工作文件形式出现等因素影响

59、,使报间限制、因保密需要以工作文件形式出现等因素影响,使报告的质量相差很大。告的质量相差很大。每份报告自成一册,装订简单,一般每份报告自成一册,装订简单,一般都有连续编号,出版发行不规则。通常载有主持单位、报告都有连续编号,出版发行不规则。通常载有主持单位、报告撰写者、密级、报告号、研究项目号和合同号等。撰写者、密级、报告号、研究项目号和合同号等。2021/7/2452附:美国四大科技报告(附:美国四大科技报告(AD,PB,NASA,DOE)1、AD报告报告1951年开始出版。现由美国国防技术年开始出版。现由美国国防技术情报中心负责收集整理和出版。报告内容以国防部各情报中心负责收集整理和出版。

60、报告内容以国防部各个合同户的研究报告为主,其报告号冠以个合同户的研究报告为主,其报告号冠以AD,A原原先为先为Armed、D则为则为Document之意,现在则可理解之意,现在则可理解为入藏报告(为入藏报告(AccessionDocument)。)。ADA000001A表示公开报告,占表示公开报告,占45ADB000001B表示非密限制报告,表示非密限制报告,占占39ADC000001C表示秘密报告,表示秘密报告,占占16ADD000001D表示美军专利文献表示美军专利文献2021/7/24532、PB报告产生于二战结束之后,当时美国政府为报告产生于二战结束之后,当时美国政府为了整理和利用从战

61、败国获得的数以千吨计的秘密了整理和利用从战败国获得的数以千吨计的秘密科技资料,于科技资料,于1945年年6月成立了一个专门的出版月成立了一个专门的出版局,即美国商务部出版局(局,即美国商务部出版局(PublicationBoard),),负责收集、整理、报导利用这些资料负责收集、整理、报导利用这些资料3、NASA报告是美国国家航空航天局报告是美国国家航空航天局NASA科技情科技情报处编辑、出版的专业性检索刊物,它是检索航报处编辑、出版的专业性检索刊物,它是检索航空航天科技报告的重要工具。空航天科技报告的重要工具。4、DOE报告,是美国能源部报告,是美国能源部DOE技术情报中心编技术情报中心编辑

62、出版的半月刊。收录能源部部属科研机构和各辑出版的半月刊。收录能源部部属科研机构和各大学等一切与能源有关的科技文献,以科技报告大学等一切与能源有关的科技文献,以科技报告为主。为主。2021/7/2454(4)会议文献:会议文献:在学术会议上宣读和交流的论文、在学术会议上宣读和交流的论文、报告及其他有关资料。报告及其他有关资料。会议文献的特点是传递情报比较及时会议文献的特点是传递情报比较及时,内容新内容新颖颖,专业性和针对性强,种类繁多,出版形式多样。专业性和针对性强,种类繁多,出版形式多样。它是科技文献的重要组成部分它是科技文献的重要组成部分,同一会议上的文献同一会议上的文献论题集中、新颖、丰富

63、、专深、学术性强,一般是论题集中、新颖、丰富、专深、学术性强,一般是经过挑选的经过挑选的,质量较高,能及时反映科学技术中的质量较高,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋向,是了新发现、新成果、新成就以及学科发展趋向,是了解各国科技发展水平和动向的重要文献来源。会议解各国科技发展水平和动向的重要文献来源。会议文献没有固定的出版形式文献没有固定的出版形式,有的刊载在学会协会的有的刊载在学会协会的期刊上,作为专号、特辑或增刊,有些则发表在专期刊上,作为专号、特辑或增刊,有些则发表在专门刊载会议录或会议论文摘要的期刊上。一些会议门刊载会议录或会议论文摘要的期刊上。一些会议文献还常

64、常汇编成专题论文集或出版会议丛刊、丛文献还常常汇编成专题论文集或出版会议丛刊、丛书。还有些会议文献以科技报告的形式出版。此外,书。还有些会议文献以科技报告的形式出版。此外,有的会议文献以录音带、录像带或缩微品等形式出有的会议文献以录音带、录像带或缩微品等形式出版。版。2021/7/2455(5)专利文献:)专利文献:一切与专利制度有关的在专利申请一切与专利制度有关的在专利申请和授权各阶段产生的文献。概括地讲,专利文献和授权各阶段产生的文献。概括地讲,专利文献是各国专利局及国际性专利组织在审批专利过程是各国专利局及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。作为公开中产生的官方

65、文件及其出版物的总称。作为公开出版物的专利文献主要有:专利说明书、专利公出版物的专利文献主要有:专利说明书、专利公报、专利文摘、专利索引和专利分类表等。特点报、专利文摘、专利索引和专利分类表等。特点是:内容具体、可靠、详尽,具有新颖性、创造是:内容具体、可靠、详尽,具有新颖性、创造性和实用性。能反映科学技术最新的水平,大量性和实用性。能反映科学技术最新的水平,大量重复,增加用户信息识别和去掉重复的负担。重复,增加用户信息识别和去掉重复的负担。(6)技术标准和规范:)技术标准和规范:对工农业产品和工程建设的对工农业产品和工程建设的质量、规格、参数及其检验方法等方面所作的技质量、规格、参数及其检验

66、方法等方面所作的技术灰顶,是从事生产和建设应当共同遵守的一种术灰顶,是从事生产和建设应当共同遵守的一种技术依据和规范,每一件技术标准都是独完整的技术依据和规范,每一件技术标准都是独完整的技术资源。特点是:制定、审批有程序,适用范技术资源。特点是:制定、审批有程序,适用范围明确专一,叙述严谨,可靠性和现实性,新陈围明确专一,叙述严谨,可靠性和现实性,新陈代谢频繁。代谢频繁。2021/7/2456(7)政府出版物)政府出版物:政府出版物是由政府机构制作出版、:政府出版物是由政府机构制作出版、或由政府机构编辑并授权指定出版商出版的文献。可或由政府机构编辑并授权指定出版商出版的文献。可分两类:一类是行

67、政性文献分两类:一类是行政性文献(包括宪法、司法文献包括宪法、司法文献),主,主要涉及政府法律、经济方面的国会和议会记录、议案、要涉及政府法律、经济方面的国会和议会记录、议案、决议、司法资料、听证记录、法律、法令、规章制度、决议、司法资料、听证记录、法律、法令、规章制度、政策、调查统计资料等;另一类是科学技术文献,主政策、调查统计资料等;另一类是科学技术文献,主要指政府部门出版的科技报告、标准、专利文献、科要指政府部门出版的科技报告、标准、专利文献、科技政策文件,公开后的科技档案、经济规划、气象资技政策文件,公开后的科技档案、经济规划、气象资料等。料等。政府出版物的内容涉及人类生活的各个领域:

68、政府出版物的内容涉及人类生活的各个领域:政治、社会、经济、财政、工农业生产、教育、历史,政治、社会、经济、财政、工农业生产、教育、历史,也有自然科学和应用科学的各个领域。政府出版物是也有自然科学和应用科学的各个领域。政府出版物是了解一个国家方计、政策、科学技术和经济、生活现了解一个国家方计、政策、科学技术和经济、生活现状的权威性信息来源。状的权威性信息来源。特点:政策性、综合性、指导性强,对经济、科技发展特点:政策性、综合性、指导性强,对经济、科技发展政策导向明显、可靠。政策导向明显、可靠。 2021/7/2457(8)学位论文)学位论文:学位论文是指为了获得学:学位论文是指为了获得学位,要求

69、被授予学位的人所撰写的论文。根位,要求被授予学位的人所撰写的论文。根据中华人民共和国学位条例的规定,学据中华人民共和国学位条例的规定,学位论文分为学士论文、硕士论文、博士论文位论文分为学士论文、硕士论文、博士论文三种。三种。特点:质量参差不齐,内容专深,有独到见特点:质量参差不齐,内容专深,有独到见解,较难获取。解,较难获取。(9)产品资料)产品资料:产品目录、产品说明书、:产品目录、产品说明书、产品样本等,是对产品的性能、结构、原理、产品样本等,是对产品的性能、结构、原理、用途、使用方法、技术规范及产品规格等进用途、使用方法、技术规范及产品规格等进行描述或说明的文献。行描述或说明的文献。特点

70、:图文并茂,形象直观,出版及时,更特点:图文并茂,形象直观,出版及时,更新迅速,反映的技术信息可靠。新迅速,反映的技术信息可靠。2021/7/2458(10)技术档案)技术档案:在生产或科研过程中形成的,:在生产或科研过程中形成的,是具体工程和研究对象的技术文件的总称,包括是具体工程和研究对象的技术文件的总称,包括任务书、技术经济指标、研究计划、方案、试验任务书、技术经济指标、研究计划、方案、试验设计、实验记录、调查材料、总结报告等应入档设计、实验记录、调查材料、总结报告等应入档的资料。它是生产和科研中用以积累经验、吸取的资料。它是生产和科研中用以积累经验、吸取教训和提高质量的重要依据,具体较

71、高的参考价教训和提高质量的重要依据,具体较高的参考价值。技术档案有一定的保密性,一般在内部控制值。技术档案有一定的保密性,一般在内部控制使用。使用。(11)报纸)报纸:报纸指以刊载新闻和新闻评论为主,:报纸指以刊载新闻和新闻评论为主,通常散页印刷,不装订、没有封面的纸质出版物。通常散页印刷,不装订、没有封面的纸质出版物。有固定名称,面向公众,定期、连续发行。现在有固定名称,面向公众,定期、连续发行。现在多数报纸每日出版一次或数次,也有每周出版几多数报纸每日出版一次或数次,也有每周出版几次或每周出版一次的。特点:传播信息快,传播次或每周出版一次的。特点:传播信息快,传播信息量大,现实感强,传播面

72、广,具有群众性和信息量大,现实感强,传播面广,具有群众性和通俗性,是重要的社会舆论工具和信息源。通俗性,是重要的社会舆论工具和信息源。2021/7/2459第三节 信息检索的类型一一、按检索对象的内容区分按检索对象的内容区分:(1)文献检索文献检索(documentretrieval)(2)数据检索数据检索(dataretrieval)(3)事实检索事实检索(factretrieval)2021/7/2460二、按检索方式区分;二、按检索方式区分;(1)手工检索:以手工操作的方式,利用检索工)手工检索:以手工操作的方式,利用检索工具书进行信息检索。手工信息检索是信息检索的传统具书进行信息检索。

73、手工信息检索是信息检索的传统方式,已经历经了一个多世纪的发展历程。其优点是方式,已经历经了一个多世纪的发展历程。其优点是直观、灵活,便于控制检索的准确性。缺点是查找比直观、灵活,便于控制检索的准确性。缺点是查找比较复杂,检索速度慢,工作量较大。较复杂,检索速度慢,工作量较大。(2)机器信息检索:主要是指计算机检索,是通)机器信息检索:主要是指计算机检索,是通过机器对已数字化的信息,按照设计好的程序进行查过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。找和输出的过程。按机器检索的处理方式分类,有脱机检索、联机按机器检索的处理方式分类,有脱机检索、联机检索;按照存储的方式分类,可分为

74、光盘检索、网络检索;按照存储的方式分类,可分为光盘检索、网络检索。检索。优点:大大提高了检索效率和检索的全面性,而优点:大大提高了检索效率和检索的全面性,而且拓展信息检索领域,丰富了信息检索的研究内容。且拓展信息检索领域,丰富了信息检索的研究内容。2021/7/2461手检和机检的比较手检:检索点少,通常只有分类、主题、号码、著者等几手检:检索点少,通常只有分类、主题、号码、著者等几个途径;查准率高,查全率低,直接性灵活性差,浏览功个途径;查准率高,查全率低,直接性灵活性差,浏览功能强能强,检索效率低检索效率低机检:检索点多:除虚词外的所有词汇;查全率高,查准机检:检索点多:除虚词外的所有词汇

75、;查全率高,查准率高,检索效率高;直接性灵活性好,浏览功能差率高,检索效率高;直接性灵活性好,浏览功能差附:附:查全率查全率:是指检出的相关文献量与检索系统中相关:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。的尺度。查全率查全率=(检出相关文献量(检出相关文献量/系统中相关文献总量)系统中相关文献总量)*100%查准率查准率:是指检出的相关文献量与检出文献总量:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。的比率,是衡量信息检索系统精确度的尺度。查准率查准率=(检出相

76、关文献量(检出相关文献量/检出文献总量)检出文献总量)*100%计算机检索是在手工检索的基础上发展地上起来的。已成计算机检索是在手工检索的基础上发展地上起来的。已成为检索的主流形式。但手工信息检索工具的价廉、灵活、为检索的主流形式。但手工信息检索工具的价廉、灵活、便携等特征使其仍有存在和发展的空间。两者共同存在,便携等特征使其仍有存在和发展的空间。两者共同存在,互相补充、互相促进。互相补充、互相促进。2021/7/2462三、按检索对象区分:三、按检索对象区分:(1)文本检索:查找含有特定信息的文本文献的检)文本检索:查找含有特定信息的文本文献的检索,其结果是以文本形式反映特信息反映的文献。索

77、,其结果是以文本形式反映特信息反映的文献。这是一种传统的信息检索类型,在信息检索中至这是一种传统的信息检索类型,在信息检索中至今占据主要地位。今占据主要地位。(2)多媒体检索:多媒体是指将声音、图像、通信)多媒体检索:多媒体是指将声音、图像、通信等在内的多种媒体的功能有机结合在一起,并用等在内的多种媒体的功能有机结合在一起,并用某种新媒体代替传统媒体的多种媒体。某种新媒体代替传统媒体的多种媒体。多媒体检索是指根据用户的需求,对文字、声多媒体检索是指根据用户的需求,对文字、声音、图像、图形等多种媒体信息进行组织、存储音、图像、图形等多种媒体信息进行组织、存储从而识别、查找并获取所需信息的过程。从

78、而识别、查找并获取所需信息的过程。在因特网上存在着大量的多媒体文献,用户常在因特网上存在着大量的多媒体文献,用户常常需要查找特定的声音、图像、动画等。多媒体常需要查找特定的声音、图像、动画等。多媒体文献的信息组织与处理传统文本的处理截然不同,文献的信息组织与处理传统文本的处理截然不同,其检索要求和检索途径也别具特色,这是现代信其检索要求和检索途径也别具特色,这是现代信息检索的新课题。息检索的新课题。2021/7/2463四、按检索对象的信息组织方式区分四、按检索对象的信息组织方式区分(1)全文检索)全文检索(fulltextretrieval)是将存储于数据库中的整本书、整篇文章中是将存储于数

79、据库中的整本书、整篇文章中的任意内容找出来的检索。它可以根据需要获得的任意内容找出来的检索。它可以根据需要获得全文中的有关章、节、段、句、词等的信息,也全文中的有关章、节、段、句、词等的信息,也可以进行各种统计与分析可以进行各种统计与分析。如某个词在文章中出。如某个词在文章中出现的次数。现的次数。以全文本信息作为检索对象以全文本信息作为检索对象,建立全文数据库建立全文数据库,除了具有布尔逻辑检索功能外除了具有布尔逻辑检索功能外,还具有文本检索功还具有文本检索功能能,并允许用户以自然语言检索并允许用户以自然语言检索,直接获得原文中的直接获得原文中的有关章节和段句。有关章节和段句。(2)超文本检索

80、)超文本检索(hypertextretrieval):超文本是用超链接的方法,将各种不同空间超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。的文字信息组织在一起的网状文本。 2021/7/2464超文本检索系统是以超文本网络为基础超文本检索系统是以超文本网络为基础的文献检索系统。在检索文献时的文献检索系统。在检索文献时,各节点间各节点间的多种链接关系可以动态地选择性激发的多种链接关系可以动态地选择性激发,从从而可根据思维联想或新信息的需要而可根据思维联想或新信息的需要,通过链通过链接从一个节点跳到另一个节点接从一个节点跳到另一个节点,由此形成随由此形成随着人们思维和需要的

81、流动而构成的数据链着人们思维和需要的流动而构成的数据链,体现出一种完全不同于过去顺序检索方式体现出一种完全不同于过去顺序检索方式的联想式检索。的联想式检索。2021/7/2465(3)超媒体检索)超媒体检索(hypermediaretrieval)如果超文本节点中的信息除文本块以如果超文本节点中的信息除文本块以外外,还有图形、图像、声音、视频等多媒体还有图形、图像、声音、视频等多媒体信息信息,则称为超媒体则称为超媒体(hypermedia)。即存。即存储对象超出了文本范畴,融入了静、动态储对象超出了文本范畴,融入了静、动态图像(形)以及声音等多种媒体信息。图像(形)以及声音等多种媒体信息。(同

82、样具有超文本检索的优点,并且检索(同样具有超文本检索的优点,并且检索内容与形式更为丰富)内容与形式更为丰富)2021/7/2466五五、按检索要求区分:、按检索要求区分:(1)强相关检索:)强相关检索:强调检索的准确性,也称作强调检索的准确性,也称作特性检索特性检索。这种。这种检索注重查准率。只要检索得到的文献信息能满检索注重查准率。只要检索得到的文献信息能满足用户的需求就行,对于检索结果的数量多少不足用户的需求就行,对于检索结果的数量多少不作要求。作要求。(2)弱相关检索:)弱相关检索:强调检索的全面性,向用户提供系统完整的强调检索的全面性,向用户提供系统完整的信息的检索。也称信息的检索。也

83、称族性检索族性检索。这种检索注重查全。这种检索注重查全性,要求检索出一段时间期限内有关特定主题的性,要求检索出一段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。检索的准确性相对要求较低。要注意的是,这是两种检索要求比较极端的检要注意的是,这是两种检索要求比较极端的检索类型。实际上是介于两者之间,保证一定的查索类型。实际上是介于两者之间,保证一定的查全率和查准率。全率和查准率。2021/7/2467六、六、按时间跨度区分:按时间跨度区分:(1)定题检索定题检索SDI(selectivedisseminatio

84、nofinformation)查找有关特定主题最新信息的检索。查找有关特定主题最新信息的检索。其特点:只检索最新的信息,时间跨度小。其特点:只检索最新的信息,时间跨度小。定题检索在文献信息库更新时运行,即每当信息库加定题检索在文献信息库更新时运行,即每当信息库加入新的文献信息时,就用根据用户检索需求拟定的提问检入新的文献信息时,就用根据用户检索需求拟定的提问检索一遍,查找出特定主题的最新信息,分析整理检索结果索一遍,查找出特定主题的最新信息,分析整理检索结果并以一定的方式提供给用户。这种检索模式非常适合于信并以一定的方式提供给用户。这种检索模式非常适合于信息跟踪,便于及时了解有关主题领域的最新

85、发展动态。息跟踪,便于及时了解有关主题领域的最新发展动态。(2)回溯检索回溯检索RS(retrospectivesearch)查找一段时期内查找一段时期内有关特定主题信息的检索。有关特定主题信息的检索。其特点是既可以查找过去一段时间的特定主题信息,其特点是既可以查找过去一段时间的特定主题信息,也可以查找最近的特定主题信息。与每个定题检索需要多也可以查找最近的特定主题信息。与每个定题检索需要多次运行不同的是,每个回溯检索一般只运行一次,从已有次运行不同的是,每个回溯检索一般只运行一次,从已有的文献信息库中查找出某个时间内特定主题的信息,并提的文献信息库中查找出某个时间内特定主题的信息,并提供给用

86、户。供给用户。目前,用户利用最多的是回溯检索,但定题检索发展目前,用户利用最多的是回溯检索,但定题检索发展也很快,科研课题进行中需要定题检索,对企业来说,也也很快,科研课题进行中需要定题检索,对企业来说,也非常需要利用定题检索获得和掌握市场的持续信息。非常需要利用定题检索获得和掌握市场的持续信息。2021/7/2468七、按检索途径的特点区分七、按检索途径的特点区分(1)常用法,常用法,工具法,利用检索工具或系统中常设的检索入工具法,利用检索工具或系统中常设的检索入口查找文献信息的方法。如主题、分类、著者、题名等。口查找文献信息的方法。如主题、分类、著者、题名等。其具体操作分为其具体操作分为顺

87、查,倒查,抽查顺查,倒查,抽查顺查方式是根据有关课题的起始年代利用选定的检顺查方式是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。索工具由远及近的进行逐年查找。倒查方式则相反。从最新时间查找起,直到满足检倒查方式则相反。从最新时间查找起,直到满足检索要求为止。索要求为止。抽查是针对有关学科的发展特点,抽查某些特定时期抽查是针对有关学科的发展特点,抽查某些特定时期的文献信息。通常抓住学科专业发展兴旺的时期,此时的的文献信息。通常抓住学科专业发展兴旺的时期,此时的不仅文献发表的数量多,质量也高。不仅文献发表的数量多,质量也高。(2)回溯法,引文法,利用文献末尾所附的参考文献或引文

88、回溯法,引文法,利用文献末尾所附的参考文献或引文为检索入口,查找到越来越多的文献。但这种方法,查找为检索入口,查找到越来越多的文献。但这种方法,查找到最后,查找到的文献与检索主题的相关性会越来越差。到最后,查找到的文献与检索主题的相关性会越来越差。(3)综合法,综合常用法和回溯法的检索方式。如先用一般检综合法,综合常用法和回溯法的检索方式。如先用一般检索途径,再利用原始文献后的参考文献作为检索入口,分索途径,再利用原始文献后的参考文献作为检索入口,分阶段交替使用两种方法。阶段交替使用两种方法。2021/7/2469文献检索是以文献作为检索对文献检索是以文献作为检索对象,查找含有用户所需信息内容

89、的象,查找含有用户所需信息内容的文献,文献是一种相关性检索而非文献,文献是一种相关性检索而非确定性检索,系统不直接解答用户确定性检索,系统不直接解答用户所提出的问题本身,只提供与之相所提出的问题本身,只提供与之相关文献或文献的属性信息与来源指关文献或文献的属性信息与来源指示供用户参考和取舍。所以其检索示供用户参考和取舍。所以其检索对象是包含特定信息的各种文献。对象是包含特定信息的各种文献。2021/7/2470数据检索是将经过选择、整理、鉴定的数值数据检索是将经过选择、整理、鉴定的数值存入数据库中,根据需要查出可回答某一问题的存入数据库中,根据需要查出可回答某一问题的数据的检索。数据检索是一种

90、确定性的检索,即数据的检索。数据检索是一种确定性的检索,即直接提供用户所需要的确切数据。而且检索结果直接提供用户所需要的确切数据。而且检索结果一般也是确定性的,要么是有,要么是没有;要一般也是确定性的,要么是有,要么是没有;要么是对,要么是错。有些数据检索系统不仅能查么是对,要么是错。有些数据检索系统不仅能查出数据,还提供一定的运算、推导能力。出数据,还提供一定的运算、推导能力。例如,可以回答例如,可以回答“某人生于何年何处某人生于何年何处”;“某年的国某年的国民生产总值民生产总值”等等 。2021/7/2471事实检索是检索关于某些客体(如机构、事实检索是检索关于某些客体(如机构、人物等)的指示性描述,或关于某一事件发人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息并将其查找出生的时间、地点、经过等信息并将其查找出来的检索。如:名词术语、概念、定义、理来的检索。如:名词术语、概念、定义、理论、方法、公式、事件等。论、方法、公式、事件等。事实检索属于数据,因为事实也是一种事实检索属于数据,因为事实也是一种数据,即非数值性数据。数据,即非数值性数据。2021/7/2472个人观点供参考,欢迎讨论

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号