第二章信息检索理论基础课件

上传人:我*** 文档编号:140940038 上传时间:2020-08-03 格式:PPT 页数:137 大小:446KB
返回 下载 相关 举报
第二章信息检索理论基础课件_第1页
第1页 / 共137页
第二章信息检索理论基础课件_第2页
第2页 / 共137页
第二章信息检索理论基础课件_第3页
第3页 / 共137页
第二章信息检索理论基础课件_第4页
第4页 / 共137页
第二章信息检索理论基础课件_第5页
第5页 / 共137页
点击查看更多>>
资源描述

《第二章信息检索理论基础课件》由会员分享,可在线阅读,更多相关《第二章信息检索理论基础课件(137页珍藏版)》请在金锄头文库上搜索。

1、第二章 信息检索理论基础,第一节 信息存储与检索基本原理 第二节 信息存储与检索的发展 第三节 信息存储与检索语言,细心的同学可能已经发现,在涉及“检索”内容时,有时提到“信息检索”,而有时又提到“文献检索”。那么,它们到底有何区别?其本质及内涵是什么?检索的基本原理又是怎样的呢?下节将回答这些问题,也是要求同学们重点理解和掌握的主要内容。,第一节 信息存储与检索基本原理,一、基本概念,信息存储与检索概念的起源,信息存储与检索的含义,1、信息检索概念的起源,信息检索 (Information retrieval) 起源于原文献检索、情报检索,在1998年设置的专业目录中得以改变。,不同的称谓产

2、生于不同的历史背景,在20世纪中叶以前,信息存储传播主要以纸质为载体,信息检索活动也围绕文献的获取和控制展开。因此,信息检索研究关注的是如何检索利用文献中记录的信息,从而导致“文献检索”成为“信息检索”的同义词,早期的研究文献中几乎不使用“信息检索”这一概念。,20世纪50年代以后,社会信息传播与存储载体呈现多元化,人们不再拘泥于载体研究信息检索,于是开始使用“情报检索”一词。由于汉语中“信息”一词较“情报”一词含义更为宽泛,加之英语词汇“Information”具有“情报”、“信息”的含义,因此,近年来人们越来越倾向于将“文献检索”、“情报检索”转变为“信息检索”这一更具兼容性的概念,以便对

3、信息检索实践起到更全面的指导作用。,目前的现状是,上述几个概念同时使用,因为它们的目的是获取信息。由“信息检索”改为“信息存储与检索”是为了更好地明确“信息存储”与“信息检索”的关系,从而更有效地进行信息的获取。,2、信息存储与检索的含义,信息存储是指将大量无序的信息集中,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统,供人们检索和利用。而信息检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。,信息检索的概念有狭义和广义。 狭义的信息检索则仅指上述过程的后半部分,即从某一信息集合中

4、找出所需的信息的过程,相当于人们通常所说的信息查询(Information Search)。,广义的信息检索包括信息的存储和检索两个过程(Storage and Retrieval)。全称又叫“信息存储与检索”(Information Storage and Retrieval)。 目前广义的信息检索和狭义的信息检索概念被同时使用着。,第一节 信息存储与检索基本原理,二、基本原理,信息存储基本原理,信息存储与检索基本原理,1、信息存储基本原理,书本式文献的传统存储方法是主要指印刷型检索工具的编制,包括图书、期刊、专利、科技报告、政府出版物、技术标准、会议论文、学位论文、产品样本、档案十大信息源

5、的分类存储,由这套系统决定的手工检索体系使文献分类等描述文献内容的特征处于核心地位,文献篇名、作者名等描述文献外表特征则是天然的补充要素,加上主题,构成手检时按分类、主题、号码、作者名检索的四大途径。,机读信息则以数据库(Database)形式存储。信息被分类、编码、标识且以数据形式存入数据库后,计算机就能按电子数据方式进行处理并检索。,2、信息存储与检索基本原理,信息检索的基本原理就是,为了文献信息的充分交流和有效利用,让信息用户能准确、全面、及时地获取满足特定需要的信息,通过对广泛、大量、分散、无序的文献信息进行搜集、加工、组织、存储,建成各种各样的检索系统,在统一存储过程和检索过程所用检

6、索语言和名称规范的基础上,将用户表达检索课题的标识与检索系统中表达文献信息内容和形式特征的标识进行相符性比较(匹配),凡是双方标识一致(完全一致或部分一致)的,就将具有这些标识的文献信息按要求从检索系统中输出。检索系统输出的文献信息既可能是用户需要的最终信息,也可能是用户需要的中介信息(比如文献线索),用户依此中介信息的指引,可进一步获取需要的最终文献和信息。,输出,标引著录,信息存储与检索过程,文献信息,检索课题,文献信息标识(标引词),检索提问标识(检索词),文献信息特征,检索提问特征,检索语言和名称规范,检索系统(标识匹配),检索结果,分析,分析,选用,形成,形成,检索提问特征,检索语言

7、和名称规范,第一节 信息存储与检索基本原理,三、相关概念,检索系统,检索系统的评价,检索工具,1、检索系统 检索系统是指拥有特定的存储和检索技术设备,存储有经过加工的信息资源,供用户检索所需信息的工作系统。 信息检索系统通常应是一个拥有选择、整理、加工、存储、查找信息的设备与方法,并能向用户提供信息服务的多功能开发系统。一般情况下指的是计算机检索系统。,计算机检索系统通常由计算机硬件、软件、数据库和通讯网络构成。,计算机硬件,计算机硬件是系统采用的各种硬设备的总称,主要包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。,计算机软件,软件由系统维护软件与检索软件构成。

8、系统维护软件,如数据库管理程序、词表管理程序等,其作用是保障检索系统的高效运转。 检索软件是用户与系统的界面,用户通过检索软件进行检索,检索软件功能的强弱直接影响着检索效果。检索软件可以分为指令式、菜单式和智能接口等。,通讯网络,由于现代通信技术的发展,公共数据传输技术为信息的传递提供了保障,信息检索逐渐发展成为网络检索,通过数据传输网将各个计算机连接起来。每个计算机成为网络中的一个节点,每个节点可含一个或多个数据库,网络上的每个节点和其终端只要有授权均可对网络中的数据库进行访问,实现资源共享。随着空间技术的发展,信息检索已进入了信息传递-卫星通讯-计算机技术三位一体的新阶段。,数据库,具体内

9、容见第一章第四节,2、检索工具 广义检索工具是指用以报道、存储、查询文献信息的一切工具和设备。它以各类型原始文献为素材,在广泛收集并进行严格筛选后,通过特定的信息工作方法,分析和提示文献的外形特征和内容特征,用选定检索语言进行描述和标引,形成文献信息单元款目,再将这些款目按特定规则组织编排而成。它是一个综合的概念,可以分为手工检索工具、计算机检索工具。 在此,广义检索工具和检索系统的含义是一致的。,狭义检索工具是指用以报导、存贮和查找文献线索的工具。它是附有检索标识的某一范围文献条目的集合,是二次文献。,2.1检索工具的条件,一般说来,检索工具应具备以下五个条件: 明确的收录范围(语种、文献类

10、型、时间等) 完整明了的文献特征标识(?) 每条文献条目中必须包含有多个有检索意义的文献特征标识 全部条目科学地、按照一定规则组织成为一个有机整体 有索引部分,提供多种必要的检索途径,2.2检索工具的类型,检索工具因其内容、用途和编制体例等方面的特征,自然形成许多不同的类型。 按加工文献和处理信息的手段不同可分为:手工检索工具和机械检索工具,按出版形式不同可分为:期刊式检索工具,单卷式检索工具,卡片式检索工具,胶卷式检索工具,按载体形式不同可分为:书本式检索工具,磁带式检索工具,卡片式、缩微式、胶卷式检索工具。,按著录格式的不同可将检索工具分为:目录型、题录型、文摘型、索引型检索工具。,目录型

11、检索工具,目录型检索工具是记录具体出版单位、收藏单位及其他外表特征的工具。它以一个完整的出版或收藏单位为著录单元,一般著录文献的名称、著者、文献出处等。 目录的种类很多,国家书目、联合目录、馆藏目录等尤为重要。,题录型检索工具,题录型检索工具是以单篇文献为基本著录单位来描述文献外表特征(如文献题名、著者姓名、文献出处等),无内容摘要,快速报道文献信息的一类检索工具。 它与目录的主要区别是著录的对象不同。目录著录的对象是单位出版物,题录的著录对象是单篇文献。,文摘型检索工具,文摘型检索工具是将大量分散的文献,选择重要的部分,以简炼的形式做成摘要,并按一定的方法组织排列起来的检索工具。,索引型检索

12、工具,索引型检索工具是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元,如书名、刊名、人名、地名、语词等,按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具。 在检索工具中,常用的索引类型有分类索引、主题索引、关键词索引、著者索引。,3、检索系统的评价 检索系统的质量影响着检索系统的使用效果,根据检索课题选择检索系统时需要考虑检索系统的质量。 一般从下述几个角度对检索系统进行评价。,3.1检索效率 检索效率是指检索过程和检索结果具有便、快、全、准、省等特点,即用检索方便性、检索速度、查全率、查准率、检索成本与效益等指标来衡量。,3.2收录全面性 检索系统的全面性是

13、指它收录的文献信息是否全面。一般用三个指标来衡量。 覆盖面:指检索系统收录范围所覆盖的学科面和出版物类型及数量。 摘储率:是指检索系统收录的文献信息数量与其覆盖面内全部文献信息数量的比率。 报导数:是指一定时间内报导文献信息的数量,如文摘或题录的条数、全文篇数等。,3.3报导及时性 检索系统的及时性是指它报导新出现文献信息的速度,一般用“时差”来衡量。时差是指文献信息从其发表到检索系统提供给用户的这段时间间隔。在社会、经济、科技飞速发展,用户又希望及时获得新的文献信息的今天,检索系统报导的及时性显得非常重要。,第二节 信息存储与检索的发展,一、信息存储的发展,二、信息检索的发展,一、信息存储的

14、发展,1、早期书目检索工具的编制 信息检索活动是以信息检索工具为依托的。信息检索工具是信息资源生产者和用户之间的中介。公元前26年,我国第一部综合性书目检索工具七略问世,这也是世界上第一部印刷型的书目检索工具。此后,我国先后编制了七志、七录、中经新簿、四库全书总目等著名的书目检索工具,为人们查询图书、了解图书流传情况提供了极大方便。,英语“书目”(bibliography)一词是由希腊文 “biblion”(书)和“graphein”(抄写)两个单词融合而成的,其含义是“图书的抄写”(the writing of books)。其词义后来演变成“关于图书的描述”(writing about b

15、ooks)。 希腊学者加伦(Galen,129-199)在公元2世纪就编纂了一些专科书目。,8世纪盎格鲁撤克逊学者比德(Bede,673-735)的著作宗教史(Ecclesiastical history)也附有书目。 中世纪印刷术的传播和出版业的兴盛,书目编制工作也随之得到迅速发展,不但书目类型增多,在编制方法上也有一些创新。,1545年格斯纳(Konrad Gesner, 1516-1565)编制了万国书目:拉丁文、希腊文和西伯莱文全部书籍的目录(Bibliotheca universalis),几乎包括当时全部已故和在世的拉丁语、希腊语、希伯来语作家的著作共15000种,占当时欧洲出版物

16、的2025%,这个数字在当时欧洲交通不发达、藏书分散、学术交流相对困难的时代,是十分难能可贵的。格斯纳因此被称为“书目之父”,17世纪许多学者都尝试着编制能反映各国出版物的“万国书目”,这一努力一直持续到20世纪。虽然最终没有出现真正意义上的“万国书目”,却促进了各国国家书目的诞生,在收录范围、分类方法、检索途径、所提供的书目信息以及编目技术等方面都有较大的发展。,随着科学技术的发展,教育的普及以及图书贸易的兴起,书目的功能从单纯记录图书发展到推广和宣传新版图书,于是营业书目的数量大大增加,其种类、载体形式趋于多样化,定期报道和评价新书的书评刊物也出现了。,2、检索刊物体系的形成 随着大众传播时代的来临,期刊的出现,出现了以文摘和题录为主的检索刊物。,国外检索刊物出现于19世纪末,但形成较完整体系并被大量使用则在二战以后。 经过一百多年的发展,目前我们经常使用的国外检索刊物有几十种,其中除了俄罗斯、日本有全国统一编写的大型检索刊物以外,其它大多数为专门的出版公司、学术团体编辑出版。,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号