信息检索的基本概念

上传人:飞*** 文档编号:35542435 上传时间:2018-03-17 格式:DOC 页数:17 大小:94KB
返回 下载 相关 举报
信息检索的基本概念_第1页
第1页 / 共17页
信息检索的基本概念_第2页
第2页 / 共17页
信息检索的基本概念_第3页
第3页 / 共17页
信息检索的基本概念_第4页
第4页 / 共17页
信息检索的基本概念_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《信息检索的基本概念》由会员分享,可在线阅读,更多相关《信息检索的基本概念(17页珍藏版)》请在金锄头文库上搜索。

1、一、信息一、信息检检索的概念和索的概念和类类型型穆尔斯(Calvin N. Mooers, 19191994) 在 1948 年提出此术语时,把它定义为一种“延时性通讯形式”。其特点是:发信者在某一时刻发出信息,而接收者可以在晚一些时刻才收到该信息;发信者必须发出一切可能的信息,而接受者必须有某种检索装置以便从大量发送的信息中筛选出适合自己需要的信息。(一)信息(一)信息检检索的概念索的概念信息检索是信息正式交流方式中的一种1、定义:信息信息检检索(索(Information Retrieval) )广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信

2、息的过程。从本质上讲,信息检索是一种有目的和组织化的信息存取活动,其中包括“存”和“取”两个基本环节。对于“存”来说,主要指面向来自各种渠道的大量信息资源而进行的高度组织化的存储;对于“取”来说,则要求面向随机出现的各种用户信息需求所进行的高度选择性的查找,并且尤其强调查找的快速与便利。信息检索的全称是信息存储与检索(information storage and retrieval),包含两个方面,存储的过程是信息的组织加工和记录的过程,即建立检索系统(编制检索工具)的过程输入的过程;检索的过程是按一定方法从检索系统(检索工具)中查出信息用户需要的特定信息的过程输出的过程。二者是相辅相成的,

3、存储是为了检索,而检索又必须先进行存储。只有经过组织的有序信息集合才能提供检索,因此了解了一个信息系统(检索工具)的组织方式也就找到了检索该检索系统(检索工具)的根本方法。当然,对信息用户而言,后者更为重要,因此,狭义的信息检索一般仅指检索的过程。检索的本质是信息用户的需求和信息集合的比较与选择,即匹配(match)的过程。从用户需求出发,对一定的信息集合(系统)采用一定的技术手段,根据一定的线索与准则找出(命中)(locate,bit)相关信息的过程,就是检索。2、信息、信息检检索的基本原理与索的基本原理与检检索索处处理流程分析理流程分析*基本原理基本原理可以把信息检索的基本原理抽象概括为一

4、句话:对信息集合与需求集合的匹配与选择。首先是信息集合,信息集合是指有关某一领域的、经采集和加工的信息集合体,是一种公共知识结构。它可以向用户提供所需要的知识或信息。其次是需求集合,用户的信息需求是在社会实践活动中产生的,众多用户不同形态的信息需求的汇集,就形成了需求集合。为了在信息集合与需求集合之间建立起联系和沟通,以便能从信息集合中快速获取用户所需要的信息和知识,信息检索提供了一种“匹配”机制,这种机制的主要功能在于能快速把需求集合与信息集合依据某种相似性标准进行比较和判断,进而选择出符合用户需要的信息。这里,匹配的相似性标准一般是通过把信息集合和需求集合预先进行某种形式化的加工和表示来提

5、供的。对于文本而言,最主要、最常用的匹配标准是由某个或若干个词汇表达的“主题”。检索处理流程分析(检索处理流程分析(215)信息采集信息标引处理 (特征提取与表示)创建/更新数据库 及索引文档数据库及索引文档检索匹配提问处理检索接口用户检索辅助工具信息源信息检索处理过程流程图信息检索处理过程流程图上图是一个基于计算机环境的信息检索处理过程图。在图中以中间的直线为界,信息检索处理过程被分解为“信息存储”与“信息查询”两个部分。其中“信息存储”部分包括“信息采集”、 “信息标引处理”、 “创建/更新数据库及索引文档”等多个处理模块;并最终以数据库的形式完成了信息的收集、加工(标引)和存储任务;而“

6、信息查询”部分则通过“检索接口”、 “提问处理”和“检索匹配”等一系列功能模块的配合,以人机对话方式完成用户对系统的访问和信息查询功能。 信息需求的处理与加工。即采用特定的检索语言将信息需求表示出来,换言之,将检索问题或课题进行处理,抽取出主题内容或其他特征。经过这样处理的信息需求称之为 Query。 信息集合是指有关某一领域的文献或数据的集合。复杂性、序化、Access point。每件信息都包含有其内部和外部的特征即信息的属性,这些特征可以用来作为检索的出发点和匹配的依据。我们称之为检索点。匹配与选择是一种机制,它负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息

7、。采用布尔模型,一个文档通过一个关键词条的集合来表示,这些词条来自一个词典。在查询与文档的匹配过程中,主要看该文档中的词条是否满足查询的条件。采用向量模型,计量文档向量与查询词串之间的相似度。采用概率论模型,将文档按照与查询的概率相关性的大小进行排序,排在最前面的文档是最有可能被获取的文档。此外,还可以采用神经网络模型、基于命题逻辑模型、聚类模型、基于规则模型、模糊模型和语义模型等,来深入研究查询与文档之间的匹配过程。塞缪尔约翰逊(Samuel Johnson)认为:知识分成两类:一类是我们要掌握的学科知识;另一类是要知道在哪儿可以找到有关知识的信息。Knowledge is of two k

8、inds, we know a subject ourselves, or we know where we can find information upon it.Samuel Johnson 学术信息需求的状态划分为:客观信息需求(Real Information Need,RIN)、认识到的信息需求(Perceived Information Need,PIN)、表达出来的信息需求即检索提问(Request)以及检索提问表达式(Query)。学术研究人员在探索未知、解决实际问题的过程中,总存在着一定的信息需求。这是一种完全由客观条件决定,不以学术研究人员主观认识为转移的需求状态,我们称

9、之为“客观信息需求”(RIN)。认识到的信息需求不同于客观信息需求,它只是客观信息需求的一种心理认知状态。由于主观因素和意识的作用,学术研究人员认识到的信息需求(PIN)可能仅仅只是客观信息需求的一部分,甚至有可能是对客观信息需求产生错误的认识。为了满足自己的信息需求,学术研究人员试图充分而准确地表达认识到的信息需求,于是,产生了检索提问(Request)。检索提问通常用人工语言予以表达,有时也用自然语言予以表达。在检索提问的基础上,使用检索用词(如系统词表中语词以及其他非受控语词)和“系统”语言(如布尔逻辑算符、截词算符、位置算符等),构造检索提问表达式(Query)。相对于信息检索对象 信

10、息集合,客观信息需求(RIN)、认识到的信息需求(PIN)、检索提问(Request)以及检索提问表达式(Query)共同构成学术信息需求集合,即Infoneed 一RIN、PIN、Request、Query)。实质上,信息检索的过程是信息需求集合中的构成元素之一 检索提问表达式与信息集合的匹配过程。英国情报学家 NJBelkin 等人在接触信息用户的过程中发现,用户常常不能认识、理解和描述自己的信息需求。他们将这种现象称为“知识异常状态的结构化表示”(Structural Representations of the Anomalous States of Knowledge-ASK),并从

11、认知的角度对用户“不得不查询他并不了解的东西”这一现象做过深入的探讨 Es4。 “人们也许能描述自己就某一问题知道些什么,却难以描述还应知道什么。描述知识状态固有的困难,使提交给信息检索系统的检索式相对于知识异常状态或信息需求只是近似和不完美的。 ”ES也就是说,正是因为用户还不了解某一对象才需要获取有关该对象的信息。所有的信息检索查询系统都要对所收集存储的信息进行一定形式的描述,形成供用户查询的信息集合,信息检索就是在用户信息需求与系统信息集合之间进行匹配和选择(二)检索的类型1、按照存储的载体和查找的技术手段进行划分(按检索的手段):(1)手工检索(Manual retrieval):用人

12、工方式查找所需信息的检索方式。检索的对象是书本型的检索工具,检索过程是由人脑和手工操作相配合完成,匹配是人脑的思考、比较和选择。(2)机械检索 Mechanical retrieval:利用某种机械装置来处理和查找文献的检索方式。 穿孔卡片检索:Punch card 是一种由薄纸板制成的、用孔洞位置表示信息,通过穿孔或轧口方式记录和存储信息的方形卡片。缩微品检索:把检索标识变成黑白点矩阵或条形码,存储在缩微胶片或胶卷上,利用光电效应,通过检索机查找。(3)计算机检索(computer-based retrieval)是指把信息及其检索标识转换成电子计算机可以阅读的二进制编码,存储在磁性载体上,

13、由计算机根据程序进行查找和输出。检索的对象是计算机检索系统,针对数据库进行,检索过程是在人与计算机的协同作用下完成的,匹配是由机器完成的。这里,检索的本质没有改变,变化了的只是信息的媒体形式、存储方式和匹配方法。脱机检索:成批处理检索提问的计算机检索方式。 联机检索:检索者通过检索终端和通信线路,直接查询检索系统数据库的机检方式。1964 年,美国国家医学图书馆开始 MEDLARS 联机情报检索系统商品服务。光盘检索:以光盘数据库为基础的一种独立的计算机检索,包括单机光盘检索和光盘网络检索两种类型。1983 年首张高密度只读光盘存储器诞生;1984 年美国、日本和欧洲开始利用 CD-ROM 存

14、贮科技文献。 网络检索:利用 E-mail、FTP、Telnet、Archie、WAIS、Gopher、Veronica、WWW 等检索工具,在Internet 等网络上进行信息存取的行为。手工检索查准率较高,查全率较低;计算机检索查全率较高,查准率较低。2、按照存贮与检索的对象进行划分(按检索的结果):(1)文献检索(document retrieval)以包含用户所需特定信息的文献为检索对象。是指将文献按一定的方式存贮起来,然后根据需要从中查出有关课题或主题文献的过程。文献检索是指以文献为检索的一种相关性检索。相关性检索的含义是指系统不直接解答用户提出的问题本身,而是提供与问题相关文献供用

15、户参考书目检索:以文献线索为检索对象。换言之,检索系统存贮的是书目、专题书目、索引和文摘等二次文献。此类数据库(检索工具)如 EI、SCI、 中文期刊数据库(文摘版)、 全国报刊索引、 中国科技成果数据库、 中国专利公报等。全文检索:以文献所含的全部信息作为检索内容,即检索系统存贮的是整篇文章或整部图书。(2)数据检索(data retrieval)以事实(fact)和数据(data)等浓缩信息作为检索对象,检索结果是用户直接可以利用的东西。这里的所谓科学数据,不仅包括数值形式的实验数据与工业技术数据,而且包括非数值形式的数据,如概念名词、人名地名、化合物分子式、化学结构式、工业产品设备名称、

16、规格、科学论断等。此类数据库(检索工具)如中国企业、公司及产品数据库、 中国科技名人数据库、 常用材料性能数据库、 中国拟建和在建项目数据库、 中国宏观经济统计分析数据库、 IMI 消费品市场统计分析数据库等。也有人将数据检索细分为数据检索和事实检索两种形式,认为数据检索的结果是各种数值性和非数值性数据:而事实检索的结果是基于文献检索和数据检索基础上的对有关问题的结论和判断,是在数据检索和文献检索的基础上,经过比较、判断、分析、研究的结果。Data retrieval:以具有数量性质并以数值形式表示的数据为检索内容的信息检索,或称数值检索。 Fact retrieval:以文献中抽取的事项为检索内容的信息检索,或称“事项检索”。事实检索和数据检索则是一从文献中提取出来的各种事实、数据为检索对象的一种确定性检索。确定性检索的含义则是指系统直接提供用户所需要的确切的数据或事实,检索的结果要么是有,要么是无,要么是对,要么是错。文献检索所回答的是诸如“关于铁路大桥有哪些文献”之类的问题。事实

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号