信息检索技术

上传人:m**** 文档编号:553341620 上传时间:2023-03-07 格式:DOCX 页数:6 大小:32.70KB
返回 下载 相关 举报
信息检索技术_第1页
第1页 / 共6页
信息检索技术_第2页
第2页 / 共6页
信息检索技术_第3页
第3页 / 共6页
信息检索技术_第4页
第4页 / 共6页
信息检索技术_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《信息检索技术》由会员分享,可在线阅读,更多相关《信息检索技术(6页珍藏版)》请在金锄头文库上搜索。

1、信息检索的濮击炽理亦:点图F文献(图书、期刊、会议、专利、学位论文)为主要检索对象;以各类文摘、题录、和目录 瞒求从用性工具书为可利用的主要检索工具;以图书馆 的参考咨询部门为开展信息检索服务的中心 机构。(2)计算机化检索阶段(脱机批处理检 索时期、联机实时检索时期、联机网络化与多 元化检索时间),主要特点:以各类机读数据仃息集合选样与匹配第一章信息检索概述1, 什么是信息检索?它有哪些主要类型? 信息检索指将信息按照一定的方式组织和存 储起来,并能根据信息用户的需要找出其中相 关信息的过程。有目的和组织化的信息存取活 动,其中包括“存”和“取”两活动。旧分类方法:文献检索、事实检索、数据检

2、索 新分类方法:文本检索、数值检索、音/视频 检索2, 试分析阐述信息检索的基本原理,信息集 合、需求集合、匹配与选择,信息检索三阶段 及期特点?答:即信息集合与需求集合的匹配与选择。(1)信息集合是指有关某一领域的,经采集、 加工的信息的集合。形成可供用户访问与检索 的对象,在某种意义上说,它是以一种公共知 识结构,它有可能弥补某个特定用户的知识结 构缺陷,即可以向用户提供所需要的知识或信 息,或是获取知识的线索,或者提供某种信息 区激活人脑中存储的知识。(2)需求集合:用 户的信息需求是在社会实践活动中产生的。众 多用户不同形态的信息需求的汇集,就形成了 需求集合的存在。信息需求的产生与满

3、足,是 实施信息检索行为的前提与基础,也是实施信 息检索行为的目的所在。(3)选择与匹配:面 对信息集合与需求集合,如何在两者之间建立 起了解与沟通的桥梁,以便能够从信息集合中 快速获取用户所需要或所缺少的信息与知识 呢?这就需要信息检索提供一种“匹配”机制。 它的主要功能在于:能够把需求集合与信息集 合依据某种相似性标准进行比较与判断,进而 选择出符合用户需要的信息。这里,我们要求 匹配机制至少包括两个要素:一是匹配标准, 即相似性标准;二是执行匹配的动因。3,信息检索主要经历了哪些不同的发展阶段?各阶段有何特点?(1)手工检索阶段,主要特点可以概括为印库为检索对象;各类信息中心,联机服务中

4、心 作为新兴的信息服务部门而存在;信息检索用 户逐渐由专业检索人员(检索中介)向个人终 端用户转移和扩散。(3)网络化检索时期,分 布式存储、分布式检索、分布式处理,检索范 围领域广,传统技术与网络技术的结合,用户 界面友好度,检索效率低。4、名词解释1)文本检索:指以各种自然语言符号系统所 表示的信息作为主要检索对象的信息检索活 动。2)数值检索:针对数值型数据的查询而发展 起来的一类有特色的信息检索。3)音视频检索:针对各种数字化音频与视频 信息而进行查询的一类新兴的信息检索操作。4)信息存储与检索:将信息按照一定的方式 组织和存储起来,并能够根据信息用户的需求 找出其中相关信息的过程。信

5、息检索是一种有 目的和组织化的信息存取活动,其中包括“存” 和“取”两活动。5)文献检索:以文献(包括文献、题目、或全 文)为检索对象的一类信息查询活动,是一种 相关性检索。6)数据检索:以经过选择、整理、鉴定的各种 数据信息的性能参数作为检索对象的一类检 索,是一种确定性检索。7)事实检索:针对从文献中提取出来的各种 事实(或知识项)所进行的检索活动,是一种 确定性检索。第二章信息源1, 如何鉴别高质量的期刊?目前国内外公认的鉴别方式有2种:核心期刊 和同行评审期刊。(1)核心期刊:指的是刊载某一学科或专业 有关的信息较多,且学术水平较高,能够反映 该学科最新成果和前沿动态,受到该专业读者

6、特别关注并成为检索与阅读首选的那些期刊。(2)同行评审期刊:它是国内外高水平期刊 对来搞评审普遍采用的方式。具体做法是:整 理将文稿寄交编辑部并经初审合格后,为了审 查论文的学术质量需要将论文稿送交有关专 家(即同行)进行评审。2,我国出版的专利文献有哪些? 目前我国出版的专利文献主要包括专利说明 书、专利公报、专利索引等。既有一次文献, 也有二次文献,他们是:(1)发明专利公报、实用新型专利公 报和外观设计专利公报(每周一次); (2)发明专利申请公开说明书,发明 专利申请审定说明书 及实用新型专利申 请说明书。(3)专利年度索引; 3,书目数据库的特点是:信息密度高,文献 报道范围广,数据

7、量大,连续性和积累性强; 数据结构简单,记录格式较为固定,费用低廉; 检索途经多,速度快;更新周期较长。 4,全文数据库的特点:可直接利用;简化数 据库标引和建库工作;避免了文献二次加工中 的人为差错;后处理能力强。5,名词解释: 1)电子信息源:指以数字化形式(即二进制 码)将文字、图像、声音、动画等存储在光、 磁等存储介质上,并能通过计算机、通信设备 再现出来的信息资源。用于信息检索的机读数 据库和网络信息源是目前 2 类最重要的电子 信息源。2)书目数据库:是一种专门存储二次文献信 息的数据集合,亦称二次文献数据库,通常收 录有关主题领域的各中书目信息,包括文摘、 题录、目录等,以向用户

8、提供文献信息,指引 用户查找、使用原文献,包括文摘索引数据库 和图书馆目录数据库。3)文摘索引数据库主要是简要地通报有关领 域某一时期发表的文献,供人们查阅与检索。4)全文数据库:是一种源数据库,主要存储文 献全文或其中的主要部分。它可以包括题名、 著者、摘要、关键词、正文、参考文献和著作 日期在内的数据全部收入数据库,供用户查询 利用。5)网络信息资源:是指以电子数据的形式将 文本、图像、声音、动画等多种形式的信息存 放在光磁等非印刷型载体的介质中,并通过网 络通信、计算机或终端等方式再现出来的电子 信息源。6)机读数据库:为了整理检索工具而输入计 算机中的文献,进行组织和排序。这些有序化

9、的数据经过日积月累就形成了机读数据库。7)图书馆书目数据库:又称“机读目录”。机 读目录主要报道和存储特定图书馆实际收藏 的各种文献资料的书目信息和存储位置。既是 图书馆业务部门的业务管理工具也是一般用 户查找图书馆馆藏资料的工具。8)OPAC检索系统:全称为 online public access catalogue system 即公共联机书目查询系统, 是利用计算机终端来查询基于图书馆局域内 的馆藏数据资源的一种检索方式,即通过联机 查询为用户提供馆藏文献的线索。第三章 信息检索系统 1,一个通用信息检索系统的基本结构如何? 它主要有那些主要模块构成?(2大功能 6个 模块) P412

10、 大功能:信息存储、信息查询6 个模块:信息采集、信息标引、创建与更新 数据库、用户界面、提问处理与检索匹配、知 识组织工具。以中间的虚点竖线为界,信息检索处理过程被 分解为信息存储和信息查询两个部分,其中, 信息存储部分包括信息采集,信息标引处理, 创建与跟新数据库及索引文档等多个处理模 块,这样最终就以数据库的形式完成了信息的 收集、加工(标引)和存储任务;信息查询部 分则通过用户界面,提问处理,检索匹配等一 系列功能模块的配合,以人机对话方式完成用 户对系统的访问和信息查询的功能;而中间的 知识组织工具模块,则同时与信息存储和信息 查询的多个模块相关联,以便它们之间建立一 种沟通和协调,

11、进而使全部功能模块相互了解 形成一个有机的整体。2, 什么是标引深度和标引的专指度? 标引深度:又称标引的网罗度,是衡量标引详 尽性的指标,其含义是标引词对数据库每条记 录各方面内容表达和识别的详尽程度。 标引的专指度:是用于衡量标引词对信息记录 特定内容描述的精细程度。3,什么是自动标引? 自动标引:通过利用计 算机对标引特征的出现频率、出现位置、提问 频率等进行统计,进而采用一定的加权策略来 实现,主要分为自动抽词标识和自动赋词标 识。自动抽词标引:是指利用计算机直接从文 献的题名、文摘或正文中抽取关键词来标识文 献内容,并自动生成关键词索引文档(或倒排 文档)。自动赋词标引:让计算机模仿

12、标引员 的赋词标引方法,通过分析文献内容,从词表 中选取与文献主题相符或密切相关的词语符 号做索引词。4,何谓文档?主文档与倒排文档。文档是按 一定结构组织的若干逻辑记录构成的信息集 合。是数据库数据组织的基本形式,作为一个 处理单位存储在介质上;分为主文档(顺序文 档)和倒排文档,随机文档。顺序文档:是文档在计算机存储器中的一种存 放形式,文档中的全部记录按顺序一个接一个 地存放,记录的物理位置通常按照存取号由小 到大排列,记录之间的逻辑顺序与物理顺序一 致。倒排文档:是把数据库检索中的一切可检索字 段或属性值(主题词、著作名、自由词、出版 年)抽出来,作为索引标识,按某种顺序重新 加以组织

13、后得到的一种文档。5,什么是精确匹配?什么是局部匹配? 精确匹配:是指要求结果记录(标识)中包含 的需求模式必须与提问式所表达的模式完全 匹配,才能作为命中结果输出。局部匹配:是 指要求结果记录(标识)中包含的需求模式与 提问式所表达的模式部分匹配,即为命中。6. 记录:是作为一个单位来处理的有关数据的 集合,是对某一实体的属性进行描述的结果。 字段:是记录的下级数据单位,用来描述实体 的某一属性 7,信息检索系统的物理结构有哪些优缺点? 1)集中式检索系统:是资源在空间上集中配 置的系统,单机检索系统是典型的集中式系 统,它将软件、数据和主要外部设备集中在一 套计算机系统之中。优点:信息资源

14、集中,便 于管理,资源利用率高;专业人员相对集中, 有利于发挥其作用。缺点:维护代价大,系统 的安全性差,一旦主机出现故障,可能导致整 个系统的瘫痪。2)分布式检索系统:是指通过计算机网络把 分布在不同地点的计算机硬件、软件、数据库 等设备和资源了解在一起,以服务于一个共同 的系统目标而实现的相互通信、互操作的资源 共享的系统。优点:可根据用户应用需求来配 置资源,提高系统对用户检索需求和环境变化 的应变能力,且便于扩展,具有较强的健壮性, 在网络上某一节点的故障不会以其他节点系 统的工作。缺点:越来越多的检索系统寻求基 于分布式协作工作模式的检索服务解决方案。 第四章1,截词检索主要有哪些类

15、型? 截词检索预防漏检提高查全率的一种常用检 索技术。作为一种后控制措施,目前大多数检 索都提供有截词检索能力。截词检索有多种不 同方式,按照截词的位置来分,截词右有后截 断、前截断、中截断三种类型;按照截断的字 符数量来分,可分为有限截断、无限截断两种 类型。例如:后截词检索:具有隐含的“逻辑 或”(OR)运算特性2,位置算符(nW)和(nN)的运算含义分别是 什么?(1)(nW)在检索式中nw所连接的两个检 索词必须在文本信息中按照前后顺序紧挨着 出现,两个检索词之间的相互距离不超过n 个单词(或汉字)。(2)(nN)在检索式中nN所连接的两个检索 词必须在文本信息中紧挨着出现,两个检索词

16、 之间的相互距离不超过n个单词(或汉字)4, 聚类检索的基本算法思想是什么?实施过程:(1)文档聚类(2)聚类检索,2 个步骤,P71;聚类检索的实施,首先要以系统 中的文献聚类处理为基础。而文献聚类,则是 指针对系统中的全部文献向量,使用一定的相 似性(或相异性)度量指标和聚类方法,计算 出文献与文献之间的相似度,并把相似度较高 的文献聚集在一起,形成一个个的文献类目, 进而生成文献的聚类文档(cluster file)。聚类 检索针对文献的聚类文档进行,只需在已经确 定的、与提问向量最相关的文献类目内部进行 访问匹配5, 目前常见的布尔检索式的变换处理方法有 哪些?有何特点?常见的有逆波兰变换法、准波兰变换法、范式 变换法。逆波兰变换法:投入使用最早,影响最大主要 的处理思想是:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号