信息检索技术

上传人:人*** 文档编号:464789451 上传时间:2023-07-20 格式:DOCX 页数:6 大小:31.36KB
返回 下载 相关 举报
信息检索技术_第1页
第1页 / 共6页
信息检索技术_第2页
第2页 / 共6页
信息检索技术_第3页
第3页 / 共6页
信息检索技术_第4页
第4页 / 共6页
信息检索技术_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《信息检索技术》由会员分享,可在线阅读,更多相关《信息检索技术(6页珍藏版)》请在金锄头文库上搜索。

1、第一章信息检索概述1, 什么是信息检索?它有哪些主要类型?信息检索指将信息按照一定的方式组织和存储起来, 并能根据信息用户的需要找出其中相关信息的过程。 有目的和组织化的信息存取活动,其中包括“存”和 “取”两活动。旧分类方法:文献检索、事实检索、数据检索 新分类方法:文本检索、数值检索、音/视频检索2, 试分析阐述信息检索的基本原理,信息集合、需求 集合、匹配与选择,信息检索三阶段及期特点?答:即信息集合与需求集合的匹配与选择。倍XJ.检索的甚本原神示食图需羊集舍遂择耳匹吒(1)信息集合是指有关某一领域的,经采集、加工的 信息的集合。形成可供用户访问与检索的对象,在某 种意义上说,它是以一种

2、公共知识结构,它有可能弥 补某个特定用户的知识结构缺陷,即可以向用户提供 所需要的知识或信息,或是获取知识的线索,或者提 供某种信息区激活人脑中存储的知识。需求集合: 用户的信息需求是在社会实践活动中产生的。众多用 户不同形态的信息需求的汇集,就形成了需求集合的 存在。信息需求的产生与满足,是实施信息检索行为 的前提与基础,也是实施信息检索行为的目的所在。(3)选择与匹配:面对信息集合与需求集合,如何在 两者之间建立起联系与沟通的桥梁,以便能够从信息 集合中快速获取用户所需要或所缺少的信息与知识 呢?这就需要信息检索提供一种“匹配”机制。它的 主要功能在于:能够把需求集合与信息集合依据某种 相

3、似性标准进行比较与判断,进而选择出符合用户需 要的信息。这里,我们要求匹配机制至少包括两个要 素:一是匹配标准,即相似性标准;二是执行匹配的 动因。3, 信息检索主要经历了哪些不同的发展阶段?各阶段 有何特点?(1)手工检索阶段,主要特点可以概括为印刷文献(图 书、期刊、会议、专利、学位论文)为主要检索对象; 以各类文摘、题录、和目录性工具书为可利用的主要 检索工具;以图书馆的参考咨询部门为开展信息检索 服务的中心机构。(2)计算机化检索阶段(脱机批处 理检索时期、联机实时检索时期、联机网络化与多元 化检索时间),主要特点:以各类机读数据库为检索对 象;各类信息中心,联机服务中心作为新兴的信息

4、服 务部门而存在;信息检索用户逐渐由专业检索人员(检 索中介)向个人终端用户转移和扩散。(3)网络化检 索时期,分布式存储、分布式检索、分布式处理,检 索范围领域广,传统技术与网络技术的结合,用户界 面友好度,检索效率低。4、名词解释1)文本检索:指以各种自然语言符号系统所表示的信 息作为主要检索对象的信息检索活动。2)数值检索:针对数值型数据的查询而发展起来的 一类有特色的信息检索。3)音视频检索:针对各种数字化音频与视频信息而进 行查询的一类新兴的信息检索操作。4)信息存储与检索:将信息按照一定的方式组织和存 储起来,并能够根据信息用户的需求找出其中相关信 息的过程。信息检索是一种有目的和

5、组织化的信息存 取活动,其中包括“存”和“取”两活动。5)文献检索:以文献(包括文献、题目、或全文)为 检索对象的一类信息查询活动,是一种相关性检索。6)数据检索:以经过选择、整理、鉴定的各种数据信 息的性能参数作为检索对象的一类检索,是一种确定 性检索。7)事实检索:针对从文献中提取出来的各种事实(或 知识项)所进行的检索活动,是一种确定性检索。第二章信息源1,如何鉴别高质量的期刊?目前国内外公认的鉴别方式有2种:核心期刊和同行 评审期刊。(1)核心期刊:指的是刊载某一学科或专业有关的信 息较多,且学术水平较高,能够反映该学科最新成果 和前沿动态,受到该专业读者特别关注并成为检索与 阅读首选

6、的那些期刊。(2)同行评审期刊:它是国内外高水平期刊对来搞评 审普遍采用的方式。具体做法是:作者将文稿寄交编 辑部并经初审合格后,为了审查论文的学术质量需要 将论文稿送交有关专家(即同行)进行评审。2, 我国出版的专利文献有哪些?目前我国出版的专利文献主要包括专利说明书、专利 公报、专利索引等。既有一次文献,也有二次文献, 他们是:(1)发明专利公报、实用新型专利公报和 外观设计专利公报 (每周一次);(2)发明专利申请公开说明书,发明专利申请 审定说明书 及 实用新型专利申请说明书。(3)专利年度索引;3, 书目数据库的特点是:信息密度高,文献报道范围 广,数据量大,连续性和积累性强;数据结

7、构简单, 记录格式较为固定,费用低廉;检索途经多,速度快; 更新周期较长。4, 全文数据库的特点:可直接利用;简化数据库标引 和建库工作;避免了文献二次加工中的人为差错;后 处理能力强。5, 名词解释:1)电子信息源:指以数字化形式(即二进制码)将文 字、图像、声音、动画等存储在光、磁等存储介质上, 并能通过计算机、通信设备再现出来的信息资源。用 于信息检索的机读数据库和网络信息源是目前2类最 重要的电子信息源。2)书目数据库:是一种专门存储二次文献信息的数据 集合,亦称二次文献数据库,通常收录有关主题领域 的各中书目信息,包括文摘、题录、目录等,以向用 户提供文献信息,指引用户查找、使用原文

8、献,包括 文摘索引数据库和图书馆目录数据库。3)文摘索引数据库主要是简要地通报有关领域某一时 期发表的文献,供人们查阅与检索。4)全文数据库:是一种源数据库,主要存储文献全文 或其中的主要部分。它可以包括题名、著者、摘要、 关键词、正文、参考文献和著作日期在内的数据全部 收入数据库,供用户查询利用。5)网络信息资源:是指以电子数据的形式将文本、图 像、声音、动画等多种形式的信息存放在光磁等非印 刷型载体的介质中,并通过网络通信、计算机或终端 等方式再现出来的电子信息源。6)机读数据库:为了制作检索工具而输入计算机中的 文献,进行组织和排序。这些有序化的数据经过日积 月累就形成了机读数据库。7)

9、图书馆书目数据库:又称“机读目录”。机读目录 主要报道和存储特定图书馆实际收藏的各种文献资料 的书目信息和存储地址。既是图书馆业务部门的业务 管理工具也是一般用户查找图书馆馆藏资料的工具。8)OPAC 检索系统:全称为 online public access catalogue system即公共联机书目查询系统,是利用计 算机终端来查询基于图书馆局域内的馆藏数据资源的 一种检索方式,即通过联机查询为用户提供馆藏文献 的线索。第三章信息检索系统1,一个通用信息检索系统的基本结构如何?它主要有 那些主要模块构成?(2大功能6个模块)P412大功能:信息存储、信息查询6个模块:信息采集、信息标引

10、、创建与更新数据库、 用户界面、提问处理与检索匹配、知识组织工具。以中间的虚点竖线为界,信息检索处理过程被分解为 信息存储和信息查询两个部分,其中,信息存储部分 包括信息采集,信息标引处理,创建与跟新数据库及 索引文档等多个处理模块,这样最终就以数据库的形 式完成了信息的收集、加工(标引)和存储任务;信 息查询部分则通过用户界面,提问处理,检索匹配等 一系列功能模块的配合,以人机对话方式完成用户对 系统的访问和信息查询的功能;而中间的知识组织工 具模块,则同时与信息存储和信息查询的多个模块相 关联,以便它们之间建立一种沟通和协调,进而使全 部功能模块相互联系形成一个有机的整体。2,什么是标引深

11、度和标引的专指度?标引深度:又称标引的网罗度,是衡量标引详尽性的 指标,其含义是标引词对数据库每条记录各方面内容 表达和识别的详尽程度。标引的专指度:是用于衡量标引词对信息记录特定内 容描述的精细程度。3, 什么是自动标引?自动标引:通过利用计算机对 标引特征的出现频率、出现位置、提问频率等进行统 计,进而采用一定的加权策略来实现,主要分为自动 抽词标识和自动赋词标识。自动抽词标引:是指利用 计算机直接从文献的题名、文摘或正文中抽取关键词 来标识文献内容,并自动生成关键词索引文档(或倒 排文档)。自动赋词标引:让计算机模仿标引员的赋词 标引方法,通过分析文献内容,从词表中选取与文献 主题相符或

12、密切相关的词语符号做索引词。4, 何谓文档?主文档与倒排文档。文档是按一定结构 组织的若干逻辑记录构成的信息集合。是数据库数据 组织的基本形式,作为一个处理单位存储在介质上; 分为主文档(顺序文档)和倒排文档,随机文档。 顺序文档:是文档在计算机存储器中的一种存放形式, 文档中的全部记录按顺序一个接一个地存放,记录的 物理位置通常按照存取号由小到大排列,记录之间的 逻辑顺序与物理顺序一致。倒排文档:是把数据库检索中的一切可检索字段或属 性值(主题词、著作名、自由词、出版年)抽出来, 作为索引标识,按某种顺序重新加以组织后得到的一 种文档。5, 什么是精确匹配?什么是局部匹配?精确匹配:是指要求

13、结果记录(标识)中包含的需求 模式必须与提问式所表达的模式完全匹配,才能作为 命中结果输出。局部匹配:是指要求结果记录(标识) 中包含的需求模式与提问式所表达的模式部分匹配, 即为命中。6, 记录:是作为一个单位来处理的有关数据的集合, 是对某一实体的属性进行描述的结果。字段:是记录 的下级数据单位,用来描述实体的某一属性7, 信息检索系统的物理结构有哪些优缺点?1)集中式检索系统:是资源在空间上集中配置的系统, 单机检索系统是典型的集中式系统,它将软件、数据 和主要外部设备集中在一套计算机系统之中。优点: 信息资源集中,便于管理,资源利用率高;专业人员 相对集中,有利于发挥其作用。缺点:维护

14、代价大, 系统的安全性差,一旦主机出现故障,可能导致整个 系统的瘫痪。2)分布式检索系统:是指通过计算机网络把分布在不 同地点的计算机硬件、软件、数据库等设备和资源联 系在一起,以服务于一个共同的系统目标而实现的相 互通信、互操作的资源共享的系统。优点:可根据用 户应用需求来配置资源,提高系统对用户检索需求和 环境变化的应变能力,且便于扩展,具有较强的健壮 性,在网络上某一节点的故障不会以其他节点系统的 工作。缺点:越来越多的检索系统寻求基于分布式协 作工作模式的检索服务解决方案。第四章1, 截词检索主要有哪些类型?截词检索预防漏检提高查全率的一种常用检索技术。 作为一种后控制措施,目前大多数

15、检索都提供有截词 检索能力。截词检索有多种不同方式,按照截词的位 置来分,截词右有后截断、前截断、中截断三种类型; 按照截断的字符数量来分,可分为有限截断、无限截 断两种类型。例如:后截词检索:具有隐含的“逻辑 或”(OR)运算特性2, 位置算符(nW)和(nN)的运算含义分别是什么?(1)(nW)在检索式中nw所连接的两个检索词必须 在文本信息中按照前后顺序紧挨着出现,两个检索词 之间的相互距离不超过n个单词(或汉字)。(2)(nN)在检索式中nN所连接的两个检索词必须 在文本信息中紧挨着出现,两个检索词之间的相互距 离不超过n个单词(或汉字)4, 聚类检索的基本算法思想是什么?实施过程:(

16、1)文档聚类(2)聚类检索,2个步骤, P71;聚类检索的实施,首先要以系统中的文献聚类处 理为基础。而文献聚类,则是指针对系统中的全部文 献向量,使用一定的相似性(或相异性)度量指标和 聚类方法,计算出文献与文献之间的相似度,并把相 似度较高的文献聚集在一起,形成一个个的文献类目, 进而生成文献的聚类文档(cluster file)。聚类检索针 对文献的聚类文档进行,只需在已经确定的、与提问 向量最相关的文献类目内部进行访问匹配5, 目前常见的布尔检索式的变换处理方法有哪些?有 何特点?常见的有逆波兰变换法、准波兰变换法、范式变换法。 逆波兰变换法:投入使用最早,影响最大主要的处理 思想是:先将检索式(一般为中缀

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号