计算机检索2月新版剖析

上传人:我** 文档编号:116062448 上传时间:2019-11-15 格式:PPT 页数:91 大小:379KB
返回 下载 相关 举报
计算机检索2月新版剖析_第1页
第1页 / 共91页
计算机检索2月新版剖析_第2页
第2页 / 共91页
计算机检索2月新版剖析_第3页
第3页 / 共91页
计算机检索2月新版剖析_第4页
第4页 / 共91页
计算机检索2月新版剖析_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《计算机检索2月新版剖析》由会员分享,可在线阅读,更多相关《计算机检索2月新版剖析(91页珍藏版)》请在金锄头文库上搜索。

1、计算机文献信息检索 概论 陈路平老师主讲(授课新版3) 2016.2.05 1 计算机文献信息检索发展简介 计算机文献信息检索始于50年代,1954年美国 海军武器实验所(NOTS)使用IBM701型电子 管计算机建成了世界上第一个信息检索系统, 利用IBM701型电子管计算机把文献号码和 少量索引词存贮在计算机中, (1).检索结果是文献号码,后在1958年经过改进, (2).检索结果可以是文摘、题录和作者等项目。 2 从20世纪50年代初计算机文献信息检索经历了 以下四个阶段。 1.实验研究阶段 (1950-1954年) 2.脱机检索阶段 (1954-1964年) 3.联机检索阶段 (19

2、65-1972年 4.国际网络检索阶段(1973年-至今) (一)实验研究阶段(1950-1954年) 这段时期图书情报界利用计算机进行编制索引、 自动分类等研究,其目的是使图书馆工作自动化。 3 (二)脱机检索阶段(1954-1964年) 这一阶段通过计算机贮存二次文献和收录文献的范 围越来越广,如书目索引和累计索引等数据库,用户可 以对已存入计算机中文献信息进行定题检索和回溯检索 当时这种定题检索和回溯检索为脱机检索也称为批 处理检索。 特点:只能由专业人员 操作 缺点:(1)检索人员为了节约费用,每隔二至三 周才做一次检索,用户不能及时拿到检索结果。 (2)批处理检索是一种封闭式检索,用

3、户 与检索人员之间无任何反馈信息,并无法和计算机对话 。 专业人员 4 (三)联机检索阶段(1965-1972年) 这一阶段,由于第三代集成电路计算机 的产生与发展和高 密度大容量贮存器-硬磁盘及磁盘机的出现,再加上数字通讯 技术的发展和分组交换公用数据通信网的普及,使得情报检索 从脱机、批处理阶段进入联机检索阶段。 与脱机检索阶段相比较,联机检索阶段具有以下特征: (1)采用大、中型计算机,文献检索 实行分时 处理,人机可直接对话 ,能及时得到检索结果; (2)终端用户可以检索到多个文献数据库; (3)虽然在该阶段出现了计算机网络,但规模不够大,大多是集中式 的,联机检索受到地区的限制。 5

4、 (四)国际网络检索阶段(1973年-至今) 随着空间技术和远程通信技术的发展,计算机文献信息检 索进入了新阶段,由于卫星通讯技术和光纤通讯技术的实用化 ,使得计算机文献检索冲破时间和空间的限制,为快速全面地 获取全球性科技文献信息资料提供了非常方便的条件,从而极 大地提高了文献资料的可获得性和利用价值,实现文献资料共 享性。 国际网络检索阶段具有以下特点: (1)最显著特征是网络性质不再是集中式的,而是分布网络结构; (2)实现了真正意义上的资源共享,任何一个终端上的用户都可检索 到网络中的任何一个数据库,提高了文献信息的利用率; (3)计算机储存容量的不断增大,使得文献信息存贮量增多,能节

5、约 资金投资。 6 信息高速公路 20世纪50年代,美国建成了遍布全国的高速公路网,对加 速美国商品、劳务人员流通发挥了极其巨大的作用,推动了美 国和周边国家的经济发展,至今高速公路网仍是美国现代经济 的基础。1993年克林顿就任美国总统后,提出建立“国家信息基 础设施(National Information Infrasture)计划”, 简称NII。其计划归纳为三点: (1)铺设覆盖美国的光纤网络。 (2)用光纤网络连接所有的通信系统、计算机资料库和电 信消费设施。 (3)让光纤网络能传输视频、音频、数字、图象等多媒体 信息。 信息高速公路主要由:通信网络、通信设备和通信资源三部分组成

6、。 通信网络和通信设备构成宽广平坦的路面,信息资源就是公路上行驶的车辆, 三者构成一个有机的整体。 7 信息高速公路主要由(三部分组成) 1.通信网络、 2.通信设备、 3.通信资源、 通信网络 和 通信设备 -构成宽广平坦的路面, 信息资源就是公路上行驶的车辆, 三者构成一个有机的整体。 信息高速公路将对社会经济,人们的工作和社会模式以及 教育、科研等产生深远的影响。 8 计算机检索基础 一、计算机文献信息检索的定义 计算机文献信息检索: 就是利用计算机对信息的存贮和检索。 或者说,利用计算机对信息和数据的高 速处理能力来存贮数据,并从中查找、 取出数据这样一个过程。 存贮检索与 9 (1)

7、信息的存贮过程: 就是将大量分散的文献资料进行收集、整理、评价 、选择、标引、编写文摘、著录等,直到输入计算机,建立 起计算机可以阅读和分析处理的数据库的过程。 (2)信息的检索过程: 就是将用户提出的查询要求,赋予一定的检索标识 ,按照一定的要求输入 到计算机中,由计算机系统对其进 行处理,并与已存贮在计算机中的信息进行运算、匹配,最 后将检索结果按用户要求输出。 10 文献收集文献加工文献输入数据库 计算机文献信息检索系统 检 索 结 果 提问文献提问输入提问表述用户查询 示意图 存 贮 检索 11 二、计算机文献信息检索系统的构成 计算机文献信息检索系统主要由:计算机硬件,软件,数据库构

8、成。 (一)硬件 计算机硬件是指进行信息输入、输出、存贮、运算和传递 的实体(包括以计算机为中心的一系列机器设备),它可以 是大、中、小型计算机,也可以是微机、打印机及电源设备 和通信设备及网络系统等,其中影响检索系统功能的是CPU 的运算速度,内外存容量。 (二)软件 计算机软件又叫计算机程序,是指控制计算机进行各种作 业的一系列指令和进行“人机对话”及各种数据的存贮和传输 的“翻译”规则。计算机软件包括系统软件和应用系统软件等 。 12 (三)电子信息源 1、数据库(Database)- 重点掌握 (1)数据库的定义 数据库: 是一种计算机能够阅读并处理的文字型或 数字型数据的集合体。 或

9、者说: 数据库是以特定的组织方式将相互关联的数据集合、 存贮的总汇。 计算机文献信息检索系统数据库是一定专业范围内信 息记录及其索引的集合体。 一个 数据库 相当于 一种 书本式 手工检索工具。 数据库记录字段 13 文献数据库结构: 存取号 标题著者刊名 卷期 页码 出版年 类型 文种 主题词 文摘 010001 010002 010003 Han qd Ma dl Han js Eng Eng China 肿瘤 基因 心血管 neoplasm cancer tumor carcinoma 14 计算机检索原理 顺排文档:数据库中全部记录按一定顺 序排列而成的文献记录集合。 顺排文档(Seq

10、uential File)是大量记录( Records)的集合,按文献纪录入编的存取号 从小到大依次排列的目录式文档。 它相当于印刷型手工检索工具的正文题录或文摘部分。 15 倒排文档: 将数据库中记录的全部文献特征标识按一 定顺序排列而成的文献记录集合。 倒排文档(Inverted File) 是从顺排文档记录中抽出的每一个文献特征的标识 作为存贮单元,并按某种顺序排列(字顺、分类号、 序号)排列,同时在每一个标识后面注明相应的文献 纪录存取号。 不同类型的标识可形成不同的倒排文档,- -如著者倒排文档(即著者索引)、 主题倒排文档(即主题索引)等等。 16 倒排文档: 著者倒排文档 著者文

11、种主题词 010001 010002Ma dl Han js Eng Eng China 肿瘤 心血管 基因 Han qd 存取号 010003 010001 010002 存取号 010003 010001 010002 存取号 010003 主题词倒排文档文种倒排文档 17 数据库是计算机信息检索系统中的重要组成部分,是信息源,是检索的 对象。 (2)数据库的结构:(文档.、字段、) 数据库由1至数个文档构成,文档(File)是由存贮在磁带 、磁盘或光盘等载体上的一条条记录组成。 就书目数据库而言,一条文献记录(Record)就是一篇文 章,一本书或一种杂志 的 描述体。 构成记录的基本单

12、位为字段。 记录由一系列字段组成,如主题词、文摘、著者等。 纪录( Records )是数据库中一个完整的信息单元,由 一系列字段(Fields)构成。-相当于手检工具的题录或文摘。 构成记录的基本单位为字段。 18 字段(Field)是数据库的基本元件, 也叫数据元(Data Element)。 字段的实体就是文献著录中的“项”,它反映一条记录中 各著录项的属性,如:著者项、篇名项、出处项等。 有些字段还被分为-几个子字段(Subfield), 如来源(Source)字段,被划分为刊名,出版年、页码 等子字段。 子字段: 刊名,出版年、页码等为子字段。 19 字段(Fields) 是著录文献

13、各项的名称及其内容, 是描述文献内容外特征的各項标识内容。 字段 相当于题录或文摘中的各項目名称, 如: 题名(TI)、著者(AU )、地址(AD) 、出处(SO)、主题词(MESH 主要主题词(MMH,MJMH)、 关键词(KW)、特征词(TG)、 出版年(PY)、语种(LA)、 摘要(AB)等等。 20 CBMDISC光盘检索(CBMLARS的使用) 标识符字段名称 注释 属性 AA 著者文摘 AB 文摘 AD 地址 (第一著者地址) AD1 国省市名 (第一著者省市名) AF 原文出处 (译文原文出处) AU 著者 CA 索取号 (医情所会议、汇编内部编码) CN 国内代码 (国内期刊代

14、码) 21 标识符字段名称 注释 属性 CL 分类号 CT 特征词 FS 资助类别 ID 资助编号 IS ISSN (国际期刊代码) JC 内部代码 (医情所期刊内部代码) LA 语种 (缺省值为中文) MA 会议地点 MH 主题词 22 标识符字段名称 注释 属性 (MMH) MMH (主要概念主题词) NI 团体著者 PA 分册 PG 页码 IP 期 PP 出版地 (期刊出版地) PY 出版年 PT 文献类型 23 标识符字段名称 注释 属性 RF 参文数 (参考文献数) (SO) 出处 (复合字段:TA,PY,VI,IP,PG) SU 增刊 TA 期刊名称 TI 中文题目 TT 英文题目 TW 关键词 VI 卷 UI 流水号 24 标识符 字段名称 属性 TI Title(篇名) AU Author(著者) AD Address of Author(著者通讯地址) SO Source(文献来源) PY Publication Year(出版年) * LA Language(文献语种) * CP Country of Publication(出版国家) * AB Abstract(摘要) 25 XREC Record Features(记录特征) * MESH Medical Subj

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号