加计算机检索基本原理

上传人:ji****72 文档编号:54126535 上传时间:2018-09-08 格式:PPT 页数:87 大小:659.50KB
返回 下载 相关 举报
加计算机检索基本原理_第1页
第1页 / 共87页
加计算机检索基本原理_第2页
第2页 / 共87页
加计算机检索基本原理_第3页
第3页 / 共87页
加计算机检索基本原理_第4页
第4页 / 共87页
加计算机检索基本原理_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《加计算机检索基本原理》由会员分享,可在线阅读,更多相关《加计算机检索基本原理(87页珍藏版)》请在金锄头文库上搜索。

1、网络资源与信息检索,文献检索教研室 卢胜利 联系电话:5954669 Email: ,2011.5.5,网络资源与信息检索课程安排,本章具体内容安排: 2.1 计算机检索概述 2.2 计算机检索基本原理 2.3 文献信息数据库的基本概念 2.4 计算机检索策略的构建与调整 2.5 文献信息检索的类型与效果评价 2.6 计算机检索(信息资源检索)工具 2.7 计算机文献信息资源检索方法 要求:初步掌握计算机检索的基本原理、基本类型及其检索方法、检索策略的构建与调整。,第二讲 计算机检索基本原理,2.1 计算机检索概述,2.1.1计算机检索概念通过计算机进行的文献信息检索称为计算机检索。包括:光盘

2、数据库、网络数据库检索和互联网检索。 技术支撑:计算机技术、远程通讯技术、信息存储技术。,计算机检索系统构成,1、计算机硬件-运算器、存储器、控制器、输入设备、输出设备五大部件 其中,控制器、运算器和寄存器又合称CPU(central processing unit)意为中央处理单元,又称中央处理器、微处理器。通常集中在一块芯片上,是计算机系统的核心设备。 2、计算机软件-操作系统-DOS、Windows 3.X、Windows95、Windows98、Windows2000xp 3、数据库:中文、外文。,2.1.2 计算机检索的历史发展,第一个阶段:原始时期(脱机检索阶段)50-60年代 计

3、算机由电子管组成,主要的存储介质是磁带、磁鼓,只能进行简单的检索: 脱机检索(Offline Retrieval):即批处理检索检索要求 检索系统 检索结果 检索人员检索策略成批检索用户 1955,美国海军武器实验站图书馆,NOTS,4000条记录。不能人机对话。50年代末,IBM 关键词索引。SDI 定题情报检索 缺点:地理障碍;时间迟滞;封闭式检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索式),2.1.2 计算机检索的历史发展,第二个阶段:联机检索阶段 (Online Retrieval)60-80年代中计算机主要部件逐渐由晶体管取代电子管,数据库增长很快。终端设备

4、通讯网络 检索系统 用户 检索策略人机对话 获取信息,著名的国际联机检索系统,有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:美国的Dialog系统,1984年就有200多个数据库,其中包括美国的医学索引、荷兰医学文摘、美国生物学文摘、美国化学文摘等。如今此联机检索系统仍然是世界上最有影响的联机检索系统。,2.1.2 计算机检索的历史发展,第三阶段:国际联机检索与光盘数据库检索共同发展阶段 80年代中后期 1983年,出现了一种

5、新的存储器,CD-ROM光盘。光优点:储量大、体积小,设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),可随时修改检索策略,查全率和查准率高,成本迅速下降信息计算机卫星通信三维一体前三个阶段以文献数据库检索为主,2.1.2 计算机检索的历史发展,Science Citation Index(SCI)光盘(科学引文索引):由美国费城科学情报研究所编辑出版,收录1961年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的文献及引文。CAJ(中国学术期刊):是由清华大学开发研制,分题录、文摘、全文三个层次的数据库,其中全文数据库是国内最常用的全文

6、数据库。,2.1.2 计算机检索的历史发展,第四阶段:光盘检索与网络联机检索阶段 90年代2004年进入90年代,卫星通讯、公共数据通讯、光缆通讯技术、互联网(信息高速公路)事业在全世界迅猛发展,计算机情报检索走向全球大联网,进入一个崭新的时期。主要特征:操作平台Windows化 数据链接超文本化 通信手段互联网化信息文献不受时间和空间限制,真正实现了全世界信息资源共享。光盘检索逐步由兴盛转入衰落。,2.1.2 计算机检索的历史发展,第五阶段:全球网络化检索阶段 2005年以来光盘检索淡出,网络检索全面深入发展 特点:信息发布及时、内容广泛、访问快捷、搜索网络化、网络资源动态变化大 挑战:要及

7、时、准确、有效地获取与自身需求相关的实用信息,挑战与机遇,2.1.2 计算机检索的历史发展,INTERNET就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索、资源共享的国际性计算机网络。 INTERNET飞速的发展,已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。 随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,计算机情报检索目前已全面走向办公室化、家庭化。,2.2 计算机检索基本原理-示意图,2.2 计算机检索基本原理,2.2.1信息存储 就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干能代表文献主题的概念

8、,并用词表、分类表等规范化标识的情报检索语言对文献主题进行标引、按所选数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标识(标题、著者、文摘、原文出处等)也一起输入计算机,编制成一系列索引数据库,这便是信息的存储。,信息的存储主要包括的内容,信息采集:对广泛且分散的信息资源进行有针对性的采集。 信息著录:对所收集的原始信息的外表特征如题名、著者、文献出处和内容特征如分类好、主题词、摘要进行描述,形成一条条款目或记录过程。 信息标引:就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识如分类号、主题词、关键词作为存贮和检索的依据。它的作用是为信息

9、存贮与检索这两环节之间提供某种连接物,为提供快速、准确的检索途径。 信息的整序:就是将采集到的无序信息进行有序化组织的过程。,2.2 计算机检索基本原理,2.2.2 信息检索1、检索者对检索课题进行主题分析、明确检索范围,形成能代表情报需求的若干主题概念。2、把这些主题概念转换成计算机信息检索语言,即用数据库检索工具书对各概念选词和进行逻辑组配,编制成检索提问式。3、用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文献主题概念标识进行匹配,找到命中文献。,2.3 文献信息数据库的基本概念,2. 3.1数据库的定义和类型一、数据库定义:根据ISO/DIS 5127号标准(文献与

10、情报工作术语),数据库(database)的定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息资源管理工具,是情报检索系统的核心部分之一。数据库的质量直接影响情报检索系统的功能和效率。,2. 3.1 数据库的定义和类型,另一种表述:包含书目以及与文献有关数据的机读记录的有组织的集合。机读记录是文献的代替物,一条记录对应一篇文献,数据库由若干条记录组成。,2.3 文献信息数据库的基本概念,二、数据库类型按照国际上通用的

11、分类方法,常划分为以下类型: 1.参考数据库(reference databases):指引用户到另一信息源以获得原文或其他细节的一类数据库。包括书目数据库和指南数据库两种。(1)书目数据库(bibliographic databases) 指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库。例如,美国化学文摘数据库CA Search,中国机械工程文摘数据库,各国生产发行的机读目录(MARC)等,即属于此类型。,2.3 文献信息数据库的基本概念,(2)指南数据库(reference databases) 指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引

12、用户获取更详细的信息的一类数据库。亦称指示性数据库。例如,各种机构名录数据库、人物传记数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。 2.源数据库(source databases):提供原始资料或具体数据的数据库。它又可分为以下几种类型:,2.3 文献信息数据库的基本概念(一),(1)数值数据库(numeric databases) 指专门提供以数值方式表示的数据(或包括其统计处理表示法)的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。 (2)文本-数值数据库(textual-numeric databases):同时提供文本信息和数值数据的一种

13、源数据库,如某些公司信息库、产品市场报告数据库、读物数据库和物性数据库等。 (3)全文数据库(full-text databases) 指存储文献全文或其中主要部分的一种源数据库,简称全文库,如法律法规全文库、期刊全文库等。,2.3 文献信息数据库的基本概念(二),(4)术语(概念)数据库(terminological bank) 指专门存储名词术语信息或语言资料的一种源数据库,各种电子化辞典也包括在内。如:词典数据库、语料库等。 (5)图像数据库(graphics databases) 指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、广告、产品目录、图片或

14、照片等资料类型的计算机存储与检索。除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合型数据库(mixed databases)。,2.3 文献信息数据库的基本概念(三),(6)多媒体数据库:将各种类型的信息集中在CDROM上,是视频、音频、文字、图像、动画等的集合体,如一些互动性的百科全书。,2.3 文献信息数据库的基本概念,2.3.2 数据库的构成 从使用观点来看,数据库主要由文档、记录、字段三个层次构成。 1、文档: 若干个逻辑记录构成的信息集合称为文档(file)。用户选择所需的联机系统数据库时,多数数据库以单一的文档编号出现。此时文档(file)的概念和数据库(d

15、atabase)相当。但有些数据库因规模庞大,被分成若干个文档。例如,在DAILOG系统中,CA Search数据库被分成308号(1967-1971),309号(1977-1981),311号(1982-1986)和312号(1986-)等文档。,文档举例- EBSCO数据库系统,Academic Source Premier 提供了近 4,700 种出版物全文,其中包括 3,600 多种同行评审期刊。Business Source Premier行业中使用最多的商业研究数据库,提供 2,300 多种期刊的全文,包括 1,100 多种同行评审标题的全文。此数据库提供的全文可追溯至 1886

16、年。ERIC 全称 Education Resource Information Center,包含超过 1,300,000 条记录和 323,000 多篇全文文档的链接,时间可追溯至 1966 年。Newspaper Source 完整收录了 40 多种美国和国际报纸以及精选的 389 种美国宗教报纸全文。,文档是数据组织的基本形式,根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。 顺排文档:是按文献记录的输入顺序(即文献序号)排列的文档。相当于印刷型检索工具的正文部分。 在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存取号愈大,对应的记录就愈新。由于它存贮有记录的最完整的信息,所以,通常又把它称之为主文档(Master File)。 这种存贮方式决定了对记录的存取只能按顺序进行。如果在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描,存贮的记录愈多,扫描的时间愈长,从而严重影响了检索的速度。 主要供用户输出和打印文献记录用。,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号