信息检索课件第二章

上传人:E**** 文档编号:90657117 上传时间:2019-06-14 格式:PPT 页数:37 大小:119KB
返回 下载 相关 举报
信息检索课件第二章_第1页
第1页 / 共37页
信息检索课件第二章_第2页
第2页 / 共37页
信息检索课件第二章_第3页
第3页 / 共37页
信息检索课件第二章_第4页
第4页 / 共37页
信息检索课件第二章_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《信息检索课件第二章》由会员分享,可在线阅读,更多相关《信息检索课件第二章(37页珍藏版)》请在金锄头文库上搜索。

1、第二章 计算机检索系统,第一节 计算机检索概述 第二节 数据库及其类型 第三节 计算机检索技术 第四节 国际联机检索 第五节 光盘检索系统,第一节 计算机检索概述,120世纪50年代末至60年代末,国外研制和建立了许 多信息检索系统,其工作方式是传统的批处理检索方式。 2 20世纪70年代初至80年代末,产生并发展了联机 情报检索系统。 320世纪90年代以来,以Internet的出现为标志的网络 时代。 我国计算机信息检索起步于80年代初期,近年计算机编 制主题词表、汉语自动分词和标引、数据库建设、情报 检索和相关软件的研制、联机检索、机器翻译、图书馆 业务管理、全文检索理论等主要领域取得了

2、很大的成就。,目前,信息检索技术正向两个方向发展。 一是传统信息检索向全文检索和基于内容的多媒体等 新型信息检索发展,在深度上应能对提问的内容进行 分析和理解,提高查准率,探索自动抽词、自动索引、 自动检索、自动文摘、自动分类、自动翻译等解决方 案,提高管理和组织信息的能力; 二是信息资源的网络化的分布,面对Internet中浩瀚无 垠的资源,提高查全率,以及基于概念的信息检索和 基于内容的信息检索与超文本网络信息检索系统的研 究。,第二节 数据库及其种类,一、数据库概述 在文献与信息工作术语(ISO/DIS5127)中定义: 数据库(Database)是至少由一种文档组成的,能够 满足某种特

3、定目的或特定数据处理系统需要的数据集合。 文献数据库中的数据来源于期刊论文、会议论文、研究 报告、专利文献、学位论文、图书、政府出版物、报纸 等各种不同的文献经过加工、压缩派生的数据。,二、数据库的结构 数据库是以文档的形式组织起来的,文档的基本组成 单位是记录。 1记录(record) 记录是作为一个单位来处理的有关数据的集合,是对 某一实体的属性进行描述的结果。 在数据库中,被描述的实体是某一特定的文献,实体 的属性就是该文献的特征,例如文献的题名、作者、 发表时间、语种、分类号、主题词等。 可以看出,文献数据库中的一个记录就相当于书本式 检索刊物中的一个文摘条目或题录,或相当于图书目 录

4、中的一个著录款目。,2字段(field) 字段是记录的下级数据单位,用来描述实体的某一属 性。在文献数据库的记录中,字段的划分与文献著录 事项的划分相一致。一个字段与一个著录项目相对应。 所以,一个记录中通常含有文献号字段、题名字段、 作者字段、出版字段、语种字段、文摘字段、主题词 字段、分类号字段等各种必要的字段。 每个字段的具体内容称为字段值(field value)或属性 值(attribute value)。字段的设计决定了检索点的数 量。,3文档(file) 若干个记录构成的信息集合称为文档。从数据库的内 部结构来看,一个数据库包括顺排文档(sequential file)和倒排文档

5、(inverted file)。 顺排文档是将数据库的全部记录按照记录号的大小排 列而成的文献集合。 倒排文档按照文献的属性列出具有同一属性的所有记 录。,三、数据库的种类 按数据库包括的信息内容可分为: 1、参考数据库:参考数据库包括两类:书目数据库和 指南数据库。书目数据库是指存储二次文献信息的数 据库,题录数据库、文摘数据库、目录数据库等属于 参考数据库。指南数据库为事实数据库,是指存储机 构、人物、地名、产品、物质和材料的特性、时间等 信息的数据库。 2、源数据库:源数据库是能够为用户提供原始文献或 具体数据的数据库 3、混合数据库:混合数据库是同时兼有参考数据库和 源数据库特点的一类

6、数据库,四、数据库的选择与评价 1选择数据库 选择数据库的工具书是数据库指南 2数据库评价标准 1)内容范围就是数据收录的完备程度,文献类型是否齐全,时间跨度有多长等内容。 2)数据库质量主要表现在数据描述的质量、数据标引的质量等方面。 3)数据库原始文献的可获得性是否容易方便。 4)新颖度反映了数据库更新程度和及时性。,5)差错率由自动标引的质量来决定。 6)记录和文档结构决定了数据的传输、可交换数据的便利性。 7)检索与输入性能决定检索响应速度和检索效率。 8)辅助工具的可获得性、简明准确性和完备性、界面的友好性、帮助的完备性。 9)数据库的价格与售后服务是指价格的合理性、收费计算方式和售

7、后服务的及时性。,第三节 计算机检索技术,检索技术是指从数据库中获取满足检索要求的信息的技 术与方法。目前常用的检索技术有布尔逻辑检索、加权 检索、位置检索、截词检索、全文检索、超文本检索等。 一、布尔逻辑检索 布尔逻辑检索是采用布尔逻辑表达式来表达用户的检索 需求,并通过一定的算法和实现手段进行检索的过程。 布尔逻辑表达式是采用布尔逻辑算符来连接检索项,以 及表示运算优先级的括号组成的一种表达检索要求的算 式,即逻辑表达式(或逻辑提问式)。,1. 布尔逻辑检索技术 常用的布尔逻辑算符有:逻辑或“or”、逻辑与“and”、 逻辑非“not”三种。 (1)逻辑或“or”:在检索表达式中通常用“+

8、”表示。 如检索词A和B用逻辑或“or”组配,则表达式可写为:A or B 或者A+B,表示在查找信息源中凡含有检索词A或 B的所有信息均为命中对象。因此,使用逻辑或可使检 索命中结果的范围扩大,达到了扩检的目的,从而提 高查全率。,(2)逻辑与“and”:在检索表达式中常用“*”来表示。 如:检索词A和B用逻辑与“and”组配时,逻辑表达式为: A and B 或者A*B,表示只有同时含有A、B两个检索 词的信息才是命中信息。因此,通过对检索词之间的 逻辑与运算,增强了查找的专指性,可提高查准率。,(3)逻辑非“not”:在检索表达式中通常用“-”来表示。 逻辑非运算符除了作为两个运算量之间

9、关系运算符 外,还可以作为单运算符只对一个检索项起作用。 如:A not B可表示为A-B和-B*A, 逻辑非运算是一种排 除性运算,-B就是排除了B以外的其他所有项。因此, 谨慎使用逻辑非运算符,否则会造成漏检现象。在实 际检索中,往往在一个检索结果中使用逻辑非运算, 用来排除指定的某类信息,以达到提高查准率的目的。,2编制布尔逻辑表达式时应遵循的原则 (1)当用逻辑与“*”连接检索项时,尽可能把出现频率 低的词放在“*”号之前,目的是为了使否定的回答尽早 出现,从而缩短检索时间。 (2)采用逻辑或“+”连接检索项时,应将出现频率高 的词放在“+”号之前,确保命中回答尽早出现。 (3)表达式

10、中同时出现“*”与“+”号时,需要做到(1) 和(2)以外,还应遵循:把检索词和“*”关系运算较 少的部分放在“+”号前面;尽量把“+”关系较少的检索 项放在“*”号前面。 (4)避免将逻辑非运算和逻辑与运算一道使用。,二、截词检索技术 截词检索主要是利用检索词的词干或不完整的词型进 行检索,其方法是在词干后可能变化的字符位处加上 截词符号“?”。截词符号的使用,既可减少检索词的输 入量,又可简化检索步骤,扩大检索范围,提高查全 率,节省上机时间,降低检索费用。 截词方式有无限截词和有限截词两种。 1. 有限截词 有限截词是在检索词的词干后加一个或一个以上的 (最多不超过4个)“?”,然后空一

11、格,再加一个“?”。 前面的1-4个“?”表示限定所截字符的位数,最后一个 “?”表示截词停止的符号。如:alloy? ?,可检出含 alloy alloyed alloying的文献。,2. 无限截词 无限截词是在检索词的词干后加一个“?”,表示不限制 词尾部可变化的字符位数。 如:Program?,可检测 出含Program、programs、programing等词的文献。 无限截词形式有前截断(后方一致)、后截断(前方 一致)、前后截断(中间一致)、屏蔽检索等四种。 (1)前截断检索:是指要求检索词与被检索词实现词 间的后部相同。如:检索式“?magnetic”可检索出含 有“magn

12、etic”以及“paramagentic”的文献记录。,(2)后截断检索:是指检索词与被检索词实现词间的 前部相同的检索。如:“computer?”可检索出含有 “computer”和“computers”的记录。 (3)前后截断检索:是检索词与被检索词实现词间只 需任意部分相一致即可。 (4)屏蔽检索:是指在一个字符串中插入一个或多个 的屏蔽符号“?”,表示在问号的相应位置上可置换数目 相当的字符。采用屏蔽检索可避免漏检,提高查全率。 如:“orgni? ation”,可检出含“orgnisation 和 orgnization”的文献。,三、位置检索技术 位置检索是检索词在原始信息中相对位

13、置的限定性检 索。位置检索由位置算符表达。 1(W)“With”:表示两侧的检索词必须前后邻 接,顺序不得颠倒,两词之间不能插入任何词,但允 许空格或连字符号。如: well(W)logging,相当于检 索:well logging 和well-logging 2(nw)“n word”:表示两侧的检索词之间最多允 许插入n个词,但两个检索词的词序不允许颠倒。,3(N)“Near”:表示两侧的检索词必须前后紧 相邻,中间不能插入其他字符。但两词次序可颠倒。 4(nN)“n Near”:表示两侧的检索词之间最多 可拥有n个单词,且检索词的次序可颠倒。 5(S)“Subfield”:要求参加运算

14、的检索词必须 出现在同一自然句中,两词词序不受限制,词之间可 含任意个词。如:Solar (S) Energy,四、加权检索技术 加权检索是指根据用户的检索需求来确定检索词,并 且再根据每个检索词在检索要求中的重要程度不同, 分别给予一定的数值(权值)加以区别,同时给出检 索命中界限值(阀值)进行限制。 五、全文检索技术 全文检索是指以文本信息作为检索对象建立全文数据 库,除了具有布尔逻辑检索功能外,还具有文本检索功能。并允许用户以自然语言检索而不是外在特征来实现检索的先进检索技术。 六、超文本检索技术 超文本信息检索技术是以超文本网络为基础的文献检索技术。,第四节 国际联机检索系统,一、国际

15、联机检索概述 1国际联机检索发展过程 2国际联机检索的基本原理及构成 国际联机检索就是用户使用检索终端设备通过国际通讯 网络与存贮情报信息的联机检索中心相连,进行人机对 话,从联机检索中心的数据库中查获所需信息的过程。,3联机检索系统的主要特点和作用 (1)国际联机检索的主要特点 国际联机检索与传统手工检索相比,具有检索速度“快”、 检索范围“全”、命中文献“准”、检索方法“便”的特点。 (2)国际联机检索的作用,二、国外主要联机检索系统介绍 全世界开展国际联机数据库检索服务的系统和机构属 于商业性的规模较大的著名国际联机系统有美国的 DIALOG系统、BRS系统、MEDLINE系统、OCLC

16、系 统;欧洲空间组织的ESA-IRS系统;英国的INFOLINE 系统;日本的JICST系统,以及美、德、日共同开发 的STN系统等。,1DLALOG系统 DIALOG系统是目前世界上最大的国际性联机检索服 务机构,总部设在英国伦敦和美国加利福尼亚州的 Mountain View。 DIALOG系统已拥有800多个数据 库,内容涉及自然科学、工程技术、社会科学、商业 新闻和工业分析、公司信息和金融数据、报纸新闻等 几乎所有的学科领域。 其网址是:http:/。,2ORBIT系统和BRS系统 美国系统发展公司(System Development Company,简称SDC)开发的ORBIT系统是仅次于DIALOG的国际联机系统。 3. ESA-IRS系统 欧洲空间组织情报检索中心(Europen Space Agency-Information Retrieval Service)的ESA-IRS系统是欧洲最大的情报检索系统。,三、DIALOG联机检索系统 1Dialog系统的联机方

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号