课件2信息检索原理

上传人:宝路 文档编号:46519382 上传时间:2018-06-27 格式:PPT 页数:105 大小:12.85MB
返回 下载 相关 举报
课件2信息检索原理_第1页
第1页 / 共105页
课件2信息检索原理_第2页
第2页 / 共105页
课件2信息检索原理_第3页
第3页 / 共105页
课件2信息检索原理_第4页
第4页 / 共105页
课件2信息检索原理_第5页
第5页 / 共105页
点击查看更多>>
资源描述

《课件2信息检索原理》由会员分享,可在线阅读,更多相关《课件2信息检索原理(105页珍藏版)》请在金锄头文库上搜索。

1、第二章 信息检索原理与方法1. 信息检索概述1.1 什么是信息检索?n信息检索(Information Retrieval): 是指将信息按一 定的方式组织和存储(Storage)起来,并根据信息用户 的需要找出(Retrieval)相关信息的过程。(广义)n狭义的信息检索即信息查找(Information Search, Information Seeking ),是从信息集合中找出所需信息的过程。n1.2 什么是美术信息检索从众多的、按特定方式组织与存储的美术信 息资源系统中,检索出所需信息的过程。n信息检索过程主要包括两个方面(原理):信息标引和存储过程:利用检索语言对信息资源 进行标引

2、,按一定的方式(分类、主题等)对资源进 行集中。信息的需求分析和检索过程:利用检索语言表达 信息需求,进行检索,得出结果。信息检索过程本质就是一个需求与信息集合中 相关信息的匹配过程。检索语言是这种匹配的媒介 。1.3 信息检索的类型(根据检索目的和对象的不同 )1)书目信息检索以标题、作者、摘要、来源出处、专利号、 收藏处所等为检索的目的和对象,检索的结果是与课 题相关的一系列书目信息线索,即检索结果不直接解 答课题用户提出的技术问题本身,只提供与之相关的 线索供参考,用户通过阅读后才决定取舍。因此,书 目信息检索是一种相关性相关性检索,得到的是信息线索。 2)事实型信息检索(Fact Re

3、trieval) 检索的结果是事实结论。查询某一事物(事件 )的性质、定义、原理以及发生的事件过程等 或是有关某一事物的具体答案。3)数据型信息检索(Data Retrieval) 如某种材料的电阻,某变压器的参数, 化学分子式、数据图表等 如:2007年月份美国消费信贷增幅是多少?2011年3月8日人民币对欧元的汇率是多少?n针对美术信息检索的分析:书目信息检索是从存储有标题项、作者项、出版项或文摘项的检索系统中获取有关的信息线索,如利用各种美术 目录、题录和文摘检索系统。数据检索是从存储有大量数据、图表的检索系统中获取数值性信息,如利用各种美术手册、年鉴、图谱、表谱等 工具。事实检索是从存

4、储有大量知识信息、事实信息和数据信息的检索工具中获取某一事物的具体答案,如利用各种美 术百科全书、年鉴和名录等检索系统。n按组织方式:全文检索、超文本检索、超 媒体检索n按检索方式分:手工检索、计算机检索n 1965年Ted Nelson在计算机上处理文本文件时想了一 种把文本中遇到的相关文本组织在一起的方法,让计算机能 够响应人的思维以及能够方便地获取所需要的信息。他为这 种方法杜撰了一个词,称为超文本(hypertext)。实际上, 这个词的真正含义是“链接”的意思,用来描述计算机中的 文件的组织方法,后来人们把用这种方法组织的文本称“超 文本”。 n 超媒体不仅可以包含文字而且还可以包含

5、图形、图像 ,动画、声音和电视片断,这些媒体之间也是用超级链接组 织的,而且它们之间的链接也是错综复杂的。 2.检索语言:2.1 定义:是用来描述信息源特征和进行检索的人 工语言,可以分为规范化语言和非规范化语言(自然语 言)两类。规范化检索语言是指对检索语言中的同义词、同音 词、多义词、同形异义词、近义词等进行规范化处理的语言, 它是受控语言,对检索语言概念加以控制和规范,每个检索词 含义明确,以便淮确检索,防止误检、漏检。为了使文献标引者和检索者用词统一,又能及时查到 所需文献情报而编制出一些检索工具。如美国医学索引的医学主题词表(MeSH),我国编制 供标引中医药文献的中医药主题词表也属

6、规范化检索工具,是 对各学科名词概念进行规范化的记录,也是从事主题标引的依 据。n非规范化检索语言:对检索词不进行规范化处理,用能反映文献实质性内容的词作检索词,如关键词。2.2 作用:沟通信息存储和信息检索两个过程 的桥梁。在信息存储过程中,用来描述信息的内容和 外部特征,从而形成检索标识;在检索过程中,用来描述检索提问,从而形 成提问标识;当检索标识和提问标识完全匹配或部分匹配 时,结果即为命中文献检索语言的作用可具体表述为:1) 标引文献信息内容及外表特征,保证不同的标引人员 表征文献的一致性;2) 对内容相同及相关的文献信息加以集中,并体现了它 们之间的相关性;3) 使文献信息有序化集

7、中,便于有序化的检索;4) 使标引语言和检索语言相互匹配,保证内容及形式表 述的一致;5) 保证检索者按不同需要检索文献时,都能获得满足。2.3 检索语言的类型2.3.1 分类语言n分类语言是以学科体系为基础,用号码作为概念 标识,按分类编排的检索语言。国内外比较重要的 分类语言表有国际专利分类表、杜威十进分 类法、中国图书馆图书分类法、中国科学 院图书分类法等。2.3.1 分类语言特点:b 较好地体现学科的系统性,反映事物的平行、隶属和派生关系,有利于从学科或专业的 角度进行族性检索,查全率高b采用国际上广泛使用的拉丁字母和阿拉伯 数字做概念标识的分类号,简明,便于组织目录系统中图法所谓图书

8、分类是根据图书内容的学科性质 或其他特征,依据一定的规则将馆藏图书进行分门别 类地组织和排列的过程。分类使同类的图书集中在一起,相近的图书联系在一起,性质不同的予以分开,从而使图书馆 藏书可以依此组成一个有系统、有条理、有次序,有 一定内在联系的知识网络。它是图书馆收藏并揭示馆 藏文献的依据。n中图法分为马列主义毛泽东思想、哲学、社 会科学、自然科学、综合性图书五个基本部类。在 五个基本部类的基础上,又进一步划分成二十二个 基本大类,分别用一个大写的拉丁字母表示,其下 又细分为若干小类。五大部类:马列毛邓(A)、哲学(B)、社会科学(C-K)、自然科学(N-X)、综合(Z)中图法第四版基本部类

9、A 马克思主义、列宁主义 、毛泽东思想、邓小平理 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化.科学.教育.体育 H 语言、文字 I 文学 J 艺术 K 历史、地理N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书工业技术大类简表TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学、金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 动力工程 TL 原子能技术 TM 电工技术 TN 无线电

10、电子学、电讯技术 TP 自动化技术、计算技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑工程 TV 水利工程图书排架方式 图书情报单位收藏的各种文献,无论纸本的图书、期刊还是非书资料,都是按照索书号的顺序在架位上进行排 列的.索书号由分类号和书次号两部分上下构成,图书馆员依据中图法分类表给出图书的分类号,按图书到馆的先后次序给出图书的书次号,二者结合即确定了该册文献在馆藏中唯一位置,成为读者检索馆藏的依据。中图法索书号索书号图书分类号同类区分号同类区分号一般采用书次号或著者号码例:TP393.09-图书分类号J601-著者号码123-书次号TP393.09/132TP393.09/J60

11、12.3.2 主题语言主题语言是以语词作为概念标识,按字顺编排的检索语言。主题语言包括标题词语言、单元 词语言、叙词语言和关键词语言。主题语言标题词语言n(1)标题词语言最早使用的一种主题语言。它以规范化的自然语言作为标识,来表达文献涉 及的主题概念,并将全部标识按字母顺序排列。表 达主题的词语称为标题词。因其事先进行概念组配 ,使用起来不灵活,现已较少使用。n工程主题词表(SHE)标题词语言是用规范化的科技名词标引文献的主题 概念,是受控式、先组式语言。美国化学文摘的普通主题索引和化学物质索引 则是国外检索工具中使用标题词语言的典型。标题词可以是 单词,词组或短语,通常用主标题词和副标题词组

12、配而成, 副标题词置于主标题词后,并用逗号隔开。例如:heart作 主标题词:heart,disease(疾病),metabolism(代谢) ,neo-plasm(肿瘤)和toxic chemical and physical damage(化学中毒和物理损伤 因此用标题词标识文献可 以达到很高的专指度。主题语言关键词语言n(2)关键词用于表达文献的主题和内容, 直接从文献题名、文摘或正文中抽取出来的未经规 范化处理的词。是一种用自然语言做标识的检索语 言。主题语言单元词语言n(3)单元词语言是从文献内容中抽选出来 的最基本的词汇,将代表最一般、最基本的、不可 再分割的概念单元的词作为单独标

13、引文献的单位。n 多用于机械检索,现已不常用。主题语言叙词语言n(4)叙词语言从自然语言中优选出来并经 过规范化处理的名词术语。叙词语言是采用表示单 元概念的规范化语词的组配来对文献内容主题进行 描述的检索语言,也是目前使用最广泛的主题语言 。n这种语言的使用往往结合相关词表来使用,如 中国分类主题词表,一般用户则不大使用。3.信息检索的途径与方法3.1 信息检索的途径 指信息检索的角度、渠道,又称检索点(Access Point) 。一般是利用信息的各种内容和形式等特征,作为检索出发点, 从不同角度来检索信息。有:n内容特征: - 分类(Classified):表达文献内容所属学科分类的分类

14、号 等 - 主题(Subject):表达文献内容的关键词、主题词等。 n形式特征: - 著者(Author):责任者(作者,第一作者,团体著者 (Corporate Author), - 名称:题名(Title,书名,刊名,篇名等) - 代码 (Code):编号(书号、刊号、标准号、专利号、基 金号)等3.2 常用检索途径n书名途径:利用书、刊、杂志名称进行查找文献 ,是查找文献最方便的途径。n责任者(著者)途径:按文献著者、团体的名称 、译者和编者的姓名编制的索引进行查找的一种方 法。个人著者姓在前,名在后,姓用全称,名用缩 写,姓名之间用逗号或空格隔开,分别按姓名的字 母顺序排列。团体著者

15、按原名字顺排列,加国别以 资区别。n序号途径:利用文献的各种代码、数字编制的索引查找 文献称序号途径,如专利号、化学物质登记号、科技报告的 报告号、技术标准的标准号等,按代码字顺或数字的次序由 小到大排列。n分类途径:根据文献主题内容所属的学科属性分类编排 。能反映学科概念上的隶属、等级、派生和平行关系。分类法的主要优点是根据科学分类的逻辑规律并结合图书类 别特点进行分类,由上级到下级,分类法简明易记,层次分明, 同类书、刊集中,检索容易。但涉及相互交叉的学科或分化较快 的学科时,此法专指性不强。n主题途径:按主题词的字顺排列,便于查找与主题词相关内容的文献。其特点是适应性、直观性及通用性强,

16、表达概念准确 灵活,不如分类法那样系统,稳定。但能适应学科相互交叉相互 渗透的课题进行检索。n关键词途径:是直接从文献中抽出来的具有实质性意义的词,其主要特征是未经规范化处理,也不受主题词表控制的词,又 称自由词,用于计算机作为自然语言检索。关键词按字顺排列, 编制关键词索引速度快,因未作规范化处理不能进行选择和控制 ,故索引质量粗糙。 n分类主题途径:是分类途径及主题途径相结合。 如美国生物学文摘的目次表即属这一类。n其它检索途径:如化学物质的分子式途径、地名 属种途径等。3.3各种信息资源外在特征区分(1)著作的区分标志 著作一般以图书的形式出版,在来源出处著录 有出版社、出版地、版次、国际标准书号。例如:骑鹅历险记/(瑞典)塞尔玛.拉格洛芙著, 石琴娥译.上海:译林出版社,2005.67-80567-482-5参考文献类型及标识1杨浩滨.食品微生物学M.北京

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号