检索原理(2)资料

上传人:F****n 文档编号:88433998 上传时间:2019-04-27 格式:PPT 页数:68 大小:2.95MB
返回 下载 相关 举报
检索原理(2)资料_第1页
第1页 / 共68页
检索原理(2)资料_第2页
第2页 / 共68页
检索原理(2)资料_第3页
第3页 / 共68页
检索原理(2)资料_第4页
第4页 / 共68页
检索原理(2)资料_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《检索原理(2)资料》由会员分享,可在线阅读,更多相关《检索原理(2)资料(68页珍藏版)》请在金锄头文库上搜索。

1、第二讲 检索原理,第一节 信息检索的基本原理 信息检索(Information Retrieval),是指将信息按一定的方式组织和存贮起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存贮与检索”(Information Storage and Retrieval)。信息检索又叫情报检索或文献检索。 文献信息检索是指从文献信息集合中查找所需文献或文献中包含的信息内容的过程。,广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。,狭义的信息检索: 一个匹配( Match)过程, 即用户使用检索语言对自己的信息需求予以描述,并

2、在一定的信息资源系统中进行描述匹配的过程。,计算机检索的奥妙:关键词匹配,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。,存 储,检 索,原始文献,加工整理,数据库,提 问,检 索,输 出,“爱因斯坦论文”,“论文”,“爱因斯坦”,“论文”,“爱因斯坦”,三、文献信息检索的分类(按其检索对象 ) 文献检索(Document Retrieval) 文献信息检索 数据检索(Data Retrieval) 事实检索(Fact Retrieval),文献检索是以文献全文(或文献线索、文摘)为检索对象的一

3、种检索,凡是查找某一主题、学科、时代、地区、著者、文种的有关文献均属于这一范畴。,是以数值或图表形式表示的数据为对象的检索。例如,查找某一数学公式、数据图表、某种材料的成分、性能等。,是以事实作为检索对象,查找用户所需的描述性事实,其检索对象为机构、企业、人物的基本情况、历史变迁等。,信息检索原理,检索 提问式,信息 的选 择与 收集,信息 特征,标 识 语 言,检索工具 匹配,检 索 结 果,信 息 源,用 户,信 息 需 求,检索 提问,数据库,检索 提问式,信息检索类型,依信息存储和检索的方式 手工检索(Manual Retrieval) 也叫传统信息检索,是利用各种印刷型检索工具来查找

4、文献的一种方法。 计算机检索(Camputer-based Retrieval) 也叫现代信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。 http:/ 联机检索(online search) 脱机检索(offline search) 光盘检索(CD search) 网络检索(Internet/Web search) (全球数字图书馆系统),第二节 检索语言,一、文献的基本特征 检索工具是对各种文献特征描述的集合,而检索语言是对检索工具编排以及对文献特征描述的规范。 (一)文献的外表特征: 主要是指文献的题名(包括:书名、期刊名、篇名等)、著者姓名、研究机构、出版者、科技报告的报

5、告号、专利号等。在检索工具中,文献的外表特征常常按名称、号码等序列排,方便易懂,检索较为方便。 (二)文献的内容特征: 是指文献所论及的主题、观点、见解和结论等等,或者说,文献所研究的是哪一学科、哪一专业的问题;研究的是哪一主题的问题。由此可见,文献的内容特征常常需要分析研究才能得出。,二.文献检索语言,1.定义:是根据信息检索的需要编制的,供标引文献和检索文献用的一种人工语言,是标引者和检索者共同约定使用的语言。 2.特点: 1)表达的概念具有单义性和唯一性 (如:发展中国家兔的饲养、一个半劳动力) 。 2)可使内容相同和相关的文献集中,使大量分散的文献存储系统化、组织化,便于进行有规律的检

6、索。 (按不同的方式系统归类-不同类型的检索语言),检索语言是用来加强文献标引人员和文献检索人员之间的联系,解决标引、存贮和检索、利用的矛盾,达到存贮和检索的一致性,以提高检索效率的一种人工语言。因此,我们常说,检索语言是检索人员与检索工具之间的桥梁。因为自然语言本身存在大量的词汇歧义和语义歧解现象,不能直接用作存储和检索中的语言 (如:发展中国家兔的饲养、一个半劳动力、和服务) 三、检索语言的种类 分类语言 主题语言 号码语言 题名语言 著者语言 目前应用较多的是:分类语言中体系分类语言和主题语言中的标题语言、单元词语言、叙词语言和关键词语言。,文献检索语言,3.分类表,四、体系分类语言 是

7、按照一定的观点,以学科分类为基础,结合文献内容特征,运用概念划分方法,按知识门类的逻辑次序,从总到分,从一般到具体,从低级到高级,层层划分,逐渐展开的一个层累制号码系统,是用分类号表达文献议题概念的检索语言。该语言对各级类目以固定组配形式供书目控制时使用。 1.体系分类法的原理 体系分类法是一种直接体现知识分类的等级制概念的标识系统。它是运用逻辑分类的原理,按照文献所属的学科、专业及特征,对文献进行系统化组织的一种方法。它是使用最普遍的一种方法。,如:TP 自动化技术 计算技术 TP1 自动化基础理论 TP2 自动化技术及设备 TP3 计算技术 计算机 TP9 计算机应用 TP91 信息处理

8、.7 机器辅助技术 .72 机器辅助设计 自动设计 CAD .73 机器辅助制造 CAM .75 机器辅助计算 TP93 计算机网络 .1 局部网络 .2 远程网络 ,2.体系分类法的结构 我国广泛使用的中国图书馆图书分类法简称中图法,就是一种典型的体系分类法,它由编制说明,基本大类,简表,详表,辅表五个部分组成。现以1999年出版的第四版中图法为例,说明体系分类法的结构。 (1)编制说明:包括该分类法的编制过程,所依据的编制原则、部类及大类的设置和次序的理由,对各种分类问题的处理方法,标记方法,使用方法等。 (2)基本大类:采用五个基本部类。即马克思、列宁主义毛泽东思想,哲学,社会科学,自然

9、科学,综合性图书。在此基础上组成了22个基本大类(一级类目) (3)简表 由三级类目组成,是中图法的基本类目表,浏览简表可以很快了解整个分类体系的概貌,归类查表时只有从简表入手查详表,才能做到准确快速。 (4)详表 又叫主表,由类号、类目和注释组成。 (5)辅表 也叫复分表,用来对主表中所例举的类目进行细分,可分为“通用复分表”和“专用复分表”。,基本大类表 类目表 简表 详表 复分表 编制说明 中图法的内容结构 说 明 使用说明 类目注释 索 引,中图法体系结构,基本大类,简表,详表,复分表,主题字顺组织法(简称主题法 ) 所谓主题法,就是以自然语言中的词语或规范化的词语作为揭示文献 主题的

10、标识,并以此标识编排组织和查找文献的排检方法。 标题词法 单元词法 主题法 关键词法 叙词法,它是以标题词(规范的事物名称、名词术语)作为文献主题内容的标识和检索标识的主题法。,它主张用最基本的、字面上不再分的词汇单元词做主题词。单元词从文献内容中抽出,再经规范,能表达一个独立的概念。,关键词法是直接从文献题名、文摘或全文中抽取出来的有实际检索意义的信息单元(关键词)作为主题词。,叙词法是以叙词做主题词的主题法。叙词是一种以概念为基础的,经过优选的规范化名词术语,具有单义性,组配性能好的特性。,1、标题词法 它是以标题(词)作为文献主题标识。 所谓标题(词),是指事物定型的名词术语。如“社会主

11、义社会”、“图书学”、“鲁迅的世界观”等都可作为标题(词)。这种主题法的主标题和副标题是预先组配好了的(先组式),有标题词表可遵循,在标引和检索时不易混乱。但标题词往往过大,专指性差,使用不灵活。 2、单元词法(又称元词法) 它是以单元词作为文献的主题标识。 所谓单元词,是指从文献内容中抽出的最基本的、字面上不能再分的词。如“经济”、“美国”。 “鲁迅”等无定语的词都是单元词。对于复杂概念,则用单元词进行组配(后组式)。如“经济”和“地理”两个单元词可组配成“经济地理”。单元词法使用灵活,但组配时容易出现概念不清或不统一的毛病,影响检索效果。,3、叙词法 它是以叙词(或称叙述词)作为文献的主题

12、标识。 所谓叙词,是从文献内容中抽出的能概括表达文献基本内容的名词术语。如马克思的国家性质论这篇文章的内容其叙词可概括为“国家理论”或“马克思的国家理论”;治学辩证法这部书,其叙词可概括为“学习方法”或“科学方法论”。 这三种主题法都必须对文献中的自然语言加以规范化,制定标题表、元词表和叙词表(又称主题词表),供文献标引检索之用。 4、关键词法 是以关键词(或称键词)作为文献的主题标识。 所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中。对表征文献主题内容具有实质意义的、可以作为检索“入口”的语词。这些关键词是从文献原文中抽出的、不加规范,或只作极少量的规范化处理。这种主题法

13、不用编表,标引速度快。但所标引的关键词常常因人而异,影响检索效果。,五、主题语言:标题词语言,标题词语言:是最早出现的一种主题法类型。是以标题词作为文献内容标识和检索依据的主题语言。 标题词:是从文献题目和内容中抽选出来,经过规范化处理,用以描述文献内容特征的词,词组或短语。一般分为主、副标题词。 1.标题词法的原理 是从科技人员熟悉的大量科技名词术语中,选出具有实质性意义的科技名词术语,经过规范化处理,作为标识,来直接表达文献所论及的事物主题,而不管该文献是从哪个角度,哪个学科来论述该事物主题的,并将全部标识按字顺排列,而不管各个标识所表达的事物主题之间的关系。,主标题词的构成方式,正叙式:

14、将事物的名称、现象、方法或过程和名词术语直接作为主标题词。如DATA PROLESSING 倒叙式:是在事物的名称或方式、过程的名词后加上进一步表示该事物或过程的特征、类型的限定词,中间用逗号分开的方式构成。如PIPE,STEEL 并列式:是将两种互有联系而又各自独立的事物或概念的名词,以并列的方式构成的主题词。如:metal and alloys 副标题词是用来修饰、限定和细分主标题词,经过规范化的词、词组或短语。,2.标题词的规范化处理 规范化处理:指对标题词中的同义词、近义词、多义词、反义词等进行管理和控制,使标题词能满足准确性和通用性的要求,以达到表述文献主题概念的唯一性。 (1)同义

15、词 a.新名与旧名,一般选用新名 b.全称与简称 一般选准确、通用为原则 c.学名与俗名 ,一般用学名 d.音译与意译,一般用意译 (2)近义词 合并作为概念的等同关系,如实验和试验 (3)反义词 一般用正义词肯定词 (4)多义词 一般用加上概念限制的方法,六、主题语言:单元词语言,是以单元词作为文献内容标识和检索依据的主题语言。 单元词:是从文献中抽取出来,经过规范化的,能描述文献所论及的事物主题的那些最小,最基本的词汇单位。 1.单元词法的原理 通过用单元词表达的单元概念的组合或组配,可以表达一个完整的,复杂的概念。 2.单元词法的特点 优点:具有较强的语义表达能力、有利于主题因素复杂的多维概念文献的标引和检索。 缺点:在组配时容易产生虚假组配,影响检索的准确性。如“机床”,“检修”产生“机床的检修”和“检修用机床”两种概念。,七、主题语言:叙词语言,叙词:是描述文献内容特征的知识单元,即在概念上不能再分的基本概念。 1.叙词法的原理 概念组配,是将叙词表中两个以上的叙词,用一定的关系符号把它们连接在一起,以扩大或缩小其表达事物概念的本质属性。用以准确描述文献的议题内容。它是以逻辑运算方式来表达的。,2、叙词法优点,(1)组配准确,标引能力强; (2)结构完备,词汇控制严格; (3)适合多途径检索,检索效率高; (4)对检索系统的适应能力强;(

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号