信息检索第二章

上传人:ni****g 文档编号:584137557 上传时间:2024-08-30 格式:PPT 页数:37 大小:619.04KB
返回 下载 相关 举报
信息检索第二章_第1页
第1页 / 共37页
信息检索第二章_第2页
第2页 / 共37页
信息检索第二章_第3页
第3页 / 共37页
信息检索第二章_第4页
第4页 / 共37页
信息检索第二章_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《信息检索第二章》由会员分享,可在线阅读,更多相关《信息检索第二章(37页珍藏版)》请在金锄头文库上搜索。

1、第第2章章 检索语言检索语言 1 介绍检索语言的概念、功能及类型 总结检索语言的主要理论基础阐述分类检索语言的结构与性能分析主题检索语言的原理及性能论述分类主题一体化检索语言的原理、 性能及类型探讨网络环境下检索语言的发展本章要点本章要点 情报检索语言是科学交流中人类自然语言交流与人机交互均能达到共同理解的基础。近年来,信息化浪潮席卷各行各业,情报检索语言顺应时势,自然地成为数字化环境里搏风击浪的有效工具。它们在愈来愈多的领域展现出非常广阔的应用前景。第2章 检索语言 2 第2章 检索语言2.1.1 2.1.1 检索语言的概念检索语言的概念 检索语言有广义和狭义之分。 广义的检索语言泛指信息检

2、索过程中涉及的人工语言和自然语言。人工语言是根据一定的规则人为编制而成的检索语言,它有着严格的使用规则,可用于表述文献主要内容,建立信息检索系统。自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。 狭义的检索语言仅指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言。2.1 2.1 检索语言检索语言概述概述 3 2.1.2 2.1.2 检索语言的功能检索语言的功能 2.1.2.1 标引信息内容特征及某些外表特征,保证不同 标引人员表达信息的一致性 2.1.2.2 对内容相同及相关的文献信息加以集中或揭示 其相关性 2.1.2.3 使信息的存

3、储集中化、系统化、组织化,便于 检索人员按照一定的排列次序进行有序化检索 2.1.2.4 便于将标引用语和检索用语进行相符性比较第2章 检索语言 4 2.1.3 2.1.3 检索语言的分类检索语言的分类2.1.3.1 2.1.3.1 按描述文献的特征,可以分为描述文献外表特征按描述文献的特征,可以分为描述文献外表特征 的检索语言和描述文献内容特征的检索语言的检索语言和描述文献内容特征的检索语言第2章 检索语言2. 描述文献内容特征的检索语言1. 描述文献外表特征的检索语言 5 2.1.3.2 2.1.3.2 按结构或原理,可分为分类语言、 主题语言、代码语言和引文语言2.1.3.3 2.1.3

4、.3 按信息标识的组合使用方法,可分 为先组式语言、后组式语言和散组 式语言2.1.3.4 2.1.3.4 按语言的规范程度,可分为人工语 言和自然语言第2章 检索语言 6 第2章 检索语言 2.2.1 2.2.1 概念逻辑概念逻辑 2.2.1.1 2.2.1.1 概念间的关系概念间的关系2.2 2.2 检索语言检索语言的理论基础的理论基础相容关系相容关系不相容不相容关系关系 7 2.2.1.2 2.2.1.2 概念逻辑方法概念逻辑方法1. 1. 概念的划分与概括(分类)概念的划分与概括(分类)建立概念等级体系,用以显示客观世界千差万别的事物之间的内在联系。这种结构具有很好的系统性。例如,体系

5、分类法就是应用此种逻辑方法的典型。 2. 2. 概念的分析与综合(组配)概念的分析与综合(组配)建立概念组配体系,提供从多种途径来进行信息检索的功能,而且可以任意选择检索标识的专指度,根据实际需要扩大、缩小或改变检索的范围。例如,叙词语言与组配分类法便是应用概念分析与综合的典型。第2章 检索语言 8 2.2.2 2.2.2 知识分类知识分类知识分类是对千差万别的事物做系统研究的重要方法,是对各种事物之间的区别和联系从本质上、原理上进行揭示的重要手段,对信息的系统化具有重要的价值,其实质是划分知识单元、组织知识体系,包括学科分类和事物分类。学科分类是知识分类的主体,事物分类是知识分类的基础。 第

6、2章 检索语言 9 2.2.3 2.2.3 术语学术语学术语是在特定学科领域用来表示概念的称谓的集合,或者说,是通过语音或文字来表达或限定科学概念的约定性语言符号。术语是分类表、词表的基本组成要素,检索语言其实就是一个经过精细组织的术语集。检索语言的创制以术语学的研究成果为基础的。第2章 检索语言 10 2.3.1 2.3.1 分类检索语言概述分类检索语言概述分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号来代表各级类目和固定其先后次序的分类体系。 第2章 检索语言2.3 2.3 分类检索语言分类检索语言分类检索语言分类检索语言体系分类法体系分类法组配分类法组配

7、分类法 11 2.3.2 2.3.2 体系分类法体系分类法2.3.2.1 2.3.2.1 体系分类法的结构体系分类法的结构第2章 检索语言 微观结构指分类法微观结构指分类法中类目的构成结构。中类目的构成结构。 (1)类目的划分)类目的划分 (2)引用次序)引用次序 (3)类目的排列)类目的排列 (4)类名的确定)类名的确定 (5)类目之间相互关系)类目之间相互关系 的处理的处理微观结构 按功能分,体系分按功能分,体系分类法的宏观结构一般由类法的宏观结构一般由以下四部分组成:以下四部分组成: (1)类目体系)类目体系 (2)标记系统)标记系统 (3)说明与注释)说明与注释 (4)类目索引)类目索

8、引宏观结构 12 2.3.2.2 2.3.2.2 体系分类法的特点体系分类法的特点体系分类法在实际工作中,主要被用来组织分类排架和统计藏书和建立分类检索系统。体系分类法的主要特点是:1. 按学科、专业属性构建类目体系,形成按学科、专业集中文献、信息的知识概念系统,从而能够直接地满足用户从学科、专业出发检索课题的需求,可以达到较高的查全率;2. 采用等级列举式的概念标识系统来揭示概念之间的相互关系,便于用户“鸟瞰全貌”、“触类旁通”、“层层深入”地查找某一专业的信息,用户也无须事先知道事物或概念的确切名称,就可以在一定的类目下通过浏览查到该领域的相关信息;3. 采用分类号作为主题的标识,不受语种

9、的限制。第2章 检索语言 13 2.3.2.3 2.3.2.3 主要体系分类法介绍主要体系分类法介绍国内常见的体系分类法有:中国人民大学图书馆图书分类法,简称人大法 ;中国图书馆分类法,简称中图法 ;中国科学院图书馆图书分类法,简称科图法 ;中国档案分类法 国外常见的体系分类法有:杜威十进分类法(Dewey Decimal Classification),简称DC或DDC ;美国国会图书馆分类法(Library of Congress Classification),简称LC ;国际十进制分类法(Universal Decimal Classification),简称UDC.第2章 检索语言

10、14 我国目前广泛使用的分类法是中国图书馆分类法。它是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。它将学科分五大部类,基本序列是:马克思主义列宁主义毛泽东思想、哲学、社会科学、自然科学、综合性图书,由5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条类目组成了一个完善的分类体系。标记制度采用拉丁字母与阿拉伯数字相结合的混合号码制,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制的原则。第2章 检索语言中国图书馆分类法中国图书馆分类法注:中图法的基本部类和

11、大类见教材 15 杜威十进分类法由美国的威尔杜威编制,采用纯阿拉伯数字作为基本标记符号,基本上按照层累制展开,是一部在国际上出现最早、流行最广、影响最大的图书分类法。1876年出版,至1996年出版第21版,四卷本。卷一为编制说明和通用复分表,卷二、卷三为类表,卷四为索引和使用手册。它依据培根的知识分类思想,将图书分为十大类: 000 总论 500 自然科学 100 哲学 600 技术科学 200 宗教 700 美术 300 社会科学 800 文学 400 语言学 900 史地第2章 检索语言杜威十进杜威十进 分类法分类法 16 2.3.3 2.3.3 组配分类法组配分类法2.3.3.1 2.

12、3.3.1 组配分类表组配分类表组配分类表是由编制说明、基本类表、分面类表和分面公式以及通用辅表组成。其建立主要采用了分面分析法。分面分析法是将整个知识领域或某一知识领域按其不同属性分解为若干个不同的分面,每个分面再分解为若干个亚面,每个亚面还可分解为若干个更小的子面,面内列出所属各子目的一种编制分类表的方法。在组配分类表的编制过程中,需要考虑到分面的引用次序与排列次序、标记符号与标记制度等方面的问题。 第2章 检索语言 17 2.3.3.2 2.3.3.2 组配分类法的特点组配分类法的特点1. 通过简单主题概念的组配,一方面可以简化分类表, 缩小类表体积,另一方面能够表达各种复杂主题概念 和

13、专深主题概念,并且能够揭示主题因素之间的相互 关系;2. 可以对信息所表达的主题概念进行多方面标引,从而 可以实现多途径检索;3. 可以较为及时地增补新的主题概念,类表修订灵活、 方便。第2章 检索语言 18 2.3.3.3 2.3.3.3 主要组配分类法介绍主要组配分类法介绍 阮冈纳赞提出了以分析兼综合原则、分面分析和分面标记为核心的分面分类理论。冒号分类法提出的五个基本范畴的理论。它们依次为:本体(Personality)、物质(Material)、动力(Energy)、空间(Space)、时间(Time)。通过这五个基本范畴来分析、归纳和组织文献。每个基本范畴都采用特性的指示符表示,即P

14、;M:E.ST。在第7版中,又将物质面进一步分解成3个方面:物质M、物质性质MP、物质方法MM。第2章 检索语言冒号分类法冒号分类法 19 第2章 检索语言2.4.1 2.4.1 主题检索语言概述主题检索语言概述主题检索语言又称主题法。它采用语词直接作为文献主题标识,按字顺排列主题标识,提供各种检索词语的途径。它从描述事物的特性角度出发,按文献所论述的事物(即主题)集中文献,用规范化的名词术语标引和表达文献的主题概念,用参照系统显示事物概念主题词之间的关系。2.4 2.4 主题检索语言主题检索语言 20 第2章 检索语言 2.4.1.1 2.4.1.1 主题检索语言的类型主题检索语言的类型1标

15、题词语言标题词语言2单元词语言单元词语言3叙词语言叙词语言4关键词语言关键词语言 21 2.4.1.2 2.4.1.2 主题检索语言的特点主题检索语言的特点 主题检索语言与分类检索语言相比,具有明显的优点:1. 专指性高2. 直观性好3. 灵活性强第2章 检索语言 22 第2章 检索语言2.4.2.1 标题词语言标题词语言 标标题题词词是是从从自自然然语语言言中中选选取取的的、经经过过规规范范化化处处理理的的、表表示示事事物物概概念念的的词词、词词组组或或短短语语。标标题题词词按按字字顺顺排排列列,词词间间语语义义关关系系用用参参照照系系统统显示,并以标题词表的形式体现。显示,并以标题词表的形

16、式体现。 2.4.2.2 单元词语言单元词语言 单单元元词词又又称称元元词词,是是从从自自然然语语言言中中选选取取,经经过过规规范范化化处处理理,表表达达主题最小的、最基本的、字面上不能再分的名词术语。主题最小的、最基本的、字面上不能再分的名词术语。 2.4.2 2.4.2 标题词语言和单元词语言标题词语言和单元词语言 23 第2章 检索语言 关关键键词词作作为为信信息息存存储储和和检检索索依依据据的的一一种种检检索索语语言言,是是直直接接从从原原文文的的标标题题、摘摘要要或或全全文文中中抽抽选选出出来来,具具有有实实质质意意义义的的,未未经经规规范范化化处处理的自然语言词汇。理的自然语言词汇

17、。 关键词语言的类型:关键词语言的类型: 1. 题内关键词索引题内关键词索引 2. 题外关键词索引题外关键词索引 3. 词对式关键词索引词对式关键词索引2.4.3 2.4.3 关键词语言关键词语言 24 第2章 检索语言 叙叙词词语语言言是是以以表表示示单单元元概概念念的的规规范范化化语语词词为为基基础础,以以概概念念组组配配为为基本原理,对文献主题进行描述的后组式检索语言。基本原理,对文献主题进行描述的后组式检索语言。 叙叙词词语语言言继继承承和和发发展展了了体体系系分分类类语语言言、组组配配分分类类语语言言、标标题题词词语语言言、单单元元词词语语言言、关关键键词词语语言言等等多多种种检检索

18、索语语言言的的思思想想、原原理理和和优优点点,使使其其具具有有多多方方面面的的优优势势,并并且且已已经经成成为为在在当当今今互互联联网网时时代代下下应应用用最最为为广泛的人工检索语言之一。广泛的人工检索语言之一。 2.4.4 2.4.4 叙词语言叙词语言 25 2.4.5 2.4.5 主要主题词表介绍主要主题词表介绍 美国国会图书馆主题词表(Library of Congress Subject Headings,简称LCSH)医学主题词表(Medical Subject Headings) 汉语主题词表中国分类主题词表 社会科学检索词表中国档案主题词表 第2章 检索语言 26 第2章 检索语

19、言2.5.1 2.5.1 分类主题一体化检索语言概述分类主题一体化检索语言概述分类主题一体化检索语言,又称为分类主题一体化词表,是指在一个检索语言系统中,对它们的分类表部分和叙词表部分的术语、参照、标识及索引实施统一的控制,使两者有机地融合为一体,从而能够同时满足分类和主题标引、检索的需要,发挥其最佳的整体效应。2.5 2.5 分类主题一体化检索语言分类主题一体化检索语言 27 2.5.1.1 2.5.1.1 分类主题一体化检索语言的原理分类主题一体化检索语言的原理分类主题一体化检索语言建立在分类检索语言与主题检索语言相通的原理基础之上。首先,分类检索语言与主题检索语言都是建立在概念逻辑、知识

20、分类和术语学的理论基础之上,都应用了概念划分与概括、概念分析与综合的方法。其次,所采用的表达信息或文献主题概念的标识在本质上相同的,只是表现形式不同而已。最后,分类检索语言与主题检索语言的处理对象都是语义单元,所类集的内容是相同的。 第2章 检索语言 28 2.5.1.2 分类主题一体化检索语言的功能分类主题一体化检索语言除了单独具有分类检索语言与主题检索语言的功能外,还具有如下功能:1. 标引人员可以同时完成分类标引和主题标引,通过标引数据之间的对应转换。2. 用户既可以从学科、专业出发来进行分类检索,也可以从事物主题出发进行字顺主题检索,提高查全率和查准率。3. 可以为进行过分类标引而未进

21、行主题标引的书目数据库通过主题词与分类号的转换而提供主题标引,反之亦然。第2章 检索语言 29 2.5.2 2.5.2 分类主题一体化检索语言的类型分类主题一体化检索语言的类型第2章 检索语言分面叙词表分面叙词表 分类表分类表- -叙词表叙词表对照索引对照索引 集成词表集成词表 30 2.5.32.5.3中国分类主题词表中国分类主题词表简介简介中国分类主题词表是在中图法编委会主持下,经全国约40个单位160位专家学者的共同努力,历时8年编制而成的,于1994年6月正式出版。它是我国第一部分类检索语言和主题检索语言相互兼容对照索引式的一体化词表。 词表可以使分类标引、主题标引在经过同一主题分析、

22、采用同一标引工具的过程中一次完成,而且能够降低主题标引的难度,提高标引的一致性。同时,由于分类号与主题词之间建立了对应联系,有利于在检索系统中实现分类号与主题词之间的相互转换,从而提高检索效率。第2章 检索语言 31 第2章 检索语言2.6.1 2.6.1 检索语言面临的网络环境检索语言面临的网络环境 2.6.1.1 信息类型的变化2.6.1.2 信息数量与质量的变化2.6.1.3 检索技术的变化2.6.1.4 信息用户的变化2.6 2.6 网络信息网络信息检索语言检索语言 32 2.6.2 2.6.2 网络环境下的分类检索语言网络环境下的分类检索语言第2章 检索语言形形式式上上1. 分类法的

23、电子化 2. 分类体系结构的多维化 33 第2章 检索语言内内容容上上1. 聚类标准的主题化2. 类目划分的随意性3. 类目排列非逻辑性4. 类名的通俗化 在新的网络环境下,分类语言沿着两个方向继续得到发展。 一个方向是积极地调整传统分类法自身,以满足信息资源数量的迅速增长。另一个方向是抛开传统的分类法,重新建立新的分类体系,即网络分类目录。 34 2.6.3 2.6.3 网络环境下的主题检索语言网络环境下的主题检索语言2.6.3.1 传统主题检索语言在网络信息检索系统 中的应用2.6.3.2 辅助词表的应用第2章 检索语言后控后控词表词表 禁用禁用词表词表 反义字反义字词典词典 同义字同义字

24、词典词典 35 2.6.4 2.6.4 自然语言在信息检索中的应用自然语言在信息检索中的应用自然语言指直接取自文献本身,不经加工和规范的语言,它包含词、词组或句子,没有繁琐规则的约束,不添加任何人工的色彩。自然语言在信息检索中的应用主要表现为使用关键词的全文检索。全文检索是指不经过任何标引,而直接通过计算机以自然语言的形式在文本中进行匹配查找。文本中任何字符和字符串均可作为检索入口。 第2章 检索语言 36 采用全文检索技术的检索系统一般具有如下优势:第2章 检索语言方便易用。全文检索是采用用户所熟悉的自然语言进行方便易用。全文检索是采用用户所熟悉的自然语言进行检索,用户使用检索系统之前一般不

25、需要进行培训和学检索,用户使用检索系统之前一般不需要进行培训和学习,方便易用。习,方便易用。查全率高。全文检索系统可以对文本中任意字符都进行查全率高。全文检索系统可以对文本中任意字符都进行匹配检索,不受标引限制,因此,可以实现高的检全率,匹配检索,不受标引限制,因此,可以实现高的检全率,并且用户可以直接查看文本的任何章节、段落、句子、并且用户可以直接查看文本的任何章节、段落、句子、词或字,而不只是索引或摘要。词或字,而不只是索引或摘要。检索功能强大。一般的全文检索系统都能进行布尔检检索功能强大。一般的全文检索系统都能进行布尔检索、截词检索、位置检索、相关检索等,能够满足用户索、截词检索、位置检索、相关检索等,能够满足用户不同的检索需求。不同的检索需求。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号