信息检索原理与检索语言.ppt

上传人:公**** 文档编号:570030463 上传时间:2024-08-01 格式:PPT 页数:47 大小:804KB
返回 下载 相关 举报
信息检索原理与检索语言.ppt_第1页
第1页 / 共47页
信息检索原理与检索语言.ppt_第2页
第2页 / 共47页
信息检索原理与检索语言.ppt_第3页
第3页 / 共47页
信息检索原理与检索语言.ppt_第4页
第4页 / 共47页
信息检索原理与检索语言.ppt_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《信息检索原理与检索语言.ppt》由会员分享,可在线阅读,更多相关《信息检索原理与检索语言.ppt(47页珍藏版)》请在金锄头文库上搜索。

1、第四章第四章 检索原理与检索语言检索原理与检索语言一、一、 计算机信息检索概述计算机信息检索概述(分为存储和检分为存储和检索两个部分索两个部分)计算机信息检索系统是信息检索所用计算机信息检索系统是信息检索所用的硬件资源(如计算机,网络)、系统软的硬件资源(如计算机,网络)、系统软件(如件(如windows系列软件)以及信息资源系列软件)以及信息资源数据库的总和,它能存储大量的信息,并数据库的总和,它能存储大量的信息,并对信息条目分类、编目或编制索引;并进对信息条目分类、编目或编制索引;并进行检索。)行检索。)计算机信息检索的主要环节包括计算机信息检索的主要环节包括:信息分析信息分析(确定输入系

2、统的信息条目(确定输入系统的信息条目的格式和内容,为建立索引作准备)的格式和内容,为建立索引作准备)信息存储信息存储(建立信息库,以备检索)(建立信息库,以备检索)信息检索信息检索(脱机检索和联机检索两种(脱机检索和联机检索两种方式方式二二 、计算机检索系统的构成、计算机检索系统的构成1计算机硬件:系统中采用的各种硬件设备的总称,包计算机硬件:系统中采用的各种硬件设备的总称,包括具有一定性能的计算机主机、外围设备以及与数据处理括具有一定性能的计算机主机、外围设备以及与数据处理或数据传输有关的其他设备。主机,是计算机检索系统的或数据传输有关的其他设备。主机,是计算机检索系统的中枢。外围设备包括外

3、部存储器,输入输出设备如键盘、中枢。外围设备包括外部存储器,输入输出设备如键盘、光笔、鼠标、光学字符识别装置,显示终端、打印机等。光笔、鼠标、光学字符识别装置,显示终端、打印机等。2软件软件:系统中有关的程序和各种文件资料的总称,包:系统中有关的程序和各种文件资料的总称,包括系统软件(如操作系统,输入输出控制程序)和应用软括系统软件(如操作系统,输入输出控制程序)和应用软件。件。3 数据库数据库:“一组文件的集合一组文件的集合”,三计算机信息检索中常用的服务方式三计算机信息检索中常用的服务方式计算机信息检索系统输出检索结果并计算机信息检索系统输出检索结果并向用户提供的过程叫信息提供。根据用户向

4、用户提供的过程叫信息提供。根据用户的要求,可有多种提供方式。的要求,可有多种提供方式。1定题情报服务定题情报服务:即:即SDI服务(服务(SelectiveDisseminationofInformation。常用常用的服务方式。的服务方式。过程一般是:用户需求过程一般是:用户需求编写检索编写检索提问式提问式存贮在计算机中存贮在计算机中每隔每隔一段时间让计算机将其调出一段时间让计算机将其调出对新对新记录进行检索记录进行检索最后将命中的记录最后将命中的记录输出并提供给相应的用户输出并提供给相应的用户保证他保证他们及时了解研究课题的最新情况。它们及时了解研究课题的最新情况。它是一种追踪学科发展动态

5、的有效方式。是一种追踪学科发展动态的有效方式。其特点如下:其特点如下:1)服务针对性强,)服务针对性强,能根据检索课题提供专门服务;能根据检索课题提供专门服务;2)定期向用户分发结果,保证用)定期向用户分发结果,保证用户总能及时了解最新情况;户总能及时了解最新情况;3)保)保证数据库中的资料能全面、准确证数据库中的资料能全面、准确地满足用户要求。地满足用户要求。2回溯性情报服务回溯性情报服务:也称为也称为RS(Retrospective Searching),),通常是针通常是针对某一课题,对情报数据库进行若干年的对某一课题,对情报数据库进行若干年的回溯性检索。检索内容不一定要最新。适回溯性检

6、索。检索内容不一定要最新。适于课题调研、对某一问题作全面了解、编于课题调研、对某一问题作全面了解、编制专题资料等。制专题资料等。3 问答式检索服务问答式检索服务:(:(Question and Answering Service)是一种实时性检索服是一种实时性检索服务。用户当场,随时提问,随时得到结果。务。用户当场,随时提问,随时得到结果。四计算机信息检索语言:四计算机信息检索语言:1 什么是检索语言什么是检索语言:检索语言检索语言是是检索索系系统存存贮与与检索运用的共同索运用的共同语言。言。换言之,描述信息系言之,描述信息系统中信息的内容特中信息的内容特征及外表特征和表达用征及外表特征和表达

7、用户信息提信息提问的的一种共同一种共同语言。言。2 功能功能:简单明了而又比明了而又比较专指的描述文献的主指的描述文献的主题概念;容概念;容易将概念易将概念进行系行系统排列;排列;检索索时便于将便于将标引用引用语和和检索用索用语进行相符性比行相符性比较等。等。是是标引文引文献的依据,献的依据,检索文献的条件,索文献的条件,是沟通情是沟通情报人人员与用与用户思想的思想的桥梁。梁。3、检索语言的类型检索语言的类型 按文献内容特征按文献内容特征 1 主题法语言主题法语言 标题词语言言 (较准准确确,具体到点,具体到点) 关关键词语言言 单元元词语言言 叙叙词语言言2分类语言分类语言(较全全面面,具体

8、到面,具体到面)体系分体系分类语言言组配分配分类语言言混合分混合分类语言言4分类语言分类语言(P21):将各种概念按学科性质进将各种概念按学科性质进行分类和系统排列,并用分类号来表达各种行分类和系统排列,并用分类号来表达各种概念的一种先组式语言。从学科门类的角度,概念的一种先组式语言。从学科门类的角度,强调面的作用,泛指度高,查全率高,满足强调面的作用,泛指度高,查全率高,满足族性检索。族性检索。 4.1中图法中图法是为统一全国文献分类编目创造是为统一全国文献分类编目创造条件而编制和发展的。条件而编制和发展的。1957年文化部主持编制年文化部主持编制了了中小型法中小型法,在此基础上一些图书馆陆

9、续,在此基础上一些图书馆陆续把它扩充为大型分类法。把它扩充为大型分类法。1975年正式出版了年正式出版了中图法中图法第一版。第一版。特点特点:(1)中图法中图法采用拉丁字母与阿拉伯采用拉丁字母与阿拉伯数字相结合的混合制标记符号,以拉丁字母标数字相结合的混合制标记符号,以拉丁字母标记基本大类。记基本大类。 ( 2)分为五大部类,分为五大部类,22基本大类。基本大类。属于五分法属于五分法 A 马克思主义、列宁主义、毛泽东思想、邓小平理论马克思主义、列宁主义、毛泽东思想、邓小平理论 B 哲学、宗教哲学、宗教 C 社会科学总论社会科学总论 D 政治、法律政治、法律 E 军事军事 F 经济经济 G 文化

10、、科学、教育、体育文化、科学、教育、体育 H 语言、文字语言、文字 I 文学、艺术文学、艺术 K 历史、地理历史、地理社会科学社会科学N自然科学总论O数理科学和化学 P天文学、地球科学Q生物科 R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书自然科学自然科学综合类图书综合类图书P20一般性的问题P21普通测量学地形测量学P1天文学P22大地测量学 P229P229海洋测量学P2测绘学P23摄影测量与遥感P3地球物理学P25专业测绘与工程测量PP4气象学P27地籍学P5地质学P28地图制图学 P29P29地图与地图集P7海洋学P9自然地理学TB一般工业技术一

11、般工业技术TD矿业工程矿业工程TE石油石油TF冶金工业冶金工业TG金属学、金属工艺金属学、金属工艺TH机械、仪表工艺机械、仪表工艺TJ武器工业武器工业TK动力工程动力工程TL原子能技术原子能技术TM电工技术电工技术TN无线电电子学无线电电子学 电讯技术电讯技术TP自动化技术自动化技术 计算技术计算技术TQ化学工业化学工业TS轻工业、手工业轻工业、手工业TU建筑科学建筑科学TV水利工程水利工程TP1自动化基础理论自动化基础理论 TP31程序设计程序设计TP2自动化技术及设备自动化技术及设备 TP32一般计算机和计算器一般计算机和计算器TP3计算机计算机 TP33电子数字计算机电子数字计算机TP6

12、射流技术射流技术 TP34电子模拟计算机电子模拟计算机TP7遥感技术遥感技术 TP35混合电子计算机混合电子计算机TP8运动技术运动技术 TP36小型、微型、台式计算机小型、微型、台式计算机 TP38其他计算机其他计算机 TP39计算机应用计算机应用TTM电工技术TM0一般性问题TM1电工基础理论TM2电工材料TM3电机TM4变压器、变流器及电抗器TM5电器TM6发电、发电厂TM7输配电工程、电力网及电力系统TM8高电压技术TM91独立电源技术TM92电气化、电能应用TM93电器测量技术及仪器TN无线电电子学电信技术TN0一般性问题TN1真空电工技术TN2光电技术、激光技术TN3半导体技术TN

13、4微电子学、集成电路TN6电子元件、组件TN7基本电子电路TN8无线电、电信设备TN91通信TN92无线电通信TN93广播TN94电视TN95雷达TN96无线电导航TN97电子对抗TN98无线电、电信测量技术及仪器TN99无线电电子学应用TN40一般性问题TN42微模组件TN43半导体集成电路TN44集成电路TN45混合集成电路TN46中规模集成电路TN47大规模集成电路超大规模集成电路TN48真空集成电路TN491光学集成电路TN495功能块中图法是典型的体系分类语言,是以学科为基础,运用逻辑划分的原理,以文献内容、所属学科、专业性质及特征对文献进行系统化组织。即从总到分,从一般到具体,从简

14、单到复杂,从低级到高级,层层隶属,层层划分,形成一个严格有序的直线性知识门类的层累制体系。这种体系能体现学科的系统性,清楚的反映出事物的派生、隶属与平行关系,便于用户从学科专业的角度查找文献资料。例如:要查找“轴承”方面的文献,首先必须确定它所属的大类类别为T工业技术,其次按照隶属关系可以依次推断为TH机械、仪表TH13机械零件及传动装置TH133转动机件TH133.3轴承,最后确定“轴承”方面的文献在中图法中的分类号为TH133.3。4.2中国科学院图书馆图书分类法中国科学院图书馆图书分类法(1)发展历程发展历程:根据中科院图书馆综合性藏:根据中科院图书馆综合性藏书范围,以及中国科学院所属各

15、研究单位图书范围,以及中国科学院所属各研究单位图书馆不同专业的特点而编制的一部体系分类书馆不同专业的特点而编制的一部体系分类法。于法。于1954年开始编制,年开始编制,1958年完成,并于年完成,并于同年出版第一版。同年出版第一版。(2)科图法科图法的体系结构的体系结构:首先,分类表分成首先,分类表分成5大部,大部,25大类。大类。其次,层层划分,详细展开,形其次,层层划分,详细展开,形成等级分明的类目体系。成等级分明的类目体系。最后,采用纯阿拉伯数字的标记最后,采用纯阿拉伯数字的标记符号。符号。如:如:00马克思列宁主义、毛泽东思想马克思列宁主义、毛泽东思想10哲学哲学 20 社会科学社会科

16、学 21 历史、历史学历史、历史学 27 经济、经济学经济、经济学 31 政治、社会生活政治、社会生活 34 法律、法学法律、法学 36 军事、军事学军事、军事学 37 文化、科学、教育、体育文化、科学、教育、体育 41 文学文学 48 艺术艺术 49 无神论无神论 50 自然科学自然科学51数学52力学53物理学53.6电学与电磁学53.61电子原理53.611电子说90 综合性图书综合性图书91 书目、索引书目、索引92 百科全书、类书百科全书、类书93 词典词典94 年鉴、年刊年鉴、年刊科图法与中图法都属于体系分类语言,在国内图书馆界均有着较大的影响力。各个图书馆都是根据自己的馆藏特点和

17、服务范围采用不同的分类法进行图书的分类排架。图书采购进馆后,工作人员对每本图书均会赋予一个独特的排架号。所谓排架号就是指图书在架上的特定位置,也称索取号。不同类型图书馆的索取号有所不同。有些是采用分类号顺序号,有些是采用分类号著者号区分号(区分号可以表示图书的卷册、出版时间或者种次号等)。索取号是图书馆图书排架和读者获取图书的依据。图书书脊所贴书标上的号码就是索取号的直接体现。一般在书标上分多行居中显示,第一行一般为分类号,第二行则为顺序号或著者号等,各个馆采用的方式不一样。图书在书库和阅览室的排列,就是按照索取号来排列的,即图书先按分类号顺序排架,同类图书再按著者号进一步区分,依数字或字母从

18、小至大,从前到后排列。例如:某图书馆对金惠娟编写的例如:某图书馆对金惠娟编写的微型计算微型计算机原理及应用系统设计机原理及应用系统设计一书赋予的索取号为一书赋予的索取号为 TP39/J5TP39/J5,“/”“/”前的前的TP39TP39为该书的中图法分类为该书的中图法分类号,号,“/”“/”后的后的J5J5为该书的著者号和区分号。为该书的著者号和区分号。因此,查到索取号,就可以很容易地在书库或因此,查到索取号,就可以很容易地在书库或阅览室找到对应的书刊。阅览室找到对应的书刊。5主题法语言主题法语言: 直接选用代表事物、问题和现直接选用代表事物、问题和现象的术语作为表达文献主题内容的象的术语作

19、为表达文献主题内容的检索标识。特点:从主题概念入手,检索标识。特点:从主题概念入手,强调点的作用,具体准确,专指度、强调点的作用,具体准确,专指度、查准率都比较高,满足特性检索查准率都比较高,满足特性检索5.1标题词标题词(Subject Heading) 从科技工作者熟悉的大量科从科技工作者熟悉的大量科技名词中选出的具有技名词中选出的具有实质意义实质意义,并能准确表达文献主题内容,经并能准确表达文献主题内容,经规范化处理规范化处理的科技名词术语。的科技名词术语。(代代表文献实质意义经规范化的词语表文献实质意义经规范化的词语)5.2关键词关键词(keyword)出现在文献标题、文摘及正文中,出

20、现在文献标题、文摘及正文中,对表达文献主题内容具有实质性意对表达文献主题内容具有实质性意义的词语,即在揭示与描述文献主义的词语,即在揭示与描述文献主题内容中起关键性作用的科技名词题内容中起关键性作用的科技名词术语。术语。(直接使用的自然词语直接使用的自然词语)。一般是现成的词汇5.3单元词单元词( (UnitermUniterm) )属于后组式语言。将多元概念分解为不能再分属于后组式语言。将多元概念分解为不能再分的单元概念。的单元概念。(代表文献实质意义、可以独立存代表文献实质意义、可以独立存在的最小概念单元在的最小概念单元) 如如“大学大学”和和“研究研究”都是单元词,因为它都是单元词,因为

21、它们都不能再分。把们都不能再分。把“大学大学”分为分为“大大”和和“学学”都不再是具有独立和明确的意义。都不再是具有独立和明确的意义。 但但“大学教育大学教育”和和“科学研究科学研究”却可以进一却可以进一步分解。如分解为步分解。如分解为“大学大学”和和“教育教育”,或,或“科学科学”和和“研究研究”都具有独立的意义。都具有独立的意义。5.4叙词(叙词(DescriptororThesaurus)DescriptororThesaurus):以概念为基础,经规范化处理,具有组配性能并能显以概念为基础,经规范化处理,具有组配性能并能显示词间语义关系的科技名词术语。示词间语义关系的科技名词术语。(经

22、规范化的可以经规范化的可以独立表达主题概念的词语独立表达主题概念的词语) 特点特点 (1)它不仅适用于手工检索,更适用于计算机它不仅适用于手工检索,更适用于计算机检索。检索。 (2)不仅在于拆词,更在于拆义。不仅在于拆词,更在于拆义。叙词语言综合了各种语言的优点,因此在表达叙词语言综合了各种语言的优点,因此在表达文献主题内容上更为准确、全面,是目前计算机检索文献主题内容上更为准确、全面,是目前计算机检索中用的最普遍的一种语言,科学实用。中用的最普遍的一种语言,科学实用。 如何正确使用主题词与关键词如何正确使用主题词与关键词如:遥感和地理信息系统用于监测热带雨林如:遥感和地理信息系统用于监测热带

23、雨林 关键词:热带雨林关键词:热带雨林 遥感遥感 监测监测 GIS 主题词:环境遥感主题词:环境遥感 环境监测环境监测 森林遥感森林遥感 GIS-应用应用 遥感遥感-应用应用 如何选择关键词例如:城市生活污染研究关键词:城市(都市、城区)生活污染(生活污水、生活垃圾、电磁辐射污染等)有关室内装修污染方面的研究关键词:室内、装修、污染同义词或近义词:室内(住宅、居室、房屋)污染(放射性、化学、氡气、甲醛、苯等)主题词的语义参照关系主题词的语义参照关系See 与与 see also 见与参见见与参见Use 用(用(Y)UF(use for) 代(代(D)BT(broad term) 属(属(S)N

24、T(nerrow term) 分(分(F)TT(top term) 族(族(Z)RT(relate term) 参(参(C)等同关系等级关系相关关系语义关系参照系统叙词标题词中文英文中文英文简称拼音缩写简称原称见见See等同关系用代YDUseUFUseUsefor等级关系属分SFBTNTBroadtermNarrowterm相关关系参CRTRelatedterm参见SeeAlso标题词、叙词语义参照关系对照表WaterpollutiondetectionandcontrolBTpollutiondetectionandcontrolTTpollutiondetectionandcontrolR

25、Thydrologicaltechniquesoceanographicequipmentoceanographictechniqueswaterpollutionwatertreatment例如:IntegratedCircuits(主题词)UFIC(关键词)Microcircuits(关键词)Microelectronics(关键词)NTDigitalIntegratedCircuits(下位主题词)LinearIntegratedCircuits(下位主题词)BTNetworks(Circuits)(上位主题词)TTNetworks(Circuits)(族首词)RTIntegratedC

26、ircuitsManufacture(相关主题词)IntegratedCircuitsTechnology(相关主题词)IntegratedCircuitsTesting(相关主题词)五、五、 数据库(略)数据库(略) 数据库是数据库是“至少由一个文档组成,至少由一个文档组成,并能满足某一特定目的或某一特定数并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合据处理系统需要的一种数据集合”。通俗地说,数据库就是在计算机存储通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的设备上按一定方式存储的相互关联的数据集合。数据库是计算机技术与信数据集合。数据库是计算机技术与信息检索技术相结合的产物,是信息检息检索技术相结合的产物,是信息检索的重要资料来源。索的重要资料来源。思考题思考题主题法语言的语义参照关系主题法语言的语义参照关系有哪些?其作用是什么有哪些?其作用是什么?试分析题名词、关键词与主题词的区别?试分析题名词、关键词与主题词的区别?以以中图法中图法为例,查出自己本专业文献的学科分为例,查出自己本专业文献的学科分类号。类号。学科分类号就是图书排架号(或者图书索取号)吗学科分类号就是图书排架号(或者图书索取号)吗?在武汉大学图书馆电子资源中有哪些数据库提供了在武汉大学图书馆电子资源中有哪些数据库提供了主题词表,举例说明。主题词表,举例说明。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号