信息检索语言

上传人:公**** 文档编号:557780349 上传时间:2023-12-09 格式:DOCX 页数:4 大小:66.45KB
返回 下载 相关 举报
信息检索语言_第1页
第1页 / 共4页
信息检索语言_第2页
第2页 / 共4页
信息检索语言_第3页
第3页 / 共4页
信息检索语言_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《信息检索语言》由会员分享,可在线阅读,更多相关《信息检索语言(4页珍藏版)》请在金锄头文库上搜索。

1、第二节 信息检索语言 计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时, 即为命中,检索成功。由此可见,能否准确地检索出用户所需信息,关键在于能否准确地选择检索词。这里所说的“准 确”,是指用户所选的检索词必须与数据库中标引文献记录所用的标引词一致。然而实际工作中,从事信息存储的人 员与从事信息检索的人员绝大多数情况下不可能进行直接的思想交流,因而会造成存储信息与检索信息所依据的规则 不一致,导致存入的文献检不出。为了避免这种情况发生,在信息标引人员与信息检索人员之间必须制定一种共同遵 守的规则,即一种约定的相同标识和线路,这就是检索语言。

2、一 检索语言的含义及作用1 检索语言的概念检索语言(information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一 种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。有了这种规则,信息标引人员在进行信息存储的过程中,就会对原始信息进行分析,找出其能代表信息的特征与检索 语言(检索标识系统)进行对照标引,然后纳入检索系统;而信息检索人员在进行信息检索的过程中,则先对待查课 题进行分析,归纳出各种信息特征,使之形成能代表需要的检索提问,然后把这些提问与检索语言(检索标识系统) 进行核对,标引

3、成检索提问标识。如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相 同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。2 检索语言的工作原理(1)存储:检索系统对文献内容进行分析,概括分析出若干能代表文献内容的语词,并赋予一定的标识,如题名、作 者、主题词等,作为存储与检索的依据,然后纳入到数据库中。(2)检索:检索人员首先要对检索课题进行分析,同样形成若干能代表信息需求的语词,然后通过检索系统在数据库 中匹配具有同样语词和标识的文献,找到自己所需的信息。3 检索语言的作用(1)保证不同标引人员表征文献信息的一致性。(2)使内容

4、相同及相关的文献集中化。(3)保证检索提问与文献信息标引的一致性。(4)保证检索者按不同需求检索文献信息时都能获得较高的查全率和 查准率。二 检索语言的类型1自然语言(na tural language)检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,辅以人 工自由标引(非依据词表的标引方法),是非规范词(uncon tr olled term)。(1)关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。(2)题名:信息资源的名称,如论文篇名、图书书名、网站名称等。(3)全文:从资源的内部内容中自动抽取、查找,是目前网上各类搜索引擎使用

5、的最多的方法。(4)引文(quo tat ion):将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。自然语言的优点:(1)新颖性强 :一旦文献中出现某个新词语,即可直接使用这一词语作为检索入口,根本无需像受控语言那样冥思 苦想地将其转换成另一规范词用于检索。(2)检索方便:它解除了人工语言的种种限制,不需要复杂的检索规则,使用者能较快适应,易用性强。(3)标引准确度高:自然语言采用从文献中抽词标引的方式,不容易发生误标引,适用于计算机检索。只要数据库的 文献标题中含有该检索词,即视为命中,健全率较高。自然语言的缺点:(1)词汇量太大,给词汇的存储、加工和检索带来许多操作性方面

6、的困难。(2)当文献的主题很明白清楚地在标题或主题词中表达出来时,检 索才会较成功,反之则失效。(3)词汇具有模糊性,另外多义、近义、同义现象较多,给标引和检索带来困难。2 人工语言 由人工创制的,采用规范词,用来专指某个概念或与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略 词规范在一起,由人工控制。包括分类检索语言、主题检索语言、代码检索语言。( 1)分类检索语言按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。中国图书馆图书分类法美国国会图书馆分类法杜威十进位分类法IPC 国际专利分类表下面以中图法为例说明体系分类法的结构与功能。中

7、图法是体系分类法的典型代表,是现今国内图书情报部门普遍使用的一部分类法。中图法的类目表由基本大类、简表、详表和复分表组成。基本大类 是分类法中的第一级类目,是对学科领域的基本划分。中图法共有二十二个基本大类,每个大类都用一 个英文字母表示。如下所示:A 马克思主义、列宁主义、毛泽东思想、邓小平理论B 哲学 宗教C 社会科学总论D 政治 法律E 军事F 经济G 文化 科学 教育 体育H 语言 文字I 文学J 艺术K 历史 地理N 自然科学总论O 数理科学 化学P 天文学 地球科学Q 生物科学R 医药卫生S 农业科学T 工业技术U 交通运输V 航空 航天X 环境科学 劳动保护科学Z 综合性图书简表

8、 又称为基本类目表,是分别对每个基本大类,依据它的某些属性,作进一步划分后而形成的二、三级类目表。如Q 生物科学Q1 普通生物学Q2 细胞学Q3 遗传学Q4 生理学Q5 生物化学III详表 又称主表或正表,由简表进一步细分而成的最小概念性分类表。如:I 文学I0文学理论I1世界文学I2中国文学I20I21作品集I22诗歌、韵文I23戏剧文学I24小说I242 古代至近代作品I246 现代作品I247 当代作品I247.4 章回小说I247.5 新体长篇、中篇小说I247.7 新体短篇小说I247.8 故事、微型小说I25报告文学I26散文I3/7 各国文学复分表 是供主表中某些类目共同细分而从

9、主表中抽出的一部分类目表。使用体系分类检索语言编制的分类表按学科或专业集中文献信息,以学科概念的上下左右关系反映事物的派生、隶属 平行的关系,较好地体现了学科的系统性,能较好地满足族性检索的要求。其次,体系分类法用字母和数字表示类目 便于组织文献排架及目录系统,又适于文献信息的收集和编制手工检索工具。但由于体系分类法使用的是号码式语言 作检索标识,一方面不直观,另一方面在检索文献信息时,必须将文字主题转换成分类标识,在转换过程中,容易产 生差错,造成误检或漏检,影响检索效率。此外,体系分类法采用的是先组式检索语言,因此,增补新概念困难,修 改不及时,不适应新兴学科和边缘学科的检索。(2)主题检

10、索语言: 主题检索语言是以词语作为表达主题概念的标识,按字顺编排的检索语言。标题词语言 是最早使用的一种主题语言。它以规范化的自然语义作为标识来表达文献涉及的主题概念,表达主题的词 语称为标题。单元词语言 是从文献内容中抽选出来的最基本的词汇、将代表最一般、最基本的、不可再分割的概念的词作为单独标 引文献的单位。叙词语言 是从自然语言中优选出来并经过规范化处理的名词术语。采用表示单元概念的规范化语词的组配对文献内容 主题进行描述,也是目前使用最广泛的主题语言。主题语言举例:下例为 EBSCO 出版公司 Business Source Premier 数据库中选定“建议主题语” (据2008 年

11、数据)魁0切购 ELECT RON I匚 infunriBti 曲 怕 sow能 am 恤ig理 FORMAT ION st 口 rag &retriMnl systemsIIFOFF二TIO【i七 DNF0 庄MATIQN.s匚iEneNa rrov/er Terms跑就;E律triEMl斟 FORM! AT ION servit| UJTER口ET 霁目匚hingRelated TermsScope NoteBroader T ermsHere are entered general v;orks on warching for and retrieving data from an in

12、formation storage structure, faciJjty, or service. Use only if7 a narrower term does not appEy (e.g,r Database searchingr Electronic information resource searching/ Image r-etrievalr Siformaticin sendees/1 Information storage 81 retrieval or Internet werching1). EPC| 負MESS tinfcirmation DXUhlERTATIO

13、 口(3)代码检索语言就事物的某一方面特征,用某种代码系统来加以标引和排列,目前主要应用于化学领域。例如。化合物的分子式索引 系统、环状化合物的环系索引系统等。3 人工语言与自然语言的关系 与自然语言相比较,人工语言的检索效率要高于自然语言,查全率和差准率都比较高,但人工语言是基于印刷性资源 产生的,对标引和检索来说,标引工作量大,需要不断维护,管理成本高,用户也不易掌握。因此,在数字资源飞速 发展的今天,仅使用人工语言是远远不够的。自然语言由于主要由系统自动标引完成,灵活、新颖、检索入口多、专指性好,管理和维护的成本较低,用户也不需 要特别的学习和培训;但由于目前计算机的抽词技术还无法做到从自然语言文本中自动抽取最准确、充分表达信息资 源内容的词,也无法自动规范自然语言和表现概念之间的关联,检索效率很低,具体表现在搜索引擎的使用上,利用 搜索引擎检索出来的内容大部分是无用信息。因此人工语言和自然语言并不是互相对立的,比较成熟的检索系统,通常是两种检索语言并用,互为补充,以保证较 高的检索效率。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号