第2章计算机信息检索技术

上传人:bin****86 文档编号:54903858 上传时间:2018-09-21 格式:PPT 页数:99 大小:2.43MB
返回 下载 相关 举报
第2章计算机信息检索技术_第1页
第1页 / 共99页
第2章计算机信息检索技术_第2页
第2页 / 共99页
第2章计算机信息检索技术_第3页
第3页 / 共99页
第2章计算机信息检索技术_第4页
第4页 / 共99页
第2章计算机信息检索技术_第5页
第5页 / 共99页
点击查看更多>>
资源描述

《第2章计算机信息检索技术》由会员分享,可在线阅读,更多相关《第2章计算机信息检索技术(99页珍藏版)》请在金锄头文库上搜索。

1、信息检索教程 第2章 计算机信息检索技术,1 信息检索的基本概念,1.1 信息检索的涵义 从广义上讲,信息检索包括两个过程, 一是信息存储(information storage),即信息的标引、加工和存储过程: 二是信息检索(information retrieval),即信息用户的查找过程。 从狭义上讲,信息检索仅指后一部分。 信息检索的本质是一个匹配的过程 即用户的信息需求和信息存储的信息集合进行比较和选择的过程,信息存储和检索过程的基本原理,输出,一次 信息,信息 特征,检 索 语 言,信息特征 标识,检 索 结 果,信息 需求,检索 提问,检索提问 标识,分析,标引,标引,输入,检索

2、,信息检索系统(工具),存储 过程,检索 过程,分析,标引 (indexing),通过对文献的分析,选用确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献的内容的过程。主要指选用检索语言词或自然语言词反映文献主题内容,并以之作为检索标识的过程。Indexing一词,音译为引得法或意译为索引法,系指索引的编制技术与方法。现代外语辞典中则说明此词有2解,一指索引法,一指标引。 标引是文献加工中的重要环节。 标引的质量,对文献的检索效果有直接的决定性影响。,标识(标志)的词义,标志”与“标识”,在现代汉语中是等价的。 现代汉语词典中,【标识】biozh 同“标志”。 标识的另

3、类应用:信息创新定义 信息的新定义与标识 传统的信息定义,一直不够完备,关键就是没有更早的启用“标识标志表识”这词。传统经典信息定义,加上“标识”一词,马上就升格为,定义的标版。 如,著名维纳的否定式的信息定义(改造前):信息就是信息,信息既不是物质,也不是能量。 改造后,逆维纳信息定义:信息就是信息,信息是物质、能量、信息及其属性的标识。 2002年Dengs原创的信息定义:信息是事物属性标识的集合。 跟随模仿的画蛇定义:信息是事物属性的表征(普适性缩小,添足)。,计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储存到计算机存储信息系统中,编制出一个信息检索系统或信

4、息检索工具的过程。,1.2 计算机信息检索,用户,输入 检索 需求,分析转换 处理需求,数据库 检索=概念词的 相关匹配运算,概念词典 控制词表,信息源,筛选 录入,分类、词索引 文档预处理,计算机信息检索的基本原理,1.3 信息检索的类型,按信息检索的内容划分 文献检索 数据检索 事实检索 概念检索,按信息检索的组织方式划分,全文本检索 多媒体检索 超文本检索,超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。,WWW,(1)文献检索

5、Document Retrieval,根据检索(查找)对象的划分为文献(信息)检索、事实检索和数据检索。文献检索主要是利用二次文献进行 ,是信息检索中最基本、最重要的类型。 例:系统收集有关“高强度预应力混凝土管桩承载性能”这就需要我们根据课题要求,按照一定的检索标识(如主题词、分类号等),从所收藏的文献中查出所需要的文献。,(2)数据检索Data Retrieval,是指查找用户所需特定数据的检索。利用各种词典、手册、百科全书、年鉴、等参考工具书进行检索,也可以利用专门的数据库进行检索。例:我国第五次人口普查中全国汉民族的人数。熔点、电阻系数,计算公式、数据图表,化学分子式等。,(3)事实检

6、索Fact Retrieval,是将存储于检索系统中的关于某一事件发生的时间、地点、经过等信息查找出来的检索。它回答的问题诸如:“有哪些海外华人得过诺贝尔奖?” 工具:字典、词典(dictionary)百科全书(encyclopedia)年鉴(annual, yearbook, almanac)手册(handbook, manual)名录(biography)和书目指南(directory) 例:第三届全国ITAT教育工程就业职能大赛项目瑞萨超级MCU模型车大赛的比赛,福建工程学院学生的获奖情况。某同类汽车产品中,哪种牌号的销量,练习(判断问何种检索类型),1、世界上有多少篇关于“飞机材料疲劳

7、断裂问题的研究”的文章等。2、某种型号飞机的体积、机动性能如何?3、某高速公路有多长?4、“ title ”的中文含义是什么?,超文本、超媒体,一、超文本(hypertext) 一种全局性的信息结构,它将文档中的不同部分通过关键字建立链接,使信息得以用交互方式搜索。它是超级文本的简称。 二、超媒体是超文本(hypertext)和多媒体在信息浏览环境下的结合。它是超级媒体的简称。用户不仅能从一个文本跳到另一个文本,而且可以激活一段声音,显示一个图形,甚至可以播放一段动画。,Web,Internet采用超文本和超媒体的信息组织方式,将信息的链接扩展到整个Internet上。Web就是一种超文本信息

8、系统,Web的一个主要的概念就是超文本连接,它使得文本不再象一本书一样是固定的线性的。而是可以从一个位置跳到另外的位置。你可以从中获取更多的信息。可以转到别的主题上。想要了解某一个主题的内容只要在这个主题上点一下,就可以跳转到包含这一主题的文档上。正是这种多连接性我们才把它称为Web。 Web与平台无关 、Web是分布式的 、是动态的交互的,2 检索系统,检索系统(retrieval system)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。,2.1 检索系统的功能模块,信息源选择与采集子系统对通常的计算机检索系统来说,信息

9、选择与采集主要由人工完成,但对于网络信息检索系统来说,则主要通过网络搜索机器人Robot自动进行,并且可以定期更新。 标引子系统标引处理的类型:人工赋词标引、机器标引、无标引(或全标引);标引要求:不漏标(全面)、不错标(准确)、不滥标(简练)。 建库子系统工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。,2.1 检索系统的功能模块,词表管理子系统主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。 用户接口子系统一般有5种界面风格:命令/指令语言(command

10、 language)、菜单选择(menu selection)、表格填充(form fill-in)、直接操纵(direct manipulation)、自然语言(natural language)。 提问处理子系统检索系统(数据库)的核心,负责处理用户输入的检索词或提问式,并将它们与数据库中存储的数据进行匹配运算,然后把运算结果返回给用户。,2.2 文档记录字段,检索系统的基本组织形式由三个层次构成。 文档( file ):检索系统至少包括一个顺排文档(sequential files)。有的还包括一个倒排文档(inverted files)。 记录(record):文档的基本单元,由若干字

11、段组成的信息单元,是对某一信息实体的全部属性进行描述的结果。 字段(field):是记录的基本单元,它是对信息实体的具体属性进行描述的结果。,2.2 文档记录字段,检索系统的基本组织结构关系: 数据库 database文档 file, archive顺排文档记录Record字段Field倒排文档(索引index),3 检索语言,检索语言(retrieval language)是文献信息标引和检索提问而约定的人工语言。检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。在存储的过程中用于标引信息称为标引语言;用于编制索引就称为索引

12、语言;用于信息检索则称为检索语言。,3.1 检索语言的种类,分类语言(classification language)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。 主题语言(subject language)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。 代码语言(code language)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。 自然语言是直接从

13、原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。,分类语言,分类语言中最常见的是体系分类语言,它按照学科体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂 的逻辑次序逐级展开。 专利分类表 中国科学院图书分类法 中国图书馆图书分类法 杜威十进分类法 (国外),中国图书馆图书分类法,基本部类: 1、马克思主义、列宁主义、毛泽东思想、邓小平理论 2、哲学 3、社会科学 4、自然科学 5、综合性图书,基本大类: (22个)A 马列主义毛泽东思想邓小平理论 N 自然科学总论B 哲学 O 数理化科学C 社会科学总论 P 天文学、地理D 政治、法律 Q 生物科学E 军

14、事 R 医学、卫生 F 经济 S 农业科学G 文化、科学、教育、体育 T 工业技术H 语言、文字 U 交通运输I 文学 V 航空、航天 J 艺术 X 环境科学 K 历史、地理 Z 综合性图书,中国图书馆图书分类法,F 经济 F1 世界各国经济概况、经济史、经济地理 F11 世界经济、国际经济关系 F12 中国经济 F13/17 各国经济 F2 经济计划与管理 F20 国民经济管理 F21 经济计划 F22 经济计算、经济数学方法 F23 会计 F239 审计 F24 劳动经济 F25 物资经济,F27 企业经济 F29 城市与市政经济 F3 农业经济 F4 工业经济 F7 贸易经济 F72 中国国内贸易经济 F73 世界各国国内贸易经济 F74 国际贸易 F75 各国对外贸易 F8 财政、金融 F81 财政、国家财政 F82 货币 F83 金融、银行 F84 保险,中国图书馆图书分类法,T 工业技术TB 一般工业技术 TL 原子能技术TD 矿业工程 TM 电工技术TE 石油、天然气工业 TN 无线电电子学、电讯技术TF 冶金工业 TP 自动化技术、计算机TG 金属学、金属工艺 TQ 化学工业TH 机械、仪表 TS 轻工业、手工业TJ 武器工业 TU 建筑科学TK 动力工程 TV 水利工程,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号