《网络信息资源开发与利用程》系列课件-第2章

上传人:kms****20 文档编号:51406778 上传时间:2018-08-14 格式:PPT 页数:84 大小:999.50KB
返回 下载 相关 举报
《网络信息资源开发与利用程》系列课件-第2章_第1页
第1页 / 共84页
《网络信息资源开发与利用程》系列课件-第2章_第2页
第2页 / 共84页
《网络信息资源开发与利用程》系列课件-第2章_第3页
第3页 / 共84页
《网络信息资源开发与利用程》系列课件-第2章_第4页
第4页 / 共84页
《网络信息资源开发与利用程》系列课件-第2章_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《《网络信息资源开发与利用程》系列课件-第2章》由会员分享,可在线阅读,更多相关《《网络信息资源开发与利用程》系列课件-第2章(84页珍藏版)》请在金锄头文库上搜索。

1、网络信息资源开发与利用网络信息资源开发与利用第第2 2章章 信息检索基础知信息检索基础知识识北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社北京交通大学出版社*12-21 信息检索的基本概念 1.1 信息检索的涵义 从广义上讲,信息检索包括两个过程, 一是信息存储(information storage)

2、,即信息的标引 、加工和存储过程: 二是信息检索(information retrieval),即信息用户的 查找过程。 从狭义上讲,信息检索仅指后一部分。 信息检索的本质是一个匹配的过程 即用户的信息需求和信息存储的信息集合进行 比较和选择的过程Date2-3信息存储和检索过程的基本原理 输出一次 信息信息 特征 检 索 语 言信息特征 标识 检 索 结 果 信息 需求检索 提问检索提问 标识分析标引标引输入检索信息检索系统(工具)存储过程检索过程分析Date2-4计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储存到计算机存储信息系统中,编制出一个信息检索系统或信

3、息检索工具以及从检索系统或工具中检索所需信息的过程。n1.2 计算机信息检索Date2-5用户输入检索需求分析转换处理需求数据库数据库检索= =概念词的相关匹配运算概念词典控制词表信息源筛选录入分类、词索引文档预处理计算机信息检索的基本原理Date2-61.3 信息检索的类型 按信息检索的内容划分 文献检索 数据检索 事实检索 概念检索按信息检索的组织方式划 分 全文本检索全文本检索 多媒体检索多媒体检索 超文本检索超文本检索超文本检索是对每个节点中储存的信息以 及信息链构成的网络信息进行的检索。与 传统文本的线性顺序不同,超文本检索强 调中心节点之间的语义联结结构,靠系统 提供的工具进行图示

4、穿行和节点展示,提 供浏览式查询,可进行跨库检索。 WWWDate2-72 检索系统检索系统(retrieval system) 是指根据特定的信息需求而建立起来的 一种有关信息搜集、加工、存储和检索 的程序化系统,其主要目的是为人们提 供信息服务。Date2-82.1 检索系统的功能模块 信息源选择与采集子系统对通常的计算机 检索系统来说,信息选择与采集主要由人工完成 ,但对于网络信息检索系统来说,则主要通过网 络搜索机器人Robot自动进行,并且可以定期更新 。 标引子系统标引处理的类型:人工赋词标 引、机器标引、无标引(或全标引);标引要求 :不漏标(全面)、不错标(准确)、不滥标( 简

5、练)。 建库子系统工作流程主要包括数据录入、 错误检查与处理、数据格式转换、生成并定期更 新各种文档。Date2-92.1 检索系统的功能模块 词表管理子系统主要功能:管理维护系统中已 有词表的结构、词汇,使它与标引、建库、检索等多个子 系统相连接;支持用户的各种词汇查询操作;输出各种形 式的词汇数据或词表产品等。 用户接口子系统一般有5种界面风格:命令/指令 语言(command language)、菜单选择(menu selection)、表格填充(form fill-in)、直接操纵(direct manipulation)、自然语言(natural language)。 提问处理子系统

6、检索系统(数据库)的核心, 负责处理用户输入的检索词或提问式,并将它们与数据库 中存储的数据进行匹配运算,然后把运算结果返回给用户 。 Date2-102.2 文档记录字段 检索系统的基本组织形式由三个层次构成。 文档( file ):检索系统至少包括一个顺排文 档(sequential files)。有的还包括一个倒排 文档(inverted files)。 记录(record):文档的基本单元,由若干字 段组成的信息单元,是对某一信息实体的全部 属性进行描述的结果。 字段(field):是记录的基本单元,它是对信 息实体的具体属性进行描述的结果。 Date2-112.2 文档记录字段 检索

7、系统的基本组织结构关系:数据库 database文档 file, archive顺排文档记录Record字段Field倒排文档(索引index) Date2-123 检索语言 检索语言(retrieval language)是文献信息标引 和检索提问而约定的人工语言。检索语言是为沟通文献标引与文献检索而编制的 人工语言,也是连接信息存储和检索两个过程中 标引人员与检索人员双方思路的渠道。在存储的过程中用于标引信息称为标引语言 ;用于编制索引就称为索引语言;用于信息检索则称为检索语言。Date2-133.1 检索语言的种类 分类语言(classification language)是用分类号表达

8、各种概念的 检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系 的检索语言。主题分类语言其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列, 而不是按逻辑顺序排列。优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题 揭示非常有利。科学分类语言学科分类语言是以知识分类为基本,按照学科性质及从属、层次关系 来组织资源,类目排序以字顺为标准。优势:类目容量大,内容更有针对性,学术性更强,符合科技工作者族性 检索的要求。图书分类语言目前采用的主要有杜威十进分类法(DDC)、国际十进分类法(UDC )、美国国会图书馆分类法(LCC)和中国图书馆图书分类法(中图法)Da

9、te2-14 主题语言(subject language)是直接以表 达文献主题的语词作为检索标识,按字顺编 排并通过参照系统等方法提示词间关系的检 索语言。 代码语言(code language)是对事物的某 一方面特征用某种代码系统来加以标引和排 列的检索语言。例如,根据化合物的分子式 这种代码语言,可以构成分子式索引系统, 允许用户从分子式出发,检索相应的化合物 及其相关的文献信息。 自然语言是直接从原始信息中抽取出来的 未经规范化处理,用以揭示信息主题概念的 检索语言。Date2-15检索语言 的类型描述内容 特征语言描述外表 特征语言主题语言分类语言代码语言责任者题名其他自然语言受控

10、语言n关键词语言(keyword) n标题词语言(heading) n单元词语言(uniterm) n叙词语言(descriptor)Date2-16分类语言 分类语言中最常见的是体系分类语言,它 按照学科体系由上至下,从总体到局部, 由一般到具体,从低级到高级,从简单到 复杂 的逻辑次序逐级展开。 专利分类表 中国科学院图书分类法 中国图书馆图书分类法 杜威十进分类法 (国外)Date2-17中国图书馆图书分类法 基本部类: 1、马克思主义、列宁主义、毛泽东 思想、邓小平理论 2、哲学 3、社会科学 4、自然科学 5、综合性图书基本大类: (22个)A 马列主义毛泽东思想邓小平理论 N 自然

11、科学总论B 哲学 O 数理化科学C 社会科学总论 P 天文学、地理D 政治、法律 Q 生物科学E 军事 R 医学、卫生 F 经济 S 农业科学G 文化、科学、教育、体育 T 工业技术H 语言、文字 U 交通运输I 文学 V 航空、航天 J 艺术 X 环境科学 K 历史、地理 Z 综合性图书 Date2-18中国图书馆图书分类法 F 经济 F1 世界各国经济概况、经济史、经济地理 F11 世界经济、国际经济关系 F12 中国经济 F13/17 各国经济 F2 经济计划与管理 F20 国民经济管理 F21 经济计划 F22 经济计算、经济数学方法 F23 会计 F239 审计 F24 劳动经济 F

12、25 物资经济 Date2-19 F27 F27 企业经济企业经济 F29 F29 城市与市政经济城市与市政经济 F3 F3 农业经济农业经济 F4 F4 工业经济工业经济 F7 F7 贸易经济贸易经济 F72 F72 中国国内贸易经济中国国内贸易经济 F73 F73 世界各国国内贸易经济世界各国国内贸易经济 F74 F74 国际贸易国际贸易 F75 F75 各国对外贸易各国对外贸易 F8 F8 财政、金融财政、金融 F81 F81 财政、国家财政财政、国家财政 F82 F82 货币货币 F83 F83 金融、银行金融、银行 F84 F84 保险保险 Date2-20中国图书馆图书分类法 T

13、工业技术 TB 一般工业技术 TL 原子能技术 TD 矿业工程 TM 电工技术 TE 石油、天然气工业 TN 无线电电子学、电讯技 术 TF 冶金工业 TP 自动化技术、计算机 TG 金属学、金属工艺 TQ 化学工业 TH 机械、仪表 TS 轻工业、手工业 TJ 武器工业 TU 建筑科学 TK 动力工程 TV 水利工程 Date2-21 图书馆的藏书都是按分类号排架的。分类号的排 列采用由左至右逐位对比的方法进行排列,先比 较字母部分,再比较数字部分。字母部分按英文字母固有的次序排列。例:B2中国哲学B3世界哲学E27各种武装力量E512苏联军事TM92电气化、电能应用TU201建筑设计原理分

14、类号中的阿拉伯数字依小数制排列。例:B021辩证唯物主义的物质论B022辩证唯物主义的意识论B022.2客观规律性与主观能动性D035.37交通公安管理D035.4监察、监督分类号的排列次序 Date2-22分类号的排列次序 (续) 数字之后如还有字母,则在前部类号相同的 基础上,再按字母顺序排列。例:TP312AL ALGOL程序语言TP312BA BASIC程序语言TP312CO COBOL程序语言总论复分号“-”要排在数字“0”的前面。例:H-61,H0, H31-61,H310, 总论复分号“-”要排在组配符号“:” 的前面。 例:H31,H31-62,H31:F,H31:I, H319, H319.4,H319.4-44, H319.4:B, H319.4:C,Date2-23 读者实际利用图书馆时,往往需要知道书刊的分类号和索 书号(又称索取号)。 索书号是图书馆赋予每一种馆藏图书的号码,是读者 查找图书非常必要的代码信息。它的第一部分是分类 号,第二部分是书次号。索书号的两部分之间有一个 空格或一条斜线“/”。书次号或者是按照图书作者姓名 所编排的著者号码,或者是按照图书进入馆藏时间的 先后所取用的顺序号码。不同的索书号确定排列先后顺序的步骤是,先比 较分类号码;如

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号