《信息检索》讲稿

上传人:飞*** 文档编号:35829856 上传时间:2018-03-21 格式:DOC 页数:37 大小:142.50KB
返回 下载 相关 举报
《信息检索》讲稿_第1页
第1页 / 共37页
《信息检索》讲稿_第2页
第2页 / 共37页
《信息检索》讲稿_第3页
第3页 / 共37页
《信息检索》讲稿_第4页
第4页 / 共37页
《信息检索》讲稿_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《《信息检索》讲稿》由会员分享,可在线阅读,更多相关《《信息检索》讲稿(37页珍藏版)》请在金锄头文库上搜索。

1、1信息检索信息检索讲稿讲稿第一章信息检索概述第一节信息资源的概念与类型一、信息资源的概念信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。信息中的载体信息和主体信息是使信息资源的最基本的组成部分。二、信息资源的特点1 客观性。信息不是能源,也不是物质,无论是否认识到,信息总是存在着。2 寄载性。信息必须借助于一定的符号存储与一定的载体中(包括人脑) ,才能被表现,没有载体,就没有信息。信息与载体,两者不能割裂开。3 传递性。信息可以通过一定的载体在空间、时间上传递,从近到远,从古到今都能传递。4 动态性。信息是对事物存在方式及运动方式的反映,随着事物的变化,信息也将变化。这里动

2、态性是指信息的时效性。5 相对性。人们认识能力与认识条件不同,信息接受者(信宿)获得信息与信息量的多寡不同,从这个意义上说,信息的价值具有相对性。6 增长性。信息资源的使用,不但不会使信息资源减少,再利用中,还会产生更多的信息。7 共享性。使用同一种信息资源,均不需要任何的限制条件,信息资源共享的双方或多方均不回损失信息内容,相反还会产生新的信息。8 规模性。信息资源作为整体要有一定的量,分散、片面地信息不能较好地反映事物的情况。三、信息资源的类型按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资源两大类。现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源、文献信息资源、网

3、络信息资源和多媒体信息资源。1 口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。因此通过这种方式了解到的信息应记录下来,并加以证实。2 体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方式传递的信息资源。特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容量有限。3 实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形式表示的信息资源。2特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息。4文献信息资源。以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息,包括图

4、书、连续出版物、小册子以及学位论文、专利、标准、回忆录、政府出版物等特种文献。特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后,部分信息尚待证实的情况。文献的一些主要类型:1) 图书。国家标准情报与文献工作词汇传统文献 (GB1314391)对图书(book)的解释是:一般不少以 49 页并构成一个书目单元的文献。图书是文献中最古老、最重要的类型。按文种来分可分为:中文图书、日文图书、西文图书等;按作用范围可分为通俗图书、教科书、工具书等;按写作方式可分为专著、编著、翻译、编译等;按出版卷 可分为单卷本、多卷本等;按刊行情况可分为单性本、丛书、抽印本等;按版次情

5、况可分为初版、重版、修订本等。2) 连续出版物。具有同一题名、定期或不定期以分册形式出版、有卷期或年月标识、计划无限期连续出版的文献。包括期刊、报纸、年度出版物及其他连续报告、会议路、专著性丛刊等。连续出版物是与图书并列的最主要的文献类型,其特点是内容新颖、报道及时、出版连续、信息密集、形式一致等。据统计目前世界上连续出版物有 130 万种,限期连续出版物约 50 万种。3) 特种文献。有特定内容、特定用途、特定读者范围、特定出版发行方式的文献,包括学位论文、研究报告、专利、标准、产品样本、会议录、档案和政府出版物。国内外同行称这类文献为“灰色文献” (grey literature) ,尽管

6、这类文献并非很成熟,但他们内容新颖专深、实用性强、信息量大、参考性高,利用率大,是极为重要的信息资源。4) 网络信息资源。以电子形式存贮于成千上万台计算机组成的网络中的信息资源。它包括各类数据、电子文件、学术论文、图书、软件、商业活动等各种信息。因特网(internet)在 20 世纪 70 年代起源于美国,截至 2000 年底,已连接全球 200 多个国家和地区近 5 万多个网络、485 万台主机、1.2 亿个用户,并以每月 20 万个新用户的速度递增。中国从 1994 年开始发展因特网,据中国因特网发展状况统计报告报道,截止 2002 年 6 月 30日,中国上网计算机总数已超过 1613

7、 万台,上网用户总数达到 4580 万,CN 下注册的达 126146 个;WWW 站点数(包括 CN,COM,NET,ORG 下的网站)约 293213 个。国外专家预计,中国将发展成为全球网上第一大用户,届时网上的中文信息也将越来越多。但在海量的信息中,重复交叉较多,垃圾信息也会很多。根据不同的标准,可将网络信息资源划分成各种不同的类型:3从利用性质上分,有开发性信息、注册式信息、交流式信息;从存取方式分,有邮件型信息、电话型信息、揭示版型信息、广播型信息、图书馆型信息、数目型信息;从内容上分,有商务信息、科技信息、社科信息、教育信息、娱乐信息等。5) 多媒体信息资源将电信、电视、计算机三

8、网相互融合,集图、文、声于一体的信息资源。包括网上广播电视、专题论坛、网上广告等。多媒体信息打破了图书、报刊、广播、电视单项媒体的界限,形成交互式媒体信息,可通过主题、文本、模版匹配,视频检索等方式对其进行检索。第二节信息检索的概念与类型信息检索(Information Retrieval ) 又成为情报检索,萌芽于图书馆的参考咨询工作,20 世纪50 年代才固定成专用术语。一、信息检索的概念代表性的定义有以下几种:1. 信息检索过程说。 图书馆学百科全书认为:信息检索是“知识的有序化识别和查找的过程,广义的情报检索包括情报的检索与存储,而狭义的情报检索仅指后者” 。2. 全息检索说。上海交通

9、大学信息检索专家王永成教授认为:全息检索就是“可以从任意角度从存储的多种形式的信息中高速准确地查找,并可以任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切相关信息的电脑活动” 。3. 概念信息检索说。Chank 等专家认为,概念信息检索是基于自然语言处理中队只是在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解来检索其中的相关信息。它用概念而不是关键词来组织信息。4. 大量相关信息检索说。叶继元等教授认为,信息检索是从大量相关信息中利用人机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。“人机系统” , “各种方法”是指利用关键词、主题词、概念分析方法

10、等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以用户为,本全方位、多角度提供检索入口和检索结果。信息检索包括存储与检索两个部分。存储是对有关信息进行选择、并对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。4这里要理解概念分析。概念分析即将概念转化成系统语言,是存储与检索共有的过程,因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体。二、信息检索的类型1.按检索内容分,有数据信息检索、事实信息检索和文献信息检索1)数据信息检索(Data Information Retrieval)是将经过选择、整理、鉴定的数值数

11、据存入数据库中,根据需要查处可回答某一问题的数据的检索。这些数据包括物理性能常数、统计数据国民生产总值、外汇收支等。这类检索不仅查处数据,还可以提供一定的推导、运算的能力。2)事实信息检索(Fact Information Retrieval)是将存储于数据库中的关于某一事件发生的时间、地点、经过等情况查找出来的检索。它既包含数值数据库的检索、运算、推导,也包括事实、概念等的检索、比较、逻辑判断。3)文献信息检索(Document Information Retrieval)是将存储于数据库中的关于某一主题文献的线索查找出来的检索。它通常通过目录、索引、文摘等二次文献,以原始文献的出处为检索目

12、的,可以向用户提供原文献的信息。一些观点也认为可称为“数目检索” 。2按组织方式分,可有全文检索、超文本检索和超媒体检索1)全文检索(Full Text Retrieval)是将存储在数据库中的整本书、整篇文章中的任意内容信息查找出来的检索。可以根据需要获得全文中的有关章、节、断、句、词等的信息,也可进行各种统计和分析。2)超文本检索(Hyper Text Retrieval )是对每个节点中所存的信息以及信息链构成的网络中信息的检索。强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。3)超媒体检索(Hyper Media Retrieva

13、l)是对存储的文本、图像、声音等多种媒体信息的检索。它是多维存储结构,有向的链接,与超文本检索一样,可提供浏览式查询和跨库检索。3.按检索手段分,有手工检索和机器检索1)手工检索(Hand Retrieval)是人直接用手、眼、脑组织、查找印刷型文献的检索。具有直观、灵活、无需各种设备和上机费用的优点。2)机器检索(Machine Retrieval)又称计算机检索。是通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。按机器检索的处理方式分又有脱机检索和联机检索;按存储方式分,有光盘检索和网络检索。机检可大大提高检索效率,扩宽检索领域。三、信息检索的研究内容、研究方法和作用1.检

14、索理论研究5检索理论是检索活动中总结出来的系统化的知识,研究内容包括信息与信息资源定义、信息检索的定义、类型、特点、作用、研究对象、方法、内容、理论基础、术语规范、原理与原则、相关学科等的研究。当前要多做信息检索知识体系化、整合化的研究。2.检索语言研究原指从自然语言中精选出来,并以简练形式表示文献、信息的受控语言的集合。现指受控语言和自然语言(未规范的书面语言) 。研究内容包括关键词、主题词、词表编制、分类表编制、概念分析、规范档、代码标识等。3)数据库研究数据库是多个互相关联的数据的集合,是信息检索系统必不可少的组成部分。研究内容包括数据库建设规划与协调共享、收录信息与文献的筛选、文档结构

15、、维护与更新、版权、市场、效果评价、数据库跨库检索、Z39.50 标准等的研究。目前要加强异构数据库系统信息资源一体化整合和检索、知识库、数据仓库的研究。4)著录法研究著录法是对信息与文献形式特征和内容特征进行分析、选择和记录的方法。研究内容包括国内外著录标准与规则,格式,各种信息与文献著录方法,CN-MARC, UNI-MARC, US-MARC, Dublin Cor(都柏林核心)元数据,XML 等的研究,目前要重视电子型文献及网络信息的著录研究。a)标引和组织法研究标引是通过对信息资源的分析,选用确切的检索标识反映资源内容的过程。组织法即排检法,是指按一定次序将标引标识(如主题词、分类号

16、)排列起来的反方法。以上研究内容包括信息资源的阅读、分析、词表的编制与选用、标引规则、中外文排检、类序、失序、地序、谱系序等。目前应重点研究网络信息资源的镖隐语排序、数字资源的全球统一的分类体系、主题分类词表(用、代、属、酚、参、见类系) 、自动标引与排序、智能搜索引擎、网格(Great Global Grid)的研究。6) 检索系统研究检索系统是由有序化的信息资源、设备、检索方法和策略等组成的集合体。研究内容包括系统设计、运行和评价。目前重点研究计算机检索系统软硬件配置、设计与评价、智能化应用等。7) 检索策略研究检索策略是在分析信息需求检索提问时确定的检索途径与检索用词,并明确各词之间逻辑关系和查找步骤的安排。研究内容包括用户需求提问分析、检索表达式、检索符号的设置与应用、步骤优化。目前应加强检索策略自动调节、修改的研究。68) 检索服务研究检索服务是根据用户需求,由专门人员帮助查找信息,并将结果提供给用户的工作,研究内容包括服务手段、服务方式、用户培训、检索效果(查准率、查全率)等。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 项目/工程管理

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号