第一章信息检索导论

上传人:bin****86 文档编号:55418352 上传时间:2018-09-29 格式:PPT 页数:69 大小:1.13MB
返回 下载 相关 举报
第一章信息检索导论_第1页
第1页 / 共69页
第一章信息检索导论_第2页
第2页 / 共69页
第一章信息检索导论_第3页
第3页 / 共69页
第一章信息检索导论_第4页
第4页 / 共69页
第一章信息检索导论_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《第一章信息检索导论》由会员分享,可在线阅读,更多相关《第一章信息检索导论(69页珍藏版)》请在金锄头文库上搜索。

1、1,第一章 信息检索导论,1.1 信息素养与信息检索 1.2 信息检索的概念和类型 1.3 信息检索的研究对象与研究方法 1.4 信息检索的发展历史 1.5 信息检索需求 1.6 小结,2,1.1 信息素养与信息检索,一、信息、信息社会与信息素养 二、信息检索教学的主要意义 三、信息检索教学的基本内容,3,一、信息、信息社会与信息素养 信息社会的基本特征,1、信息数量的激增 2、信息职业的扩大 3、信息资源的显化 4、信息应用的泛化 5、信息意识的强化,4,信 息 素 养,5,信息,信息的概念 信息的基本特征 信息的基本类型,6,1、信息 日常生活概念,在日常生活中,信息与符号、数据、消息、事

2、 实、新闻、情报、知识等概念混用,核心义项是 消息。李中(924975)在碧云集之暮春 怀故人一诗中最早提出了“信息”一词。 “梦断美人沉信息,目穿长路倚楼台。” 符号是指人类感官接受外界刺激后,大脑中产生 的刺激的组合;数据是各种事实、数字和字符等 符号的集合;信息是指语法特征上相互关联的数 据对象的集合;知识是有语法、语义关联的信息 结构;而智能则是知识精华的集合。,7,数据,知识,信息,智能,信息与数据、知识和智能的关系,8,数据(Data)是有关事物现象的记录,是未经加工的事实、没有指定背景和意义的数字、图像或声音等。如19491001,我们只知道这是一个数字,对于这个数字来说,它就是

3、数字,不表示别的什么含义。 信息(Information)是经过组织的、有序的数据,表达了数据和数据之间的联系。也就是说,对数据进行分析,找出其中的关系,赋予数据以某种意义和关联,就形成了信息。如19491001可以看作日期,这样就成了信息。它可能是某人的生日,也可以是国庆日,等等。 知识(Knowledge)是有意义的信息,表现在信息和信息之间的关系。譬如天空有乌云和下雨两个信息之间,如果建立一种联系,则产生了知识。 智慧(Wisdom)是知识与判断的综合,是利用知识采取正确行动的体现在了解多方面的知识后,能够预见一些事情的发生并采取正确的行动。例如大家都觉得国庆长假去杭州旅游的车票非常紧张

4、(知识),但你已经非常有预见性地购买了车票,领先一步,这就是智慧的体现。,信息与数据、知识和智能的关系,9,信息科学概念,科学概念根植于理性的理论框架中,并与不定性、概率、熵、有序化、变异度等概念密切相关。 L. V. R. Hartley:信息是选择的自由度(1928); C. E. Shannon:信息是用来减少随机不定性的东西(1948); N. Wiener:信息是指人们适应外部世界,并使这种适应为外部世界所感知的过程中,同外部世界交换的东西的名称(1948); L. Brillouin:信息就是负熵,是系统组织结构和有序程度的度量(1951); W. R. Ashby:信息是集合的变

5、异度(1956)。 一般说来,设随机事件X(x1, x2, , xn),每个事件(状态)发生的概率为P(p1, p2, , pn ),那么这一随机事件提供的信息量为I(xi)=Pi,而整个信源的信息熵为H(X)=PiPi。,10,信息哲学概念,在对信息进行哲学探讨时,信息与物质、能量、运动、 反映、意识等概念息息相关。信息是一切事物运动状态 和方式的表象或表征。 这里,“事物”泛指一切可能的研究对象,可以是外部世界 的物质客体,也可以是主观世界的精神现象;“运动”泛指 一切意义上的变化;“运动状态”是指事物运动在空间上所 展现的性状和态势,是事物的静态特征;“运动方式”则是 指事物运动在时间上

6、所呈现的过程和规律,是事物的动 态特征。“表象”说明信息并不是事物本身;而“表达”则是 认识论上的主体所感知并能够表示的、与人类生活有关 的东西,这是上述本体论意义上的信息引入认识主体这 一约束条件后的产物。,11,信息的基本特征和属性,普遍性与无限性客观性与相对性抽象性与依附性动态性与异步性传递性与共享性,12,普遍性。信息是物质的普遍属性,是物质运动的状态和方式。信息的物质性以及物质的普遍性决定了信息的普遍存在性。无限性。物质的更替和人事的代谢无穷无尽,信息因此是无限的;即使在有限的时空中,由于物质的多样性和物质运动的连续性,信息也是无限的。信息无限性的重要表现是信息的多样性和衍生性:就多

7、样性而言,它一方面表现为信息的内容范围无所不包的多样性,另一方面表现为同一信息的表述、表达方式的多样性。就衍生性而言,信息的信息仍然是信息;观察的结果是信息,关于观察结果的表述是信息,关于观察结果的描述作为文献的内容也是信息,而关于该文献的目录索引还是信息,信息的信息,可以形成无穷无尽的衍生链带。,13,客观性。信息的客观性源于客观存在的物质运动的特征。信息不是虚无飘渺的东西,也不是可以随意想象和“创造”的事物,它是现实世界各种事物运动的状态和方式,有非常具体和真实的品格。各类信息的表达、存贮、传递、转换和利用等都必须以客观存在的物质载体为依托。相对性。由于认识能力、认识目的及其所储备的先验信

8、息各不相同,各个认识主体从同一事物中获取的信息及信息量(实得语法信息量、实得语义信息量和实得语用量)并不相同。假定事物X的实在信息量I(X)是常数,在这样的条件下,第i个观察者Ri的实得信息量I(X;Ri)就为:I(X;Ri)=I(X)-Io(X;Ri)。既然各个观察者的先验信息量Io(X;Ri)各不相同,它们的实得信息量当然也就各有差异。,14,抽象性。信息本身是看不见摸不着的,我们所能够看得见摸得着的只是信息载体(包括语言、文字、图画、符号、纸张、磁带和光盘等)而非信息内容。依附性。任何信息都必须以某种物质的特定的运动形式表现出来,即信息必须依附于一定的物质载体上,用文字、语言、图像、符号

9、等把信息记录下来,并寄载在纸张、磁带、胶卷和光盘等介质上,通过声波、光波、电波等物质载体进行传递。信息的依附性是抽象性的延伸,是信息具有可传递性、可转换性、可贮存性和可处理性的基础,是信息能够实际利用的前提;正是因为有了这些载体,信息才能变为一种广泛的资源和财富。,15,动态性,或称信息的时效性。信息的时效是指信息从产生、传递到接收利用的时间间隔及效率,而时效性就是指信息的内容和信息量大小都会随时间的变化而不断得到更新、充实、积累或取舍。在我们考察物质运动规律时,所取的空间界面和时间区段不同,所得到的有关信息的时效就会有所不同。异步性。异步性是动态性的延伸,包括滞后性和超前性两个方面。信息脱离

10、源物质后需要经过输入、处理、传递和输出等过程才能为人们所理解和掌握,而此时源物质已发生新的变化,这些信息因而就成为“过时”的信息,它们所反映的已是某一时刻之前的源物质运动的状态和方式。换言之,任何信息总是产生、传递在事实之后,即先有事实而后有关于该事实方面的信息等,这是由于人的认识与客观事物运动的异步性造成的,并导致信息都有一定的滞后性和不完全性。另一方面,人们在掌握大量信息的基础上,又可以通过计划、预测等方式测知未来的信息,超前于现实,因而信息又具有超前性。,16,传递性。信息传递的实质就是一种事物的运动状态与方式脱离源物质而附着于另一事物,并通过后者的运动将这种状态与方式在时空上从一点传递

11、到另一点。信息的传递总是同物质的运动和能量的转换联系在一起。信息传递经历了点-点、点-面、面-面的发展模式。共享性。指同一内容的信息,可以在同一时间内为众多的使用者所接收和使用,当信息从传者转移到受者时,传者不会因此丢失信息。 信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息可以采用多种相同的或不同的物质载体及其运动形式构成。 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息产品的使用价值是一个点集或面,其价值和使用价值具有非对称性;而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。 信息共享的意义在于它从根本上改变了人类对资源的态度和方式。 不同的信息在共

12、享范围和程度上是有差异的。,17,信息的基本类型,1 以认识主体为依据对信息进行的划分 2 以信息的生成领域对信息进行的划分 3 以信息的媒体形式对信息进行的划分 4 以信息的逻辑意义对信息进行的划分,18,1 以认识主体为依据对信息进行的划分,客观信息,是指对事物不加判断的如实和公正的报道,即关于认识对象的信息。 主观信息,一般是依据事实和分析,阐明个人对论题的观点和见解,是经过思维主体加工的信息。,19,2 以信息的生成领域对信息进行的划分,自然信息,非生命物质的自然信息,是无机界事物属性及事物之间内在联系的表征。自然信息是融合式的、特殊的、弥漫的。 生物信息,包括生物与外界联系时做出的反

13、应以及生物体内传递的信息。生物信息是信号形态的信息。 社会信息,人类活动和社会发展的信息以及人类接收并破译的自然信息。它以符号信息为特征。 思维信息,以人脑为载体,以语言为外壳,以各种感觉器官为接收器,对各种外界信息进行加工、转换,并实现思维分析、语言表达的过程。思维信息是社会信息运动的主体源泉,而社会信息则是思维信息运动的外化和现实化的结果。,20,3 以信息的媒体形式对信息进行的划分,文本信息。按线性顺序排列的,阅读时,人们跟随文本的线性流向吸收其中的知识单元。 超文本信息。按知识单元及其关系建立的知识结构网络。其数据库由结点和链路组成,查阅超文本信息时,以知识片段及其关系作为追踪、检索的

14、依据。 多媒体信息。多媒体是包括文本、图像和声音在内的各种信息表达或传播形式的总称。多媒体信息系统能针对用户的需求提供各种形式的信息。 超媒体信息。是指通过计算机控制,把各种文献载体和各种内容综合为一个整体,从而向读者提供各种形式和各种内容的资料。超媒体是超文本与多媒体两种技术的结合,即在信息浏览环境下超文本的信息管理方式与多媒体的信息表现方法结合在一起时,就称为超媒体。,21,4 以信息的逻辑意义和利害关系划分,有益信息:对社会发展有积极作用的、能够消除人们对未知事物不确定性的信息,它是人类社会的资源和财富。 无用信息:指对信息使用者所从事的某种活动没有作用的、多余的信息。衡量无用信息可以使

15、用以下 3个指标:一是德国文献学家瓦斯提出的废页率。二是美国信息科学家彭德尔伯里和加菲尔德等提出的不引率。三是信息冗余度,即信息中超出完整要求而在传递中属于多余的内容。信息的冗余度R1H/Hmax。 有害信息:指对社会发展和信息用户有消极和阻碍作用的不真实或庸俗、媚俗的信息,主要有虚假信息和色情信息等。,22,按照信息资源的开发程度来区分,,可分为潜在信息资源与现实信息资源两大类。 现实信息 口语信息资源、 体语信息资源、 实物信息资源、 文献信息资源、 网络信息资源 多媒体信息资源。,23,现实信息,口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。 特点是传递迅速,互动性强,但稍纵

16、即逝、久传易出差异。因此通过这种方式了解到的信息应记录下来,并加以证实。,24,体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方式传递的信息资源。 特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容量有限。,25,实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形式表示的信息资源。 特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息。,26,文献信息资源。以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息,包括图书、连续出版物、小册子以及学位论文、专利、标准、回忆录、政府出版物等特种文献。 特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后,部分信息尚待证实的情况。,27,文献的一些主要类型:,图书 期刊 报纸 会议文献 学位论文 。,28,图书,国家标准情报与文献工作词汇传统文献(GB1314391)对图书(book)的解释是:一般不少以49页并构成一个书目单元的文献。图书是文献中最古老、最重要的类型。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号