信息存储与检索 教学课件 ppt 作者 王知津 第5章

上传人:E**** 文档编号:89503409 上传时间:2019-05-26 格式:PPT 页数:136 大小:1.34MB
返回 下载 相关 举报
信息存储与检索 教学课件 ppt 作者 王知津 第5章_第1页
第1页 / 共136页
信息存储与检索 教学课件 ppt 作者 王知津 第5章_第2页
第2页 / 共136页
信息存储与检索 教学课件 ppt 作者 王知津 第5章_第3页
第3页 / 共136页
信息存储与检索 教学课件 ppt 作者 王知津 第5章_第4页
第4页 / 共136页
信息存储与检索 教学课件 ppt 作者 王知津 第5章_第5页
第5页 / 共136页
点击查看更多>>
资源描述

《信息存储与检索 教学课件 ppt 作者 王知津 第5章》由会员分享,可在线阅读,更多相关《信息存储与检索 教学课件 ppt 作者 王知津 第5章(136页珍藏版)》请在金锄头文库上搜索。

1、第五章 Web信息存储与检索,,信息存储与检索,本章目录,第一节 引言 第二节 Web信息组织 第三节 Web元数据 第四节 搜索引擎,,信息存储与检索,第一节 引言,WWW是World Wide Web的简称,又常简称为Web。Web是Internet提供的服务功能之一,使用户可以通过浏览器,在Internet上运行一种软件协议超文本传输协议(HTTP)方便地访问网络上的文本、图像、多媒体文件,而不需使用令人费解且难以操作的机器指令。Web的出现使Internet再也不是计算机专家和高级科技人员的“专利”,让Internet真正走进千家万户。尽管Web的历史仅有十几年,但发展速度惊人,以致很

2、多人误将Web视为Internet的代名词。,,信息存储与检索,第一节 引言,Internet上除提供Web服务外,还有电子邮件(E-mail)、远程登录(Telent)、文件传输(FTP)、网络新闻组(NetNews)、论坛与公告栏(BBS)等等的功能。 目前Internet上Web信息资源的检索方法主要有三种基本形式:基于超文本/超媒体的信息浏览、基于目录的信息查询和基于搜索引擎的信息检索。,,信息存储与检索,第一节 引言,浏览是追踪由其他网络用户创建的超文本链接踪迹的过程。通过超文本/超媒体链来浏览Internet上感兴趣的信息,称为基于超文本/超媒体浏览的信息获取方法。利用浏览方式进行

3、检索时,用户从一个超文本/超媒体文档入手,沿着嵌在其中的、用户感兴趣的超链去搜索信息。超文本链接指向网络的另一个文件、图像或其他对象的指针。构成链接的词都是文件的标题或描述文件内容或外表特征的关键词语。点击该链接,就能检索到所需文件。凭借它的这一特性,网络浏览变得既容易又直观。,,信息存储与检索,第一节 引言,基于超文本/超媒体的浏览方式使用户能够灵活、方便地查找信息,但却有一个十分明显的缺陷,即用户的信息检索在很大程度上取决于超文本文档所提供的超链,搜索的结果带有偶然性和片面性。在搜索的过程中也经常遇到线索中断及偏离用户感兴趣的主题的情况,降低搜索的效率和效果。随着Internet上服务器和

4、信息数量的指数增长,通过超链的方式搜索信息越来越无法满足人们的需要。为充分发挥Internet的潜力,提高信息检索的效率,需要其他更有效的检索方法。,,信息存储与检索,第一节 引言,基于目录的信息查询就是针对网站目录的信息查询方式。网站目录是从结构出发,采取等级结构形式,将信息进行人工分类,以目录的形式组织和表现,当用户点击超文本链接时,会沿着该等级结构从泛指类走向专指类,直到该等级结构分支的最底层,用户可以得到一个文件的标题列表。这样的网站目录有Yahoo、Looksmart、Sohu等。,,信息存储与检索,第一节 引言,搜索引擎没有网站目录那样的等级结构,不提供上下层次关系,只能用具体的关

5、键词或词组检索。如果说网站目录类似书中的目次,搜索引擎则更像索引。更确切地说,它们是数百万按倒排索引结构组织的网页的全文索引。用户输入一个提问式,搜索引擎就开始搜索整个索引,并用各种各样的算法来发现并计算关键词与文件之间的关联程度。被认为最“相关”的文件首先出现在结果列表中。,,信息存储与检索,第二节 Web信息组织,5.2.3 超文本传输协议,3,,信息存储与检索,5.2.1 超文本,(一)超文本概述 超文本一般是指那些包含有指向其他文档的链接的文本。是对信息的一种组织方式,它是对普通菜单的一种改进,它将菜单集成于文本之中,因此,可以看作是一种集成化的菜单系统。用户直接看到的是文本信息,在浏

6、览文本信息时,用户随时可以选中其中的超链接。通过超链接跳转到其他的文本信息。 超链接最大的特点是:无序性,并且一个文本可以包括多个超链接。,,信息存储与检索,5.2.1 超文本,超文本(Hypertext)模拟人的这种联想式的思维方式来组织文件。这样,文件与文件之间,同一文件中的不同部分之间均可以进行跳跃转移。超文本既可以认为是一种非线性阅读和书写的文件组织方法,也可以认为是一种依赖计算机的思维和交流的工具。这种结构实际上就是一种网状的结构,跳转点就是一个“链接”点,通常称之为超文本链。,,信息存储与检索,5.2.1 超文本,对作者来说,超文本是新一代的字处理系统。可以方便地实现模块移动、查询

7、、替换、校对、提纲描述、浏览和对电子文献进行标记。 对读者来说,超文本是一种新的数据库检索系统。一篇文献可适用多种目的,从不同角度、以不同方式进行查询、检索,更灵活、更方便。 从计算机技术角度看,超文本是一种数据库方法,它提供了一种新的直接接触数据源的途径。它是一种表示系统,一种集非结构化和结构化的文献资料、操作和进程于一体的语义学网络。,,信息存储与检索,5.2.1 超文本,超文本是一种接口形式,最突出、最独特的属性就是机器支持下的“跟踪参考”,这种属性是由超文本节点间的“链接”赋予的。这种“链接”即“超级链接”,简称“超链”。超链具有如下特点。 (1)可联结参考文本及自身; (2)可联结一

8、篇文献及其评述和标引; (3)可联结同一篇文献的两个连接章节; (4)可连接表格、图形、图像、声音及视频等多媒体信息。,,信息存储与检索,5.2.1 超文本,超文本思想的提出可以追溯到20世纪中叶。1945年,美国的Vannenar Bush先生构想了一种称为memex的设备:“是否能创造一种阅读设备,使人们在阅读过程中能够根据自己的思维和兴趣选择阅读”,这可以说是最早的超文本构思。然而其后20年,超文本技术并没有引起人们的特别关注,直到60年代中期才逐渐得到人们的重视,特别是进入90年代以后,Internet的发展与普及,才使得超文本技术得到了广泛的应用。,,信息存储与检索,5.2.1 超文

9、本,1967年,计算机科学家Ted Nelson先生提出了超文本(Hyper Text)这一概念,并设计了一个超文本系统(Xanadu)。1968年,斯坦福研究所的D.Engelbart根据V.Bush提出的memex试验,建立了一个具有超文本特征的NLS(Online System),该系统将文件中相关信息进行链接,实现非线性查找。到了90年代,由于Web技术的诞生和发展,超文本技术的特点逐渐得到了充分展示。,,信息存储与检索,5.2.1 超文本,从原理上讲,超文本结构在印刷型文献中早已存在,只是人们在阅读文献时并没有从中感觉到带来多少方便,因此它并没有引起人们的注意与重视。例如,文本中的目

10、录、脚注、页注、文末注明的参考文献等与文本本身存在着某种文献信息网系,这种文献网系可视为是“手工超文本”。计算机检索技术的发展为超文本的应用提供了实现基础,人们在计算机上能够像阅读顺序文本信息一样方便自如地阅读复杂的超文本结构信息。可以肯定,如果没有计算机和网络,超文本技术将很难得到人们的重视,取得目前这样的成就。,,信息存储与检索,5.2.1 超文本,可以认为,超文本技术既是一种信息单元的组织和检索技术,也是一种软件设计技术,它利用计算机技术、通信技术、知识表达技术、多媒体技术等,将包含文字、图像、声音、视频等电子信息按其相互之间的关联性和可能出现的连续性进行非线性编排,使得只要两个信息单元

11、之间存在着直接或间接的关联,就可以从其一顺着关系链到达另一个信息单元。,,信息存储与检索,5.2.1 超文本,作为一种新型信息检索技术,超文本技术与全文检索和布尔逻辑检索相比,具有以下几个特点。 (1)非线性的组织结构 (2)以信息单元为检索对象 (3)体现了信息层次关系 (4)交互更加友好 (5)信息内容丰富多样 (6)避免了检索语言的复杂性,,信息存储与检索,5.2.1 超文本,(二)超文本的功能 超文本的主要功能在于对信息的表示、信息的组织、信息的浏览以及信息的检索等。这些功能的实现主要取决于超文本的组织结构,超文本是在文本中定义了大量超链使其变成了非线性结构。 信息的表示是通过超文本结

12、构把图形或文本、知识概念、组织结构以及知识概念间的关系表示出来,从信息表示的角度出发,超文本结构表现为层次结构和交叉链接结构。,,信息存储与检索,5.2.1 超文本,超文本的层次结构提供了自然、清晰的数据组织,信息的隶属关系明确,是实现文档组织和浏览导航的最佳结构。目前,许多组织机构的网站介绍、检索系统和各类软件的联机帮助文档几乎都采用层次型的超文本结构。交叉链接结构体现了文本中信息间的关联关系,可以自由地建立知识单元之间的联系,使人们可以实现直接跳跃式阅读。该结构也是最初超文本结构的实现思想。,,信息存储与检索,5.2.1 超文本,浏览与检索型的超文本强调信息间的充分关联,注重信息的分级和聚

13、类,为用户选择信息源提供导航和检索范围,以保证在浏览时快速选准目标,检索时有效缩小检索范围。表现这两种类型的超文本结构主要为层次-交叉结构和簇网结构。 层次结构难以体现灵活的信息关联性,而交叉链接结构又显得杂乱,容易引起迷航。采用两者的结合,可以实现互补,有利于进行快速和相关性浏览。簇网结构提供了一种分层网络结构,便于缩小搜索范围和获得较高的查全率。,,信息存储与检索,5.2.1 超文本,(三)超文本的结构 1988年,campbell和goodman提出了超文本体系结构的三层模型理论:数据库层;超文本抽象机层;用户接口层。 虽然目前的超文本系统在它们的内部结构中没有完全遵照这种模型,但是三层

14、模型仍然是超文本系统的基本体系结构。,,信息存储与检索,5.2.1 超文本,数据库层是三层模型的最低层,它涉及所有的有关信息存储的问题。实际上这一层并不构成超文本系统的特殊性。它以庞大的数据库作为基础,而且由于在超文本系统中的信息量大,因此需要存储的信息量也大。一般要用到磁盘、光盘等大容量存储器,或把信息存放在经过网络可以访问的远程服务器上,但不管信息如何存放,必须要保证信息块的快速存取。,,信息存储与检索,5.2.1 超文本,此外,数据库层还必须解决传统数据库中也必须要解决的问题,例如信息的多用户访问、信息的安全保密措施、信息的备份等等。对信息的存取控制也可以放到超文本抽象机层去确定。就数据

15、库而论,超文本的结点和链,只不过是数据对象,它们构成一次仅能由一个用户修改的信息单位并占有较多的存储空间,在数据库层实现时,要考虑如何能更有效地管理存储空间和提供更快的响应速度。,,信息存储与检索,5.2.1 超文本,超文本抽象机层是三层模型的中间层,位于数据库层和用户接口层之间。在这一层中要确定超文本系统的结点和链的基本特性及它们之间的自然联系。另外,应知道结点的其他属性,例如结点的“物主”属性指明该结点的创建者,谁有权修改它等,,信息存储与检索,5.2.1 超文本,另外,虽然超文本系统还没有统一的标准,但不同的超文本系统之间有必要进行相互传送和接收信息,这就需要确定信息转换的标准格式。超文本抽象机层是实现超文本输入输出格式标准化的最理想层次。因为数据库存储格式过分依赖于机器,而用户界面各超文本系统之间差别很大,难以统一。超文本的格式转换不是一件容易的事,它不但存在非ascii码信息转换问题,也存在结点之间连接关系的转换问题。实际上在超文本系统中的超文本抽象

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号