第9章网络信息检索概述【本章要点】• 介绍网络信息资源的概念• 阐述网络信息资源的特点与类型• 论述网络信息资源的分别• 分析网络信息检索的原理及方法• 简述网络信息检索的相关标准• 探讨网络信息检索的发展趋势网络宿息资源特点 网络信息检索原理网络信息检索发展趋势关键术语网络信息资源 网络信息资源类型 爾络信息检索方法网络信息资源概念 网络信息资源分布 网络信息检索标准思考题h和传统信息资源相比,网络信息资源有何待点?网络信息资源宥哪些类型,其分布特征体现在哪些方面?3- 简要分析网络信息检索的原理与方法°4- 与传统信息检索相比,网络信息检索体现出哪些优势? 简述网络信息资源检索服务的发展趋势9. 1网络信息资源分布9.9.1网络信息资源的特点网络信息资源(Network Information Resource)指可在互联网上发表、查询与存取利用 的信息资源总和1. 优点:(1)数量巨大,增长迅速(2)内容丰富,形式多样(3)结构复杂,分布广泛(4)开 发互动,共享性强(5)传播快速,利用方便(6)更新速度快,动态性强(7)信息使用成本低1) 数量巨大,增长迅速:重要特点为海量;信息源庞杂;2) 内容丰富,形式多样:学科、领域、语言;图文、音像、软件、DB,呈现多类型、多媒体、跨地 区、跨语种等特征;3) 结构复杂,分布广泛:无统一标准规范,分布广泛;半结构化数据日趋丰富;4) 开发互动,共享性强:共享多种资源,自由传输发布;网络环境下时空范围最大化延展;交互性 表现为主动性、参与性、交谈性、和操作性;5) 传播快速,利用方便:高速信息资源传输通道辐射全球;检索和获取的便利;6) 更新速度快,动态性强:本质是动态系统,高度动态性,时效性强,更新频率快;7) 信息使用成本低:大部分免费,收费与其他相比较低。
2•缺点1) 质量参差不齐,良莠不一:开放性,发布自由;2) 分散无序,缺乏管理:宏观无序、分散、不规范,缺乏稳定性和可靠性;3) 稳定性差,精确度低,缺乏安全保障:高度动态性,无统一经营管理机构,统一的发布 标准9.1.2网络信息资源资源的类型(07武大简答)按网络信息资源的媒体形 式文本信息、图片信息、音频信息、视频信息、二位虚拟影像 信息按人类信息交流的方式正式出版信息、半正式出版信息、非正式出版信息按信息的加工程度一次网络信息资源、二次网络信息资源、三次网络信息资源按网络信息的内容和用途普通型、专门资料型、数据资料型、及时资料型按信息的表现形式全文型、数值型、书目文献型和实时活动型按传输协议的不同WWW信息资源、Telnet信息资源、FTP信息资源、网络论 坛、Gopher信息资源9.1.3网络信息资源的分布 9・1・3・1网络信息资源的内容1•政府信息 2•教育科研信息3.网上出版物4•网络数据库5. 电子论坛和电子会议6. 网上专利信息9・1・3・2网络信息资源分布的特征1. 离散性:类型庞杂;发布内容自由性、任意性大,缺乏过滤、质量控制和管理机制,不同类型信 息混为一体,大量不健康信息扩散,显示了网络信息资源的分散性和无序性。
2•不均衡性:主要表现在地区分布和语言分布等方面信息资源分布基本反映该地区经济、文化等方 面的发展水平,全球:美为首发达国家大大高于发展中国家;我国:东部地区高于西部地区 网络中文信息贫乏已成为现实问题请谈谈互联网对信息检索的巨大影响(07华南师范论述) 补充:网络信息检索的特点1) 检索范围大2) 传统检索方法与全新网络检索技术相结合3) 用户界面友好且检索方便4) 用户透明度高5) 信息冗余大9. 2网络信息检索原理与方法9.2.1网路信息检索原理 9.2.1・1网路信息检索及其特点 1•检索对象得到了极大的丰富:图文、音像、软件、DB,呈现多类型、多媒体、跨地区、 跨语种等特征2•检索空间得到了极大的扩展:检索范围覆盖整个互联网这一全球性的网络3•检索趋于简单方便:1) WWW提供了超链接方式,相关性较强2) 用户检索界面、检索结果提供等方面交互性良好、信息反馈功能较好3) 自然语言广泛运用,使检索日趋简洁,检索交互性提高 不足:1. 信息查准率比较低:需求与结果相差大,尤其是学术信息2. 检索带有一定的盲目性:超文本的负效应,用户被动3. 各种检索工具的检索方法不统一,造成使用不便9.2.1.2网络信息检索的原理当前的网络倍息通信多采用客户端/脱务器结构.在这种殉第通倍貓构下J 用户首先向客户端的应用程序发出数据请求,接着应用程序通过客户端跨越网络 向相应的网络服务器传谨看关数据请求"网络服务器在接到有类请求后从祁应的 数据岸或其他存储介虞中获得有关数据龙再把其数据返回到客户端,最后通过相 应的用户界面应用程序把有关结果友特定形式呈现给用户°如令通常使用网络浏 览器作为网络信恩检索客户端工具,它提供曉好的切户界面,同时作为通用的基 于万维网协议HTTP的网第客户端,如圏9一 1所辰在网虚检索的过程中* 一般分为两级模式*第一级是通过关键字找到与该关 键字相关的网站地址,第二级是在秦:个具体的网站中通过羌键字找到与该靛键字 相关的网頁。
目前网络信息检索模型多采用布尔检索摸型和向童空间模型*9.2.2网路信息检索方法1•直接浏览——网址查询2. 利用网络资源目录3•利用以关键词检索为主的搜索引擎4. 查询网络文献数据库5. 查询网上图书馆6.9. 3网络信息检索相关标准9.3.1网路信息检索标准9.3.1 039.50 (10华南师范名解)「全称为 “Information Retrieval Application Service Definition and Protocol Specification Open System Interconnection”(信息检索:开发系统互联的应用服务定义与协议说明),是一 种Client/Server体系结构下描述客户端检索服务器上数据及其获得检索结果的数据结构与 交互规则的协议,是网络中的应用层协议,定义了客户端与服务器之间的数据交换标准9・3・1・2 Z39.50的内容及特点1.内容:1) 信息检索服务的定义(11种机制)2) Z39.50协议的规范2•特点:1) 与HTTP、Gopher等面向传输层的协议不同,Z39.50是基于会话层的协议,是有状态 的;2) Z39.50是一种开发网络平台上的应用层协议,利用它可使不同计算机系统间实现协作;3) Z39.50支持分布式C/S模式;4) Z39.50既可采用同步方式,又可采用异步方式进行通信。
9・3・1・5 Z39.50标准的不足实际应用效果不理想,自身的不足对实际实现影响表现在两个层次:较低层次的影响是 增加系统实现的复杂性,降低了实现效率,但一般不影响实现的通用性和标准性;较高层次 是影响了实现的通用性和标准化程度,这是Z39.50实现的根本障碍1. 作为一个开放互联的标准集,Z39.50主要问题和实现的最大障碍是其定义的协议数 据结构稍显简单;2. Z39.50标准所采用的编码标准时20世纪80年代发展起来的一种成熟标准,对信息 编码过程,几乎是可读文字转换为机器语言的过程意味着Z39.50的实施,使很多图书馆 应用软件开发者或提供商面临技术上的调整或面临产品开发项目的投资风险;3. Z39.50标准建立在一种比较专门的通信协议基础上,增加了这个标准的实施中的技 术复杂性9.3.2其他网路信息检索标准OAI、Open URL、X.5009.3.2.1 bAI(0pen Archives Initiative)OAI琴一项馆单l灵活的元数据苴操作协议,其冃标是鱼现^'Weh上发布 倍息的不商组爼 住矍在弊管疝 之间的互操悄 形成 洽写应用无妾的互操 作檢0A1支持选择性弘菜桀方式;适合于蔡统伺元数毎的循环交换.0A1 包儈两类角角,即数据提拱方和服务提供方。
OAE的核衣惠想非常简单;在 HTTP协议的基础上,服务提供方曉用QAI规定的』个命令动词,按照一瘵的 翁件采集
OpenURL的目 的是把不同来源和不同通信协议的信息源及相关服务融合在一起,实现不同类型、不同格式 和异地分布信息资源的无缝链接9・3・2・3 X・500|X.500是由国际电报咨询委员会(CCITT)制定的基于ISO/OSI开放系统互连标准 的名录服务通信协议它的目标是向用户提供分布的名录服务,提出了一个将分布在各地的 名录服务器连接成一个全球性的分布式名录服务的体现结构9. 4网络信息检索发展趋势(09华南师范论述)9.4.1网络信息检索技术发展智能检索技术、多媒体检索技术、P2P检索技术、可视化检索技术、语义检索技术9.4.1.1 |智能检索技术智能检索技术是基于自然语言处理的检索形式,可模拟人脑的思维方式,分析用户以自 然语言表达的检索请求,自动形成检索策略,进行智能、快速、高效的信息检索智能检索 技术主要体现在语义理解、知识管理和知识检索三方面智能检索以用户需求为基点,建立用户检索智能模型,检索过程、检索结果、检索反馈 和数据库维护智能化、自动化,还能实现信息定期和定题检索以及根据用户反馈自动对知识 库进行维护和更新9.4.1.2多媒体检索技术包括基于描述的多媒体检索和基于内容的多媒体检索。
发展趋势:基于体验的检索9・4・1・3 | P2P检索技术Peer to Peer,端对端/点对点它是一种用于不同PC用户之间,不经过中介设备之间交 换数据或服务的技术P2P模式基于分布式共享技术,它使互联网上每台计算机都有可能成 为信息资源提供者9.4.1.4 |可视化检索技术可视化检索是把文献信息、用户提问、各类检索模型以及利用检索模型进行信息检索的 过程,展示在一个多维的可视化空间中,并向用户提供信息检索服务其实质是提供一种可。