数字图书馆信息组织

上传人:平*** 文档编号:46386693 上传时间:2018-06-26 格式:PPT 页数:44 大小:5.03MB
返回 下载 相关 举报
数字图书馆信息组织_第1页
第1页 / 共44页
数字图书馆信息组织_第2页
第2页 / 共44页
数字图书馆信息组织_第3页
第3页 / 共44页
数字图书馆信息组织_第4页
第4页 / 共44页
数字图书馆信息组织_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《数字图书馆信息组织》由会员分享,可在线阅读,更多相关《数字图书馆信息组织(44页珍藏版)》请在金锄头文库上搜索。

1、第6章 数字图书馆信息组织一、数字图书馆概述 1.数字图书馆概念数字图书馆(Digital Library DL)是采用现 代信息技术的、超大规模的、分布的、可以跨库 检索的数字信息资源系统。数字图书馆不是数字化的图书馆, “Library ” 也不是传统的图书馆,而是借用它象征一种新的 资源存储、传播中心。2.数字图书馆及信息资源的特点 1)数字图书馆的特征 数字化:数字图书馆是一个内容丰富的、组织化 的、多媒体形式的数字化系统,它的资源、工作 过程和服务提供都是数字化的,它集中了不同载 体、不同地理位置的资源,以数字化存储、以网 络实现连接和共享,本质上是一个数字化、网络 化的信息空间。

2、网络化:数字图书馆是以网络为依托、以资源 共享为目标的数字化系统、设计时重视网络功能的需求与实现。通常在网络环 境中具备浏览器的浏览与检索功能、广泛采用 Z39.50标准、网上的各种应用协议、通信协议、数 据交换标准、数据传输、编码和压缩,使它真正成 为各种网络技术和标准的集成系统。 分布式系统:采用关系数据库管理系统,结构上 采用分布式数据访问和数据库连接;支持开放式 应用开发与多语种利用;支持规范控制、规范记 录;系统集成化程度高。2)数字图书馆的信息资源特点 数字化的选择性信息资源所有资源都是按用户需要经过选择的数字化资源 ,收集的资源包括两大类:一是已经数字化的资源 ,如网络资源、各种

3、数据库资源、光盘、磁盘上存 储的资源等;二是传统的非数字资源压缩处理后形 成的数字化信息,如已有的图书、期刊、录音、录 像带等。 多媒体资源数字图书馆的资源是多样化的,不同媒体的信息 都要收集,包括文本、音频、视频、图形、图像。 这些不同的资源库中,要分别建立字符数值库、文 本、声音、图象等专门资源库。各媒体用超媒体方 式组织(混合),用户可以在链接好的网络结构中 进行浏览。 海量资源和分布式资源存储结构 数字图书馆处理的数据是海量的,估计一般的资 源量可达到101215字节,它的资源包括持续倍增的网 络资源,也包括不断增长的数字化的传统资源。海量资源使数据存储必须以大量的分布式数据库 群把资

4、源存放在不同的计算机上,每个计算机负责特 定资源的收集、加工、存储、利用和维护工作。 按用户需求提供服务(最好是交互式的自动界面 )用户通过数字图书馆的交互界面提出服务请求, 数字图书馆使用高效的检索系统,为用户提供迅速 、 准确、个性化的服务。3)数字图书馆信息组织的特点 以用户为中心组织信息资源数字图书馆为每位用户提供个性化的信息服务, 针对每个用户的每个需求从海量资源中查找符合 用户需求的资源,而且它提供的资源不是一般的 单一资源,而是关于某种问题的知识点,包括各 种不同媒体的信息,如关于某个旅游点的文字、 图象、旅馆、旅游路线图、气象、车次等。所以 资源组织在检索时形成一种临时的知识点

5、。信息资源加工处理自动化数字图书馆的信息资源描述、自动分类、自动 聚类、元数据自动抽取等对资源进行加工处理应 尽可能自动化。要针对用户需求和资源特点开发 各种检索系统和内容丰富多样的资源库。 智能查询服务数字图书馆的海量信息资源要求提供高效的智 能检索服务,如设计良好的数字图书馆既能满足 对图形、图象、视频的关键词、主题词查询,而 且能够通过颜色、纹理、形状、关键帧等来查找 ;同时,查询还要求能够实现无缝跨库连接,使 用户能够方便、快速、准确地查到所有存储在数 字图书馆的分布式资源。二、数字图书馆结构1.基本系统结构(基本功能模块)数字图书馆的基本构件由数字对象、统一资源名 称和数据存储系统组

6、成。 数字对象数字对象是组织管理数字信息的方式、构成计算机存 储与处理数字信息及功能实现所需要的完整数据结 构。数据结构包括唯一标识名称、元数据和数字化 内容。数字化信息一般包括不同的部分,如文本信 息、程序、数据内容、Web页面等,可以把几个数字 对象组成数字对象组,用来描述复杂多样的数字信 息结构。DL中的数字化信息可以分成一些类别进管 理,每一类别要定义一组规则,来描述数字对象、 数字对象的内部对构、相关的元数据、数字对象的 命名规则,以便把多个数字对象组成数字对象组。统一资源名(URN)URN是网络中数字化信息的唯一永久标识。这个标 识由资源名或资源位置标识数字资源。在数字图书 馆系统

7、中,URN是唯一标识,用来永久地标识数字 对象和存储系统,它和网络中的URL不同,URL不 可能永久标识标识数字对象和存储系统,因为网络 配置、系统和文件位置均可改变。 数据存储系统数据存储系统是基于网络的存储与管理数字对象及 相关信息的计算机系统,通过数据存储协议(RAP )对数据存储系统实施管理与操作,一个设计良好 的数据存储系统可以向多个DL提供资源。以上三个基本构件可以构建任何DL体系结构。这个 系统结构应具有扩展性、分布性与系统互操作性。DL的基本体系结构图用户界面检索系统名字解析系统存储系统图释用户系统定义面向用户和系统管理员使用的两类界 面,用户端通常是互联网浏览器,在浏览器上实

8、 现与DL系统的服务交互,执行请求与服务; 检索系统是DL系统的核心功能,检索系统在网络 环境中采用分布式检索或并行检索系统结构。 名字解析系统负责将URN转换为存储数字对象的 网络物理地址,并实现URN的注册管理功能,以 保证它的唯一性。 数据存储系统存储与管理数字对象及其他信息, 通过数据存储系统存取协议实现对数字信息的管 理,同时实施访问控制和安全管理功能。2 数字图书馆的技术体系结构调度子系统查询子系统对象数据库数据加工 子系统用户元数据库图释查询服务子系统向用户提供查询服务。用户连接到 此子系统提出查询请求,请求处理后经元数据库和 调度子系统查到初步相关信息,用户确认后再通过 元数据

9、中所含数据对象的句柄,通过调度系统到对 象数据库中取出用户需要的信息;主要功能是实现 数字化信息和知识的发布和利用。 元数据库和对象数据库存储和管理数据对象的数据 体、元数据及其它信息,把数字化信息相对集中。 这两个库是数字图书馆的资源库,分布在不同的地 点;数据加工子系统对数据信息进行打集、处理、加工 、存储和组织,将描述信息的元数据归入元数据 库,将数字对象本身(数据体、内容)送入对象 数据库。 调度子系统是一个为数字图书馆资源提供分布式 目录服务的计算机系统,负责自由地存取分布在 不同资源库的信息,实现网络环境下对象数据的 识别、统一调节度和无缝跨库检索。3数字图书馆的应用系统开发按照数

10、字图书馆的体系结构,DL系统需要开发相应的 应用: (1)资源加工系统数字资源加工系统要对多种形式的资源如文本、图 象、音频、视频等的数字化采集、加工、处理,实 现一次加工,长期利用,并适应未来扩展的需要, 建设DL系统的资源库。 (2)异构资源库整合系统在数字图书馆建立前的各种数据库要整合到DL系统 中,主要的困难是多种内容的数据结构形式不同, 原来的系统平台和应用软件也不完全相同。所以目 前没有成熟的方案。国外可行方案之一是采用XML封装技术对现有数据库进行统一封装,将它们与 DL系统连接起来。 (3)数字资源管理与存储系统数字图书馆的数字资源由元数据和对象数据构成 ,一般地将元数据相对集

11、中存放,对象数据分布 存放。DL需要的大规模资源管理与存储系统在实 现对大量数字资源的存储与管理,主要内容是数 据对象和元数据的存储格式、存取协议、维护数 据对象和元数据的完整性和一致性,以及在网络 环境中大规模分布式数字资源的快速有效的存取 支持等。(4)资源调度系统调度系统首先要有一个建立在统一命名规则基础上 的完善的调度码体系,第二是要建立一个有效的调 度机制,第三是要建立有效地为资源加工和用户服 务提供调度服务的功能。调度系统的目标是通过一 个标识确定DL中所有数字资源的规则,建立一个管 理所有DL资源的系统;当需要变化时,只要修改唯 一标识所指向的对应值就能服务的正常运行。 (5)用

12、户查询和服务系统此系统主要实现用户需要的信息和知识的发布和利 用。用户通过应用界面进入系统,检索元数据查获 资源标识,再通过调度系统,调动数字资源管理系 统获取对象库中的资源。此系统由应用界面系统、 元数据搜索系统、数字资源存取系统组成。如图应用界面系统调度系统调度码搜索系统元数据资源存取系统资源库此外,DL还有联合编目和馆际互借系统(建立各 单位网络元数据共建共享系统和数字资源链接服 务系)、安全认证系统、版权保护与电子商务系 统(部分服务收费)。三、数字图书馆信息组织技术与方法1数字图书馆信息组织的数据结构与传统图书馆一样,数字图书馆信息组织的信息 组织由三部分组成:指针、元数据和数据内容

13、。 指针是数据的唯一标识,如同一个排架号或一个 网页地址(但不是URL);元数据是一个描述数据 特征的数据集,类似目录,数据是一个个的文件 内容,类似图书馆的文献。也就是说,DL中的一 个文件(文本信息、图片、视频或音频文件等) ,在DL中先给一个唯一标识代表它在系统中的位 置,然后再把其基本特征抽取出来(元数据)。(1)指针指针是标识数据的一组唯一指示符。一般分为狭 义与广义两种:狭义指针(内部指针)是某个DL 系统中用来代表文件或数据的唯一标识符,该标 识在这个系统中是唯一的;由某个系统赋予,所 以可以按某个系统的总体需要自行设计。设计时 要作到:规范性,即发求建立内部指针的生成规 则;唯

14、一性,每个指针都是唯一的,不能与其它 指针重复;定长性,指针要设计成定长字符串( 可节省存储空间)。内部指针由本系统生成,只 用于本系统。广义意义上的指针是由统一资源名称赋予的广泛 意义上的数字信息唯一标识符,代表数字化信息 的主要特征。数字信息对象只有赋予唯一标识符,才能组织和 检索,并在DL系统中成为可以识别的唯一标识。标识数字信息对象目前主要有两种方法:一个 是统一赋予信息对象一个唯一名称,即统一资源 名称URNs;另一个赋予数字信息一个固定位置 ,即永久统一资源定位器法(PURL)。URNs方案由美国CNRI的句柄系统(handle system)提供标识网络资源的分布式目录服务。 它

15、负责给每一个资源一个永久的、唯一的名称( URN),这个名称独立于它的存储位置,不管它 存储在什么地方,名称不会改变,所以总能找到 这个资源。每个句柄由两部分组成:前一部分是命名授权,后 一部分是唯一局部名称。所以=/。一般认为,句柄是指 向指针的指针,它有全局句柄和局部句柄之分。如10.1045/january99-bearman这个句柄前一部分是 它的命名授权“10.1045”定义,后一部分是它的唯一 名称。再如 cnri.dlib/july95-arms也是一个句柄。句柄系统通过赋予数字对象代表其唯一标识的统一 资源名称,可以对它进行操作和管理。句柄 管理主 要通过全球性的名称规范登记服

16、务,建立全球规范 名称数据库,并通过句柄代理服务(Proxy server )提供两个代理服务器,用户可以在万维网上通过 句柄获取数字资源。PURL是OCLC于1996年建立的标识数字信息资源 的方法,它的原理是建立一个转换服务器,将数 字对象的PURL转换成可以在网络中重新指向资源 地址的URL,PURL在解析、转换中不变,重指的 URL则随对象的实际地址而变化。PURL由协议、转 换服务器地址和文件名称三部分组成。(2)元数据元数据是描述数据本身特征的数据。依靠元数据可 以管理数字图书馆系统中的海量信息,帮助DL系统 组织、管理和查找数据。它实际上是从文件中抽取 出来的各种特征或元素,类似传统的著录。它的作 用是: 1)数字资源的组织和检索:数字资源的描述和标引就 是代表资源内容和外部特征的元数据,根据元数据 可以将资源组织起,并实现快速管理和查询。 。2)设计和维护数据库的工具:设计DL系统的 物理结构、逻辑模块和业务(包括服务) 规则需要参考所有使用的元数据特征来设 计,同时设计和管理人员需要随时查阅元 数据,掌握数据库的全面情况

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号