构建基于oai协议的可互操作数字图书馆元数据服务

上传人:w****i 文档编号:115952826 上传时间:2019-11-15 格式:PDF 页数:4 大小:317.78KB
返回 下载 相关 举报
构建基于oai协议的可互操作数字图书馆元数据服务_第1页
第1页 / 共4页
构建基于oai协议的可互操作数字图书馆元数据服务_第2页
第2页 / 共4页
构建基于oai协议的可互操作数字图书馆元数据服务_第3页
第3页 / 共4页
构建基于oai协议的可互操作数字图书馆元数据服务_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《构建基于oai协议的可互操作数字图书馆元数据服务》由会员分享,可在线阅读,更多相关《构建基于oai协议的可互操作数字图书馆元数据服务(4页珍藏版)》请在金锄头文库上搜索。

1、计算机科学2 0 0 2 V 0 1 2 9 N O 8 ( 增刊) 构建基于O A I 协议的可互操作数字图书馆元数据服务 C o n s t r u c t i n ga nI n t e r o p e r a b l eD i g i t a lL i b r a r yM e t a d a t aS e r v i c eb a s e do nt h eO A IP r o t o c o l 王蜀安张铭王爱华杨冬青 ( 北京大学计算机科学技术系北京1 0 0 8 7 1 ) A b s t r a c tW i t ht h es p e e d i n g u pd e v

2、e l o p m e n to fD i g i t a lL i b r a r y ( D L ) ,t h ep r o b l e mo fi n t e r o p e r a b i l i t ye m e r g e s O n eo ft h em o s te s s e n t i a lr e a s o n sl i e si nt h ea b s e n c eo fap r o t o c o l ,w h i c hi sa b l e t Op r o m o t eau n i f o r m ,h i g h l ye f f i c i e n ta

3、 n di n t e r o p e r a b l ef r a m e w o r k B a s e do no u rp r o j e c to nD i g i t a lL i b r a r y ,t h i sp a p e ra n a l y s e sa ni n t e r o p e r a b l em e t a d a t as e r v i c ef r a m e w o r ko nt h eb a s i so fn e w l ys e t t l e dO A Ip r o t o c o lw h o s eg o a li st Os u

4、p p l ys u c haf r a m e w o r ka sw ea r ea f t e r W ea d o p tn o t o n l yt h em a t u r eO R D B M Sp r o d u c t O r a c l e ,b u ta l s ot h ep o p u l a ra n dp r o m i s i n gt e c h n i q u e s ,s u c h a sX M L ,X S L ,J S P ,J D B Ca n dD O M A l lo fo u rw o r kp u t sf o r w a r dt h e

5、a t t e m p tf o rs i m i l a rf u t u r ew o r k K e y w o r d sD L ( D i g i t a lL i b r a r y ) ,I n t e r o p e r a b i l i t y ,M e t a d a t a ,O A I ( O p e nA r c h i v e sI n i t i a t i v e ) ,D a t aP r o v i d e r 1 引言 数字图书馆作为下一代I n t e r n e t 资源管理的核 心技术,近年来取得了长足的发展。元数据是定义和 组织数字图书馆信息资源

6、的基础,它提供了一种精 确描述数据内容和语义的机制以及对服务的描述。 数字图书馆的资源类型的多样性造成了元数据标准 的多样性,从而带来了元数据的集成与互操作问题。 数字图书馆中的互操作性( I n t e r o p e r a b i l i t y ) 指 同一数字图书馆的各个组件或不同数字图书馆之间 交换、共享文档、查询和服务的能力n 。达到互操作 的途径包括联邦、收集和收割。采用传统的邦联途 径 2 ,联合组织之间必须有比较严格的规范,需要各 组织在实现和保持实时的一致中付出极大的努力。 采用收集方式,例如网络搜索引擎,代价低且能扩大 数字图书馆联合的数量,但服务质量差,难以满足深 入

7、合作的需求。由此看到互操作性问题难以解决的 关键是缺乏统一高效的协议为它提供框架。新的 O A I 协议提出选择性收割的方式,定义了一个技术 框架来满足互操作性要求。该协议起点低 3 ,适合于 系统间元数据的循环交换,为网上信息发布提供了 独立于应用的互操作框架。 北京大学中文古籍数字图书馆c 4 从研究金石拓 片这种最复杂的文献出发,进行中文文献元数据标 准研究。北京大学数字图书馆数据库研究小组负责 中文古籍文献的元数据发布工作。我们在O A I 协议 的逻辑框架上,成功地构建起可互操作数字图书馆 元数据服务架构。该架构的特点是有效地利用商用 对象一关系型数据库作为存储手段,使数据存储查 询

8、具有可靠性和高效性;同时结合半结构化数据 X M L 在形式转化上的优势,用X S L 和D O M 接口, 将中文古籍信息原来所提供的c a l i s 标准的元数据 映射成目前国际上通行跨学科的D u b l i nC o r e 标准 的元数据,以O A I 协议应答的方式反馈给服务提供 者,以此作为增值服务的基础。 本文结合目前国内外数字图书馆领域在数据提 供者方面的研究和实践,系统地介绍了我们所实现 的可互操作元数据服务架构。这一成果兼顾了实用 性和先进性:既采用了市场上成熟的数据库产品O r a c l e ,又运用了在网络时代有强大生命力的技术 X M L 和J a v a ,为

9、构建未来的同类服务架构做 出了有益的尝试。 2 应用背景与概念 2 1O A I 协议 O A I 组织( T h eO p e nA r c h i v e sI n i t i a t i v e ) 的工 作是开发互操作标准,使得内容的有效发布变得便 利。O A I 协议全称是O A I 元数据收割协议( T h e * ) 本文的研究得到北京大学“创建世界一流大学计划”学科建设项目( 简称“9 8 5 ”项目,项目名称为“数字图书馆关键技术研究试验基地”) 资 助。王蜀安硕士研究生主要研究方向为数字图书馆、数据库与信息系统。张铭博士研究生,副教授主要研究方向为数字图书馆、数据库 与信息

10、系统。王爱华博士研究生主要研究方向为数字图书馆、信息检索杨冬青教授,博士生导师。主要研究方向为数据库与信息系统。 】1 0 O p e nA r c h i v e sP r o t o c o lf o rM e t a d a t aH a r v e s t i n g ) 。 它使用元数据收割模式,目标是提供和促进独立于 应用的互操作性框架。两类参与者从逻辑功能上被 区分开来:一类是数据提供者( D a t aP r o v i d e r s ) ,另 一类是服务提供者( S e r v i c eP r o v i d e r s ) 。前者支持 O A I 协议,以协议规定的方式

11、发布元数据;后者向 前者构建的系统发送O A I 协议请求,然后使用从前 者那里返回的元数据作为增值服务的基础。用户再 从服务提供者得到更好的服务。O A I 协议的模型如 图1 所示: 用户)( 用户)( 用户 f 服务提供者( S e r v i c ep r o v i d e r s h a r v e st e r s ) I O h I 协议请求ITO h l 协议应答 数据提供者( D a t ap r o v i d e r s f e p o s i t o r i e s O A I s e r v e r s ) 图1O A I 协议模型示意图 2 2O A I 中的基本

12、概念 仓储( r e p o s i t o r y ) :是通过网络可达的,能处理 0 A l 协议请求的服务器。 记录( r e c o r d ) :是仓储应答O A I 协议请求所返 回的X M L 编码的字节流。这种请求的目的是为了 获取该仓储中一个条目( i t e m ) 的元数据。 唯一标识符( U n i q u ei d e n t i f i e r ) :是从仓储中 抽取一个条目的元数据时采用的关键字。 集合( s e t ) :是仓储将条目分组的一种可选结 构。数据提供者使用集合的目的是为了让服务提供 者有选择性地收割记录。 2 5O A I 协议特色及内容 O A

13、I 协议采用选择性收割( s e l e c t i v e h a r v e s t i n g ) 的方式,由六组请求与应答组成,都表达成 H T T P 形式。除了B A S E U R L ,请求中还必须包含 关键字参数列表。应答采用X M L 编码,所返回的元 数据可以是多种格式( 如D u b l i nC o r e ) 。协议中包含 了流控制( F l o wC o n t r 0 1 ) 机制,支持当不能一次性 返回大批量数据时的续传。 基于O A I 的元数据服务架构 5 1 数据存储设计 我们采用以商用O R D B M S 为基础同时辅以直 接的半结构化存储的方案 s

14、 :将一部分简单而同时 又被经常查询的元素集存放在关系表中;其他的一 些元素则不被映射到关系表,使用半结构化的方法 实现对它们的查询。 采用这样的存储方法具有充分的理由。我们的 元数据原始数据是c a l i s 标准的半结构化数据 ( X M L 格式) ,具有复杂的树形结构,难以映射到关 系表中存储;而现有的X M L 数据库又不成熟。考虑 到我们提供应答的主要形式D u b l i nC o r e 标准也以 X M L 格式为载体,为了充分利用半结构化数据在 形式转换( t r a n s f o r m ) 上的优势,较好的办法是不打 破原始数据的整体结构,而将其作为完整的大对象 入

15、库。我们把包含元数据的X M L 文件作为C L O B 字段存入O r a c l e 数据库,在存放元数据时建立为查 询服务的索引。一些有关仓储的简单信息( 如仓储 名、管理员邮件等) 则直接存放在关系表中。 5 2 开发技术、测试平台总览 图2 所示为北京大学可互操作数字图书馆元数 据服务系统结构。它采用主流的商用数据库O r a c l e 确保元数据的可靠存储和高效查询。O A I 协议中的 应答采用X M L 编码形式。J a v a 语言可以非常方便 地操作X M L ,J S P 和X M L 更是天作之合,甚至可 以用J S P 直接输出X M L 文件。因此,我们选用J S

16、 P 作为主要的开发编程语言。一般说来,只要能够执行 J a v aS e r v l e t 的服务器就能够执行J S P 。我们所采用 的测试平台是T o m c a t 。因为最终O A I 协议应答所 产生的X M L 文档结构和原始数据的文档结构并不 一致,所以需要使用X S L 和D O M 接口实现文档结 构的映射。 服务提供者( S e r v i c eP r o v i d e r ) O A I 协议请求厂tO k l 协议应答 。D a 效t 删ap r o v 者i 断,l 圈= = = = _ 。 里Q 丛华塾_ jl 简单数据 x M L 数据 士 ! P J 7 ” J D B C l 用数据库( O r a c l e ! 图2 北京大学可豆操作数字图书馆元数据服务系统 5 5 基于O A I 协议的元数据服务实现 O A I 协议使用的是元数据收割模式( m e t a d a t a h a r v e s t i

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号