开放源代码的数字资源管理系统dspace和fedora的分析和比较(1)

上传人:bin****86 文档编号:60472931 上传时间:2018-11-16 格式:DOCX 页数:18 大小:25.24KB
返回 下载 相关 举报
开放源代码的数字资源管理系统dspace和fedora的分析和比较(1)_第1页
第1页 / 共18页
开放源代码的数字资源管理系统dspace和fedora的分析和比较(1)_第2页
第2页 / 共18页
开放源代码的数字资源管理系统dspace和fedora的分析和比较(1)_第3页
第3页 / 共18页
开放源代码的数字资源管理系统dspace和fedora的分析和比较(1)_第4页
第4页 / 共18页
开放源代码的数字资源管理系统dspace和fedora的分析和比较(1)_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《开放源代码的数字资源管理系统dspace和fedora的分析和比较(1)》由会员分享,可在线阅读,更多相关《开放源代码的数字资源管理系统dspace和fedora的分析和比较(1)(18页珍藏版)》请在金锄头文库上搜索。

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果开放源代码的数字资源管理系统DSpace和Fedora的分析和比较(1) 1背景 我们对目前国际上流行的开放源代码的数字资源管理系统进行了重点的分析和试用,尤其对目前流行的两种开放源代码数字资源管理系统DSpace1和Fedora2的体系结构、主要功能特点等做一些系统的分析和比较,希望能够为关注这些研究的单位和研究人员提供一些借鉴和参考。 2DSpace的分析 DSpace系统是MIT和HP实验室合作研究开发的为教育科研机构创建稳定的环境来长期保存和获得原生数字

2、材料,捕捉、存储、索引、保存以及传播数字财产的系统平台。XX年10月,该平台开始在MIT正式服务,XX年底,向全世界公开了基于BSD开放源代码许可协议3的DSpace源码,目前最新版本为版。 .1DSpace的数据模型 DSpace中的数据组织倾向于反映使用DSpace系统的组织本身的结构。每个Dspace系统被划分成一些数字空间群(Communities),对应于大学的院系、实验室、研究中心等,这些依据不同的授权完成不同任务的组群称作数字空间群4。在DSpace 中,这些数字空间群可以组织成一个有继承关系的结构。 数字空间群中包含数字馆藏(Collections),数字馆藏由一些相关的内容组

3、成,一个数字馆藏可以出现在多个数字空间群中。 数字馆藏由数字条目(Items)组成,数字条目是信息的基本存档元素。每一个数字条目由一个数字馆藏拥有,它可以出现在其他的数字馆藏中,但是只有唯一的所有者拥有馆藏。 数字条目被进一步划分为命名的数字流包(Bundles of Bitstreams)。数字流(BitStreams)是由比特位组成的一般的计算机文件。具有密切联系的数字流可以组成数字流包。 每个数字流与一种数字流格式相关联。因为提供长期保存服务是DSpace服务的一个重要方面,所以获取用户提交的文件的特定格式是很重要的。在DSpace中,一个数字流格式是用来指向一个特定文件格式的唯一方法。

4、例如:对Microsoft Word000格式的数字流的解释是通过指向Microsoft Word000应用程序的引用来隐式地定义。数字流格式比MIME类型或者文件名后缀更能准确表达格式。例如:对Microsoft Word000格式的数字流的解释是通过指向Microsoft Word000应用程序的引用来定义的;而采用MIME类型的Application/ms-word和文件名后缀的,doc覆盖了Microsoft Word应用的多种版本,每种版本对应可能特性不同的数字流5。 .2DSPace的体系结构 DSPace系统分为三层,每一层由一系列组件组成。 DSpace的体系结构6 其中存储层

5、(Storage Layer)负责对数字条目和关联的元数据进行存储,数字内容存储在文件系统中,以数字流和数字流包的形式与条目相关联,条目中可以包含不同类型的文件。业务逻辑层(Business Logic Layer)由处理DSpace系统各个独立功能的一系列组件组成,如:浏览、检索、用户组管理和授权、工作流管理、内容管理等。应用层(Application Layer)提供终端用户交互和接口功能,基于Web的用户界面,批量数据导入工具,OAI元数据供应等。考虑到长期保存的需要,DSpace提供对CNRI句柄的支持,保证给每个数字条目一个全球唯一的标识符。 .3DSpace的主要功能特点 (1)D

6、Space中的元数据支持 DSpace中的存档内容具有3种元数据。 描述元数据 每个数字条目对应有一个Qualified Dublin Core描述元数据记录。Qualified Dublin Core之外的其他关于数字条目的描述元数据可以以序列化的数字流的形式存在。数字空间群和数字馆藏具备一些简单的描述元数据,存在于系数据库中。 管理元数据 包括技术元数据,数字化过程元数据和授权策略等数据。大多数存在于DSpace的关系数据库表中。 结构元数据 包括的信息有:如何展示一个数字条目,或者是将个数字条目内部的数字流给用户;数字条目组成部分之间的关系。例如:组成一个论文的一组TIFF图,每幅图代表

7、其中一页,结构元数据可以将其中的每一张图像表示为一页,并表示每页的顺序信息5。 (2)DSpace中的电子用户(E-People) DSpace中的许多功能如:文档发现和提取都可以匿名使用,但是用户必须经过身份验证才能行使如提交,E-mail通知或管理的功能。用户可以通过分组来方便地管理。DSpace中把用户叫做“E-People”,因为在有些时候一些用户可能是机器而非真正的人。 DSPace中保存的每个E-Person的信息如下: 邮件地址; 姓名; 用户是否可以通过Web界面登录,或者是必须使用X509验证7; 密码; 订阅的数字馆藏列表; 电子用户是通过自己注册产生,还是通过该机构的个人

8、信息数据库产生。 (3)DSpace中的授权策略 DSpace中采用基于分组的资源控制策略,权限策略可以针对个别的用户和匿名用户,也可以适用于电子用户工作组。对用户用户组的授权必须明确地声明,缺省情况下,DSpace中采用“否定”授权策略。而且权限也不能随便扩展,比如说,某个用户具有某个数字条目的读权限,但不一定具备与该条目关联的数字流文件的读权限。 (4)可定制的工作流机制 DSpace中的馆藏资源的提交和管理基于一个可以定制的工作流过程运行。一般情况下,一个数字馆藏的工作流分3个步骤,并且每个步骤对应有可以行使该操作的电子用户组,如果某个步骤没有对应的操作用户组,那么该步骤在实际的过程中将

9、被忽略。当某个步骤被激活时,执行该步骤的任务被加入到相关的用户组的“任务池”中,并且组中的用户获得通知,从“任务池”中取出该任务处理,完成后进入下一步。工作流流程可以通过DSpace提供的管理员工具来定制,具有管理员身份的用户可以根据馆藏资源的具体提交过程使用管理工具定义适合的资源提交流程。 (5)资源的唯一标识符策略 在DSpace中采用美国国家研究推进机构(The Corporation for National Research Initiatives,CNRI)的句柄系统(Handle System)8来生成资源标识。每个DSpace站点要从CNRI获得一个唯一的前缀,站点本身可以运行

10、一个句柄服务器来生成内部的唯一标识符,并且可以接收和解析外部进来的请求。句柄可以被指定给数字空间群,数字馆藏和数字条目,对于数字流包和数字流不采用指定句柄来标识。 句柄可以写成2种形式: hdl:/4567 /4567 第二种表示可以被任意的浏览器识别,第一种需要使用CNRI的句柄解析插件。 其中,前缀:;4567是本地部分5。 (6)DSpace中的资源开放服务 DSpace系统实现了OAI-PMH协议9,通过公开提供可匿名访问的数字条目的DC元数据。另外,数字馆藏结构也采用OAI协议的“集合(Sets)”机制公开。DSpace中采用OCLC的开放源OAICat框架来提供这项功能。 DSpa

11、ce系统以一种简单的方式支持SFX10的OpenURL协议11。如果使用机构有一个SFX服务器,DSpace将给每一个数字条目页上显示一个OpenURL链接,自动使用DC元数据。另外,DSpace能够响应外来的OpenURL请求。目前,只是简单地把OpenURL中的信息传递给检索子系统,会给出一个结果列表,在列表顶部会给出最相关的数字条目。 (7)DSpace的检索和浏览功能 DSpace的索引和检索模块提供一个简单的API,允许对新内容作索引,重建索引以及在指定范围内检索。这个API来自免费的Java搜索引擎Lucene12。Lucene支持字段检索、停词(Stop words)、词干(St

12、emming)以及不重建索引增加新的索引内容的能力。 浏览子系统提供了一个简单的API来指定一个索引,或该索引的一部分。可以被浏览的索引有Item Title,Item lssue Date和Authors。浏览范围可以从数字空间群到数字馆藏。 (8)数据的导入导出 DSpace包括导入和导出数字条目的批处理工具,采用简单的目录结构组织,DC元数据存成XML文件。这些工具可以用来作为在DSpace和其他系统之间迁移的基础。还提供一个基于METS13的导出工具,将数字条目导出成METS格式的元数据记录,但还不提供对METS格式的元数据的导入功能,DSpace开发组计划在未来的版本中提供基于MET

13、S的元数据导入工具。 .4DSpace的安装和运行环境 本文以DSpace 版本为例进行了安装和试用,所需的安装和运行环境如下: Unix类的操作系统,如:Linux,HP/UX等; JavaStandard Development Kit(J2SDK)或者是更高版本; Apache Ant 或者是更高版本,或者是其它类似的Java编译工具; 或者是更高版本,一个开放源代码的关系数据库系统; Jakarta /或者是类似的系统,如:Caucho Resin的等同版本。 3Fedora的分析 Fedora(Flexible Extensible Digital Object and Reposi

14、toty Architecture)系统2是由Andrew 基金会资助,由Virginia和Cornell大学联合开发的开放源代码系统,遵守Mozilla开放源代码协议。Fedora是一个通用的数字对象管理系统。可以用在很多地方,包括:数字图书馆、内容管理、数字资产管理、资源保存等。XX年发布Fedora 版,目前最新版本版。 .1Fedora的数据模型 (1)Fedora的数字对象框架 数字对象框架(Digital Object Architecture,DOA)最早是William 于1997年提出的,后来在Fedora系统中得到实现。Fedora中的数字对象的结构模型如图2所示。 数字对

15、象的结构模型14 Persistent ID(PID),数字对象唯一标识符(Digital ObjectIdentifier),用来唯一地标识一个数字对象,以便于在命名空间内唯一地引用该数字对象。 系统元数据(System Metadata),描述整个数字对象,用来管理该数字对象和建立数字对象的索引。 数据元素(Datastream),是数字对象所包含的数据,它可能是元数据,也可能是数据本身。如果是元数据,可能是各种格式的,比如Dublin Core,MARC。如果是数据本身,可能是文本、图像、音频、视频数据。一个数字对象包含一个或者多个数据元素。 数据发布器(Disseminator),是数字对象内部的一种结构,对应着一种发布数字对象内容的方式。包括两

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号