【最新word论文】开放源代码的数字资源管理系统DSpace和Fedora的分析和比较 【文化研究专业论文】

上传人:飞*** 文档编号:8037392 上传时间:2017-09-25 格式:DOC 页数:8 大小:46.50KB
返回 下载 相关 举报
【最新word论文】开放源代码的数字资源管理系统DSpace和Fedora的分析和比较 【文化研究专业论文】_第1页
第1页 / 共8页
【最新word论文】开放源代码的数字资源管理系统DSpace和Fedora的分析和比较 【文化研究专业论文】_第2页
第2页 / 共8页
【最新word论文】开放源代码的数字资源管理系统DSpace和Fedora的分析和比较 【文化研究专业论文】_第3页
第3页 / 共8页
【最新word论文】开放源代码的数字资源管理系统DSpace和Fedora的分析和比较 【文化研究专业论文】_第4页
第4页 / 共8页
【最新word论文】开放源代码的数字资源管理系统DSpace和Fedora的分析和比较 【文化研究专业论文】_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《【最新word论文】开放源代码的数字资源管理系统DSpace和Fedora的分析和比较 【文化研究专业论文】》由会员分享,可在线阅读,更多相关《【最新word论文】开放源代码的数字资源管理系统DSpace和Fedora的分析和比较 【文化研究专业论文】(8页珍藏版)》请在金锄头文库上搜索。

1、1开放源代码的数字资源管理系统 DSpace 和 Fedora 的分析和比较1 背景我们对目前国际上流行的开放源代码的数字资源管理系统进行了重点的分析和试用,尤其对目前流行的两种开放源代码数字资源管理系统 DSpace1和Fedora2的体系结构、主要功能特点等做一些系统的分析和比较,希望能够为关注这些研究的单位和研究人员提供一些借鉴和参考。2DSpace 的分析DSpace 系统是 MIT 和 HP 实验室合作研究开发的为教育科研机构创建稳定的环境来长期保存和获得原生数字材料,捕捉、存储、索引、保存以及传播数字财产的系统平台。2002 年 10 月,该平台开始在 MIT 正式服务,2002

2、年底,向全世界公开了基于 BSD 开放源代码许可协议3的 DSpace 源码,目前最新版本为 1.2.1版。2.1DSpace 的数据模型DSpace 中的数据组织倾向于反映使用 DSpace 系统的组织本身的结构。每个Dspace 系统被划分成一些数字空间群(Communities),对应于大学的院系、实验室、研究中心等,这些依据不同的授权完成不同任务的组群称作数字空间群4。在 DSpace1.2 中,这些数字空间群可以组织成一个有继承关系的结构。数字空间群中包含数字馆藏(Collections),数字馆藏由一些相关的内容组成,一个数字馆藏可以出现在多个数字空间群中。数字馆藏由数字条目(It

3、ems)组成,数字条目是信息的基本存档元素。每一个数字条目由一个数字馆藏拥有,它可以出现在其他的数字馆藏中,但是只有唯一的所有者拥有馆藏。数字条目被进一步划分为命名的数字流包(BundlesofBitstreams)。数字流(BitStreams)是由比特位组成的一般的计算机文件。具有密切联系的数字流可以组成数字流包。每个数字流与一种数字流格式相关联。因为提供长期保存服务是 DSpace 服务的一个重要方面,所以获取用户提交的文件的特定格式是很重要的。在DSpace 中,一个数字流格式是用来指向一个特定文件格式的唯一方法。例如:对 MicrosoftWord2000 格式的数字流的解释是通过指

4、向 MicrosoftWord2000 应用程序的引用来隐式地定义。数字流格式比 MIME 类型或者文件名后缀更能准确表达格式。例如:对 MicrosoftWord2000 格式的数字流的解释是通过指向MicrosoftWord2000 应用程序的引用来定义的;而采用 MIME 类型的Application/ms-word 和文件名后缀的,doc 覆盖了 MicrosoftWord 应用的多种版本,每种版本对应可能特性不同的数字流5。2.2DSPace 的体系结构DSPace 系统分为三层,每一层由一系列组件组成。DSpace 的体系结构62其中存储层(StorageLayer)负责对数字条目

5、(数字对象)和关联的元数据(QualifiedDublinCore 元数据规范)进行存储,数字内容存储在文件系统中,以数字流和数字流包的形式与条目相关联,条目中可以包含不同类型的文件。业务逻辑层(BusinessLogicLayer)由处理 DSpace 系统各个独立功能的一系列组件组成,如:浏览、检索、用户组管理和授权、工作流管理、内容管理等。应用层(ApplicationLayer)提供终端用户交互和接口功能,基于 Web 的用户界面,批量数据导入工具,OAI 元数据供应等。考虑到长期保存的需要,DSpace 提供对CNRI 句柄的支持,保证给每个数字条目一个全球唯一的标识符。2.3DSp

6、ace 的主要功能特点(1)DSpace 中的元数据支持DSpace 中的存档内容具有 3 种元数据。描述元数据每个数字条目对应有一个 QualifiedDublinCore 描述元数据记录。QualifiedDublinCore 之外的其他关于数字条目的描述元数据可以以序列化的数字流的形式存在。数字空间群和数字馆藏具备一些简单的描述元数据,存在于系数据库中。管理元数据包括技术元数据,数字化过程元数据和授权策略等数据。大多数存在于DSpace 的关系数据库表中。结构元数据包括的信息有:如何展示一个数字条目,或者是将个数字条目内部的数字流给用户;数字条目组成部分之间的关系。例如:组成一个论文的一

7、组 TIFF 图,每幅图代表其中一页,结构元数据可以将其中的每一张图像表示为一页,并表示每页的顺序信息5。(2)DSpace 中的电子用户(E-People)DSpace 中的许多功能如:文档发现和提取都可以匿名使用,但是用户必须经过身份验证才能行使如提交,E-mail 通知(订阅)或管理的功能。用户可以通过分组来方便地管理。DSpace 中把用户叫做“E-People” ,因为在有些时候一些用户可能是机器而非真正的人。DSPace 中保存的每个 E-Person 的信息如下:邮件地址;姓名;用户是否可以通过 Web 界面登录,或者是必须使用 X509 验证7;密码;订阅的数字馆藏列表;电子用

8、户是通过自己注册产生,还是通过该机构的个人信息数据库产生。(3)DSpace 中的授权策略DSpace 中采用基于分组的资源控制策略,权限策略可以针对个别的用户和匿名用户,也可以适用于电子用户工作组。对用户用户组的授权必须明确地声明,缺省情况下,DSpace 中采用“否定”授权策略。而且权限也不能随便扩展,比如说,某个用户具有某个数字条目的读权限,但不一定具备与该条目关联的数字流文件的读权限。(4)可定制的工作流机制DSpace 中的馆藏资源的提交和管理基于一个可以定制的工作流过程运行。3一般情况下,一个数字馆藏的工作流分 3 个步骤,并且每个步骤对应有可以行使该操作的电子用户组,如果某个步骤

9、没有对应的操作用户组,那么该步骤在实际的过程中将被忽略。当某个步骤被激活时,执行该步骤的任务被加入到相关的用户组的“任务池”中,并且组中的用户获得通知,从“任务池”中取出该任务处理,完成后进入下一步。工作流流程可以通过 DSpace 提供的管理员工具来定制,具有管理员身份的用户可以根据馆藏资源的具体提交过程使用管理工具定义适合的资源提交流程。(5)资源的唯一标识符策略在 DSpace 中采用美国国家研究推进机构(TheCorporationforNationalResearchInitiatives,CNRI)的句柄系统(HandleSystem)8来生成资源标识。每个 DSpace 站点要从

10、 CNRI 获得一个唯一的前缀,站点本身可以运行一个句柄服务器来生成内部的唯一标识符,并且可以接收和解析外部进来的请求。句柄可以被指定给数字空间群,数字馆藏和数字条目,对于数字流包和数字流不采用指定句柄来标识。句柄可以写成 2 种形式:hdl:1721.123/4567http:/ CNRI 的句柄解析插件。其中,前缀:1721.123;4567 是本地部分5。(6)DSpace 中的资源开放服务DSpace 系统实现了 OAI-PMH 协议9,通过公开提供可匿名访问的数字条目的 DC 元数据。另外,数字馆藏结构也采用 OAI 协议的“集合(Sets)”机制公开。DSpace 中采用 OCLC

11、 的开放源 OAICat 框架来提供这项功能。DSpace 系统以一种简单的方式支持 SFX10的 OpenURL 协议11。如果使用机构有一个 SFX 服务器,DSpace 将给每一个数字条目页上显示一个 OpenURL 链接,自动使用 DC 元数据。另外,DSpace 能够响应外来的 OpenURL 请求。目前,只是简单地把 OpenURL 中的信息传递给检索子系统,会给出一个结果列表,在列表顶部会给出最相关的数字条目。(7)DSpace 的检索和浏览功能DSpace 的索引和检索模块提供一个简单的 API,允许对新内容作索引,重建索引以及在指定范围内检索。这个 API 来自免费的 Jav

12、a 搜索引擎Lucene12。Lucene 支持字段检索、停词(Stopwords)、词干(Stemming)以及不重建索引增加新的索引内容的能力。浏览子系统提供了一个简单的 API 来指定一个索引,或该索引的一部分。可以被浏览的索引有 ItemTitle,ItemlssueDate 和 Authors。浏览范围可以从数字空间群到数字馆藏。(8)数据的导入导出DSpace 包括导入和导出数字条目的批处理工具,采用简单的目录结构组织,DC 元数据存成 XML 文件。这些工具可以用来作为在 DSpace 和其他系统之间迁移的基础。还提供一个基于 METS13的导出工具,将数字条目导出成 METS

13、格式的元数据记录,但还不提供对 METS 格式的元数据的导入功能,DSpace 开发组计划在未来的版本中提供基于 METS 的元数据导入工具。2.4DSpace 的安装和运行环境4本文以 DSpace1.2 版本为例进行了安装和试用,所需的安装和运行环境如下:Unix 类的操作系统,如:Linux,HP/UX 等;Java2StandardDevelopmentKit(J2SDK)1.4 或者是更高版本;ApacheAnt1.5 或者是更高版本,或者是其它类似的 Java 编译工具;PostgreSQL7.3 或者是更高版本,一个开放源代码的关系数据库系统;JakartaTomcat4.x/5

14、.x 或者是类似的系统,如:CauchoResin 的等同版本。3Fedora 的分析Fedora(FlexibleExtensibleDigitalObjectandRepositotyArchitecture)系统2是由 AndrewW.Mellon 基金会资助,由 Virginia 和 Cornell 大学联合开发的开放源代码系统,遵守 Mozilla 开放源代码协议。Fedora 是一个通用的数字对象管理系统。可以用在很多地方,包括:数字图书馆、内容管理、数字资产管理、资源保存等。2001 年发布 Fedora1.0 版,目前最新版本 2.0 版。3.1Fedora 的数据模型(1)F

15、edora 的数字对象框架数字对象框架(DigitalObjectArchitecture,DOA)最早是 WilliamY.Arms 于1997 年提出的,后来在 Fedora 系统中得到实现。Fedora 中的数字对象的结构模型如图 2 所示。数字对象的结构模型14PersistentID(PID),数字对象唯一标识符(DigitalObjectIdentifier),用来唯一地标识一个数字对象,以便于在命名空间内唯一地引用该数字对象。系统元数据(SystemMetadata),描述整个数字对象,用来管理该数字对象和建立数字对象的索引。数据元素(Datastream),是数字对象所包含的数

16、据,它可能是元数据,也可能是数据本身。如果是元数据,可能是各种格式的,比如 DublinCore,MARC。如果是数据本身,可能是文本、图像、音频、视频数据。一个数字对象包含一个或者多个数据元素。数据发布器(Disseminator),是数字对象内部的一种结构,对应着一种发布数字对象内容的方式。包括两部分:接口定义(BehaviorDefinition)和接口的实现(BehaviorMechanism),分别对应着对数据内容的操作接口和对数据内容操作的接口的实现14。(2)Fedora 的仓储仓储(Repository)是存储管理数字对象的容器,是 Fedora 系统中非常重要的实体。仓储实现了数字对象的存储管理,并且通过一定的访问控制策略提供了数字对象内容发布的机制。数字对象存放在仓储里面,一个数字对象对外部可见的只是它的唯一标识符,与数字对象的交互

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 文学论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号