基于云计算的数字图书馆架构

资源描述

《基于云计算的数字图书馆架构》由会员分享，可在线阅读，更多相关《基于云计算的数字图书馆架构（6页珍藏版）》请在金锄头文库上搜索。

1、基于云计算的数字图书馆架构基于云计算的数字图书馆架构摘要：摘要：基于云计算的数字图书馆可以解决数字图书馆面临的资源重复建设等问题。提出云图书馆平台实现数字图书馆之间的资源共享问题，首先搭建云图书馆平台架构，然后介绍云计算相关技术 Hadoop 并将其应用到本地图书馆建设中构成本地图书馆云平台，利用 Web 技术实现对本地图书馆的调度，接着在云平台框架上实现了图书馆中最常见资源检索服务，最后论述该平台在后续发展中需要注意的问题。关键词：关键词：云图书馆平台；架构；资源共享；Hadoop；资源检索服务 Abstract: The digital library based on clou

2、d computing can solve the problems such as resource repeated construction of digital library. This paper proposed a cloud library platform and realized the sharing of resources between digital libraries. Firstly, build a architecture of the cloud library, Secondly, introduce the cloud computing tech

3、nology learned Hadoop and apply it to the local librarys building to form a local library cloud platform, using Web technology to realize the scheduling of the local library. Then achieved the resource search service, that is the most common service of a library, on the cloud platform. Finally discu

4、ssed the issues the platform needs to pay attention in the follow-up development. Keywords: cloud library platform ; architecture ; resource sharing ; Hadoop ; resource search service 0 引言云计算的诞生是在 2007 年第 3 季度，其关注度至今一直居高不下，从云计算提出以来虚拟化技术就被提到了很高的地位，虚拟化技术被称为云计算的核心技术。云计算将计算资源集中起来，无需人为参与而是通过专门的软件自动管理，

5、用户可以动态申请资源来提高效率、降低成本和技术创新，基于此特点，越来越多的企业和组织机构想通过云计算来提高自身的服务体验和管理水平。随着电子资源的日益丰富，各高校图书馆存储设备的容量也越来越大，由于技术、管理体制和知识产权的原因，各图书馆电子资源的存储都是追求小而全，信息重复量达到 90%。存储设备重复建设，浪费巨大。根据知识产权的要求，电子资源应有偿使用。如何在保证有偿使用的前提下，避免我市各高校图书馆电子资源的重复建设，实现电子资源的共建共享，已成为高校极为关注的问题。1要真正实现共建共享，其基础是实现存储设备共享。通过共享存储设备，用户可以通过购买版权方式共享资源。这样不

6、仅可以减少电子资源的重复建设，而且可以节省存储空间近 90%，减少图书馆间大量存储设备的重复投入，提高存储设备的利用率。利用云计算的虚拟化存储技术，可以将各高校图书馆的存储设备虚拟化为一个统一的云存储空间，从而实现电子资源的存储共享服务。 1 云计算“云”是一种新的利用计算机和互联网的方式，它把所有的计算应用和信息资源都用互联网连接起来，提供随时的访问、分享，对某一相关功能或资源的管理和使用可以部署在全球任何地方的服务器和数据中心。云计算的突出特点和能力有：随时取用、超级计算、平台无关、易部署、易扩展和按需支付等2。云计算按照服务类型大致可以分成三类：将基础设施作为服务IaaS、

7、将平台作为服务 PaaS、将软件作为服务SaaS。IaaS将分布在大量的计算机和存储设备上的计算和存储资源集中起来成为一个虚拟的资源池以服务方式提供服务；PaaS把开发环境、应用程序运行环境、数据库环境等作为一种服务来提供给开发商, 由后者开发程序并通过互联网提供给用户；SaaS通过浏览器把程序以服务方式交付给用户，向用户收取服务费。Hadoop【3】是 Apache 开源组织的一个分布式计算框架。可以在大量廉价的硬件设备上运行应用程序为应用程序提供了一组稳定可靠的接口，旨在构建一个具有高可靠性和良好扩展性的分布式系统。其最核心的技术是 HDFS 和 MapReduce。 2.1 Ha

8、doop 分布式文件系统 HDFS Hadoop 分布式文件系统 HDFS【4】可以部署在廉价硬件之上，能够高容错、可靠地存储海量数据。HDFS 是 Google 文件系统(GFS)的开源实现，一个主从结构的体系，HDFS 集群有一个 NameNode 和多个 DataNode 组成。NameNode 管理文件系统的元数据， DataNode 存储实际的数据。客户端联系 NameNode 以获取文件的元数据，而真正的文件 I/O 操作是直接和 DataNode 进行交互的。 NameNode 就是主控制服务器，负责维护文件系统的命名空间(Namespace)并协调客户端对文件的访问，记录命

9、名空间内的任何改动或命名空间本身的属性改动。DataNode 负责他们所在的物理节点上的存储管理，HDFS 开放文件系统的命名空间以便让用户以文件的形式存储数据。图 2-1 是 HDFS 的结构示意图。例如客户端要访问一个文件，首先，客户端从 NameNode 获得组成文件的数据块的位置列表，也就是知道数据块被存储在哪些 DataNode 上；然后客户端直接从 DataNode 上读取文件数据。NameNode 不参与文件的传输。图 2-1 HDFS 的结构示意图 2.2 分布式数据处理 MapReduceMapReduce5是一种分布式计算模型，也是 Hadoop 的核心，其框架和分

10、布式文件系统 HDFS 是运行在一组相同的节点上的，即计算节点和存储节点通常在一起。适合 MapReduce 处理的数据集是可以被分解成许多小的数据集，而且每个小的数据集都可以完全并行的进行处理。 MapReduce 把运行在大规模集群上的并行计算过程抽象为两个函数：Map 和 Reduce，分别对应映射阶段和化简阶段6。在映射阶段，MapReduce 将用户输入的数据分割为 M 个片段，对应 M 个 Map 任务。对于输入的键值对集合，Map 操作后首先输出一个中间态键值对，接着 Map 按照中间态的 K2 対数据集进行排序，生成一个新的元组，并按 K2 的范围将这些元组分割为 R

11、个片段，对应 Reduce 任务的数目。在化简阶段，针对输入片段，Reduce 操作生成用户需要的键值对进行输出。图 2-2 是 MapReduce 的结构示意图 MapReduce 框架是由 JobTracker 和 TaskTracker 这两类服务调度的6。JobTracker 是主控服务，只有一个，负责调度和管理 TaskTracker，把 Map 任务和 Reduce 任务分配给空闲的 TaskTracker，TaskTracker 是从服务器，有多个，负责执行任务。分段 0分段 1分段 2分段 3分段 M-1Map()Map()Map()Map()Map()Reduce()R

12、educe()Reduce()Reduce()结果 0结果 R-1结果 1结果 2分区输入M个Map任务R个Reduce任务输出图 2-2 MapReduce 的结构示意图三、基于云计算的数字图书馆基于云计算的数字图书馆，旨在利用云计算相关技术，实现一个“云图书馆”平台，在虚拟存储池上构建高校图书馆之间电子资源的共享存储架构，达到高校图书馆之间存储设备的共享的目的。这不仅可以消除地域分布、系统异构等问题造成的共享困难，有助于实现资源的统一组织和调度，还可以大大减少存储设备的重复投入，提高设备和资源的利用率。 “云图书馆”平台由一个联合服务平台和多个本地图书馆云平台构成。联合服务平台

13、将不同的本地图书馆云平台集成起来，针对各个本地图书馆云平台提供的不同的 OpenAPI，联合服务平台采用一个统一的 API 托管服务中心，以统一服务接口方式提供给各个图书馆并且以统一的界面和操作方式为读者提供服务。本地图书馆云平台是指各个图书馆根据本馆已有的大量廉价的硬件设施，将现有设备通过云计算的集群技术连接起来，构成一个运算能力、存储能力巨大的图书馆应用服务器。本地图书馆云平台采用 Hadoop 框架，该集群环境包括一个主节点 NameNode 和多个子节点 DataNode，NameNode 采用元数据和副本的方式实现容错，DataNode 则以副本的方式实现容错，并且采用节

14、点动态加入技术来减少扩展系统的工作量。各个图书馆将放入云环境中的资源载入到分布式文件系统中，当用户发起请求时，将会生成用于搜索的 MapReduce 函数，并行的在 DataNode 中进行任务搜索，最后输出最终结果。云图书馆平台示意图如下：A校图书馆云平台 B校图书馆云平台C校图书馆云平台联合服务平台图 3-1 云图书馆平台示意图四、本地图书馆云平台架构构建本地图书馆云平台，即利用各高校冗余的硬件设备，运用 Hadoop 技术将硬件集群以云的方式集中起来提供服务。可将本地图书馆云平台自下向上分为存储层、基础管理层、应用接口层和访问层。如图 4-1 所示：统一封装、Web技术访问层应用

15、接口层存储层基础管理层统一检索、资源调度、馆际互借、文献传递、参考咨询等存储虚拟化、服务器虚拟化、网络虚拟化P Pa aa aS SS Sa aa aS S统一的门户入口、注册、验证虚拟数据中心HDFS中间件集群NameNodeDataNodeDataNodeDataNode数据调度管理数据分发重复数据的删除数据压缩数据加密备份数据安全开发不同的应用服务接口I Ia aa aS S图 4-1 本地图书馆云平台架构4.1 存储层存储层由大量的服务器组成，是架构中最基础的部分，对应云计算中的基础设施即服务。其利用嵌入式云终端技术、虚拟化技术等构建一个虚拟的数据中心，表现一个平台的

16、虚拟环境，通常由物理主机、虚拟机、服务器组成。通过向这个虚拟数据中心中增加新的服务器和节点、删除不必要的服务器和节点，可以达到提高服务性能的目的。 4.2 基础管理层基础管理层是架构中最核心的部分，也是架构中最难以实现的部分，对应云计算中的平台即服务。该层主要采用集群、分布式文件系统、中间件技术和网格计算等技术，将存储层中的各个设备进行协调，使其可以对外提供同一种服务。其核心是数据调度管理、数据分发、重复数据的删除、数据压缩、数据加密备份、数据安全等。 4.3 应用接口层应用接口层是架构中最灵活多变的部分，对应云计算中的软件即服务。应用接口层是云存储最灵活多变的部分。不同学校的图书馆可以根据本馆实际情况，开发不同的应用服务接口，提供不同的应用服务。通常提供统一检索、资源调度、馆际互借、文献传递、参考咨询、特色库加工和文献的采购、编目、流通与发布等【7】。 4.4 访问层访问层是个终端进入数字图书馆云平台的入口，是架构的最高层。任何一个授权用户都可以通过标准的公用应用接口来登录，享受云

展开阅读全文

基于云计算的数字图书馆架构

最新文档