一种面向海量存储系统的高效元数据集群管理方案

上传人:小** 文档编号:34131980 上传时间:2018-02-21 格式:DOC 页数:19 大小:245.50KB
返回 下载 相关 举报
一种面向海量存储系统的高效元数据集群管理方案_第1页
第1页 / 共19页
一种面向海量存储系统的高效元数据集群管理方案_第2页
第2页 / 共19页
一种面向海量存储系统的高效元数据集群管理方案_第3页
第3页 / 共19页
一种面向海量存储系统的高效元数据集群管理方案_第4页
第4页 / 共19页
一种面向海量存储系统的高效元数据集群管理方案_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《一种面向海量存储系统的高效元数据集群管理方案》由会员分享,可在线阅读,更多相关《一种面向海量存储系统的高效元数据集群管理方案(19页珍藏版)》请在金锄头文库上搜索。

1、一种面向海量存储系统的高效元数据集群管理方案 肖中正 陈宁江 魏峻 张文博 广西大学计算机与电子信息学院 中国科学院软件研究所软件工程技术研究开发中心 摘 要: 高效的、去中心化的元数据管理方案对大型分布式存储系统的可靠性、可扩展性起至关重要的作用.针对基于 Hash 划分和基于子树划分的元数据管理方案扩展代价巨大、对集群变动敏感等问题,提出一种基于一致性 Hash 结构的元数据服务器(metadata server,MDS)集群化方案CH-MMS(consistent Hash based metadata management schema).CH-MMS 在一致性 MDS 集群上引入虚拟

2、MDS(Virtual MDS),有效平衡 MDS 集群负载;将 Standby 机制与延迟更新策略融合并应用于 MDS 集群,实现 MDS 快速失效恢复以及集群变动时零数据迁移量.阐述了 CH-MMS 的体系结构,介绍了核心数据结构 layout-table、虚拟 MDS 结构、延迟更新机制及相关算法,并对 CH-MMS 扩展性、容错性作了定性分析.最后通过原型系统和模拟实验说明,CH-MMS 具有元数据平衡分布、快速失效恢复、灵活的扩展性以及零结点变动数据迁移量等特点,能满足数据量不断增加的大规模存储集群元数据灵活、高效管理的需求.关键词: 元数据管理; 一致性 Hash; 大数据存储;

3、元数据服务器; 分布式文件系统; 作者简介:陈宁江,作者简介:肖中正,作者简介:Wei Jun,born in 1970.Received his PhD degree from Wuhan University in 1997. Currently professor at the Institute of Software,Chinese Academy of Sciences. Senior member of China Computer Federation. His research interests include software engineering, distribut

4、ed computing,etc.作者简介:Zhang Wenbo,born in 1976.Received his PhD degree from the Institute of Software, Chinese Academy of Sciences in 2007. Currently professor from the Institute of Software,Chinese Academy of Sciences. Senior member of China Computer Federation.His research interests include softwa

5、re engineering,distributed computing, etc.收稿日期:2013-12-17基金:国家自然科学基金项目(61063012,61363003)A High Performance Management Schema of Metadata Clustering for Large-Scale Data Storage SystemsXiao Zhongzheng Chen Ningjiang Wei Jun Zhang Wenbo School of Computer and Electronic Information,Guangxi University

6、; Technology Center of Software Engineering,Institute of Software,Chinese Academy of Sciences; Abstract: An efficient,decentralized metadata management schema plays a vital role in large-scale distributed storage systems.The Hash-based partition schema and tree-based partition schema pay huge cost f

7、or expansion,and are sensitive to changes in cluster.In response to these problems,CHMMS(consistent Hash based metadata management schema),is proposed.Virtual MDS(metadata server)is introduced in CH-MMS,and good effect for the clusters load balance is proved.Combining the standby mechanism with lazy

8、-update policy,CH-MMS achieves fast failover and zero migration when the cluster changes.Due to its distributed metadata structure,CH-MMS has fast metadata lookup speed.In order to solve the problem that the Hash structure will cause damage to file system hierarchical semantics,a simple and flexible

9、 mechanism based on regular expression matching has been introduced.The following work is presented in the paper:1)Expound the architecture of CHMMS;2)Introduce the core data structure of layout-table,virtual MDS and lazy-update policy,and their relevant algorithms;3)Qualitatively analyze scalabilit

10、y and fault tolerance.The prototype system and simulation show that,CH-MMS is metadata-balancing and has fast failover,flexible expansion and zero migration when cluster changes.CH-MMS can meet the needs of flexible,efficient metadata management of large-scale storage systems with increasing data.Ke

11、yword: metadata management; consistent Hash; large-scale data storage; metadata server(MDS); distributed file system; Received: 2013-12-17在大规模数据存储系统中,分布式文件系统中的元数据管理和访问是影响系统高性能和可扩展性的关键因素1.元数据量之于整个系统的数据存储量的比重很小,但是有 50%80%的访问请求属于元数据操作2.为了消除元数据对于数据存储和访问的性能瓶颈,不少存储系统将元数据存储管理与用户数据的存储分离,将元数据存储与管理业务交给独立的元数据服

12、务器(metadata server,MDS)进行处理3,MDS 充当用户数据请求与数据文件的映射中介.随着大数 据时代的 到来,面对 TB 级乃至 EB 级的海量数据,单点 MDS 的分离方案难以应对海量数据存储需求.为此,有必要提供去中心化的、 可扩展性强的 MDS 集群方案4,将元数据划分到各个 MDS 结点,通过负载分享以实现数据访问的高性能和可扩展性.当前主要有 2 种元数据划分方法3:目录子树划分和基于 Hash 的划分.目录子树划分又分为静态和动态 2 种方式:1)静态子树划分的数据迁移量为 0,MDS 内存开销较小,目录操作较快;其缺点在于难以实现 MDS 工作负载的均衡,易产

13、生“热点” 问题而导致查询性能下降.2)动态子树划分具有较好的查询性能和较小的内存消耗;但是在集群工作负载变化时,由于需进行子树的动态迁移,导致大量的数据迁移开销.基于 Hash 的划分法支持快速的查询操作,其结构易于实现负载平衡;其主要不足在于目录操作性能低下,在 MDS 集群发生变化时元数据条目都需要进行 re-hash 操作,从而带来巨大的数据迁移开销.一致性 Hash 是一种分布式Hash 结构,通常应用于点对点(peer to peer,P2P)系统中,具有去中心化、容错性强以及结点可扩展性强等特点5-7.对于存储海量数据并且周期性输入大量数据的系统,随着数据量逐渐增长会导致元数据量

14、也急剧增加,而元数据是存储系统的核心数据,决定了系统存储容量.显然一个可以灵活扩展元数据管理结点的集群可以胜任不断增加的数据存储要求.本文在 Hash 划分法优点的基础上,提出一种基于一致性 Hash 的动态元数据集群管理方案CHMMS(consistent Hash based metadata management schema),实现海量数据存储系统中的集群元数据高效管理、柔性扩展,同时减少结点变动产生的数据迁移开销.1 相关工作在基于单点 MDS 的集中式 元数据管 理方案中,系统的整个命名空间都驻留在同一结点上,并未进行划分处理.为提高系统的可靠性,通常做法是通过多点冗余方式为整个元

15、数据空间建立多个副本, Google 文件系统 (Google file system,GFS)8、 Hadoop 分布式文 件系统 (Hadoop distributed file system,HDFS)9是这类系统的代表.以 HDFS 为例,它将其所有元数据放置到NameNode 结点上进行统一管理,通过配套的 CheckpointNode,BackupNode 和一种热备(active-standby)10机制提供失效恢复保障.集中式元数据管理虽然易于维护整个系统的一致性,因不需要在多个结点间进行事务协调而具有快速的元数据请求响应能力,但是限制了文件系统的扩展性,大量的并发写操作会使主

16、元数据结点负载剧增,影响系统稳定性.为了实现分布式存储系统的可靠性和扩展性, 各种去中心化的元数据管理方案被提了出来.在基于划分的元数据管理方案中,通常是由多个元数据服务结点构成一个集群,每个结点都可对外提供读写访问服务.子树划分法将整个文件系统命名空间划分为多个子树,每个子树被分配到不同的元数据服务器上,事先配置好整个元数据服务集群的布局. 静态子树划分的实现相对简单有效,NFS11,Coda12等存储系统是此类方案的代表;其最大的缺陷是容易引起系统负载的极度不均衡.动态子树划分法是基于负载均衡在根目录附近通过 Hash 方法进行划分,当某个元数据结点负载加重时会触发元数据的迁移操作,将重载结点上的某些子树迁移到轻载结点,Ceph13是典型的动态子树划分的实现.通常在应用动态子 树划分的 系统会伴 以前缀缓 存技术 (proxy caching)14,利用各个元数据结点内存换取系统性能的大幅提升.动态子树划分法是

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号