并行文件系统简介及主流产品对比

上传人:r*** 文档编号:45835325 上传时间:2018-06-19 格式:PDF 页数:6 大小:766.96KB
返回 下载 相关 举报
并行文件系统简介及主流产品对比_第1页
第1页 / 共6页
并行文件系统简介及主流产品对比_第2页
第2页 / 共6页
并行文件系统简介及主流产品对比_第3页
第3页 / 共6页
并行文件系统简介及主流产品对比_第4页
第4页 / 共6页
并行文件系统简介及主流产品对比_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《并行文件系统简介及主流产品对比》由会员分享,可在线阅读,更多相关《并行文件系统简介及主流产品对比(6页珍藏版)》请在金锄头文库上搜索。

1、邮电设计技术/2012/07收稿日期: 2012-05-31肖伟1, 赵以爽2(1. 中讯邮电咨询设计院有限公司, 北京100048; 2. 中讯邮电咨询设计院有限公司, 河南 郑州 450007) Xiao Wei1, Zhao Yishuang2(1. China Information Technology Designing Network file system; Parallel file system; Metadata management; Lock management0 前言随着云计算技术的发展, IT系统已经从集中式的部署架构向分布式架构逐步演进, 建立起了基于高速网络

2、互联的庞大集群系统, 如何使整个集群系统可以实现高可用性、 可扩展性和高可靠性, 从而构建出上千节点的超大规模集群计算机, 为整个网络提供性价比高的集群服务器和超强的网格节点成为一个重要的课题, 基于以上情况, 建立一种性能优越的并行文件系统是非常重要的。1 常用文件系统的区别及比较文件系统由与文件管理有关软件、 被管理文件以及实施文件管理所需数据结构3个部分组成。目前常用文件系统分为3类, 分别是本地文件系统、 网络文件系统及并行文件系统, 其主要结构如图1所示。 1.1 本地文件系统本地文件系统是指文件系统管理的物理存储直接连接在本节点上, 处理器通过系统总线可以直接访问。如图1所示: 每

3、台主机有自己独立的文件系统, 每台主机只能对本主机的文件系统管理的文件进行操作, 本主机无法看到其他主机的文件信息, 也无法对其他主机的文件进行操作。 1.2 网络文件系统 (NFS)网络文件系统通过在文件系统之上建立一个网络抽象, 来允许远程客户端以与本地文件系统类似的方式, 通过网络进行访问。NFS 允许在多个用户之间共享公共文件系统, 并提供数据集中的优势, 来最小化所Brief Introduction to Parallel File System and the Comparison of Mainstream Products本期关注 Monthly Focus肖伟, 赵以爽 并

4、行文件系统简介及主流产品对比312012/07/DTPT需的存储空间, 多个客户端可以通过访问NFS服务器对文件进行远程读写操作。 1.3 并行文件系统并行文件系统是应用于多机环境的网络文件系统, 多台主机上并行读写一套文件系统, 每个主机有单独的CPU和内存, 单个数据采用分条等形式存放于不同的I/O节点之上, 支持多机多个进程的并发存取, 并提供单一的目录空间。在此模式下, 所有主机均可通过本机I/O对所有的文件进行读写操作。2 并行文件系统需求及原理分析2.1 并行文件系统需求由于并行文件系统具有分布式、 高性能、 高扩展等特点, 在目前云计算应用中较多, 它的驱动力主要来自于以下两个方

5、面。a)共享数据的需求。随着技术的进步, IT系统已经从集中部署架构朝分布式部署架构演进, 而对于电信业IT系统而言, 多机分布式部署需要多机之间进行数据共享, 如计费、 结算系统的排重表、 累积量等共享数据, 每台主机都需要对此部分共享数据进行读、 写及修改等操作, 如何保证数据的全局一致性成为一个难题, 而并行文件系统通过数据共享、 锁机制等实现了对共享数据唯一性的保证, 所有的操作均直接对这一份共享数据进行操作, 保证了共享数据的唯一性。保证了分布式部署架构的可实施性。b)高性能计算的需求。IT系统一般由多个子系统组成, 并根据业务流程在各子模块、 系统之间进行数据的传递和处理, 而对于

6、大数据量的文件传递及流程间的保存, 会导致传输效率低下且浪费相应的存储空间, 引入并行文件系统, 各子系统可根据流程对同一份文件进行相应的操作, 不需要文件传输到各个模块/系统进行处理, 有效地节约了数据传递的空间, 同时通过对文件的同时读写, 提高了业务处理性能。 2.2 并行文件系统的数据访问流程流程: 主机节点要操作某一文件, 首先需要找到此文件的元数据信息, 发起文件操作申请。流程: 文件元数据管理服务器返回此文件的位置信息。流程: 主机节点向锁管理节点发起文件锁申请及元数据锁申请。流程: 锁管理节点返回允许文件锁及元数据锁请求, 主机节点取得文件锁及元数据锁。流程: 主机节点访问此文

7、件, 并进行修改, 修改完毕后释放文件锁, 同时更新此文件元数据信息, 并释放元数据锁。从图2可以看出主机对并行文件系统访问的流程涉及到与元数据管理及锁管理的多次连接, 这两部分关键环节的设计对并行文件系统的性能、 高可靠性等有较大影响, 故以下分析主要针对此部分设计进行阐述。2.3 并行文件系统原理分析由于多台主机需要访问同一个文件系统的文件,故如何建立统一的文件目录、 保证数据的全局一致性、如何协调不同主机对同一主机访问成为最大的技术难题, 所以元数据管理及锁机制的设计成为并行文件系统性能指标的核心关键点, 以下对几种主流的设计思路进行描述。图1常用文件系统架构图2并行文件系统数据访问流程

8、客户端并行文件 系统1并行文件 系统2并行文件 系统3NFS服务器磁盘1磁盘3客户端网络文件系统并行文件系统本地文件系统主机2主机1主机1主机2主机2主机2磁盘3磁盘1磁盘2磁盘1文件系统1文件系统1文件系统2文件系统3 文件元数 据管理锁管理文件主机节点本期关注 Monthly Focus肖伟, 赵以爽 并行文件系统简介及主流产品对比32邮电设计技术/2012/072.3.1 元数据管理设计任何文件系统中的数据均分为数据和元数据。数据是指普通文件中的实际数据, 而元数据指用来描述一个文件特征的系统数据, 诸如访问权限、 文件拥有者以及文件数据块的分布信息等等。在并行文件系统中, 分布信息包括

9、文件在磁盘上的位置以及磁盘在集群中的位置。用户需要操作一个文件必须首先得到它的元数据, 才能定位到文件的位置并且得到文件的内容或相关属性。元数据管理有2种方式, 即集中式管理和分布式管理。分布式元数据管理的好处是解决了集中式管理的单一失效点问题, 而且性能不会随着操作频繁而出现瓶颈。其缺点是, 实现复杂, 一致性维护复杂, 对性能有一定影响。集中式元数据管理方式。集中式管理是指在系统中有一个节点专门司职元数据管理, 所有元数据都存储在该节点的存储设备上。当某一节点需要对文件进行读操作时, 需要向元数据管理服务器发起请求, 获得此文件位置信息, 然后到相应的位置进行读取。进行写操作时, 需要向元

10、数据管理服务器发起请求, 并对此元数据加锁, 防止其他节点读写, 文件写完后, 修改相应的元数据信息。目前大多数集群文件系统都采用了集中式元数据管理。主要优点是: 因为集中式管理实现简单, 一致性维护容易, 在一定的操作频繁度内可以提供较满意的性能。缺点是: 单一失效点问题, 若该服务器失效, 整个系统将无法正常工作。而且, 当对元数据的操作过于频繁时, 集中式元数据管理成为整个系统的性能瓶颈, 故不适用于节点数较多, 操作较频繁的应用。分布式元数据管理方式。分布式管理是指将元数据存放在系统的任意节点并且能动态迁移。对元数据管理的职责也分布到各个不同的节点上。当一节点需要对文件进行操作时, 需

11、要对所有节点进行广播, 然后找到相应的文件元数据管理服务器获取元数据的管理 权限, 然后才能对文件进行操作, 操作完成后修改相应的元数据信息。一般商用的并行文件系统均采用了分布式的部署方式。主要优点是: 分布式元数据管理解决了集中式管理的单一失效点问题, 而且性能不会随着操作频繁而出现瓶颈。其缺点是: 实现复杂, 一致性维护复杂, 对所有节点性能有一定影响。 2.3.2 锁管理机制锁管理机制是保证并行文件系统正确运行和数据一致性的核心所在。上层在执行I/O操作前后都要进行锁操作, 以保证并发环境中系统数据的一致性。根据锁的分布方式, 分为集中式和分布式。集中式锁管理采用了在集群中建立一个集中的

12、锁管理服务器, 当集群中任意一个节点发起锁请求时, 由集中的锁管理服务器进行锁权限的分配及锁信息的管理。主要优点是: 集中进行锁管理, 能保证锁管理的一致性, 只需要与锁管理一个节点进行通信, 减少了通信量。缺点是: 性能存在一定的瓶颈, 同时一旦锁管理服务器出现故障将影响全局数据。分布式锁管理采用了在集群每个节点负责不同文件的锁管理, 当集群任意一个节点发起锁请求时, 向所有的节点进行广播, 找到此文件锁管理节点的位置, 向此节点发起锁请求。主要优点是: 全分布式的架构, 保证了设备故障影响的范围小, 同时节点内不存在锁管理的性能瓶颈。缺点是: 由于锁请求采用了广播的方式, 当节点数过多时,

13、 会引起广播风暴, 大量占用网络资源及主机性能, 故节点数不能过多, 扩展能力有限。3 主流产品分析及比较3.1 IBM的GPFS主要技术原理 3.1.1 GPFS技术架构GPFS技术架构如图3所示。GPFS文件系统由GPFS文件设备、 网络共享磁盘(NSD) 和磁盘组成。GPFS文件设备由NSD创建, 是可以被多个节点并行同时挂载的文件设备。NSD是由物理磁盘映射出来的虚拟设备, 与磁盘之间是一一对应的关系。并且, NSD将虚拟设备按照不同的属性划分了不同的用途。NSD虚拟设备具有4种不同的磁盘属性。a)Desc Only: 表示该磁盘存储GPFS文件系统的图3GPFS技术架构Meta an

14、d dataMeta data onlyDesc onlydata only网络共享磁盘磁盘1磁盘3服务器n磁盘4服务器1磁盘2GPFS文件系统设备本期关注 Monthly Focus肖伟, 赵以爽 并行文件系统简介及主流产品对比332012/07/DTPT描述信息。b)Data Only: 表示该磁盘只存储GPFS文件系统的数据信息。c)Meta Data Only: 表示该磁盘只存储GPFS文件系统的目录结构信息 (inode) 。d)Meta And Data: 表示该磁盘存储GPFS文件系统中的所有信息 (默认情况) 。GPFS 是用于 IBM Linux 集群系统的高性能、 可扩展、

15、 并行文件系统。它可以通过所有的集群节点来共享文件。GPFS 可以充分利用 “虚拟” 共享磁盘, 使得在多节点上运行的多个应用程序可以同时读写同一文件; 它包含了可扩展集群系统技术 (RSCT) , 可将存储内容自动恢复到活节点; 在发生故障时, 记录 (日志) 能够快速恢复数据, 并恢复数据的一致性; 具有文件访问的单一镜像, 可以从任意节点访问文件, 而无需改变应用程序。 3.1.2 GPFS主要特点GPFS 通过共享磁盘结构来实现扩展性, 一个GPFS 系统由许多集群节点组成, GPFS 文件系统和应用程序在上面运行。这些节点通过光纤交换机连接磁盘和子磁盘。所有的节点对所有的磁盘有相同的

16、访问权。文件被分割存储在文件系统中所有的磁盘上。用来连接文件系统和磁盘的光纤通道由存储区域网(SAN) 组成, 例如光纤通道或者 iSCSI。GPFS一个文件能够横跨在所有主机上, 在读写文件时采用了条带化的技术, 将数据分成条带并行写入到该GPFS下的所有NSD上, 读写文件可以通过所有主机的光纤通道访问所有磁盘, 可以充分的利用SAN的高速通道, 读写性能高。但损失单个磁盘也会不同程度地影响文件。作为 RAID 的替代或补充, GPFS 支持替代机制, 它为每个数据和元数据块都分配空间, 将2份拷贝存在2个不同的磁盘上。当一个磁盘不可靠时, GPFS会追踪上面文件块的更新, 以便磁盘恢复时恢复数据。如果磁盘完全失效, 它会用备份来代替所 有可能影响到其他磁盘的块。 3.1.3 GPFS元数据及锁管理方式GPFS元数据及锁管理方式如图4所示。a)GPFS文件集群中有一个负责全局元数据管理及全局锁管理的服务器, 此集群内任意一个节点均可作为元数据管理及锁管理的服务器, 根据集群内设备的利用率情况, 动态地将全局元数据及全局锁管理迁移到任意一

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号