分布式存储基础、ceph、cinder及华为软件定义的存储方案概要

资源描述

《分布式存储基础、ceph、cinder及华为软件定义的存储方案概要》由会员分享，可在线阅读，更多相关《分布式存储基础、ceph、cinder及华为软件定义的存储方案概要（12页珍藏版）》请在金锄头文库上搜索。

1、块存储与分布式存储块存储，简单来说就是提供了块设备存储的接口。通过向内核注册块设备信息,在Linux中通过lsblk可以得到当前主机上块设备信息列表。本文包括了单机块存储介绍、分布式存储技术Ceph介绍，云中的块存储Cinder，以及华为软件定义的存储解决方案。单机块存储一个硬盘是一个块设备，内核检测到硬盘然后在/dev/下会看到/dev/sda/。因为需要利用一个硬盘来得到不同的分区来做不同的事，通过fdisk工具得到/dev/sda1, /dev/sda2等，这种方式通过直接写入分区表来规定和切分硬盘,是最死板的分区方式。分布式块存储在面对极具弹性的存储需求和性能要求下，单机或者独立的SA

2、N越来越不能满足企业的需要。如同数据库系统一样，块存储在scale up的瓶颈下也面临着scale out的需要。分布式块存储系统具有以下特性：分布式块存储可以为任何物理机或者虚拟机提供持久化的块存储设备; 分布式块存储系统管理块设备的创建、删除和attach/detach;分布式块存储支持强大的快照功能，快照可以用来恢复或者创建新的块设备;分布式存储系统能够提供不同IO性能要求的块设备。现下主流的分布式块存储有Ceph、AMS ESB、阿里云磁盘与sheepdog等。1 Ceph1.1 Ceph概述Ceph目前是OpenStack支持的开源块存储实现系统(即Cinder项目backend

3、driver之一) 。Ceph是一种统一的、分布式的存储系统。“统一的”意味着Ceph可以一套存储系统同时提供对象存储、块存储和文件系统存储三种功能，以便在满足不同应用需求的前提下简化部署和运维。“分布式”在Ceph系统中则意味着真正的无中心结构和没有理论上限的系统规模可扩展性。Ceph具有很好的性能、可靠性和可扩展性。其核心设计思想，概括为八个字“无需查表，算算就好”。1.2 Ceph系统的层次结构自下向上，可以将Ceph系统分为四个层次：基础存储系统RADOS（Reliable, Autonomic, Distributed Object Store，即可靠的、自动化的、分布式的对象存储）

4、；基础库LIBRADOS；高层应用接口：包括了三个部分：RADOS GW（RADOS Gateway）、 RBD（Reliable Block Device）和Ceph FS（Ceph File System）。RADOS由两个组件组成：一种是数量很多、负责完成数据存储和维护功能的OSD（ Object Storage Device）。另一种则是若干个负责完成系统状态检测和维护的Monitor。OSD和monitor之间相互传输节点状态信息，共同得出系统的总体工作状态，并形成一个全局系统状态记录数据结构，即所谓的cluster map。这个数据结构与RADOS提供的特定算法相配合，便实现Ce

5、ph“无需查表，算算就好”的核心机制以及若干优秀特性。OSD可以被抽象为两个组成部分，即系统部分和守护进程（OSD deamon）部分。OSD的系统部分本质上就是一台安装了操作系统和文件系统的计算机，其硬件部分至少包括一个单核的处理器、一定数量的内存、一块硬盘以及一张网卡。在上述系统平台上，每个OSD拥有一个自己的OSD deamon。这个deamon负责完成OSD的所有逻辑功能，包括与monitor和其他OSD（事实上是其他OSD的deamon）通信以维护更新系统状态，与其他OSD共同完成数据的存储和维护，与client通信完成各种数据对象操作等等。1.3 Ceph中的数据寻址用户存储数据时

6、的数据路由过程如下图所示：首先明确几个概念：File 用户需要存储或者访问的文件。对于一个基于Ceph开发的对象存储应用而言，这个file也就对应于应用中的“对象”，也就是用户直接操作的“对象”。OjbectRADOS所看到的“对象”。Object与上面提到的file的区别是，object的最大size由RADOS限定（通常为2MB或4MB），以便实现底层存储的组织管理。因此，当上层应用向RADOS存入size很大的file时，需要将file切分成统一大小的一系列object（最后一个的大小可以不同）进行存储。PG（Placement Group）顾名思义，PG的用途是对object的存储

7、进行组织和位置映射。具体而言，一个PG负责组织若干个object（可以为数千个甚至更多），但一个object只能被映射到一个PG中，即，PG和object之间是“一对多”映射关系。同时，一个PG会被映射到n个OSD上，而每个OSD上都会承载大量的PG，即，PG和OSD之间是“多对多”映射关系。在实践当中，n至少为2，如果用于生产环境，则至少为3。一个OSD上的PG则可达到数百个。事实上，PG数量的设置牵扯到数据分布的均匀性问题。OSD即object storage device。数据路由的过程需要经过几次寻址：l File - object映射。这次映射的目的是，将用户要操作的file，映射为

8、RADOS能够处理的object。其映射十分简单，本质上就是按照object的最大size对file进行切分。这种切分的好处有二：一是让大小不限的file变成最大size一致、可以被RADOS高效管理的object；二是让对单一file实施的串行处理变为对多个object实施的并行化处理。l Object - PG映射。在file被映射为一个或多个object之后，就需要将每个object独立地映射到一个PG中去。计算公式： hash(oid) & mask - pgid。根据RADOS的设计，给定PG的总数为m（m应该为2的整数幂），则mask的值为m-1。因此，哈希值计算和按位与操作的整体

9、结果事实上是从所有m个PG中近似均匀地随机选择一个。基于这一机制，当有大量object和大量PG时，RADOS能够保证object和PG之间的近似均匀映射。l PG - OSD映射。第三次映射就是将作为object的逻辑组织单元的PG映射到数据的实际存储单元OSD。如图所示，RADOS采用一个名为CRUSH的算法，将pgid代入其中，然后得到一组共n个OSD。这n个OSD即共同负责存储和维护一个PG中的所有object。前已述及，n的数值可以根据实际应用中对于可靠性的需求而配置，在生产环境下通常为3。具体到每个OSD，则由其上运行的OSD deamon负责执行映射到本地的object在本地文件

10、系统中的存储、访问、元数据维护等操作。和“object-OSD”映射中采用的哈希算法不同，CRUSH算法的结果不是绝对不变的，而是受到当前系统的状态（cluster map）和存储配置策略的影响。故而当系统中的OSD状态、数量发生变化时，Cluster map发生变化，映射的结果也就发生了变化。1.4 写数据的流程当某个client需要向Ceph集群写入一个file时，首先需要在本地完成寻址流程，将file变为一个object，然后找出存储该object的一组三个OSD。找出三个OSD后，client将直接和Primary OSD通信，发起写入操作。Primary OSD收到请求后，分别向Se

11、condary OSD和Tertiary OSD发起写入操作。当Secondary OSD和Tertiary OSD各自完成写入操作后，将分别向Primary OSD发送确认信息；当Primary OSD确信其他两个OSD的写入完成后，则自己。也完成数据写入，并向client确认object写入操作完成。1.5 集群维护由若干个monitor共同负责整个Ceph集群中所有OSD状态的发现与记录，并且共同形成cluster map的master版本，然后扩散至全体OSD以及client。OSD使用cluster map进行数据的维护，而client使用cluster map进行数据的寻址。mon

12、itor并不主动轮询各个OSD的当前状态。正相反，OSD需要向monitor上报状态信息。常见的上报有两种情况：一是新的OSD被加入集群，二是某个OSD发现自身或者其他OSD发生异常。在收到这些上报信息后，monitor将更新cluster map信息并加以扩散。l 新增一个OSD时首先根据配置信息与monitor通信，monitor将其加入cluster map，并设置为up且out状态，再将最新版本的cluster map发给这个新OSD。收到monitor发过来的cluster map之后，这个新OSD计算出自己所承载的PG以及和自己承载同一个PG的其他OSD。然后与这些OSD取得联系。

13、如果这个PG目前处于降级状态（即承载该PG的OSD个数少于正常值），则其他OSD将把这个PG内的所有对象和元数据赋值给新OSD。数据复制完成后，新OSD被置为up且in状态，cluster map也更新。l 自动化故障恢复当其中一个OSD发生故障时，如果其PG目前一切正常，则这个新OSD将替换掉故障OSD（PG内将重新选出Primary OSD），并承担其数据。在数据复制完成后，新OSD被置为up且in状态，而被替换的OSD将推出该PG。而cluster map内容也将据此更新。l 自动化的故障探测过程如果一个OSD发现和自己共同承担一个PG的另一个OSD无法联通，则会将这一情况上报monit

14、or。此外，如果一个OSD deamon发现自身工作状态异常，也将把异常情况主动上报给monitor。此时，monitor将把出现问题的OSD的状态设置为down且in。如果超过某一预定时间期限该OSD仍然无法恢复正常，则其状态将被设置为down且out。如果该OSD能够恢复正常，则其状态会恢复成up且in。1.6 在OpenStack中使用ceph Ceph底层是存储集群RADOS，然后是LIBRADOS，这是一个可以访问RADOS的库。用户利用这个库开发自己的客户端应用。Ceph提供对象存储（RADOSGW）、块存储（RBD）、文件系统（CEPHFS）也就是基于这个库完成的。在 OpenS

15、tack 中使用 Ceph 块设备，必须首先安装 QEMU，libvirt 和 OpenStack。下图描述了 OpenStack 和 Ceph 技术层次。libvirt 配置了 librbd 的 QEMU 接口，通过它可以在 OpenStack 中使用 Ceph 块设备。可以看出OpenStack通过libvirt中的接口调用QEMU，QEMU去调用Ceph的块存储库libRBD，从而完成在OpenStack中的Ceph使用。OpenStack 与 Ceph 有三个结合点：l 镜像：OpenStack Glance 管理虚拟机镜像。镜像是不变的。OpenStack 把镜像当作二进制对象并以此

16、格式下载。 l 卷：卷是块设备。OpenStack 使用卷来启动虚拟机，或者绑定卷到运行中的虚拟机。OpenStack 使用 Cinder 服务管理卷。 l 客户磁盘：客户磁盘是客户操作系统磁盘。默认情况下，当启动一台虚拟机时，它的系统盘以文件的形式出现在 hypervisor 系统上（通常在/var/lib/nova/instances/）。在 OpenStack Havana 以前的版本，在 Ceph 中启动虚拟机的唯一方式是使用 Cinder 的 boot-from-volume 功能，现在能够在 Ceph 中直接启动虚拟机而不用依赖于 Cinder，这是非常有利的，能够很容易的进行虚拟机的热迁移。除此之外，如果 hypervisor 挂掉还能够方便地触发 n

展开阅读全文