HDFS元数据的独立服务和独立持久化存储

资源描述

《HDFS元数据的独立服务和独立持久化存储》由会员分享，可在线阅读，更多相关《HDFS元数据的独立服务和独立持久化存储（17页珍藏版）》请在金锄头文库上搜索。

1、HDFS元数据的独立服务和独立持久化存储 2009-8-22 罗李主要内容起因起因现状现状我们的想法我们的想法我们的实现我们的实现后续的发展后续的发展起因数据的急剧膨胀文件数的不断增多 Block随之成倍的增长内存的急剧上涨内存数据结构一致性保证造成的性能瓶颈 Meta服务依靠namenode的启停部分meta数据没有持久化(block-dn) 现状集群单个集群1900台机器 1T12（2T6）数据量 22.28 PB/36.98 PB 60% 文件数 1亿左右 Block数 1.3亿左右 Meta存储只持久化了namespace的信息到fsimage 现状

2、内存 60G / 80G 75% 数据结构 BlockMap靠内存中ref来维护block-dn的信息响应删除文件个数1100万，每天的删除操作为240万创建文件操作900万1200万重命名文件数量为1050万通过文件名获取block及其位置的操作getBlockLocations有近3亿类似“ls”的操作有700万新的架构 Stateless Namenode Stateless Namenode Stateless Namenode (Innodb on FusionIO) State Manager (Innodb on FusionIO) State Manager Z

3、ookeeper DatanodeDatanodeDatanodeDatanode DatanodeBlockFile BlockChecker Zookeeper 7 Namenode的改进无状态NN: 针对HDFS中Namenode单点瓶颈的问题，TBFS通过无状态方式实现Namenode的水平扩展。为了实现无状态Namenode，需要将以前保留在Namenode内存中的关键数据结构部分或全部挪到第三方，并持久化保存。数据结构名称数据结构名称描述描述 dir保存HDFS目录结构的数据结构FSDirectory（文件-块的对应关系） blocksMap保存块与文件、块与datanod

4、e和datanode与块的对应关系 datanodemap保存datanode的storageID和对应DatanodeDescriptor的Map容器 heartbeats保存拥有心跳的Datanode的DatanodeDescriptor的容器 corruptReplicas保存损坏块的Map容器，key为Block，value为对应Datanode的DatanodeDescriptor集合 recentInvalidateSets保存即将删除的块的Map容器，key为Datanode的StorageID，value是块的Block集合 excessReplicateMap保存多余块的Ma

5、p容器，key为Datanode的storageID，value是块的Block集合 neededReplications 保存少于replication数的块的数据结构，其内部维护了一个ListTreeSet 类型的优先级队列 pendingReplications保存处于replication pending状态的block，如果超时则放入TimeoutItems列表中 leaseManager维护写操作和追加操作租约的数据结构 Stateless Namenode 8 Namenode的改进（续1） Stateless Namenode (Innodb on FusionIO) Stat

6、e Manager (Innodb on FusionIO) State Manager DatanodeBlockFile Zookeeper blocksMap dir datanodeMap heartbeats 将BlocksMap和FSDirectory在数据库中实现持久化保存 datanodeMap和heartbeats的数据从数据库中读取，Namenode中只是缓存 ZooKeeper namenode lease pendin g underexcesscorruptinvalidategroup datanodeblockchecker / 为LeaseManager保

7、存全局lease信息维护replication pending相关的持久化数据 LeaseManger 维护under replication 相关的持久化数据维护excess replication 相关的持久化数据维护corrupt 块相关的持久化数据维护 invalidate 块相关的持久化数据维护TBFS 集群中 namenode 成员信息基于树状结构来描述Map和Set，比较直观，操作方便提供了ephemeral和sequence znode的机制，方便做成员管理和提供分布式锁服务提供了Watcher机制，提供对数据变化的通知 Stateless Na

8、menode 9 Namenode的改进（续2） Namenode与非心跳Datanode进行通信。Datanode实现了 ExternalNamenodeProtocol协议，Namenode可以通过该协议与非心跳 Datanode进行通信，即Namenode主动调用该协议提供的方法。 Datanode A Datanode B Namenode 1 Namenode 2 sendHeartbeat ExternalNamenode Protocol ExternalNamenode Protocol ExternalDatanode CommandsHandle r ExternalDat

9、anode CommandsHandle r Datanode Protocol offerSerivce sendHeartbeat Datanode Protocol offerSerivce Namenode 2是Datanode A的External Namenode 与原有方式一致，External Namenode向External Datanode发送三种命令： replication命令，invalidate 命令和recover命令 10 BlockChecker的引入 BlockChecker解决Namenode无法判断出的数据不一致的情况，主要是检测 Block副本数是否

10、满足期望，类似于社区版中离开安全模式(SafeMode.leave)时 processMisReplicatedBlocks机制。为了不影响Namenode的核心逻辑，它只和数据库和Zookeeper交互。运行方式：1. 每隔一段时间运行一次；2. 手动执行；3. Namenode下线时执行典型场景：某个block的副本数小于期望值，在数据库中增加一条伪记录，触发Namenode进行检查某个block的副本数大于期望值，综合zookeeper中的记录，决定是否删除一条记录，触发 Namenode进行检查 (Innodb on FusionIO) State Manager (Inno

11、db on FusionIO) State Manager Zookeeper DatanodeBlockFile BlockChecker Zookeeper 11 Datanode的改进提供Namenode的连接/重连机制，从而提高整个系统的可用性。在以下几种场景下，Datanode会连接/切换目标Namenode： 1. Datanode启动时；2. 当前Namenode失效（异常）并超过一定时限和重试次数；3. 管理员调用切换命令。同一时刻一个Datanode只汇报给一个Namenode。 Namenode选择策略实现： AbsNameNodeSelector作为选择Namen

12、ode策略的接口，ConfNameNodeSelector实现了该接口。 + selectNextNameNodeAddress() + refreshNameNodeList() DataNode 调用 Private AbsNameNodeSelector namenodeSelector; ConfNameNodeSelector + selectNextNameNodeAddress() + refreshNameNodeList() 实现 selectNextNameNodeAddress : 从Name Node列表中随机选取一个Name Node返回给调用者，并记录下来。注意

13、，每次调用时会将上次使用的Name Node从列表中删除，这样就避免再次选择失效的Name Node refreshNameNodeList: 按照策略更新Name Node列表 12 Datanode的改进（续1）目前已实现的Namenode选择策略ConfNameNodeSelector需要在配置文件中做如下配置： Datanode在线辅助判断机制。Datanode上线后，在zookeeper中创建一个Ephemeral Node，用以给Namenode判断该Datanode是否在线。该类型的Node会在Datanode下线后(会话失效)自动删除。如果Namenode通过data

14、node表中的lastupdate判断已经下线，但是zookeeper中还有对应的node，会将其列入怀疑对象。造成这种现象一般在 TBFS重启初期，Namenode信息更新不及时。怀疑对象一般会在下一次更新时自动排除，否则就认为它已经下线。 dfs.namenode.selector mon.ConfNameNodeSelector The policy of looking for and selecting name node dfs.namenode.selector.timeout 180000 The timeout value for retrying connection to a namenode dfs.namenode.rpcaddr.list hdfs:/dw30.kgb.sqa.cm4:51199,hdfs:/dw39.kgb.sqa.cm4:51199 The list of name nodes RPC addr list, separated with comma ConfNameNodeSelector的类路径一个Namenode失效后重连的超时时间 Namenode的列表开始设置策略结束 Y N N Y 连接成功 Y 移除NN N 获得 NN列表

展开阅读全文

HDFS元数据的独立服务和独立持久化存储

最新文档