hadoop集群规划－金锄头文库

资源描述

《hadoop集群规划》由会员分享，可在线阅读，更多相关《hadoop集群规划（24页珍藏版）》请在金锄头文库上搜索。

1、标准的x86的服务器以太网络多机架数据中心软件环境硬件的选择（处理器，硬盘，网络） Hadoop 集群 HDFSMapReduceHBaseHive 管理节点 Hive 节点1 节点2节点3节点N HDFS 客户端 MapReduce 客户端 HBase 客户端 Hive 客户端角色角色描述描述节点数目节点数目 HDFS NameNode 分布式文件系统用以存储文件系统以及数据块的元数据 1个独立节点 HDFS Secondary NameNode NameNode的影子节点小规模集群可以和 NameNode共享节点，大规模集群用独立节点 HDFS DataNode

2、 HDFS数据存储多个独立节点 MapReduce JobTracker MapReduce调度程序 1个独立节点，小规模集群可以与NameNode共享，大规模集群使用独立节点 MapReduce TaskTracker MapReduce实际计算节点与DataNode运行在相同的节点之上 Hive Hive元数据以及驱动程序独立配置的话可以与 NameNode共享节点，或者将元数据存放在客户端角色角色描述描述节点数目节点数目 ZooKeeper 用以提供集群高可用性的锁服务 3个或3个以上的奇数的独立节点（小规模可以和其它角色共享节点） HBase HMaste

3、r HBase用以调度 RegionServer的主模块与其它角色共享节点的多个节点 HBase RegionServer HBase中用以管理数据的模块一般与DataNode运行与相同的节点之上 Management Node 可能的集群监控管理节点一般为一个独立的节点，如果小规模集群的话可以与其它角色共享 Hadoop Hadoop IO 服务器角色及服务类型服务器角色及服务类型内存要求内存要求 MapReduce Job Tracker 2GB MapReduce Task Tracker 2GB MapReduce Slots on Task Tracker 512M

4、B * slot数量 HDFS NameNode 16GB HDFS Secondary NameNode 16GB HDFS DataNode 2GB ZooKeeper 4GB HBase Master Server 2GB HBase Region Server 16GB Hive Server 2GB 客户端客户端 8GB 4 16GB HDFS DataNode, MapReduce TaskTracker HBase Region Serverslotmap slotsreduce slots16 2GB + 2GB + 512MB*16 + 16GB = 28GB HBase J

5、BOD vs. RAID RAID RAID RAID 0 +MapReduce 典型使用以太网络，为了使得系统能够正常运行，最低使用千兆以太网连接，由于需要有数据交换的需求，建议配置大容量的网络交换机当一台机器上有多个网络适配器时，推荐使用网络适配器绑定Linux的方法配置链路聚合，并把工作模式设为6。在工作模式为6时，负载平衡可以通过循环取得，并且这些网络适配器可以在没有配置交换器的情况下正常工作千兆以太网接口是最基本的要求，更重要的是交换机的背板带宽，是决定数据传输的关键因素一个以太网交换机的接口是以太网交换机到主机的速度，这个速度决定主机到交换机的速度级别，在Ha

6、doop环境中，这个速度最少应该是千兆以太网接口速度即使达到了千兆以太网，实际的运行速度可能并不能真正达到千兆以太网的速度，因为可能有数十个设备同时共享这个交换机决定交换机的性能的关键因素是交换机的背板带宽，具有良好背板交换能力的交换机能够使得任意两个接口之间的速度以及上行的速度都能够达到千兆的速度，而通过总线进行共享的带宽往往不能达到理想的速度为了能够使得Hadoop的处理能力能够得到充分的释放，交换机对于系统运行的性能起到了决定性的左右，建议在可能的情况下尽量选择高端的交换机，使得每一个接口都能够达到线速（网线能够达到什么速度，交换机就能够提供什么速度，没有性能损失）

7、最常见的是使用服务器本身的万兆以太网络，每一个机架使用一个交换机，在多个机架之间进行带宽聚合。这种方式在总的节点数目较少（少于40个）集群比较合适如果应用（例如ETL的应用）的IO高负载，这样的话，网络会成为性能瓶颈 12块以上的硬盘，每块以100MB/s速度运行，会很快吃掉所有网络带宽低端的交换器不能够支持线速，产生阻塞提高网络速度最直接的办法是通过端口绑定，将服务器的多个端口绑定为一个 IP ip Linux 10GBE 310 HadoopHBase InfiniBandInifiBand InfiniBand10G20G40G 410个节点，解决较小规模问题项目项

8、目指标指标处理器CPU 双路四核服务器处理器，2x4 2.6GHz 内存 32G或者以上内存，DDR3，ECC 磁盘接口 SAS 6GB/s 磁盘 6x或者12x SATA 1T 7200RPM监控级硬盘网络两个以太网口 20+个节点，解决中等规模问题，实际上能够满足大多数中小企业的需求项目项目指标指标处理器CPU 双路六核服务器处理器，处理器缓存 15MB，2x6 2.9GHz 内存 64G或者以上内存，DDR3，ECC 磁盘接口 SAS 6GB/s 磁盘 6x或者12x SATA 1T或者3T 7200RPM监控级硬盘（依据数据规模而定）网络两个以太网口依据问题规

9、模确定所需要的节点数目，解决大规模问题，使用高端的内存，高速网络项目项目指标指标处理器CPU 双路六核服务器处理器，处理器缓存 15MB，2x6 2.9GHz，依据应用可以选用更高端的处理器内存 96G或者以上内存，DDR3，ECC 磁盘接口 2xSAS 6GB/s 磁盘 24x 1TB 告诉SAS硬盘网络 10Gb以太网口高端网络可以考虑使用InifinBand网络支持的操作系统为Linux，要求64位系统，版本至少6以上。包括： RedHat Enterprise Linux CentOS Oracle Linux 软件依赖： Java 1.6 openssh 在把服务

10、器加入集群前，须要确保openssh-server在运行。如果 openssh-server没有在运行，在Hadoop集群中的所有节点中安装 openssh-server包。规划使用Hadoop的组件，这些组件包括HDFS， MapReduce，Hive，HA组件等规划集群的硬件参数，包括服务器数量，物理布局，机架数目以及服务器在机架上的分配规划集群使用的网络，即决定使用网络的拓扑，节点到交换机的连接，机柜之间的连接规划节点的IP地址设置以及节点的角色，例如用以各个逻辑角色管理的节点，用以存储元数据的NameNode，MapReduce程序的JobTracker，管理节点等

11、Hadoop 确保用于构建集群的所有的服务确保用于构建集群的所有的服务器满足集群节点要求器满足集群节点要求 (包括硬件要求、软件要求和网络要求。) 做好构造做好构造Hadoop集群的规划集群的规划在集群中的所有节点上安装需要的操作系统安装Hadoop 参数配置进行系统安装进行系统安装正确配置所有节点的RAID 在规划中，除了选取硬件之外，还需要进行角色的规划角色的规划即确定Hadoop的某一个运行角色运行在哪个节点之上与硬件推荐情况一致，首先需要确定集群的本身负载，针对小规模，中规模以及大规模集群有不同的集群规划方案小规模测试集群不需要高可用性，无需 NameN

12、ode的高可用性，将所有的头结点都配置到单个的节点中。配置方案：头结点Head Node：NN+2NN+JT+ZK+HMaster 数据节点Data Node：DN+TT+RS, 在两个数据节点中部署ZK+HMaster 保证ZK的数目为奇数 NN:NameNode，2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBaseMaster, DN: DataNode, TT: TaskTracker, RS: HBase RegionServer 小规模生产需要高可用性，配置方案：头结点Head Node：NN+

13、JT+ZK+Hmaster 头结点的副本Backup Head Node：Backup NN+2NN+Backup JT+ZK+HMaster 数据节点Data Node：DN+TT+RS, 在一个数据节点中部署ZK+HMaster 保证ZK的数目为奇数 NN:NameNode，2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBaseMaster, DN: DataNode, TT: TaskTracker, RS: HBase RegionServer 大规模生产需要高可用性，配置方案：单独的NameNode节

14、点：NN 单独的JobTracker节点：JT+ZK+Hmaster NameNode的副本： backup NN+2NN+ZK+Hmaster JobTracker节点的副本：Backup JT+ZK+HMaster 数据节点Data Node：DN+TT+RS, 在一个数据节点中部署ZK+HMaster 保证ZK的数目为奇数 NN:NameNode，2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBaseMaster, DN: DataNode, TT: TaskTracker, RS: HBase RegionServer

展开阅读全文