Hadoop云计算平台搭建最详细过程共

上传人:鲁** 文档编号:498225014 上传时间:2023-11-23 格式:DOCX 页数:14 大小:29.92KB
返回 下载 相关 举报
Hadoop云计算平台搭建最详细过程共_第1页
第1页 / 共14页
Hadoop云计算平台搭建最详细过程共_第2页
第2页 / 共14页
Hadoop云计算平台搭建最详细过程共_第3页
第3页 / 共14页
Hadoop云计算平台搭建最详细过程共_第4页
第4页 / 共14页
Hadoop云计算平台搭建最详细过程共_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《Hadoop云计算平台搭建最详细过程共》由会员分享,可在线阅读,更多相关《Hadoop云计算平台搭建最详细过程共(14页珍藏版)》请在金锄头文库上搜索。

1、Hadoop 云 计算 平台 及相 关组件搭建安装过程 详细教程Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse 等一安装环境简介根据官网,Hadoop已在linux主机组成的集群系统上得到验证,而windows平 台是作为开发平台支持的,由于分布式操作尚未在 windows 平台上充分测试, 所以还不作为一个生产平台。 Windows 下还需要安装 Cygwin, Cygwin 是在 windows 平台上运行的 UNIX 模拟环境,提供上述软件之外的 shell 支持。实际条件下在windows系统下进行Hadoop伪分布式安装时,出现了许多未

2、知问 题。在 linux 系统下安装,以伪分布式进行测试,然后再进行完全分布式的实 验环境部署。Hadoop完全分布模式的网络拓补图如图六所示:(1)网络拓补图如六所示:图六完全分布式网络拓补图(2)硬件要求:搭建完全分布式环境需要若干计算机集群, Master 和 Slaves 处理器、内存、硬盘等参数要求根据情况而定。3) 软件要求操作系统 64 位版本:NO.ProjectVersionContent1HardwareeCPU:Master/NameNodelPnvironmenDisk:150GBSlavel/DataNodelPtMemory:Slave2/DataNodelP2Op

3、erationsystem64-bit二.Hadoop集群安装部署目前,这里只搭建了一个由三台机器组成的小集群,在一个hadoop集群中有以下角色:Mas ter 和 Slave、JobTracker 和 TaskTracker、ameNode 和 Dat aNode。 下面为这三台机器分配IP地址以及相应的角色:mas ter,namenode, jobtrackermas ter (主机名)slave, datanode, tasktrackerslavel (主机名)slave, datanode, tasktrackerslave2 (主机名) 实验环境搭建平台如图七所示:图七 had

4、oop 集群实验平台并且,Hadoop要求集群上每台的用户账户名和密码相同。具体安装步骤如下:1. 下载和安装JDK,版本为(1)JDK的安装目录为/usr/lib/jvm,创建此文件夹,在终端输入命令: mkdir/usr/lib/jvm(2)权限不够的话重新改下用户密码就可以了,命令:sudopasswd,之后重新输入密码。(3) 移动jdk到/usr/lib/jvm,并解压,然后为了节省空间删除安装包。命 令:mvjdk/usr/lib/jvmtar - zxvfjdkrm - rfjdk2. 配置环境变量在终端输入命令:sudogedit/etc/profile打开profile文件,

5、在文件最下面输入如下内容,如图八所示:图八JAVA环境变量设置即为:#setjavaenvironmentexportJAVA_HOME=/usr/lib/jvmexportCLASSPATH=”.:$JAVA_HOME/lib:$CLASSPATH” exportPATH=”$JAVA_HOME/:$PATH”这一步的意义是配置环境变量,使系统可以找到 jdk。3. 验证JDK是否安装成功(1) 输入命令:java - version,如图九所示。如果出现java版本信息, 说明当前安装的jdk并未设置成ubuntu系统默认的jdk,接下来还需 要手动将安装的jdk设置成系统默认的jdk。图

6、九 java 版本信息(2) 手动设置需输入以下命令:sudoupdate-alternatives - install/usr/bin/javajava/usr/lib/jvm300sudoupdate-alternatives - install/usr/bin/javacjavac/usr/lib/ jvmjavac300sudoupdate-alternatives - configjava然后输入java - version就可以看到所安装的jdk的版本信息。4. 三台主机上分别设置/etc/hosts和/etc/hostnameHosts这个文件用于定义主机名和IP地址之间的对应关

7、系,而hostname这 个文件用于定义你的 Ubuntu 的主机名。(1)修改/etc/hosts,命令 sudogedit/etc/hostslocalhostmasterslave1slave2(2)修改/etc/hostname,命令 sudogedit/etc/hostname(修改完重启有效) master以及 slave1,slave25. 在这两台主机上安装OpenSSH,并配置SSH可以免密码登录(1)确认已经连接上网,输入命令:sudoapt-getinstallssh(2)配置为可以免密码登录本机,接下来输入命令:ssh-keygen - tdsa -P- f/.ssh/

8、id_dsa解释一下,ssh-keygen代表生成密匙,-t表示指定生成的密匙类型, dsa是密匙认证的意思,即密匙类型,-P用于提供密语,-f指定生成 的密匙文件。这个命令会在.ssh文件夹下创建id_dsa以及两个文件,这是 ssh 一对私匙和公匙,把追加到授权的 key 中。输入命令: cat/.ssh/.ssh/authorized_keys(3) 验证ssh是否已经安装成功,输入命令:ssh-version。将文件复制到slave主机相同的文件夹内,输入命令:scpauthorized_keysslave1:/.ssh/scpauthorized_keysslave2:/.ssh/(

9、4) 看是否可以从mas ter主机免密码登录slave,输入命令:sshslave1sshslave26. 配置两台主机的 Hadoop 文件首先到Hadoop的官网下载包,默认讲Hadoop解压到/home/u (你的Ubuntu用户名)/目录下(1) 进入 hadoop 内的 conf 文件夹,找到,修改:exportjAVA_H0ME二/usr/lib/jvm,指定JDK的安装位置,如图十所示:图十 JAVA_HOME 路径设置(2) 修改,这是 Hadoop 的核心配置文件,这里配置的是 HDFS 的地址及端号: /tmp(3)修改2(4)修改master:9001(5)修改 con

10、f/mastersmaster(6)修改 conf/slavesslave1slave27. 启动 hadoop在启动之前,需要格式化hadoop的文件系统HDFS,进入hadoop文件夹,输入命令格式化:bin/hadoopnamenode-format,如图十一所示:图十一 hadoop 格式化输入命令,启动所有进程:bin/,如图十二所示:图十二hadoop启动信息查看是否所有进程启动,输入命令:jps,如图十三所示:图十三jps查看进程8. 最后验证 hadoop 是否成功启动打开浏览器,查看机器集群状态分别输入网址:(1)输入,如图十四,可看到:图十四 namenode 状态点击li

11、venodes,可以看到当前slavel和slave2两个节点信息,如图十五:图十五 datanode 节点状态(2)输入,如图十六,可看到:图十六 jobtracker 状态点击 2nodes 查看 tasktracker 信息,如图十七:图十七 tasktracker 状态(3)输入,如图十八,可看到:图十八task状态也可以通过命令: hadoopdfsadmin-report 查看9. 停止 hadoop 进程:bin/如图十九:图十九停止 hadoop 集群10. 以上为 hadoop 完全分布式集群配置以上过程为由三台计算机组成的完全分布式Hadoop集群,主要参考Hadoop 实

12、战-第二版和Hadoop权威指南,主要讲解了 Hadoop的安装和配置过程, 关于更多 Hadoop 原理的知识不在详述,如果在家在安装的时候遇到问题,或者 按以上步骤安装完成却不能运行Hadoop,建议查看Hadoop的日志信息,Hadoop 记录了详尽的日志信息,日志文件保存的 Hadoop/logs 文件夹内。三其他组件安装过程简介本Hadoop平台搭建过程中安装的组件及软件环境主要包括以下内容:NO.ProjeetVersionContent1Hardwaree nvironmen tCPU:Disk:150GBMemory:Master/NameNodelPSlavel/DataNo

13、delPSlave2/DataNodelP2Operationsystem64-bit3JDK/usr/bin/jvm4Hadoop/home/majiangbo/(可选)相关技术作以下介绍:1. Pig 和 HiveHive 是一个基于 Hadoop 文件系统之上的数据仓库架构,利用 Mapreduce 编程技 术,实现了部分 SQL 语句,提供了类 SQL 的编程接口,可以将结构化的数据文 件映射为一张数据库表,并提供完整的 SQL 查询功能可以将 SQL 语句转换为 Mapreduce 任务进行运行,但是这样在执行时会出现延迟现象,但能更好的处理 不变的大规模数据集上的批量任务。此外,H

14、ive的网络接口可以方便直观地对 数据进行操作,在命令行下,要执行多个查询就要打开多个终端,而通过网络 结构可以同时执行多个查询。配置 Eclipse 环境编写 Hive 程序Hive的优化策略,针对不同的查询进行优化,优化过程通过配置进行控制图二十HiveWeb接口界面Pig 提供了一个支持大规模数据分析的平台, Pig 的基础结构层包括一个产生Mapreduce程序的编译器,能够承受大量的并行任务。PigLatin语言更侧重于 对数据的查询和分析,而不是对数据进行修改和删除,建立在Hadoop分布式平 台之上,能够在短时间内处理海量的数据,比如:系统日志文件,处理大型数 据库文件,处理特定 web 数据等。2. GangliaGanglia 是 UCBerkeley 发起的一个开源集群监视项目,用于测量数以千计的节 点集群

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号