LinuxRedHat、CentOS上搭建Hadoop集群

资源描述

《LinuxRedHat、CentOS上搭建Hadoop集群》由会员分享，可在线阅读，更多相关《LinuxRedHat、CentOS上搭建Hadoop集群（10页珍藏版）》请在金锄头文库上搜索。

1、一Hadoop 工作模式：关于 Hadoop 平台的搭建分为三种模式：1 单机模式：默认情况下，Hadoop 被配置成以非分布式模式运行的一个独立 Java 进程。这对调试非常有帮助2.伪分布式模式：Hadoop 可以在单节点上以所谓的伪分布式模式运行，此时每一个Hadoop 守护进程都作为一个独立的 Java 进程运行。3.完全分布式模式：有实际意义的 Hadoop 集群，其规模可从几个节点的小集群到几千个节点的超大集群二实验环境操作系统:RedHat Enterprise Linux 5.6clovem001 192.168.0.101clovem002 192.168.0.102c

2、lovem003 192.168.0.103三所需软件：Hadoop 版本：hadoop-0.20（http:/ sshd 一直运行，以便用 Hadoop 脚本管理远端 Hadoop 守护进程（系统一般默认安装）rsync:用于系统进行远程同步，系统默认安装。JDK 版本：JDK1.6 （http:/ ）四实验前期准备【1 】安装配置 JDK1.安装 JDK此处以 clovem001 为例rootclovem001 #yum remove java -y /卸载系统 JDKrootclovem001 apache_tomcat# chmod a+x jdk-6u23-linux-i586.

3、bin /给予可执行权限rootclovem001 apache_tomcat# ./jdk-6u23-linux-i586.bin/执行二进制文件的安装.直至出现以下信息表示 OK。Press Enter to continue.Done.此时会在当前目录生成 jdk1.6.0_23 目录rootclovem001 apache_tomcat# cp -r jdk1.6.0_23/ /usr/local/jdk1.6 /拷贝至/usr/local 下并改名rootclovem001 # cd /usr/local/jdk1.6 /查看安装目录信息rootclovem001 jdk1.6# p

4、wd/usr/local/jdk1.62.配置 JAVA 环境变量：rootclovem001 jdk1.6# vi /etc/profile 在文件最后添加以下内容：JAVA_HOME=/usr/local/jdk1.6PATH=$PATH:$JAVA_HOME/binCLASSPATH=.$JAVA_HOME/lib/dt.jar:$JAVA_HOME:/lib/tools.jar:$JAVA_HOME/libJRE_HOME=$JAVA_HOME/jreexport JAVA_HOME PATH CLASSPATH JRE_HOME /注意，这一行需要写上，或者在终端中执行导出 JAVA

5、_HOME 的命令，否则，在实验的时候会提示 JAVA_HOME 没有设置执行如下命令使环境变量生效：rootclovem001 jdk1.6#source /etc/profile测试配置是否成功：rootrhel01 jdk1.6#java versionjava version 1.6.0_23Java(TM) SE Runtime Environment (build 1.6.0_23-b05)Java HotSpot(TM) Client VM (build 19.0-b09, mixed mode, sharing)【2 】配置 SSH 登录等效性（实现无密钥登录）rootclo

6、vem001 # ssh-keygen -t dsa /一路回车，不输入任何字符rootclovem001 # ssh-keygen -t rsa /一路回车，不输入任何字符rootclovem001 # cd .ssh/rootclovem001 .ssh# cat id_dsa.pub authorized_keysrootclovem001 .ssh# cat id_rsa.pub authorized_keys /生成混合密钥串至此，通过命令 ssh 192.168.0.101 可以实现无密钥登录五实验步骤：【1 】实现单机模式下面的实例将已解压的 conf 目录拷贝作为输入，查找并

7、显示匹配给定正则表达式的条目。输出写入到指定的 output 目录。 rootclovem001# tar zxvf hadoop-0.20.203.0rc1.tar.gzrootclovem001# cd hadoop-0.20.203.0rootclovem001 hadoop-0.20.203.0#mdkir input rootclovem001 hadoop-0.20.203.0# cp conf/*.xml input/rootclovem001 hadoop-0.20.203.0# bin/hadoop jar hadoop-examples-0.20.203.0.jar gre

8、p input output dfsa-z.+ 说明：bin/hadoop jar（使用 hadoop 运行 jar 包） hadoop-*_examples.jar（jar 包的名字） grep （要使用的类，后边的是参数）input output dfsa-z.+整个就是运行 hadoop 示例程序中的 grep，对应的 hdfs 上的输入目录为 input、输出目录为output。 rootclovem001 hadoop-0.20.203.0# cat output/*1 dfsadmin再看个例子，wordcount 的，大家比较熟悉rootclovem001 hadoop-0.20

9、.203.0# mkdir inputcountrootclovem001 hadoop-0.20.203.0# echo today is a nice day,and you are so beautifulinputcount/word1rootclovem001 hadoop-0.20.203.0# echo today is so bad ,and you are not beautifulinputcount/word2rootclovem001 hadoop-0.20.203.0# cat inputcount/*today is a nice day,and you are s

10、o beautifultoday is so bad ,and you are not beautifulrootclovem001 hadoop-0.20.203.0# bin/hadoop jar hadoop-examples-0.20.203.0.jar wordconut inputcount/ outcount/ 注意：实验的时候 outcount 这个目录不要实现创建，否则在执行上述命令的时候会报错org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory outcount already exist

11、s提示输出的目录已经存在，删除之，直接执行该命令即可。然后执行以下命令rootclovem001 hadoop-0.20.203.0# cat outcount/*,and 1a 1are 2bad 1beautiful 2day,and 1is 2nice 1not 1so 2today 2you 2=【2 】实现伪分布式模式Hadoop 可以在单节点上以所谓的伪分布式模式运行，此时每一个 Hadoop 守护进程都作为一个独立的 Java 进程运行。(1).修改配置文件core-site.xml hdfs-site.xml mapred-site.xmlrootclovem001 hado

12、op-0.20.203.0# vi conf/core-site.xmlfs.default.name192.168.0.101:9000rootclovem001 hadoop-0.20.203.0# vi conf/ mapred-site.xmldfs.replication1rootclovem001 hadoop-0.20.203.0# vi conf/ mapred-site.xml mapred.job.tracker192.168.0.101:9001修改 localhost 为当前 IP，如果在/etc/hosts 中做过了相关本地解析，也可以使用对应值，或者主机名。注意：d

13、fs.replication1注意 dfs 的副本数在此需要设为 1，因为文件系统设计的默认值为 3，当前为伪分布式模式，节点数只有 1(2).格式化一个新的分布式文件系统：rootclovem001 hadoop-0.20.203.0# bin/hadoop namenode -format图 1 格式化新的文件系统(3).启动 Hadoop 守护进程：rootclovem001 hadoop-0.20.203.0# bin/start-all.sh图 2 启动 Hadoop 守护进程出错大家会发现提示信息说 localhost 没有相应的解析记录rootclovem001 hadoop-0

14、.20.203.0# echo “127.0.0.1 localhost” /etc/hosts /添加localhost 记录再次执行rootclovem001 hadoop-0.20.203.0# bin/start-all.sh很奇怪的出现了这个提示图 3 提示 JAVA_HOME 没有设置但是前面的操作确实已经设置过了啊；rootclovem001 hadoop-0.20.203.0# echo “$JAVA_HOME”/usr/local/jdk1.6明明正常显示的，唯一的原因就是在 Hdoop 系统中并没有设置这个环境变量了。rootclovem001 hadoop-0.20.203.0# vi conf/hadoop-env.sh查找“JAVA_HOME”找到下面一行# export JAVA_HOME=/usr/lib/j2sdk1.5-sun复制，粘贴，修改为如下内容export JAVA_HOME=/usr/local/jdk1.6保存，退出再次执行rootclovem001 hadoop-0.20.203.0# bin/start-all.sh图 4 提示辅助 namnode 正在运行停止进程 15931rootclovem001 hadoop-0.20.203.0# skill -9 15931 /杀掉 15931 的进程roo

展开阅读全文

LinuxRedHat、CentOS上搭建Hadoop集群

最新文档