分布式hadoop与spark集群搭建

资源描述

《分布式hadoop与spark集群搭建》由会员分享，可在线阅读，更多相关《分布式hadoop与spark集群搭建（26页珍藏版）》请在金锄头文库上搜索。

1、1、设置root用户密码，以root用户登录，设置方式如下 sudo -s gedit /etc/lightdm/lightdm.conf SeatDefaults greeter-session=unity-greeter user-session=Ubuntu greeter-show-manual-login=true allow-guest=false 启用root帐号：（Ubuntu默认是禁止root账户的） sudo passwd root 设置好密码，重启系统，选择“login”，输入“root”，再输入密码就可以了。2、配置机器的/etc/hosts和/etc/hostname

2、并安装ssh设置三台机器之间的无密码登录，在“/etc/hostname”文件中把三台机器的hostname分别设置了SparkMaster、SparkWorker1 、SparkWorker2并在每台机器的“/etc/hosts”配置如下IP和机器名称的对应关系： 127.0.0.1 localhost 192.168.32.131SparkMaster 192.168.32.132 SparkWorker1 192.168.32.133SparkWorker2# The following lines are desirable for IPv6 capable hosts :1 ip6

3、-localhost ip6-loopback fe00:0 ip6-localnet ff00:0 ip6-mcastprefix ff02:1 ip6-allnodes ff02:2 ip6-allrouters可通过ipconfig来查看ip地址。可以ping SparkWorker1来查看ip是否配置成功下面配置ssh无密码登陆： 1）apt-get install ssh 2）/etc/init.d/ssh start，启动服务 3）ps -e |grep ssh，验证服务是否正常启动 4）设置免密登陆，生成私钥和公钥：ssh-keygen -t rsa -P “” 再/root/

4、.ssh中生成两个文件：id_rsa和id_rsa.pub，id_rsa为私钥，id_rsa.pub为公钥，我们将公钥追加到authorized_keys中， cat /.ssh/id_rsa.pub /.ssh/authorized_keys 将SparkWorker1、SparkWorker2的id_rsa.pub传给SparkMaster，使用scp命令进行复制： SparkWorker1上， scp /.ssh/id_rsa.pub rootSparkMaster:/.ssh/id_rsa.pub.SparkWorker1 SparkWorker2上， scp /.ssh/id_rs

5、a.pub rootSparkMaster:/.ssh/id_rsa.pub.SparkWorker2然后将公钥添加到SparkMaster的authorized_keys中， SparkMaster上， cd /.ssh cat id_rsa.pub.SparkWorker1 authorized_keys cat id_rsa.pub.SparkWorker2 authorized_keys 再将SparkMaster的authorized_keys复制到SparkWorker1、SparkWorker2的.ssh目录下： scp authorized_keys rootSparkWork

6、er1:/.ssh/authorized_keys scp authorized_keys rootSparkWorker2:/.ssh/authorized_keys至此，ssh无密登陆已配置完毕。 ssh SparkMaster ssh SparkWorker1 ssh SparkWorker2 在一台机器上可以登录其他系统无需密码。3、配置java环境 SparkMaster上，jdk-8u25-linux-i586.tar.gz mkdir /urs/lib/java cd /urs/lib/java tar -zxvf jdk-8u25-linux-i586.tar.gz gedit

7、 /.bashrc 在最后面添加，后面都用得上#JAVA export JAVA_HOME=/usr/lib/java/jdk1.8.0_25 export JRE_HOME=$JAVA_HOME/jre export CLASS_PATH=.:$JAVA_HOME/lib:$JRE_HOME/lib export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/nativeexport HADOOP_OPTS=“-Djava.library.p

8、ath=$HADOOP_INSTALL/lib“ export SCALA_HOME=/usr/lib/scala/scala-2.11.4 export SPARK_HOME=/usr/local/spark/spark-1.2.0-bin-hadoop2.4 export IDEA_HOME=/usr/local/idea/idea-IC-139.659.2 export PATH=$IDEA_HOME/bin:$SPARK_HOME/bin:$SCALA_HOME/bin:$HADOOP_HO ME/bin:$JAVA_HOME/bin:$PATH source /.bashrc，使配置

9、生效。 java -version可查看版本号，可验证是否成功。在SparkWorker1，SparkWorker2上以同样方法配置，也可通过scp复制。 scp -r /usr/lib/java/jdk1.8.0_25 rootSparkWorker1:/usr/lib/java/ scp -r /usr/lib/java/jdk1.8.0_25 rootSparkWorker2:/usr/lib/java/ scp /.bashrc rootSparkWorker1:/.bashrc scp /.bashrc rootSparkWorker2:/.bashrc复制完成后，在SparkWor

10、ker1，SparkWorker2上source /.bashrc使配置生效。4、配置hadoop环境 SparkMaster上，hadoop-2.6.0.tar.gz mkdir /urs/lib/hadoop cd /urs/lib/hadoop tar -zxvf hadoop-2.6.0.tar.gz cd hadoop-2.6.0 mkdir dfs cd dfs mkdir name mkdir data cd . mkdir tmp接下来开始修改hadoop的配置文件，首先进入Hadoop 2.6.0配置文件区： cd etc/hadoop 第一步修改配置文件hadoop- en

11、v.sh，在其中加入“JAVA_HOME”，指定我们安装的“JAVA_HOME”： # The java implementation to use. export JAVA_HOME=/usr/lib/java/jdk1.8.0_25第二步修改配置文件yarn-env.sh，在其中加入“JAVA_HOME”， # some Java parameters export JAVA_HOME=/usr/lib/java/jdk1.8.0_25 if “$JAVA_HOME“ != “ ; then#echo “run java in $JAVA_HOME“JAVA_HOME=$JAVA_HOME

12、 fi第三步修改配置文件mapred-env.sh，在其中加入“JAVA_HOME”，如下所示： # export JAVA_HOME=/home/y/libexec/jdk1.6.0/ export JAVA_HOME=/usr/lib/java/jdk1.8.0_25export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA第四步修改配置文件slaves，设置Hadoop集群中的从节点为SparkWorker1和SparkWorke r2， SparkWorker1 Spark

13、Worker2第五步修改配置文件core-site.xml，如下所示：fs.defaultFShdfs:/SparkMaster:9000 The name of default file systemhadoop.tmp.dir/home/local/hadoop/hadoop-2.6.0/tmp A base for other temporary directories第六步修改配置文件hdfs-site.xml，如下所示：dfs.replication2dfs.namenode.name.dir/usr/local/hadoop/hadoop-2.6.0/dfs/namedfs.dat

14、anode.data.dir/usr/local/hadoop/hadoop-2.6.0/dfs/data第七步修改配置文件mapred-site.xml，如下所示：拷贝一份mapred-site.xml.template命名为mapred-site.xml，打开mapred-site.xml， cp mapred-site.xml.template mapred-site.xmlmapreduce.framework.nameyarn第八步修改配置文件yarn-site.xml，如下所示：yarn.resourcemanager.hostnameSparkMasteryarn.nodema

15、nager.aux-servicesmapreduce_shuffle共有八个步骤，建议使用scp命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上;5、启动并验证Hadoop分布式集群第一步：格式化hdfs文件系统： SparkMaster上， rootSparkMaster:/usr/local/hadoop/hadoop-2.6.0/bin# hadoop namenode -format 第二步：进入sbin中启动hdfs，执行如下命令： rootSparkMaster:/usr/local/hadoop/ha

16、doop-2.6.0/sbin# ./start-dfs.sh 此时我们发现在SparkMaster上启动了NameNode和SecondaryNameNode；在Spark Worker1和SparkWorker2上均启动了DataNode：每次使用“hadoop namenode - format”命令格式化文件系统的时候会出现一个新的namenodeId，需要把自定义的dfs 文件夹的data和name文件夹的内容清空。SparkWorker1和SparkWorker2的也要删掉。此时访问http:/SparkMaster:50070 登录Web控制可以查看HDFS集群的状况：第三步：启动yarn集群 rootSparkMaster:/usr/local/hadoop/hadoop-2.6.0/sbin# ./start-yarn.sh 使用jps命令可以发现SparkMaster机器上启动了ResourceMana

展开阅读全文