分布式hadoop与spark集群搭建

上传人:ji****72 文档编号:37627330 上传时间:2018-04-20 格式:DOC 页数:26 大小:2.13MB
返回 下载 相关 举报
分布式hadoop与spark集群搭建_第1页
第1页 / 共26页
分布式hadoop与spark集群搭建_第2页
第2页 / 共26页
分布式hadoop与spark集群搭建_第3页
第3页 / 共26页
分布式hadoop与spark集群搭建_第4页
第4页 / 共26页
分布式hadoop与spark集群搭建_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《分布式hadoop与spark集群搭建》由会员分享,可在线阅读,更多相关《分布式hadoop与spark集群搭建(26页珍藏版)》请在金锄头文库上搜索。

1、1、设置root用户密码,以root用户登录,设置方式如下 sudo -s gedit /etc/lightdm/lightdm.conf SeatDefaults greeter-session=unity-greeter user-session=Ubuntu greeter-show-manual-login=true allow-guest=false 启用root帐号:(Ubuntu默认是禁止root账户的) sudo passwd root 设置好密码,重启系统,选择“login”,输入“root”,再输入密码就可以了。2、配置机器的/etc/hosts和/etc/hostname

2、并安装ssh设置三台机器之间的无密码登 录,在“/etc/hostname”文件中把三台机器的hostname分别设置了SparkMaster、SparkWorker1 、SparkWorker2并在每台机器的“/etc/hosts”配置如下IP和机器名称的对应关系: 127.0.0.1 localhost 192.168.32.131SparkMaster 192.168.32.132 SparkWorker1 192.168.32.133SparkWorker2# The following lines are desirable for IPv6 capable hosts :1 ip6

3、-localhost ip6-loopback fe00:0 ip6-localnet ff00:0 ip6-mcastprefix ff02:1 ip6-allnodes ff02:2 ip6-allrouters可通过ipconfig来查看ip地址。 可以ping SparkWorker1来查看ip是否配置成功下面配置ssh无密码登陆: 1)apt-get install ssh 2)/etc/init.d/ssh start,启动服务 3)ps -e |grep ssh,验证服务是否正常启动 4)设置免密登陆,生成私钥和公钥:ssh-keygen -t rsa -P “” 再/root/

4、.ssh中生成两个文件:id_rsa和id_rsa.pub,id_rsa为私钥,id_rsa.pub为公钥,我 们将公钥追加到authorized_keys中, cat /.ssh/id_rsa.pub /.ssh/authorized_keys 将SparkWorker1、SparkWorker2的id_rsa.pub传给SparkMaster,使用scp命令进行复制: SparkWorker1上, scp /.ssh/id_rsa.pub rootSparkMaster:/.ssh/id_rsa.pub.SparkWorker1 SparkWorker2上, scp /.ssh/id_rs

5、a.pub rootSparkMaster:/.ssh/id_rsa.pub.SparkWorker2然后将公钥添加到SparkMaster的authorized_keys中, SparkMaster上, cd /.ssh cat id_rsa.pub.SparkWorker1 authorized_keys cat id_rsa.pub.SparkWorker2 authorized_keys 再将SparkMaster的authorized_keys复制到SparkWorker1、SparkWorker2的.ssh目录下: scp authorized_keys rootSparkWork

6、er1:/.ssh/authorized_keys scp authorized_keys rootSparkWorker2:/.ssh/authorized_keys至此,ssh无密登陆已配置完毕。 ssh SparkMaster ssh SparkWorker1 ssh SparkWorker2 在一台机器上可以登录其他系统无需密码。3、配置java环境 SparkMaster上,jdk-8u25-linux-i586.tar.gz mkdir /urs/lib/java cd /urs/lib/java tar -zxvf jdk-8u25-linux-i586.tar.gz gedit

7、 /.bashrc 在最后面添加,后面都用得上#JAVA export JAVA_HOME=/usr/lib/java/jdk1.8.0_25 export JRE_HOME=$JAVA_HOME/jre export CLASS_PATH=.:$JAVA_HOME/lib:$JRE_HOME/lib export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/nativeexport HADOOP_OPTS=“-Djava.library.p

8、ath=$HADOOP_INSTALL/lib“ export SCALA_HOME=/usr/lib/scala/scala-2.11.4 export SPARK_HOME=/usr/local/spark/spark-1.2.0-bin-hadoop2.4 export IDEA_HOME=/usr/local/idea/idea-IC-139.659.2 export PATH=$IDEA_HOME/bin:$SPARK_HOME/bin:$SCALA_HOME/bin:$HADOOP_HO ME/bin:$JAVA_HOME/bin:$PATH source /.bashrc,使配置

9、生效。 java -version可查看版本号,可验证是否成功。在SparkWorker1,SparkWorker2上以同样方法配置,也可通过scp复制。 scp -r /usr/lib/java/jdk1.8.0_25 rootSparkWorker1:/usr/lib/java/ scp -r /usr/lib/java/jdk1.8.0_25 rootSparkWorker2:/usr/lib/java/ scp /.bashrc rootSparkWorker1:/.bashrc scp /.bashrc rootSparkWorker2:/.bashrc复制完成后,在SparkWor

10、ker1,SparkWorker2上source /.bashrc使配置生效。4、配置hadoop环境 SparkMaster上,hadoop-2.6.0.tar.gz mkdir /urs/lib/hadoop cd /urs/lib/hadoop tar -zxvf hadoop-2.6.0.tar.gz cd hadoop-2.6.0 mkdir dfs cd dfs mkdir name mkdir data cd . mkdir tmp接下来开始修改hadoop的配置文件,首先进入Hadoop 2.6.0配置文件区: cd etc/hadoop 第一步修改配置文件hadoop- en

11、v.sh,在其中加入“JAVA_HOME”,指定我们安装的“JAVA_HOME”: # The java implementation to use. export JAVA_HOME=/usr/lib/java/jdk1.8.0_25第二步修改配置文件yarn-env.sh,在其中加入“JAVA_HOME”, # some Java parameters export JAVA_HOME=/usr/lib/java/jdk1.8.0_25 if “$JAVA_HOME“ != “ ; then#echo “run java in $JAVA_HOME“JAVA_HOME=$JAVA_HOME

12、 fi第三步修改配置文件mapred-env.sh,在其中加入“JAVA_HOME”,如下所示: # export JAVA_HOME=/home/y/libexec/jdk1.6.0/ export JAVA_HOME=/usr/lib/java/jdk1.8.0_25export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA第四步修改配置文件slaves,设置Hadoop集群中的从节点为SparkWorker1和SparkWorke r2, SparkWorker1 Spark

13、Worker2第五步修改配置文件core-site.xml,如下所示:fs.defaultFShdfs:/SparkMaster:9000 The name of default file systemhadoop.tmp.dir/home/local/hadoop/hadoop-2.6.0/tmp A base for other temporary directories第六步修改配置文件hdfs-site.xml,如下所示:dfs.replication2dfs.namenode.name.dir/usr/local/hadoop/hadoop-2.6.0/dfs/namedfs.dat

14、anode.data.dir/usr/local/hadoop/hadoop-2.6.0/dfs/data第七步修改配置文件mapred-site.xml,如下所示: 拷贝一份mapred-site.xml.template命名为mapred-site.xml,打开mapred-site.xml, cp mapred-site.xml.template mapred-site.xmlmapreduce.framework.nameyarn第八步修改配置文件yarn-site.xml,如下所示:yarn.resourcemanager.hostnameSparkMasteryarn.nodema

15、nager.aux-servicesmapreduce_shuffle共有八个步骤,建议使用scp命令把SparkMaster上安装和配置的Hadoop的各项内容拷 贝到SparkWorker1和SparkWorker2上;5、启动并验证Hadoop分布式集群 第一步:格式化hdfs文件系统: SparkMaster上, rootSparkMaster:/usr/local/hadoop/hadoop-2.6.0/bin# hadoop namenode -format 第二步:进入sbin中启动hdfs,执行如下命令: rootSparkMaster:/usr/local/hadoop/ha

16、doop-2.6.0/sbin# ./start-dfs.sh 此时我们发现在SparkMaster上启动了NameNode和SecondaryNameNode;在Spark Worker1和SparkWorker2上均启动了DataNode:每次使用“hadoop namenode - format”命令格式化文件系统的时候会出现一个新的namenodeId,需要把自定义的dfs 文件夹的data和name文件夹的内容清空。SparkWorker1和SparkWorker2的也要删掉。此时访问http:/SparkMaster:50070 登录Web控制可以查看HDFS集群的状况:第三步:启动yarn集群 rootSparkMaster:/usr/local/hadoop/hadoop-2.6.0/sbin# ./start-yarn.sh 使用jps命令可以发现SparkMaster机器上启动了ResourceMana

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号