it十八掌徐培成hadoop笔记

上传人:101****457 文档编号:88695649 上传时间:2019-05-07 格式:DOCX 页数:49 大小:63.60KB
返回 下载 相关 举报
it十八掌徐培成hadoop笔记_第1页
第1页 / 共49页
it十八掌徐培成hadoop笔记_第2页
第2页 / 共49页
it十八掌徐培成hadoop笔记_第3页
第3页 / 共49页
it十八掌徐培成hadoop笔记_第4页
第4页 / 共49页
it十八掌徐培成hadoop笔记_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《it十八掌徐培成hadoop笔记》由会员分享,可在线阅读,更多相关《it十八掌徐培成hadoop笔记(49页珍藏版)》请在金锄头文库上搜索。

1、Hadoop本机集群机器:211 212 215 216 四台对应s100 s101 s102 s103 s104Ubuntu204-server-64-2-00 100s100 211node1Ubuntu204-server-64-2-01101s101212node2Ubuntu204-server-64-2-02102s102215node3Ubuntu204-server-64-2-03103s103215node3Ubuntu204-server-64-2-04104 s104216node4a) bigdate海量数据: 1byte = 8bit 1024B = 1M 210 1

2、024M = 1G 2101024G = 1T 2101024T = 1P 2101024P = 1E 2101024E = 1Z 2101024Z = 1Y 210 1231231024Y = 1N 210存储 分布式存储计算分布式计算Hadoop(一头大象) Doug cutting Hadoop 可靠,可伸缩,分布式计算的开源软件。HDFS 去IOE(IBM+oracle+EMC) MapReduce MR /映射和化简,编程模型推荐 Big data 4V1) Volumn /题量大2) Variaty /样式多3) Velocity /速度快4) Valueless /价值密度低b)

3、 Hadoop的安装: (安装ubuntu系统)安装jdk Ln s /soft/jdk-xxx jdk配置环境变量JAVA_HOME = /soft/jdkPATH=”:/soft/jdk/bin”Source /etc/environmentJava version安装hadoopHadoop.tar.gzHadoop version配置环境变量HADOOP_HOMEPATH配置hadoop分三个模式:1. standelone |local /独立/本地模式,使用的本地文件系统Nothing查看文件系统的方式:查看文件系统 hadoop fs ls /没有守护进程,所有程序运行在同一JV

4、M中,利用test和debug.2. Paeudo distributed Mode /伪分布模式3. Fully distributed mode/完全分布式 配置 SSH1) 安装ssh$sudo apt-get install ssh2) 生成密钥对Ssh-keygen t rsa P f /.ssh/Cd /.ssh3) 导入公钥数据到授权库中Cat /.ssh/id_rsa.pub /.ssh/authorized_keys4) 登录到localhostSsh localhost5) 格式化hdfs文件系统Hadoop namenode -format6) 启动所以进程Start-a

5、ll.sh7) 查看进程Jps /5 RM NM NN DN 2NN8) 查看文件系统Hadoop fs -ls9) 创建文件系统Hadoop fs mkdir p /user/Ubuntu/dataHadoop fs ls R /c) Hadoop包含三个模块1) Hadoop common:支持其他模块的工具模块2) Hadoop Distributed File System (HDFS)分布式文件系统,提供了对应用程序数据的高吞吐量访问。进程:NameNode 名称节点NNDataNode 数据节点DNSecondaryNamenode 辅助名称节点2ndNN3) Hadoop YAR

6、N:作业调度与集群资源管理的框架。进程ResourceManager 资源管理RMNodeManager 节点管理器NM4) Hadoop MapReduce:基于yarn系统的对大数据集进行并行处理技术配置hadoop1) Standelone/locald) 完全分布式安装:1) 准备5台客户机本人集群机器:211 212 215 216 四台对应s100 s101 s102 s103 s104ip主机名ip主机名1. Ubuntu204-server-64-2-00 100s100 211node12. Ubuntu204-server-64-2-01101s101212node23.

7、Ubuntu204-server-64-2-02102s102215node34. Ubuntu204-server-64-2-03103s103215node35. Ubuntu204-server-64-2-04104 s104216node42) 安装ssh 1) 安装ssh$sudo apt-get install ssh2) 生成密钥对ssh-keygen t rsa P f /.ssh/cd /.ssh3) 导入公钥数据到授权库中cat /.ssh/id_rsa.pub /.ssh/authorized_keysscp /root/.ssh/* node2:/root/.ssh/s

8、cp /root/.ssh/* node3:/root/.ssh/scp /root/.ssh/* node2:/root/.ssh/4) 登录其他机器:ssh node1ifconfig3) 安装jdk1. rpm -ivh /opt/jdk-7u79-linux-x64.rpm2. ln s /soft/jdk-xxx jdk3. 配置环境变量4. JAVA_HOME = /soft/jdk5. PATH=”;/soft/jdk/bin”6. source /etc/profile7. java version4) 安装hadoop1. tar zxvf hadoop-2.7.3.tar.

9、gz2. Hadoop version3. 配置环境变量4. HADOOP_HOME=/soft/hadoop-2.7.35. PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin6. 配置hadoop查看文件系统 hadoop fs ls /配置文件/etc/hadoop/core-site.xml fs.default.name hdfs:/node1:8020 Hdfs-site.xml dfs.replication 3 Mapred-site.xml mapreduce.framework.name yarn Yarn-site.xml yarn.reso

10、urcemanager localhost yarn.nodemanager.aux-services mapreduce_shuffle 5) 配置文件-rw-r-r-. 1 root root 861 6月 6 10:41 core-site.xml-rw-r-r-. 1 root root 950 6月 6 10:41 hdfs-site.xml-rw-r-r-. 1 root root 844 6月 6 10:41 mapred-site.xml-rw-r-r-. 1 root root 728 6月 6 10:43 yarn-site.xml-rw-r-r-. 1 root root

11、 12 6月 6 10:43 slaves/soft/hadoop/etc/hadoop/core-site.xmlfs.defaultFS=hdfs:/node1/soft/hadoop/etc/hadoop/hdfs-site.xmlreplication=3dfs.namenode.secondary.http-address=node4:50090/soft/hadoop/etc/hadoop/mapred-site.xmlmapreduce.framework.name=yarnsoft/hadoop/etc/hadoop/yarn-site.xmlyarn.resourcemanager.hostname=node1/soft/hadoop/etc/hadoop/slavesnode2node3在集群上分发以上三个文件cd /soft/hadoop/etc/hadoopxsync core-site.xmlxsync yarn-site.xmlxsync slaves6) 首次启动hadoop1) 格式化文件系统$hadoop namenode -format2) 启动所有进程$start-all.sh3) 查询进程jsp4) 停止所有进程Stop-all.sh使用webui访问hadoop hdfs1)hdfs htt

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号