云计算平台 Hadoop的部署

上传人:飞*** 文档编号:53548645 上传时间:2018-09-02 格式:PPT 页数:47 大小:2.26MB
返回 下载 相关 举报
云计算平台 Hadoop的部署_第1页
第1页 / 共47页
云计算平台 Hadoop的部署_第2页
第2页 / 共47页
云计算平台 Hadoop的部署_第3页
第3页 / 共47页
云计算平台 Hadoop的部署_第4页
第4页 / 共47页
云计算平台 Hadoop的部署_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《云计算平台 Hadoop的部署》由会员分享,可在线阅读,更多相关《云计算平台 Hadoop的部署(47页珍藏版)》请在金锄头文库上搜索。

1、云计算平台Hadoop的部署,钟志勇 ,目录,Hadoop简介 HDFS (Hadoop Distributed File System) MapReduce Hadoop的部署 预备条件:ssh,jvm 参数设置:conf/* 启动hdfs和mapreduce 运行MapReduce任务,历史,2002-2004: Apache Nutch 2004-2006: Google 发表 GFS 和 MapReduce相关论文 Apache 在Nutch中实现HDFS和MapReduce 2006-2008: Hadoop 项目从Nutch中分离 2008年7月,Hadoop赢得Terabyte

2、Sort Benchmark,Doug Cutting Hadoop项目负责人,Hadoop简介,数据为中心(data-centered) 支持高可用的(high availability),可扩缩(scalable)的分布式计算的开源软件 海量非结构的数据分析 日志分析 Google, Facebook, Yahoo!, Amazon, Baidu, Renren, Tencent http:/wiki.apache.org/hadoop/PoweredBy,HDFS,Fault-tolerant, 容错性 Run on commodity hardware,在通用的机器上运行 Scalab

3、le 可扩缩的,http:/hadoop.apache.org/hdfs/docs/current/hdfs_design.html http:/ 多个datanodes,7,7,HDFS,NameNode 存贮HDFS的元数据(metadata) 管理文件系统的命名空间(namespace) 创建、删除、移动、重命名文件和文件夹 接收从DataNode来的Heartbeat 和 Blockreport DataNode 存贮数据块 执行从Namenode来的文件操作命令 定时向NameNode发送Heartbeat和Blockreport,Heartbeat和Blockreport,Name

4、node Metadata:,Datanode 1,Datanode 2,Datanode 3,1,1,3,3,2,2,1,3,1,2,2,3,9,9,Data Flow,File Read,9,10,10,Data Flow,File Write,10,MapReduce,编程模型(program model),软件包 Map 把要处理的数据组合成一个个的对(pair) Reduce 把具有相同key的pair聚集在一起,计算一个新的value,从而得到一个新的并输出。,Mapreduce,控制,数据流,一个Jobtracker 多个tasktrackers,MapReduce,Jobtra

5、ker (Master) 接收任务(job)的提交 提供任务的监控(monitoring)和控制(control) 把job划分成多个tasks,交给Tasktracker执行,并管理这些tasks的执行 Tasktracker (Worker) 管理单个task的map任务和reduce任务的执行,Word count: file0:hello world file1:hello mapreduce file2:bye bye,Input files,file0,file2,file1,files,files,目录,Hadoop简介 HDFS (Hadoop Distributed File

6、 System) MapReduce Hadoop的部署 预备条件:ssh,jvm 参数设置:conf/* 启动hdfs和mapreduce 运行MapReduce任务,目标Hadoop 机群,目录,Hadoop简介 HDFS (Hadoop Distributed File System) MapReduce Hadoop的部署 预备条件:ssh,jvm 参数设置:conf/* 启动hdfs和mapreduce 运行MapReduce任务,预备条件0,三台机器 操作系统相同,在同一局域网 node50 ip:11.11.11.50 node51 ip:11.11.11.51 node52 i

7、p:11.11.11.52 一个专门用于hadoop安装的用户 hadoop,预备条件0,修改/etc/hosts, 添加三台机器的机器名和ip映射(三台机器都要做) #vim /etc/hosts,预备条件0,创建专门用于hadoop安装的用户名(三台机器都要做) #useradd m hadoop #passwd hadoop,以#开头的命令是指在root权限下执行的命令 以$开头的命令是指在专门用于hadoop的用户下执行的命令,预备条件1,jvm:Sun JavaTM 1.6.x 检查是否已经安装: $java version 如果返回1.6则已经安装,否者要下载java 1.6并且安

8、装 安装java1.6 下载程序包http:/ #chmod 755 XXXXXX 执行文件,才生一个rpm文件 ./XXXXXX 双击执行rpm文件,预备条件1,添加java环境变量 $vim /.bashrc 在文件最后添加以下三行 export JAVA_HOME=/usr/java/default export CLASSPATH=.:JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$PATH:$JAVA_HOME/bin $source /.bashrc 其中JAVA_HOME的位置要确认一下安装的目录是否是这个位置 再次检查java版本,预

9、备条件2,使master可以以无密码的方式ssh登录到slaves上 生成各台机器的private key和public key $ssh-keygen (对所有提问按enter) 把master的public key拷贝到它自己和slaves机器上,把slaves上的public key拷贝到master上 $ssh-copy-id XXX,预备条件2,目录,Hadoop简介 HDFS (Hadoop Distributed File System) MapReduce Hadoop的部署 预备条件:ssh,jvm 参数设置:conf/* 启动hdfs和mapreduce 运行MapRedu

10、ce任务,Master节点下载hadoop-0.20.2,从renren网镜像下载Hadoop文件 $wget http:/ 解压 重命名解压后的文件夹为hadoop,Master节点下载hadoop-0.20.2,$wget http:/ $ tar xf hadoop-0.20.2.tar.gz $mv hadoop-0.20.2 hadoop,设置conf/*里的文件,1. hadoop-env.sh 2. core-site.xml 3. mapred-site.xml 4. slaves 5. masters,conf/hadoop-env.sh,添加JAVA_HOME变量 expo

11、rt JAVA_HOME=/usr/java/default,conf/core-site.xml,添加fs.default.name,Hdfs:/node50:9000,node50是主节点名,conf/mapred-site.xml,添加mapred.job.tracker,conf/slaves,添加slaves机器名,conf/masters,添加secondary master,同步hadoop文件夹,把hadoop文件夹复制到slaves节点的相同位置 $scp r hadoop node51: $scp r hadoop node52:,目录,Hadoop简介 HDFS (Had

12、oop Distributed File System) MapReduce Hadoop的部署 预备条件:ssh,jvm 参数设置:conf/* 启动hdfs和mapreduce 运行MapReduce任务,Hadoop的命令bin/*,dfs shell guide: http:/hadoop.apache.org/common/docs/r0.20.2/hdfs_shell.html,hdfs的格式化(format),格式化hdfs $hadoop namenode -format,启动hdfs和mapreduce,Hdfs的web界面,Jobtracker的web界面,目录,Hadoo

13、p简介 HDFS (Hadoop Distributed File System) MapReduce Hadoop的部署 预备条件:ssh,jvm 参数设置:conf/* 启动hdfs和mapreduce 运行MapReduce任务,准备WordCount.java,http:/hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html 把WordCount.java放到主节点的家目录下 编译WordCount.java,并打包生成的文件到wordcount.jar,准备输入文件夹,在hdfs中建立文件夹input 本地建立file01和file02,并把它上传到hdfs的input文件夹中,运行WordCount,查看结果,Reference,Google papers: MapReduce: http:/ GFS: http:/ Hadoop links: http:/hadoop.apache.org/ http:/hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号