Hadoop MapReduce讨论与学习

上传人:共*** 文档编号:83459964 上传时间:2019-02-27 格式:PPT 页数:36 大小:2.43MB
返回 下载 相关 举报
Hadoop  MapReduce讨论与学习_第1页
第1页 / 共36页
Hadoop  MapReduce讨论与学习_第2页
第2页 / 共36页
Hadoop  MapReduce讨论与学习_第3页
第3页 / 共36页
Hadoop  MapReduce讨论与学习_第4页
第4页 / 共36页
Hadoop  MapReduce讨论与学习_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《Hadoop MapReduce讨论与学习》由会员分享,可在线阅读,更多相关《Hadoop MapReduce讨论与学习(36页珍藏版)》请在金锄头文库上搜索。

1、Hadoop / MapReduce 讨论与学习,Hadoop 源起,Apache Lucene 开源的高性能全文检索工具包 Apache Nutch 开源的 Web 搜索引擎 Google 三大论文 MapReduce / GFS / BigTable Apache Hadoop 大规模数据处理,2,Hadoop 生态系统,Hadoop 核心 Hadoop Common 分布式文件系统HDFS MapReduce框架 并行数据分析语言Pig 列存储NoSQL数据库 Hbase 分布式协调器Zookeeper 数据仓库Hive(使用SQL) Hadoop日志分析工具Chukwa,3,Hadoo

2、p VS. Google,技术架构的比较 数据结构化管理组件:Hbase BigTable 并行计算模型:MapReduce MapReduce 分布式文件系统:HDFS GFS Hadoop缺少分布式锁服务Chubby,HBase,MapReduce,HDFS,BigTable,MapReduce,GFS,Hadoop云计算应用,Chubby,Google云计算应用,4,名词对照HDFS,5,名词对照MapReduce,6,Hadoop 应用,IBM Facebook Amazon Yahoo! 中国移动研究院 英特尔研究院 金山软件、百度、腾讯、新浪、搜狐、淘宝,7,海量数据处理,MapR

3、educe的局限性 实时增量搜索 图形计算 交互式计算 .,8,MapReduce简介,解决问题 海量输入数据 简单任务划分 集群计算环境 MapReduce特色 将计算抽象成Map、Reduce操作 任务执行独立 计算顺序改变不影响结果,9,MapReduce工作原理,10,Map: (k1,v1) - list (k2,v2) Reduce: (k2,list(v2) - list (k3,v3),MapReduce 模型,Input split,shuffle,output,交换,11,MapReduce 工作步骤,12,统计单词数,13,Hadoop 实现机制,数据分布存储(分布式文件

4、系统) 本地计算,移动计算而不移动数据 执行流程 FileSplit / Map / Combine(Partition) Copy / Sort / Reduce 分布式计算 作业和任务调度和执行(map/reduce slots) 推测式执行 故障处理 针对不同应用环境的优化,14,分布存储与并行计算,Data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data d

5、ata data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data,Results Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data dat

6、a data Data data data data Data data data data,15,HDFS Architecture,16,HDFS 通讯协议,17,HDFS 可靠性措施,一个名字节点和多个数据节点 数据复制(冗余机制) 存放的位置(机架感知策略) 故障检测 数据节点 心跳包(检测是否宕机) 块报告(安全模式下检测) 数据完整性检测(校验和比较) 名字节点(日志文件,镜像文件) 空间回收机制,18,HDFS 写文件流程,客户端缓存 流水线复制 并发写控制 流程: 1.客户端把数据缓存到本地临时文件夹 2.临时文件夹数据超过64M,客户端联系NameNode,NameNode分

7、配DataNode,DataNode依照客户端的位置被排列成一个有着最近物理距离和最小的序列。 3.与序列的第一个数据服务器建立Socket连接,发送请求头,然后等待回应,依次下传,客户端得到回包,流水线建立成功, 4. 正式发送数据,以4K为大小传送,19,HDFS 读文件流程,客户端联系NameNode,得到所有数据块信息,以及数据块对应的所有数据服务器的位置信息 尝试从某个数据块对应的一组数据服务器中选出一个,进行连接(选取算法未加入相对位置的考虑) 数据被一个包一个包发送回客户端,等到整个数据块的数据都被读取完,就会断开此链接,尝试连接下一个数据块对应的数据服务器,整个流程,依次如此反

8、复,直到所有想读的都读取完为止,20,Hadoop 中的 MapReduce 架构,21,MapReduce 作业执行流程,22,MapReduce 任务请求调度过程,23,Hadoop安装配置与编写MapReduce程序,24,版本介绍,Apache版 Cloudera版 自动化工具 版本选择:Hadoop 0.20.203.0 稳定性 性能优化,25,必要条件,支持平台 GNU/Linux Windows(Cygwin) 必需软件 JDK1.6以上 SSH无密码访问,26,Hadoop工作模式,单机 单进程 测试和调试 伪分布 多进程 小范围模拟集群 真实分布 各节点版本一致,27,系统配

9、置,环境变量 设置java虚拟机路径 节点角色 masters:第二名称节点 slaves:数据节点、tasktracker Hadoop配置 core-site.xml hdfs-site.xml mapred-site.xml,28,启动系统,格式化HDFS Hadoop namenode -format 运行脚本 start-all.sh start-dfs.sh start-mapred.sh jps命令查询java进程,29,运行状态查看,内置web服务器 JobTrackerIP:50030 TaskTrackerIP:50060 NamenodeIP:50070 Datanode

10、IP:50075 日志文件 JobTracker/TaskTracker Namenode/Datanode,30,安装常见问题,Incompatible namespaceIDs Could not obtain block Java heap space ssh密码问题 Incompatible build versions Cannot delete / Namenode is in safe mode connect to host master port 22: Conncetion timed out,31,举例:单词计数,Page 1:the weather is good. P

11、age 2 : good weather is good.,32,Map1,Map2,Reduce,Map函数,void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) String line = value.toString(); StringTokenizer t= new StringTokenizer(line); while (t.hasMoreTokens() word.set(t.nextToken(); output.collect(word, one); ,33,Reduce函数,void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) int sum = 0; while (values.hasNext() sum += value.next().get(); output.collect(key,new IntWritable(sum); ,34,程序运行,重写Map/Reduce函数 设置Job属性 打包程序并向JobTracker提交 监控程序进度 得到最终结果,35,Thank You !,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号