hadoop开发实战培训

上传人:资****亨 文档编号:487263116 上传时间:2024-05-12 格式:PPT 页数:12 大小:1.89MB
返回 下载 相关 举报
hadoop开发实战培训_第1页
第1页 / 共12页
hadoop开发实战培训_第2页
第2页 / 共12页
hadoop开发实战培训_第3页
第3页 / 共12页
hadoop开发实战培训_第4页
第4页 / 共12页
hadoop开发实战培训_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《hadoop开发实战培训》由会员分享,可在线阅读,更多相关《hadoop开发实战培训(12页珍藏版)》请在金锄头文库上搜索。

1、Hadoop大数据解决方案进阶应用大数据解决方案进阶应用Hadoop讲师:迪伦北风网版权所有MapReduce高阶实现高阶实现(11)编辑课件q连接qMap端连接qReduce端连接课程目标课程目标编辑课件连接连接qMapReduce能够执行大型数据集间的Join操作q除了写MapReduce程序,其他更高级的框架也可以实现,如Pig、Hive或Cascading等q连接操作的具体实现取决于数据集的规模及分区方式q连接操作如果有mapper执行,那么称为“map端连接q如果由reducer端执行,那么称为“reduce端连接q数据的组织方式决定了采用map端还是reduce端连接编辑课件Map

2、Map端连接端连接qMap端连接会在数据到达map函数之前就执行连接操作q各map的输入数据必须先分区并且以特定方式排序q各个输入数据集被划分成相同数量的分区,并按相同的key排序连接键q同一个键的所有记录会放在同一个分区中qMap端的连接操作可以连接多个作业的输出,前提是这些reducer数量相同,键相同、并且输出文件是不可切分的q利用org.apache.hadoop.mapred.join包中的CompositeInputFormat类来运行一个map端连接qorg.apache.hadoop.examples.Join是一个通用的执行map端连接的命令行程序编辑课件MapMap端连接端

3、连接编辑课件ReduceReduce端连接端连接qReduce端连接不要求输入数据集符合特定结构,因而reduce端连接比map端连接更为常用q因为两个数据集要经过shuffle过程,所以reduce端连接的效率要低一些q根本思路qMapper为各个记录标记源q使用连接键作为map输出键,使键相同的记录放在同一reducer中q帮助实现reduce端连接的技术q多输入:指定多种格式的输入,可以使用MultipleInputs类来方便地解析和标注各个源q二次排序实现先将一个源的数据传输到reducer,可更好地执行连接操作,防止将所有数据缓存到内存中编辑课件实例:实例:ReduceReduce端连接端连接q要求:在reduce端实现气象站信息和天气数据的连接q此mappper类用于reduce端连接中标记气象站记录编辑课件实例:实例:ReduceReduce端连接端连接q此mappper类用于reduce端连接中标记天气记录编辑课件实例:实例:ReduceReduce端连接端连接q此reducer类用于连接已标记的气象站记录和天气记录编辑课件实例:实例:ReduceReduce端连接端连接q对天气记录和气象站名称执行连接操作编辑课件实例:实例:ReduceReduce端连接端连接q输出例如:编辑课件欢送访问我们的官方网站 ibeifeng 编辑课件

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号