《hadoop培训视频教程PPT参考课件》由会员分享,可在线阅读,更多相关《hadoop培训视频教程PPT参考课件(11页珍藏版)》请在金锄头文库上搜索。
1、Hadoop大数据解决方案进阶应用,Hadoop,讲师:迪伦(北风网版权所有),MapReduce高阶实现 (4),Hadoop Stream中的key和value 控制分片的大小 避免分片 把整个文件当作一条记录处理,课程目标,Hadoop Stream中的key和value,Stream应用可以决定分隔符,该分隔符用于通过标准输入把key/value对转换成一串比特值发送到map或reduce函数 默认是Tab(制表符) 通过-D 指定具体属性 分隔符作用的位置:,Hadoop Stream中的key和value,Stream分隔符属性,控制分片的大小,通过FileInputFormat类
2、进行输入数据的分片 FileInputFormat只分割大文件,即超过HDFS块大小的文件 控制分片大小的属性,可以强制设置分片比文件块大或者比块小 分片大小的计算公式Math.max(minSize, Math.min(goalSize, blockSize);其中goalSize为“InputFile大小”/“我们在配置文件中定义的mapred.map.tasks”值,控制分片的大小,参数设置如何影响分片大小,避免分片,有些应用程序可能不希望文件被切分,而是用一个mapper完整处理每一个输入文件 两种方法 增加分片大小,将它设置为最大值long.MAX_VALUE即可 使用FileInputFormat具体子类,重载isSplitable()方法把返回值位置为false。,把整个文件当作一条记录处理,有些应用程序需要访问一个文件中的全部内容。即使不分割文件,仍然需要一个RecordReader来读取文件内容作为record的值 具体实现:,把整个文件当作一条记录处理,把整个文件当作一条记录处理,欢迎访问我们的官方网站 ,