云计算试验汇报4－金锄头文库

资源描述

《云计算试验汇报4》由会员分享，可在线阅读，更多相关《云计算试验汇报4（7页珍藏版）》请在金锄头文库上搜索。

1、云计算试验汇报4 太原科技大学试验汇报2021年10月21日试验时间：16时00分至18时00分专业软件工程姓名张森学号202126170433班级172604课程名称云计算试验名称mapReduce试验同组者指导老师成绩一、试验目标：mapReduce界的helloworld程序就是wordcount程序。所谓wordcount，就是单词计数，就是用来统计一篇或一堆文本文件中的各单词的出现次数。二、试验原理：map端工作1.读取要操作的文件这步会将文件的内容格式化成键值正确形式，键为每一行的起始位置偏移，值为每一行的内容。2.调用map进行处理在这步使用自定义的mapper类来实现自己的逻辑

2、，输入的数据为格式化的键值对，输入的数据也是键值正确形式。3.对map的处理结果进行分区map处理完成以后能够依据自己的业务需求来对键值对进行分区处理，比如，将类型不一样的结果保留在不一样的文件中等。这里设置多个分区，后面就会有对应的多个Reducer来处理对应分区中的内容。4.分区以后，对每个分区的数据进行排序，分组排序根据从小到大进行排列，排序完成以后，会将键值对中，key相同的选项的value进行合并。如，全部的键值对中，可能存在hello1hello1key全部是hello，进行合并以后变成hello2能够依据自己的业务需求对排序和合并的处理进行干涉和实现。5.归约（combiner）

3、简单的说就是在map端进行一次reduce处理，不过和真正的reduce处理不一样之处于于：combiner只能处理当地数据，不能跨网络处理。经过map端的combiner处理能够降低输出的数据，因为数据全部是经过网络传输的，其目标是为了减轻网络传输的压力和后边reduce的工作量。并不能替代reduce。Reduce端工作1.经过网络将数据copy到各个reduce。2.调用reduce进行处理reduce接收的数据是整个map端处理完成以后的键值对，输出的也是键值正确集合，是最终的结果。3.将结果输出到hdfs文件系统的路径中。单词计数程序应该是这么的:1、逐行读取文本内容2、把读取到的一

4、行文本内容切割为一个一个的单词3、把每个单词出现一次的信息统计为一个key-value，也就是“单词-1”4、搜集全部相同的单词，然后统计value写出的value值得总和，也就是key为同一个单词的全部1的和。三、试验内容：在配置好的hadoop下装eclipse（linux版），然后在eclipse下编写运行wordcount四、试验设备：个人笔记本电脑虚拟街软件：Vmwareworkstation系统centoS-7-x86_五、试验步骤：试验首先在HDFS上创立输入文件目录test，命令以下：hadoopubuntu:$hadoopfs-mkdirtest接着将当地的文件put到HDF

5、S上test目录下，并查看，命令以下：hadoopubuntu:/txtfile$hadoopfs-put-f*.txttesthadoopubuntu:$hadoopfs-lstestFound3items-rw-r-r-1hadoopsupergroup242021-10-2114:43test/1hadoopsupergroup242021-10-2114:43test/1hadoopsupergroup1149572021-10-2115:57test/注释:-f是能够overwrite的意思新建一个javaproject,编写wordcount程序,以下所表示packageexamp

6、le;*;/*createdbyhadoopon10/22/16.*/publicclasswordcount/mapper:projecttopublicstaticclassmapextendsmapReduceBaseimplementsmapperprivatefinalstaticIntwritableone=newIntwritable(1);privateTextword=newText ;/reporterreporttheprogressortheyarelivepublicvoidmap(Longwritablekey,Textvalue,outputcollectorou

7、tput,Reporterreporter)throwsIoExceptionStringline= ;StringTokenizertokenizer=newStringTokenizer(line);while( )/setchangestringtoText( );(word,one);publicstaticclassReduceextendsmapReduceBaseimplementsReducer/iscalledforeverykey/Intwritable:youcanuseitasintpublicvoidreduce(Textkey,Iteratorvalues,outp

8、utcollectoroutput,Reporterreporter)throwsIoExceptionintsum=0;while( )sum+= .get ;(key,newIntwritable(sum);publicstaticvoidmain(Stringargs)throwsExceptionjobconfconf=newjobconf ;(wordcount);/ ;/inputformat;(conf,newPath(args0);(conf,newPath(args1);(conf);注释:项目需要导入Hadoop的包,方法:File-ProjectStructure-mod

9、ules-右侧绿色“+”,加入Hadoop目录下lib文件夹导出jar包,File-ProjectStructure-Artifacts-绿色“+”-jAR-Frommoduleswithdependcies-applyBuild-BuildArtifacts运行jar包hadoopubuntu:/txtfile$最终查看HDFS上的结果并将结果get到当地：hadoopubuntu:$hadoopfs-lstest-outFound2items-rw-r-r-1hadoopsupergroup02021-10-2113:59test-out/_SUccESS-rw-r-r-1hadoopsupergroup402021-10-2113:59test-out/part-00000hadoopubuntu:/exp$hadoopfs-get/user/hadoop/test_out/part-r-00000.六、试验结果：l在hdfs中查看输出的文件运行jar包以后,使用浏览器登录XXlocalhost:8088,点击左侧NodeLabels,能够看到运行状态图1.在bash下查看试验输出结果，图2所表示。七：心得体会经过此次试验，我们对于mapReduce程序的了解愈加深刻，对于云计算这门课也有了更深的了解，我们也会在实践中成长，提升自己的学习能力。

展开阅读全文