高性能计算与云计算实验三报告

上传人:cl****1 文档编号:512947263 上传时间:2023-08-16 格式:DOCX 页数:9 大小:490.59KB
返回 下载 相关 举报
高性能计算与云计算实验三报告_第1页
第1页 / 共9页
高性能计算与云计算实验三报告_第2页
第2页 / 共9页
高性能计算与云计算实验三报告_第3页
第3页 / 共9页
高性能计算与云计算实验三报告_第4页
第4页 / 共9页
高性能计算与云计算实验三报告_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《高性能计算与云计算实验三报告》由会员分享,可在线阅读,更多相关《高性能计算与云计算实验三报告(9页珍藏版)》请在金锄头文库上搜索。

1、精品范文模板 可修改删除撰写人:_日 期:_高性能计算与云计算 实验报告 Map/Reduce编程学 院: 计算机科学与工程学院 班 级: 计算机软件3班 学生姓名: 钟鑫旺 学 号: 201230621083 指导老师: 胡金龙、董守斌 提交日期: 2015.1.4 1 实验目的本实验的目的是通过练习掌握Map/Reduce编程的知识和技巧:1) 熟悉建立分布式高性能计算平台Hadoop的基本步骤2) 掌握用Map/Reduce编写并行计算程序的基本方法3) 了解Map/Reduce计算程序在Hadoop下的运行和调试机制2 实验要求分组完成实验内容(24个人):1) 计算平台搭建2) 程序

2、设计及实现3) 回答实验中提出的问题;4) 结果分析随实验报告,附代码、程序说明以及运行结果。3 实验内容基于Hadoop平台通过并行计算解决串匹配的问题。4 Hadoop计算平台搭建(1)以同组同学的多台计算机搭建一个完全分布式的Hadoop计算平台。(2)在搭建的平台上运行WordCount程序,输出结果。实验原理:Hadoop 的最常见用法之一是 Web 搜索。虽然它不是唯一的软件框架应用程序,但作为一个并行数据处理引擎,它的表现非常突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程,它受到Google开发的启发。这个流程称为创建索引,它将 Web爬行器检索到的文

3、本 Web 页面作为输入,并且将这些页面上的单词的频率报告作为结果。然后可以在整个 Web 搜索过程中使用这个结果从已定义的搜索参数中识别内容。最简单的 MapReduce应用程序至少包含 3 个部分:一个 Map 函数、一个 Reduce 函数和一个 main 函数。main 函数将作业控制和文件输入/输出结合起来。在这点上,Hadoop 提供了大量的接口和抽象类,从而为 Hadoop应用程序开发人员提供许多工具,可用于调试和性能度量等。MapReduce 本身就是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的 map 和 reduce 函数。它由两个可能包含有许

4、多实例(许多 Map 和 Reduce)的操作组成。Map 函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。5 Map/Reduce编程 基于MapReduce实现以下任意一个并行算法:(1)并行串匹配算法(2)平行排序算法(3)最短路径算法(4)并行矩阵乘法(简单并行算法、cannon算法、DNS算法等)实验调优(可选)1 选取不同个数和不同大小的实验文本,多次运行你的程序,记录不同的运行时间,并画成图表;2 计算不同情形下的加速比。完成关于本次课程

5、设计的综合实验报告,并回答以下问题:a) 说明并行算法设计的基本思路,并列出参考文献。b) 指出你如何通过系统配置,设置workers及任务调度,将问题分布到多个节点上运行。c) 谈谈对Map/Reduce编程的一些认识和在本实验中遇到的问题等。问题回答要包括在实验报告中。也就是说,最终需要提交的实验报告要有详细实验步骤(包括必要的截图)、源代码、运行和结果输出(截图)以及问题回答。6 【实验方案设计】3.1 Hadoop计算平台搭建(1)以同组同学的多台计算机搭建一个完全分布式的Hadoop计算平台。(2)在搭建的平台上运行WordCount程序,输出结果。3.2 Map/Reduce编程

6、基于MapReduce实现以下任意一个并行算法:(1)并行串匹配算法(2)平行排序算法(3)最短路径算法(4)并行矩阵乘法(简单并行算法、cannon算法、DNS算法等)通过并行计算解决串匹配的问题【实验过程】(实验步骤、记录、数据、分析) 开3个虚拟机,它们的主机名分别为xiaominghupan,node01,node02 在/etc/hosts追加如下内容192.168.3.100 xiaominghupan192.168.3.101 node01192.168.3.102 node02 配置ssh免密码登陆 下载hadoop-1.2.1.tar.gz 解压hadoop-1.2.1.ta

7、r.gztar -zxvf hadoop-1.2.1-bin.tar.gz C /opt 修改conf/hadoop-env.sh,添加JAVA_HOME变量vi conf/hadoop-env.sh添加export JAVA_HOME=/usr/lib/jvm/java 执行hadoop命令./bin/Hadoop说明安装正常 在xiaominghupan主机上配置conf/masters为如下内容xiaominghupan 在3台主机上都配置conf/slaves为如下内容xiaominghupannode01node02 在3台主机上都配置core-site.xml,增加以下属性 fs.

8、default.name hdfs:/master:9000 -定位文件系统的NameNode 配置hdfs-site.xml,增加以下属性 dfs.replication 3 配置mapred-site.xml,增加以下属性 mapred.job.tracker master:9001 格式化hdfshadoop namenode -format 启动hadoopbin/start-all.sh 运行WordCount在eclipse中新建一个WordCount项目,把hadoop-1.2.1/src/examples/org/apache/hadoop/examples/WordCount

9、.java复制到项目中,并把hadoop-1.2.1目录下的jar导入到项目中,此时项目有一些问题,需要修改才能成功编译,修改后的代码在报告的同文件夹下。把项目导出成jar在tmp下建一个文件夹file,在下面建立文件file1.txt,file2.txt其内容分别为Hello World Goodbye World 和 Hello Hadoop Goodbye Hadoop在hadoop节点上建立输入文件路径hadoop fs -mkdir /in把file1.txt 和file2.txt复制到文件服务器上hadoop fs -put /tmp/file/file1.txt /in/file

10、1.txthadoop fs -put /tmp/file/file2.txt /in/file2.txt运行程序hadoop jar /home/xiaominghupan/文档/WordCount.jar /in wordcount把输出文件复制到本地hadoop fs -copyToLocal wordcount /tmp/查看/tmp/wordcount/part-r-00000的内容结果正确 编写并行字符串匹配程序输入:Key-Value形式的输入(Key为序号,Value为要进行匹配的文本)例如:输出:以Key-Value的形式输出每个文本中出现that这个单词的间隔要点如下:(1

11、)设置输入格式job.setInputFormatClass(KeyValueTextInputFormat.class);(2)在map中,拿到一个字符串之后,每当找到一个单词”that”,就记录它的下标,然后把字符串值保留that之后的内容,往返地找单词“that”,直到找到不到,把每次找到的that的下标写入context(3)在reduce中按key分类,把遇到的that的index用逗号隔开,连成一个字符串,写进context按上面的例子的文本作为输入,程序的输出为:实验心得:(1)说明并行算法设计的基本思路,并列出参考文献。答:Pattern程序主要的思路是把要匹配的字符串以的形式输入,在map中对每个字符串进行处理,把找到的index以的格式写入到context,在reduce中,把同一序号的index用逗号隔开串连起来,以格式输出到文件Hadoop安装教程:http:/ 1 页 共 1 页免责声明:图文来源于网络搜集,版权归原作者所以若侵犯了您的合法权益,请作者与本上传人联系,我们将及时更正删除。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 总结/计划/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号