高性能计算与云计算实验三报告

资源描述

《高性能计算与云计算实验三报告》由会员分享，可在线阅读，更多相关《高性能计算与云计算实验三报告（9页珍藏版）》请在金锄头文库上搜索。

1、精品范文模板可修改删除撰写人：_日期：_高性能计算与云计算实验报告 Map/Reduce编程学院：计算机科学与工程学院班级：计算机软件3班学生姓名：钟鑫旺学号： 201230621083 指导老师：胡金龙、董守斌提交日期： 2015.1.4 1 实验目的本实验的目的是通过练习掌握Map/Reduce编程的知识和技巧:1) 熟悉建立分布式高性能计算平台Hadoop的基本步骤2) 掌握用Map/Reduce编写并行计算程序的基本方法3) 了解Map/Reduce计算程序在Hadoop下的运行和调试机制2 实验要求分组完成实验内容（24个人）:1) 计算平台搭建2) 程序

2、设计及实现3) 回答实验中提出的问题；4) 结果分析随实验报告，附代码、程序说明以及运行结果。3 实验内容基于Hadoop平台通过并行计算解决串匹配的问题。4 Hadoop计算平台搭建（1）以同组同学的多台计算机搭建一个完全分布式的Hadoop计算平台。（2）在搭建的平台上运行WordCount程序，输出结果。实验原理：Hadoop 的最常见用法之一是 Web 搜索。虽然它不是唯一的软件框架应用程序，但作为一个并行数据处理引擎，它的表现非常突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程，它受到Google开发的启发。这个流程称为创建索引，它将 Web爬行器检索到的文

3、本 Web 页面作为输入，并且将这些页面上的单词的频率报告作为结果。然后可以在整个 Web 搜索过程中使用这个结果从已定义的搜索参数中识别内容。最简单的 MapReduce应用程序至少包含 3 个部分：一个 Map 函数、一个 Reduce 函数和一个 main 函数。main 函数将作业控制和文件输入/输出结合起来。在这点上，Hadoop 提供了大量的接口和抽象类，从而为 Hadoop应用程序开发人员提供许多工具，可用于调试和性能度量等。MapReduce 本身就是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的 map 和 reduce 函数。它由两个可能包含有许

4、多实例（许多 Map 和 Reduce）的操作组成。Map 函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表。5 Map/Reduce编程基于MapReduce实现以下任意一个并行算法：（1）并行串匹配算法（2）平行排序算法（3）最短路径算法（4）并行矩阵乘法（简单并行算法、cannon算法、DNS算法等）实验调优（可选）1 选取不同个数和不同大小的实验文本，多次运行你的程序，记录不同的运行时间，并画成图表；2 计算不同情形下的加速比。完成关于本次课程

5、设计的综合实验报告，并回答以下问题：a) 说明并行算法设计的基本思路，并列出参考文献。b) 指出你如何通过系统配置，设置workers及任务调度，将问题分布到多个节点上运行。c) 谈谈对Map/Reduce编程的一些认识和在本实验中遇到的问题等。问题回答要包括在实验报告中。也就是说，最终需要提交的实验报告要有详细实验步骤（包括必要的截图）、源代码、运行和结果输出（截图）以及问题回答。6 【实验方案设计】3.1 Hadoop计算平台搭建（1）以同组同学的多台计算机搭建一个完全分布式的Hadoop计算平台。（2）在搭建的平台上运行WordCount程序，输出结果。3.2 Map/Reduce编程

6、基于MapReduce实现以下任意一个并行算法：（1）并行串匹配算法（2）平行排序算法（3）最短路径算法（4）并行矩阵乘法（简单并行算法、cannon算法、DNS算法等）通过并行计算解决串匹配的问题【实验过程】（实验步骤、记录、数据、分析）开3个虚拟机，它们的主机名分别为xiaominghupan，node01，node02 在/etc/hosts追加如下内容192.168.3.100 xiaominghupan192.168.3.101 node01192.168.3.102 node02 配置ssh免密码登陆下载hadoop-1.2.1.tar.gz 解压hadoop-1.2.1.ta

7、r.gztar -zxvf hadoop-1.2.1-bin.tar.gz C /opt 修改conf/hadoop-env.sh，添加JAVA_HOME变量vi conf/hadoop-env.sh添加export JAVA_HOME=/usr/lib/jvm/java 执行hadoop命令./bin/Hadoop说明安装正常在xiaominghupan主机上配置conf/masters为如下内容xiaominghupan 在3台主机上都配置conf/slaves为如下内容xiaominghupannode01node02 在3台主机上都配置core-site.xml，增加以下属性 fs.

8、default.name hdfs:/master:9000 -定位文件系统的NameNode 配置hdfs-site.xml，增加以下属性 dfs.replication 3 配置mapred-site.xml，增加以下属性 mapred.job.tracker master:9001 格式化hdfshadoop namenode -format 启动hadoopbin/start-all.sh 运行WordCount在eclipse中新建一个WordCount项目，把hadoop-1.2.1/src/examples/org/apache/hadoop/examples/WordCount

9、.java复制到项目中，并把hadoop-1.2.1目录下的jar导入到项目中，此时项目有一些问题，需要修改才能成功编译，修改后的代码在报告的同文件夹下。把项目导出成jar在tmp下建一个文件夹file，在下面建立文件file1.txt,file2.txt其内容分别为Hello World Goodbye World 和 Hello Hadoop Goodbye Hadoop在hadoop节点上建立输入文件路径hadoop fs -mkdir /in把file1.txt 和file2.txt复制到文件服务器上hadoop fs -put /tmp/file/file1.txt /in/file

10、1.txthadoop fs -put /tmp/file/file2.txt /in/file2.txt运行程序hadoop jar /home/xiaominghupan/文档/WordCount.jar /in wordcount把输出文件复制到本地hadoop fs -copyToLocal wordcount /tmp/查看/tmp/wordcount/part-r-00000的内容结果正确编写并行字符串匹配程序输入：Key-Value形式的输入（Key为序号，Value为要进行匹配的文本）例如：输出：以Key-Value的形式输出每个文本中出现that这个单词的间隔要点如下：（1

11、）设置输入格式job.setInputFormatClass(KeyValueTextInputFormat.class);（2）在map中，拿到一个字符串之后，每当找到一个单词”that”,就记录它的下标，然后把字符串值保留that之后的内容，往返地找单词“that”，直到找到不到，把每次找到的that的下标写入context（3）在reduce中按key分类，把遇到的that的index用逗号隔开，连成一个字符串，写进context按上面的例子的文本作为输入，程序的输出为：实验心得：（1）说明并行算法设计的基本思路，并列出参考文献。答：Pattern程序主要的思路是把要匹配的字符串以的形式输入，在map中对每个字符串进行处理，把找到的index以的格式写入到context，在reduce中，把同一序号的index用逗号隔开串连起来，以格式输出到文件Hadoop安装教程：http:/ 1 页共 1 页免责声明：图文来源于网络搜集，版权归原作者所以若侵犯了您的合法权益，请作者与本上传人联系，我们将及时更正删除。

展开阅读全文