分布式计算环境论文赵亚娟

资源描述

《分布式计算环境论文赵亚娟》由会员分享，可在线阅读，更多相关《分布式计算环境论文赵亚娟（13页珍藏版）》请在金锄头文库上搜索。

1、计算机学院实验报告课程名称：课程名称：分布式计算环境分布式计算环境实验项目名称：实验项目名称： HadoopHadoop 安装以及执行安装以及执行 WordCountWordCount 程序程序学院：计算机学院专业班级：网络 1101 班姓名：赵亚娟学号： 3110610008 指导教师：蔡涛 2014 年 12 月 18 日目录目录一、实验目的3二、实验仪器3三、实验内容及步骤3实验内容3实验步骤中遇到的难点3四、安装 ssh 服务 3五、建立 ssh 无密码登录本机 4六至九阶段5四、实验小结11一、一、实验目的实验目的在虚拟机 Ubantu 上安装 Hadoop

2、单机模式并且执行 WordCount 程序。二、二、实验仪器实验仪器硬件：虚拟机 Ubantu 软件： Windows 7 操作系统三、实验内容三、实验内容实验内容：实验内容：一、安装 Linux 操作系统二、在 Ubuntu 下创建 Hadoop 用户组和用户三、在 Ubuntu 下安装 JDK 四、安装 ssh 服务五、建立 ssh 无密码登录本机六、安装 Hadoop 七、在单机上运行 Hadoop 八、Hadoop 执行 WordCount 程序实验步骤中遇到的难点：实验步骤中遇到的难点：四、安装四、安装 ssh 服务服务这里的 ssh 和三大框架:spring,stru

3、ts,hibernate 没有什么关系，ssh 可以实现远程登录和管理，具体可以参考其他相关资料。 1、安装 openssh-server （注：自动安装 openssh-server 时，可能会进行不下去，可以先进行如下操作：如图（17）)更新过程可能会比较长，需要耐心等待。然后输入如图（18）此处也是比较慢，需要等待 2、更新的快慢取决于您的网速了，如果中途因为时间过长您中断了更新（Ctrl+z），当您再次更新时，会更新不了，报错为：“Ubuntu 无法锁定管理目录（/var/lib/dpkg/），是否有其他进程占用它？“需要如下操作，如图（19）操作完成后继续执行第 1 步。

4、这时假设您已经安装好了 ssh，您就可以进行第六步了。五、建立五、建立 ssh 无密码登录本机无密码登录本机 ssh 生成密钥有 rsa 和 dsa 两种生成方式，默认情况下采用 rsa 方式。 1、创建 ssh-key，，这里我们采用 rsa 方式，如图（20）（注：回车后会在/.ssh/下生成两个文件：id_rsa 和 id_rsa.pub 这两个文件是成对出现的）2、进入/.ssh/目录下，将 id_rsa.pub 追加到 authorized_keys 授权文件中，开始是没有 authorized_keys 文件的，如图（21）完成后就可以无密码登录本机了。 3、登录 localh

5、ost，如图（22）( 注：当 ssh 远程登录到其它机器后，现在你控制的是远程的机器，需要执行退出命令才能重新控制本地主机。) 4、执行退出命令，如图（23）六到九阶段由于是实验重点，所以这期间，着重看了并总结了一下。六到九阶段由于是实验重点，所以这期间，着重看了并总结了一下。阶段一：创建虚拟机 VMware，安装 ubuntu 版本的 Linux 系统。出现问题：启动虚拟机受阻，弹跳框显示启动失败。解决：打开 BIOS 管理界面，找到 “virtualbox” ，使其处于使能状态 enabled。成果展现：阶段二：安装 Hadoop 软件（本实验下载安装的是 Hadoop-0.

6、20.2），并配置相关文件。由于是网上找的教程，这部分倒是配置的挺顺畅。hadoop 软件保存在 usr/local 文件夹内。我采用的 Hadoop 版本是从 http:/ 这个网站中的资源下载中的 hadoop-0.20.2.tar.gz1、假设 hadoop-0.20.2.tar.gz 在桌面，将它复制到安装目录 /usr/local/下，如图（24）2、解压 hadoop-0.20.2.tar.gz，如图（25） 3、将解压出的文件夹改名为 Hadoop，如图（26）4、将该 hadoop 文件夹的属主用户设为 hadoop，如图（27）5、打开 hadoop/conf/hado

7、op-env.sh 文件，如图（28）配置相关文件：（1）修改 hadoop-env.sh 配置（配置文件在 hadoop 文件下的 conf 文件夹里）将 Java 环境的配置进行修改后，并取消注释“#”，修改后的行为：（2）配置 hdfs-site.xml（3）配置 core-site.xml至此检验运行：bin/start-all.sh 启动 Hadoop 相关后台进程，安装成功。阶段三：在 Hadoop 软件上实例化运行 wordcount 程序。（注释 wordcount：这个程序用于统计一批文本文件中单词出现的频率，完整的代码可在下载的 Hadoop 安装包中得到（在 src

8、/examples 目录中））出现问题：安装网上教程完成一个实例后，不管怎么修改本地文件夹里的内容，再上传至 HDFS 的输入文件夹 input，输出目录 output 的统计内容显示总是第一次实例的结果。解决：实例化只能在相对应的 input 和 output 目录中，若是想要完成第二个实例测试，最好新建一个本地文件夹，然后上传至 HDFS(Hadoop 分布式文件系统(HDFS),是被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。)上新建一个文件夹，如 zyjInput 文件夹，将本地文件上传至 HDFS 文件系统集群的 zyjInput 目录

9、下，最后以 zyjOutput 文件夹作为输出目录。具体操作： 1、格式化 HDFS ，命令语句为： bin/hadoop namenode -format 此时选择 y2、启动 Hadoop 相关后台进程 bin/start-all.sh（由于前面已呈图，此处不做重复） 3、新建文件夹，取名为 file，并添加 file1.txt，file2.txt 两个文本内容。命令语句为： mkdir filecd fileecho “Hello World” file1.txtecho “Hello Hadoop” file2.txt可用命令语句 more file1.txt 来查看 tx

10、t 文本内容同时也可以在本地文件查看 file 文件夹。4、在 HDFS 上创建文件夹，取名为 zyjInput。命令语句为： bin/hadoop fs-mkdir zyjInput 另外可用命令 bin/hadoop ls 查看是否建好。5、将本地文件 file 上传至 HDFS 文件系统集群的 zyjInput 目录下。命令语句为：bin/hadoop fs put file/file*.txt zyjInput6、运行 wordcount 程序，输入目录为 zyjInput,输出目录为 zyjOutput。命令语句为：bin/hadoop jar hadoop-0.20.2

11、-examples.jar wordcount zyjInput zyjOutput7、查看统计结果。查看 hdfsOutput 目录内容。 bin/hadoop fs ls zyjOutput查看统计 bin/hadoop fs cat zyjOutput/part-r-000008、记得停止运行 hadoop. 命令语句为： bin/stop-all.sh至此，我们已经完全验证完如何在 Hadoop 的单机模式下运行 WordCount.java 程序。四、实验小结：四、实验小结：我觉得我在做这个实验的时候，完全按照老师要求来做了安装虚拟机 VMware,并在虚拟机里启动 Lin

12、ux 系统，安装 Hadoop 软件，并在上面跑个程序。老实讲，这里的程序我是采用的 Hadoop 软件里自带的 example 里的程序wordcount，但是关于 wordcount 程序代码，没有学过 JAVA,所以具体的代码没怎么看懂，只是大概了解了程序的作用这个程序用于统计一批文本文件中单词出现的频率。WordCount 例子读取文本文件，并统计文件中单词出现的频数。WordCount 对于 hadoop 的重要性，相当于 HelloWorld 对于 JAVA 的重要性。如果你想学习 MapReduce 变成模型，那么学习 WordCount 是一个最好的开始。输入输入包含

13、一组文件，文件中含有很多单词输出输出是一个文本文件，文件的每一行包含一个单词和这个单词在所有输入文件中出现的次数。输入样例 input1: hello world bye world input2: hello hadoop bye hadoop输出样例: bye 2 hadoop 2 hello 2 world 2期间百度了不少资料，之前确实不太懂分布式计算。分布式计算是近年提出的一种新的计算方式。所谓分布式计算就是在两个或多个软件互相共享信息，这些软件既可以在同一台计算机上运行，也可以在通过网络连接起来的多台计算机上运行。分布式计算比起其它算法具有以下几个优点： 1、稀有资源

14、可以共享。 2、通过分布式计算可以在多台计算机上平衡计算负载。 3、可以把程序放在最适合运行它的计算机上。其中，共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。而分布式计算里面有一项很重要的概念就是 HDFS。Hadoop 主要由 HDFS（HadoopDistributedFileSystem）和 MapReduce 引擎两部分组成。最底部是 HDFS，它存储 Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是 MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。 Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用，已经成为各大网站等在线服务公司的海量存储事实标准，多年来为网站客户提供了可靠高效的服务。我私心里认为 Hadoop 一个存储设备或存储环境。确实，它是一个能够在其上创建应用的平台，有存储 PB 级数据的能力。此外，它能够处理并分析数据；

展开阅读全文

分布式计算环境论文赵亚娟

最新文档