eclipse与Hadoop集群连接

资源描述

《eclipse与Hadoop集群连接》由会员分享，可在线阅读，更多相关《eclipse与Hadoop集群连接（10页珍藏版）》请在金锄头文库上搜索。

1、想了解更多 hadoop 方面的知识请加 QQ群： 204069925eclipse 与 Hadoop 集群连接Eclipse 的 Hadoop 插件参考： http:/ 下安装 hadoop 完成后，接下来就是 eclipse hadoop 开发环境配置了。具体的操作如下：一、在 eclipse 下安装开发 hadoop 程序的插件安装这个插件很简单， haoop-0.20.2 自带一个 eclipse 的插件，在 hadoop 目录下的 contribeclipse-pluginhadoop-0.20.2-eclipse-plugin.jar ，把这个文件 copy 到 eclips

2、e 的 eclipseplugins目录下，然后启动 eclipse 就算完成安装了。这里说明一下， haoop-0.20.2 自带的 eclipse 的插件只能安装在 eclipse 3.3 上才有反应，而在 eclipse 3.7 上运行 hadoop 程序是没有反应的，所以要针对 eclipse 3.7 重新编译插件。另外简单的解决办法是下载第三方编译的 eclipse 插件，下载地址为： http:/ Hadoop-0.20.2 ，所以下载 hadoop-0.20.3-dev-eclipse-plugin.jar.然后将 hadoop-0.20.3-dev-eclipse-plugi

3、n.jar 重命名为 hadoop-0.20.2-eclipse-plugin.jar ，把它 copy 到 eclipse 的 eclipseplugins 目录下，然后启动 eclipse 完成安装。1 、在左边的 project explorer 上头会有一个 DFS locations 的标志2 、在 windows - preferences 里面会多一个 hadoop map/reduce 的选项，选中这个选项，然后右边，把下载的 hadoop 根目录选中（ windows 上的 hadoop 只是为了调用里面的 jar 包）如果能看到以上两点说明安装成功了。二、在 window

4、s 的 C:WindowsSystem32driversetchosts路径下加入以下内容：192.168.136.128 hadoop1192.168.136.129 hadoop2192.168.136.130 hadoop3三、插件安装后，配置连接参数插件装完了，启动 hadoop ，然后就可以建一个 hadoop 连接了，就相当于 eclipse 里配置一个 weblogic 的连接。第一步，打开 Map/Reduce Locations 视图，在右上角有个大象的标志点击第二步，在点击大象后弹出的对话框进行进行参数的添加：location name: 这个随便填写，我填写的是： ha

5、doopMap/Reduce Master 这个框里Host ：就是 jobtracker 所在的集群机器，这里写 hadoop1 （这里可以写主机名，因为前面已经加了主机映射。）Hort ：就是 jobtracker 的 port ，这里写的是 9001这两个参数就是 mapred-site.xml 里面 mapred.job.tracker 里面的 ip 和 portDFS Master 这个框里Host ：就是 namenode 所在的集群机器，这里写 hadoop1Port ：就是 namenode 的 port ，这里写 9000这两个参数就是 core-site.xml 里面 f

6、s.default.name 里面的 ip 和 port（ Use M/R master host ，这个复选框如果选上，就默认和 Map/Reduce Master 这个框里的 host 一样，如果不选择，就可以自己定义输入，这里 jobtracker 和 namenode 在一个机器上，所以是一样的，就勾选上）user name ：这个是连接 hadoop 的用户名，因为我是用 root 用户安装的 hadoop ，而且没建立其他的用户，所以就用 root 。下面的不用填写。然后点击 finish 按钮，此时，这个视图中就有多了一条记录。第三步，重启 eclipse 并重新编辑刚才

7、建立的那个连接记录，如图现在我们编辑 advance parameters tab 页（重启编辑 advance parameters tab 页原因：在新建连接的时候，这个 advance paramters tab 页面的一些属性会显示不出来，显示不出来也就没法设置，所以必须重启一下 eclipse 再进来编辑才能看到）这里大部分的属性都已经自动填写上了，其实就是把 core-defaulte.xml 、 hdfs-defaulte.xml 、 mapred-defaulte.xml 里面的一些配置属性展示出来。因为在安装 hadoop 的时候，其 site 系列配置文件里有改动，所以

8、这里也要弄成一样的设置。主要关注的有以下属性： fs.defualt.name ：这个在 General tab 页已经设置了 mapred.job.tracker ：这个在 General tab 页也设置了 dfs.replication ：这个这里默认是 3，因为我在 hdfs-site.xml 里面设置成了 2 ，所以这里也要设置成2 hadoop.job.ugi ：刚才说看不见的那个，就是这个属性，这里要填写： root,Tardis ，逗号前面的是连接的 hadoop 的用户，逗号后面就写死 Tardisdfs.data.dir 改为 /nosql/hadoop/datahad

9、oop.tmp.dri 改为 /tmp/hadoop-root然后点击 finish ，DFS Locations 下面会有一只大象，下面会有一个文件夹，即 hdfs 的根目录，这里就是展示的分布式文件系统的目录结构了。第四步查看 HDFS 文件系统，并尝试建立文件夹和上传文件点击 Eclipse 软件左侧的 DFS Locations 下面的 hadoop ，就会展示出 HDFS 上的文件结构。右击 hadoopuser root 可以尝试建立一个文件夹 -test ，然后右击刷新就能查看我们刚才建立的文件夹。用 SecureCRT 远程登录 192.168.136.128服务器，

10、用下面命令查看是否已经建立一个test 的文件夹。roothadoop1 bin# ./hadoop dfs -lsFound 3 itemsdrwxr-xr-x - root supergroup 0 2014-01-09 07:57 /user/root/indrwxr-xr-x - root supergroup 0 2014-01-09 07:58 /user/root/outdrwxr-xr-x - root supergroup 0 2014-01-10 07:54 /user/root/test到此为止，我们的 Hadoop Eclipse 开发环境已经配置完毕，不尽兴的同学可以

11、上传点本地文件到 HDFS 分布式文件上，可以互相对比意见文件是否已经上传成功。roothadoop1 bin# ./hadoop dfs -ls ./testFound 1 items-rw-r-r- 2 root supergroup 3965 2014-01-10 07:56 /user/root/test/m.sql倒排索引1.importjava.io.IOException;2.importorg.apache.hadoop.conf.Configuration;3.importorg.apache.hadoop.conf.Configured;4.importorg.apach

12、e.hadoop.fs.Path;5.importorg.apache.hadoop.io.LongWritable;6.importorg.apache.hadoop.io.Text;7.importorg.apache.hadoop.mapreduce.Job;8.importorg.apache.hadoop.mapreduce.Mapper;9.importorg.apache.hadoop.mapreduce.Reducer;10.importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;11.importorg.apac

13、he.hadoop.mapreduce.lib.output.FileOutputFormat;12.importorg.apache.hadoop.mapreduce.lib.output.TextOutputFormat;13.importorg.apache.hadoop.util.Tool;14.importorg.apache.hadoop.util.ToolRunner;15.16.17.18.19.20.21.22.23.24.25.26.27.28./* 倒排索引* 现有一批电话通信清单，记录了用户 A 拨打用户 B 的记录* 需要做一个倒排索引，记录拨打给用户B 的所有用户

14、A* 13599999999 10086* 13599999999 120* 13999999999 13800138000* 13722222222 13800138000* 18800000000 120* 13722222222 10086* 18966666666 10086* 18966666666|110* 任务输出必须如下所示，主叫以 | 分割* hdfs:/192.168.136.128:9000/user/root/test* hdfs:/192.168.136.128:9000/user/root/out*/ public class Test extends Configured implements Tool /* 计数器 Counter 是一个计数器可以记录这个程序一些数据用于统计 */ enum Counter LINESKIP, / 出错的行public static class Map extends Mapper public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException / 读取源文件， line 得到的就是输入文件的一行数据String li

展开阅读全文