eclipse与Hadoop集群连接

上传人:新** 文档编号:507921138 上传时间:2023-05-13 格式:DOCX 页数:10 大小:20.45KB
返回 下载 相关 举报
eclipse与Hadoop集群连接_第1页
第1页 / 共10页
eclipse与Hadoop集群连接_第2页
第2页 / 共10页
eclipse与Hadoop集群连接_第3页
第3页 / 共10页
eclipse与Hadoop集群连接_第4页
第4页 / 共10页
eclipse与Hadoop集群连接_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《eclipse与Hadoop集群连接》由会员分享,可在线阅读,更多相关《eclipse与Hadoop集群连接(10页珍藏版)》请在金锄头文库上搜索。

1、想了解更多 hadoop 方面的知识请加 QQ群: 204069925eclipse 与 Hadoop 集群连接Eclipse 的 Hadoop 插件参考: http:/ 下安装 hadoop 完成后,接下来就是 eclipse hadoop 开发环境配置了。具体的操作如 下:一、在 eclipse 下安装开发 hadoop 程序的插件 安装这个插件很简单, haoop-0.20.2 自带一个 eclipse 的插件,在 hadoop 目录下 的 contribeclipse-pluginhadoop-0.20.2-eclipse-plugin.jar ,把这个文件 copy 到 eclips

2、e 的 eclipseplugins目录下,然后启动 eclipse 就算完成安装了。这里说明一下, haoop-0.20.2 自带的 eclipse 的插件只能安装在 eclipse 3.3 上才有反应,而在 eclipse 3.7 上运行 hadoop 程序是没有反应的,所以要针对 eclipse 3.7 重新编译插件。 另外简单的解决办法是下载第三方编译的 eclipse 插件,下载地址为: http:/ Hadoop-0.20.2 ,所以下载 hadoop-0.20.3-dev-eclipse-plugin.jar.然后将 hadoop-0.20.3-dev-eclipse-plugi

3、n.jar 重命名为 hadoop-0.20.2-eclipse-plugin.jar ,把它 copy 到 eclipse 的 eclipseplugins 目录下,然后启动 eclipse 完成安装。1 、在左边的 project explorer 上头会有一个 DFS locations 的标志2 、在 windows - preferences 里面会多一个 hadoop map/reduce 的选项,选中这个选项,然 后右边,把下载的 hadoop 根目录选中( windows 上的 hadoop 只是为了调用里面的 jar 包)如果能看到以上两点说明安装成功了。二、在 window

4、s 的 C:WindowsSystem32driversetchosts路径下加入以下内容:192.168.136.128 hadoop1192.168.136.129 hadoop2192.168.136.130 hadoop3三、插件安装后,配置连接参数插件装完了,启动 hadoop ,然后就可以建一个 hadoop 连接了,就相当于 eclipse 里配置一 个 weblogic 的连接。第一步,打开 Map/Reduce Locations 视图,在右上角有个大象的标志点击第二步,在点击大象后弹出的对话框进行进行参数的添加:location name: 这个随便填写,我填写的是: ha

5、doopMap/Reduce Master 这个框里Host :就是 jobtracker 所在的集群机器,这里写 hadoop1 (这里可以写主机名,因为前面已经 加了主机映射。)Hort :就是 jobtracker 的 port ,这里写的是 9001这两个参数就是 mapred-site.xml 里面 mapred.job.tracker 里面的 ip 和 portDFS Master 这个框里Host :就是 namenode 所在的集群机器,这里写 hadoop1Port :就是 namenode 的 port ,这里写 9000这两个参数就是 core-site.xml 里面 f

6、s.default.name 里面的 ip 和 port( Use M/R master host ,这个复选框如果选上, 就默认和 Map/Reduce Master 这个框里的 host 一样,如果不选择,就可以自己定义输入,这里 jobtracker 和 namenode 在一个机器上,所以 是一样的,就勾选上)user name :这个是连接 hadoop 的用户名,因为我是用 root 用户安装的 hadoop ,而且 没建立其他的用户,所以就用 root 。 下面的不用填写。然后点击 finish 按钮,此时,这个视图中就有多了一条记录。第三步,重启 eclipse 并重新编辑刚才

7、建立的那个连接记录,如图现在我们编辑 advance parameters tab 页(重启编辑 advance parameters tab 页原因:在新建连接的时候,这个 advance paramters tab 页面的一些属性会显示不出来,显示不出来也就没法设置,所以必须重启一下 eclipse 再进来编辑才能看到) 这里大部分的属性都已经自动填写上了,其实就是把 core-defaulte.xml 、 hdfs-defaulte.xml 、 mapred-defaulte.xml 里面的一些配置属性展示出来。因为在安装 hadoop 的时候,其 site 系列 配置文件里有改动,所以

8、这里也要弄成一样的设置。主要关注的有以下属性: fs.defualt.name :这个在 General tab 页已经设置了 mapred.job.tracker :这个在 General tab 页也设置了 dfs.replication :这个这里默认是 3,因为我在 hdfs-site.xml 里面设置成了 2 ,所以这里也要设置 成2 hadoop.job.ugi :刚才说看不见的那个,就是这个属性,这里要填写: root,Tardis ,逗号前面的 是连接的 hadoop 的用户,逗号后面就写死 Tardisdfs.data.dir 改为 /nosql/hadoop/datahad

9、oop.tmp.dri 改为 /tmp/hadoop-root然后点击 finish ,DFS Locations 下面会有一只大象,下面会有一个文件夹,即 hdfs 的根 目录,这里就是展示的分布式文件系统的目录结构了。第四步 查看 HDFS 文件系统,并尝试建立文件夹和上传文件点击 Eclipse 软件左侧的 DFS Locations 下面的 hadoop ,就会展示出 HDFS 上的文 件结构。右击 hadoopuser root 可以尝试建立一个 文件夹 -test ,然后右击刷新就能查看我们刚才建立的文件夹。用 SecureCRT 远程登录 192.168.136.128服务器,

10、用下面命令查看是否已经建立一个test 的文件夹。roothadoop1 bin# ./hadoop dfs -lsFound 3 itemsdrwxr-xr-x - root supergroup 0 2014-01-09 07:57 /user/root/indrwxr-xr-x - root supergroup 0 2014-01-09 07:58 /user/root/outdrwxr-xr-x - root supergroup 0 2014-01-10 07:54 /user/root/test到此为止,我们的 Hadoop Eclipse 开发环境已经配置完毕,不尽兴的同学可以

11、上传点本 地文件到 HDFS 分布式文件上,可以互相对比意见文件是否已经上传成功。roothadoop1 bin# ./hadoop dfs -ls ./testFound 1 items-rw-r-r- 2 root supergroup 3965 2014-01-10 07:56 /user/root/test/m.sql倒排索引1.importjava.io.IOException;2.importorg.apache.hadoop.conf.Configuration;3.importorg.apache.hadoop.conf.Configured;4.importorg.apach

12、e.hadoop.fs.Path;5.importorg.apache.hadoop.io.LongWritable;6.importorg.apache.hadoop.io.Text;7.importorg.apache.hadoop.mapreduce.Job;8.importorg.apache.hadoop.mapreduce.Mapper;9.importorg.apache.hadoop.mapreduce.Reducer;10.importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;11.importorg.apac

13、he.hadoop.mapreduce.lib.output.FileOutputFormat;12.importorg.apache.hadoop.mapreduce.lib.output.TextOutputFormat;13.importorg.apache.hadoop.util.Tool;14.importorg.apache.hadoop.util.ToolRunner;15.16.17.18.19.20.21.22.23.24.25.26.27.28./* 倒排索引* 现有一批电话通信清单,记录了用户 A 拨打用户 B 的记录* 需要做一个倒排索引,记录拨打给用户B 的所有用户

14、A* 13599999999 10086* 13599999999 120* 13999999999 13800138000* 13722222222 13800138000* 18800000000 120* 13722222222 10086* 18966666666 10086* 18966666666|110* 任务输出必须如下所示,主叫以 | 分割* hdfs:/192.168.136.128:9000/user/root/test* hdfs:/192.168.136.128:9000/user/root/out*/ public class Test extends Configured implements Tool /* 计数器 Counter 是一个计数器 可以记录这个程序一些数据用于统计 */ enum Counter LINESKIP, / 出错的行public static class Map extends Mapper public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException / 读取源文件, line 得到的就是输入文件的一行数据String li

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号