大数据环境搭建——已验证通过

资源描述

《大数据环境搭建——已验证通过》由会员分享，可在线阅读，更多相关《大数据环境搭建——已验证通过（20页珍藏版）》请在金锄头文库上搜索。

1、Cygwin 的安装1.先在 http:/ 上下载安装文件打开后双击 setup.exe 安装。如下图：2. 直接点击下一步后如下图：图中有三个选项，意思一看就懂啊。这里直选择下一步3.直接点击下一步后如下图:这里是要选择安装路径，设置在哪里都可以。没有特殊要求。4. 设置好路径后下一步进入下图：这是设置 Cygwin 安装文件的目录。先安装的 exe 只是个引导它需要自己下载安装文件。设置这个目录就是存储这些文件的。5.设置好后下一步进入下图：这里是你网络的链接方式，第一个是直接链接，第二个是使用 IE 代理，第三个使用你指定的 HTTP/FTP 代理。你要根据你自己的情况选择。通常选第一个

2、如不好使则查看你的联网是否使用了代理用了就选下面两个中的一个。6.设置好后下一步进入下图：选择其中一个 url 用作下载的站点。我选第一就行挺快的。你的不行可以试试别的。也可以在下面的 User URL 中添加 url 写完地址一点 Add 就加入到上面的 url 列表中了。然后选择你自己加入的 url 即可。如果自己加入可以尝试一下这个 url：http:/ Error: gcrypt library error 60 illegal tag。就是上一步网络选择的问题或者选择的 url不能下载。自己可以尝试改动一下。正常下载的话也可能出现一个警告窗口如下图：点击确定即可。随即会进入下图。7.

3、来到此图就要开始进行一些配置了。选择一下要安装的包。如下图：首先：选择其中的 Base Default，通常这里的包都已经选择上了。你要确保 sed 已选择上，这样你可以在 eclipse 中使用 hadoop 了。如下图这样即可：其次：选择 Devel Default，将其中的 subversion 选中第一个即可。如下图：最后：选择 Net default 包，将其中的 openssh 及 openssl 选上。如下图：经过上述包选择后点击下一步即可。8. 来到这个图中如下：都是些你不用也不能改的东西，包依赖的一些提示信息。直接点一下步。这是将进入下载及安装你刚刚所选择的包的过程。随后不

4、用再说了。设置是否在桌面显示图标之类额。随后结束了。9. 打开 cygwin 进行配置，首先输入：ssh-host-config.回车。会让你输入 yes/no 输入 no。回车。见到 Have fun！就说明成功了。见下图：10. 先到计算机管理服务处开启 CYGWIN sshd 服务。开启后在 cygwin 中输入：ssh localhost 进行登录。回车后，会提示是否继续链接选择 yes。随后输入系统用户密码登录。注意：如果你当前使用的用户没有密码就设定一个。否则没有密码你即使不输你回车也不好使。如下图：11. 这是进行 ssh 的无密码登录。输入 ssh-keygen，提示输入的地方

5、直接按回车即可。执行后如下图：随后执行下图中的命令。1、cd /.ssh/2、ls3、cp id_rsa.pub authorized_keys 到此步即可。再 ls 就会看到 authorized_keys如下图：完成后输入 exit 退出。可能需要输入几次。没退出就再输一个 exit。呵呵。。12.然后再次打开 cygwin。这回直接输入 ssh localhost 登录命令就可以直接进入了。不在需要密码了。如下图：至此 cygwin 就配置结束了。你可以使用了。Hadoop 的配置1. 下载 hadoop 安装包可以到这个网站上下载 http:/www.apache.org/dist/

6、hadoop/core/如果下载不下来自己到网上找找很多的。选一个版本下载。我用的是 hadoop-0.20.2。2.解压到一个目录下。随便选择按个目录。建议直接选择一个根目录。随后进行配置。这里配置的是伪分布式了。需要配置四个文件。都在 conf 目录下。分别为：hadoop-env.sh、core-site.xml 、hdfs-site.xml、mapred-site.xml。下面逐一说明：3.hadoop-env.sh这个文件中主要配置 JAVA_HOME 路径。需要注意的是：1.jkd 是 1.6 以上版本。2.路径应该是 linux 风格的。打开后将 export 前面的#注释符去掉

7、，路径为/cygdrive/你的 jdk 路径（注：这里修改必须利用 TXT 打开否则修改后会出问题！）。如果路径中有空格需要将路径用括起来（注：若路径中带有空格，如 Program Files 的情况，加” 也无作用，则创建软连接即可解决，如下：里面有空格 program files 你可以找个目录设置一个软链接，比如说 ln -s C:Program FilesJavajdk1.7.0_07 /usr/local/然后将 hadoop-env.sh 里的JAVA_HOME 改成 export JAVA_HOME=/usr/local/jdk1.7.0_07 就可以了）。设置后如下图：4.

8、 core-site.xml配置属性很多。到也可以简化自己设置几个属性就可以了。这里我们直接复制 src/core下的 core-default.xml 到 conf 下并改名为 core-site.xml 替换原来的。修改下列属性如下：hadoop.tmp.dir/hadoop/tmpA base for other temporary directories.设置临时的文件 hadoop 默认中有了但重启后会被删除所以还得需要格式化所以手动设定一个。避免格式化。fs.default.namehdfs:/localhost:90005. hdfs-site.xml这个也同样到 src/hdf

9、s 下把 hdfs-default.xml 复制到 conf 下改名替换。修改下列属性：dfs.name.dir/hadoop/nameDFS 名节点存放位置dfs.data.dir/hadoop/dataDFS 数据节点存放位置 dfs.replication1存放副本数，这是为了安全考虑的在集群中要多放几个。咱们是伪分布式的就一个可以了。6. mapred-site.xml这个也同样到 src/mapred 中把 mapred-default.xml 复制到 conf 中改名替换。修改下列属性：mapred.job.trackerlocalhost:9001MapReduce 的 jog

10、tracker 运行在所在主机及端口号。mapred.local.dir/hadoop/tempMapReduce 的运行中间数据文件的存放路径7. 这就可以了。设置就结束了。下面运行试一试。使用 cygwin 进入到 hadoop 安装路径下的 bin 文件夹中。查看显示如下：首先格式化：./hadoop namenode format 如果让选择 Y/N 选择 Y。如下图：其次运行：./start-all.sh 如下图则成功了。总共会启动五个节点。最后：运行一下自带的 wordcount 例子。1.先在本地文件建立一个文件夹(最好建在 hadoop 的安装文件在同一个目录下)如 testi

11、n 随后在里面建几个文件 txt 或 java 的随意。在里面输入以下英文单字。如 file1.java 内容 Hello world ！ file2.java 内容：I love you ！2.在 cygwin 中建一个 hadoop hdfs 上的目录如 testin。命令如下：./hadoop dfs mkdir testin3.将本地的两个文件上传到 dfs 上去。./hadoop dfs put /testin/*.java testing（注意这里的 FileForHadoop 是例子中 testin 文件目录，加与不加可按具体情况而定）此时运行./hadoop dfs ls te

12、stin 就会就会发现已有了这两个文件了。2、3 步执行如下图：4.执行./hadoop jar ././hadoop-0.20.2-examples.jar wordcount testin testout如下图则成功了5.查看结果./hadoop dfs -ls testout 会发现下面有两个文件一个是日志一个是结果文件。./hadoop dfs -cat testout/part-r-00000 查看统计单字的结果文件执行如下图：至此 hadoop 就安装配置都已结束并经过测试已经可以正常运行了。开始云学习吧。安装 Eclipse 插件打开解压后的文件夹，把 hadoop-0.19.2

13、/contrib/eclipse-plugin 下的 hadoop-0.19.2- eclipse- plugin.jar 文件拷到 eclipse 的 plugins 目录下，重启 eclipse，在 Window-Open Perspective-other，弹出的窗口中应该有一项 Map/Reduce 项，代表安装成功了。如果没有的话，把eclipse 下的 configuration/org.eclipse.update 文件夹删了，再重启 eclipse。启动 Hudoop 集群启动五个 cygwin。在第一中启动 NameNode，执行：cd hadoop-0.19.2bin/h

14、adoop namenode在第二个中启动 Secondary NameNode，执行：cd hadoop-0.19.2bin/hadoop secondarynamenode第三个中启动 job tracker 执行：cd hadoop-0.19.2bin/hadoop jobtracker第四个中启动 data node ，执行cd hadoop-0.19.2bin/hadoop datanode最后一个启动 task tracker，执行：cd hadoop-0.19.2bin/hadoop tasktracker在 Eclipse 中配置环境启动 eclipse，转到 Map/Re

15、duce Perspective,在上图的 Map/Reduce Locations 里，新建一个Location，填入以下值* Location Name - localhost* Map/Reduce Mastero Host - localhost o Port 9101（视自己的.xml 里的修改而定！9001）* DFS Mastero Check Use M/R Master Hosto Port - 9100（视自己的.xml 里的修改而定！9000）* User name - 默认上传文件到 HDFS 打开一个 cygwin，执行cd hadoop-0.19.1bin/hadoop fs -mkdir Inbin/hadoop fs -put *.txt In这时，在 eclipse 的 Project explorer 的 DFS location 中，应该能反应变化，没有的话，reconnect 一下好了，东西都准备好了，下篇就可以开始创建工程了。启动 Eclipse，右键点击 Project Explorer 窗口，选择 New - Project. 找到 Map/Reduce Project，点 Next ，输入名字。点击下面的 Config Hadoop Install

展开阅读全文