大数据相关框架讲义

资源描述

《大数据相关框架讲义》由会员分享，可在线阅读，更多相关《大数据相关框架讲义（44页珍藏版）》请在金锄头文库上搜索。

1、大数据相关框架讲义杨尚川1/44第一讲在 win7上安装配置 HADOOP伪分布式集群1、安装虚拟机和操作系统VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载 VMware下载 VirtualBoxubuntu-13.04-server-amd64.iso 下载 ubuntu2、设置 root用户密码sudo passwd root 3、上传文件利用 WinSCP 上传 JDK 和 HADOOP文件，利用putty连接虚拟机中的ubuntu，下载 WinSCP，下载 putty，下载 jdk，下载 jdk4、配置

2、JDK 和 HADOOP tar-xzvf jdk-7u40-linux-x64.tar.gz tar-xzvf hadoop-1.2.1.tar.gz sudo vi /etc/profile 增加：export JAVA_HOME=/home/ysc/jdk1.7.0_40 export PATH=$PATH:$JAVA_HOME/bin:/home/ysc/hadoop-1.2.1/bin source/etc/profile 5、配置 HADOOP 配置主机名称及网络vi/etc/hostname 指定名称为 host001 vi/etc/hosts 替换内容为：192.168.137

3、.128 host001 同时加入 C:WindowsSystem32driversetc hosts 文件查看是否启用 IPV6：cat/proc/sys/net/ipv6/conf/all/disable_ipv6 显示 0 说明 ipv6 开启，1 说明关闭关闭 ipv6 的方法：sudo vi/etc/sysctl.conf 增加下面几行，并重启#disable IPv6 名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页，共 44 页 -大数据相关框架讲义杨尚川2/44net.ipv6.conf.all.disable_ipv6=1 net.ipv6.conf.default.

4、disable_ipv6=1 net.ipv6.conf.lo.disable_ipv6=1 配置 SSH cd/home/ysc sudo apt-get install openssh-server ssh-keygen -t rsa（密码为空，路径默认）cp.ssh/id_rsa.pub.ssh/authorized_keys ssh host001 yes cd hadoop-1.2.1 配置 HADOOP环境变量vi conf/hadoop-env.sh 增加：export JAVA_HOME=/home/ysc/jdk1.7.0_40 配置 HADOOP运行参数vi conf/ma

5、sters 改 localhost 为 host001vi conf/slaves 改 localhost 为 host001 vi conf/core-site.xml fs.default.name hdfs:/host001:9000 hadoop.tmp.dir/home/ysc/tmp vi conf/hdfs-site.xml dfs.name.dir/home/ysc/dfs/filesystem/name dfs.data.dir/home/ysc/dfs/filesystem/data 名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页，共 44 页 -大数据相关框架讲

6、义杨尚川3/44 dfs.replication 1 vi conf/mapred-site.xml mapred.job.tracker host001:9001 mapred.tasktracker.map.tasks.maximum 4 mapred.tasktracker.reduce.tasks.maximum 4 mapred.system.dir/home/ysc/mapreduce/system mapred.local.dir/home/ysc/mapreduce/local 格式化名称节点并启动集群hadoop namenode-format 启动集群并查看 WEB 管理界

7、面start-all.sh 访问 http:/host001:50030可以查看JobTracker 的运行状态访问 http:/host001:50060可以查看TaskTracker 的运行状态访问 http:/host001:50070可以查看NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及log 等hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar-input input-output output-streaming-mapper/bin/cat-reducer/usr

8、/bin/wc hadoop jar hadoop-1.2.1/hadoop-examples-1.2.1.jar wordcount input output 停止集群stop-all.sh 名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页，共 44 页 -大数据相关框架讲义杨尚川4/44第二讲建立开发环境编写HDFS 和 MAP REDUCE程序1、在 eclipse中配置 hadoop插件将 hadoop-eclipse-plugin-1.2.1.jar 复制到 eclipse/plugins目录下，重启eclipse。2、打开 MapReduce视图Window-Open P

9、erspective-Other 选择 Map/Reduce，图标是个蓝色的象。3、添加一个 MapReduce环境在 eclipse下端，控制台旁边会多一个Tab，叫“Map/Reduce Locations”，在下面空白的地方点右键，选择“New Hadoop location.”，在弹出的对话框中填写如下内容：Location name（取个名字）Map/Reduce Master（Job Tracker的IP和端口，根据mapred-site.xml中配置的mapred.job.tracker来填写）DFS Master（Name Node的 IP 和端口，根据 core-

10、site.xml中配置的fs.default.name来填写）4、使用 eclipse对 HDFS 内容进行操作经过上一步骤，左侧“Project Explorer”中应该会出现配置好的HDFS，点击右键，可以进行新建文件夹、删除文件夹、上传文件、下载文件、删除文件等操作。注意：每一次操作完在eclipse中不能马上显示变化，必须得刷新一下。5、创建 MapReduce工程5.1配置 Hadoop路径Window-Preferences 选择“Hadoop Map/Reduce”，点击“Browse.”选择 Hadoop文件夹的路径。这个步骤与运行环境无关，只是在新建工程的时候能将hadoop

11、根目录和lib 目录下的所有jar包自动导入。5.2创建工程File-New-Project 选择“Map/Reduce Project”，然后输入项目名称，创建项目。插件会自动把 hadoop根目录和lib 目录下的所有jar 包导入。5.3创建 Mapper或者 Reducer File-New-Mapper 创建 Mapper，自动继承mapred包里面的MapReduceBase并实现 Mapper接口。注意：这个插件自动继承的是mapred包里旧版的类和接口，新版的 Mapper得自己写。Reducer同理。6、实例：在 eclipse中写一个 WordCount程序并扩展、运行、调

12、试、部署7、实例：在 eclipse中演示如果通过程序操作HDFS 8、用 python编写 MapReducevi mapper.py 输入：#!/usr/bin/env python 名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页，共 44 页 -大数据相关框架讲义杨尚川5/44import sys for line in sys.stdin:line=line.strip()words=line.split()for word in words:print%st%s%(word,1)chmod+x mapper.py vi reducer.py 输入：#!/usr/bin/en

13、v python from operator import itemgetter import sys current_word=None current_count=0 word=None for line in sys.stdin:line=line.strip()word,count=line.split(t,1)try:count=int(count)except ValueError:continue if current_word=word:current_count+=count else:if current_word:print%st%s%(current_word,curr

14、ent_count)current_count=count current_word=word if current_word:print%st%s%(current_word,current_count)chmod+x reducer.py 本地操作系统测试：echo foo foo quux labs foo bar quux|./mapper.py|sort|./reducer.py 提交 HADOOP集群运行：hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar-input input-output o

15、utput-streaming-python-mapper/home/ysc/mapper.py-reducer/home/ysc/reducer.py 名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页，共 44 页 -大数据相关框架讲义杨尚川6/44第三讲 Hive 基于 HADOOP的数据仓库wget http:/ hive-0.11.0-bin.tar.gz cd hive-0.11.0-bin sudo vi/etc/profile 增加：export HIVE_HOME=/home/ysc/hive-0.10.0-bin export PATH=$PATH:$HIVE_HOM

16、E/bin source/etc/profile hadoop fs-mkdir/tmp hadoop fs-mkdir/user/hive/warehouse hadoop fs-chmod g+w/tmp hadoop fs-chmod g+w/user/hive/warehouse cp conf/hive-log4j.properties.template conf/hive-log4j.properties 如使用 local 模式：SET mapred.job.tracker=local;使用 HADOOP集群（默认）：SET mapred.job.tracker=host001:9001;本地使用 hive服务：hive(如出现错误：Missing Hive Builtins Jar:/home/ysc/hive-0.11.0-bin/lib/hive-builtins-*.jar，则需要重启 sudo reboot)命令行执行 HiveQL命令：创建表、准备文本数据、导入、查询创建 hive 表：名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页，共 44 页 -

展开阅读全文