大数据相关框架讲义

上传人:橙** 文档编号:333371510 上传时间:2022-09-01 格式:PDF 页数:44 大小:358.75KB
返回 下载 相关 举报
大数据相关框架讲义_第1页
第1页 / 共44页
大数据相关框架讲义_第2页
第2页 / 共44页
大数据相关框架讲义_第3页
第3页 / 共44页
大数据相关框架讲义_第4页
第4页 / 共44页
大数据相关框架讲义_第5页
第5页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据相关框架讲义》由会员分享,可在线阅读,更多相关《大数据相关框架讲义(44页珍藏版)》请在金锄头文库上搜索。

1、大数据相关框架讲义杨尚川1/44第一讲 在 win7上安装配置 HADOOP伪分布式集群1、安装虚拟机和操作系统VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载 VMware下载 VirtualBoxubuntu-13.04-server-amd64.iso 下载 ubuntu2、设置 root用户密码sudo passwd root 3、上传文件利用 WinSCP 上传 JDK 和 HADOOP文件,利用putty连接虚拟机中的ubuntu,下载 WinSCP,下载 putty,下载 jdk,下载 jdk4、配置

2、JDK 和 HADOOP tar-xzvf jdk-7u40-linux-x64.tar.gz tar-xzvf hadoop-1.2.1.tar.gz sudo vi /etc/profile 增加:export JAVA_HOME=/home/ysc/jdk1.7.0_40 export PATH=$PATH:$JAVA_HOME/bin:/home/ysc/hadoop-1.2.1/bin source/etc/profile 5、配置 HADOOP 配置主机名称及网络vi/etc/hostname 指定名称为 host001 vi/etc/hosts 替换内容为:192.168.137

3、.128 host001 同时加入 C:WindowsSystem32driversetc hosts 文件查看是否启用 IPV6:cat/proc/sys/net/ipv6/conf/all/disable_ipv6 显示 0 说明 ipv6 开启,1 说明关闭关闭 ipv6 的方法:sudo vi/etc/sysctl.conf 增加下面几行,并重启#disable IPv6 名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 44 页 -大数据相关框架讲义杨尚川2/44net.ipv6.conf.all.disable_ipv6=1 net.ipv6.conf.default.

4、disable_ipv6=1 net.ipv6.conf.lo.disable_ipv6=1 配置 SSH cd/home/ysc sudo apt-get install openssh-server ssh-keygen -t rsa(密码为空,路径默认)cp.ssh/id_rsa.pub.ssh/authorized_keys ssh host001 yes cd hadoop-1.2.1 配置 HADOOP环境变量vi conf/hadoop-env.sh 增加:export JAVA_HOME=/home/ysc/jdk1.7.0_40 配置 HADOOP运行参数vi conf/ma

5、sters 改 localhost 为 host001vi conf/slaves 改 localhost 为 host001 vi conf/core-site.xml fs.default.name hdfs:/host001:9000 hadoop.tmp.dir/home/ysc/tmp vi conf/hdfs-site.xml dfs.name.dir/home/ysc/dfs/filesystem/name dfs.data.dir/home/ysc/dfs/filesystem/data 名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 44 页 -大数据相关框架讲

6、义杨尚川3/44 dfs.replication 1 vi conf/mapred-site.xml mapred.job.tracker host001:9001 mapred.tasktracker.map.tasks.maximum 4 mapred.tasktracker.reduce.tasks.maximum 4 mapred.system.dir/home/ysc/mapreduce/system mapred.local.dir/home/ysc/mapreduce/local 格式化名称节点并启动集群hadoop namenode-format 启动集群并查看 WEB 管理界

7、面start-all.sh 访问 http:/host001:50030可以查看JobTracker 的运行状态访问 http:/host001:50060可以查看TaskTracker 的运行状态访问 http:/host001:50070可以查看NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及log 等hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar-input input-output output-streaming-mapper/bin/cat-reducer/usr

8、/bin/wc hadoop jar hadoop-1.2.1/hadoop-examples-1.2.1.jar wordcount input output 停止集群stop-all.sh 名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 44 页 -大数据相关框架讲义杨尚川4/44第二讲 建立开发环境编写HDFS 和 MAP REDUCE程序1、在 eclipse中配置 hadoop插件将 hadoop-eclipse-plugin-1.2.1.jar 复制到 eclipse/plugins目录下,重启eclipse。2、打开 MapReduce视图Window-Open P

9、erspective-Other 选择 Map/Reduce,图标是个蓝色的象。3、添加一个 MapReduce环境在 eclipse下端,控制台旁边会多一个Tab,叫“Map/Reduce Locations”,在下面空白的地方点右键,选择“New Hadoop location.”,在弹出的对话框中填写如下内容:Location name(取个名字)Map/Reduce Master(Job Tracker的IP和 端 口,根 据mapred-site.xml中 配 置 的mapred.job.tracker来填写)DFS Master(Name Node的 IP 和端口,根据 core-

10、site.xml中配置的fs.default.name来填写)4、使用 eclipse对 HDFS 内容进行操作经过上一步骤,左侧“Project Explorer”中应该会出现配置好的HDFS,点击右键,可以进行新建文件夹、删除文件夹、上传文件、下载文件、删除文件等操作。注意:每一次操作完在eclipse中不能马上显示变化,必须得刷新一下。5、创建 MapReduce工程5.1配置 Hadoop路径Window-Preferences 选择“Hadoop Map/Reduce”,点击“Browse.”选择 Hadoop文件夹的路径。这个步骤与运行环境无关,只是在新建工程的时候能将hadoop

11、根目录和lib 目录下的所有jar包自动导入。5.2创建工程File-New-Project 选择“Map/Reduce Project”,然后输入项目名称,创建项目。插件会自动把 hadoop根目录和lib 目录下的所有jar 包导入。5.3创建 Mapper或者 Reducer File-New-Mapper 创建 Mapper,自动继承mapred包里面的MapReduceBase并实现 Mapper接口。注意:这个插件自动继承的是mapred包里旧版的类和接口,新版的 Mapper得自己写。Reducer同理。6、实例:在 eclipse中写一个 WordCount程序并扩展、运行、调

12、试、部署7、实例:在 eclipse中演示如果通过程序操作HDFS 8、用 python编写 MapReducevi mapper.py 输入:#!/usr/bin/env python 名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 44 页 -大数据相关框架讲义杨尚川5/44import sys for line in sys.stdin:line=line.strip()words=line.split()for word in words:print%st%s%(word,1)chmod+x mapper.py vi reducer.py 输入:#!/usr/bin/en

13、v python from operator import itemgetter import sys current_word=None current_count=0 word=None for line in sys.stdin:line=line.strip()word,count=line.split(t,1)try:count=int(count)except ValueError:continue if current_word=word:current_count+=count else:if current_word:print%st%s%(current_word,curr

14、ent_count)current_count=count current_word=word if current_word:print%st%s%(current_word,current_count)chmod+x reducer.py 本地操作系统测试:echo foo foo quux labs foo bar quux|./mapper.py|sort|./reducer.py 提交 HADOOP集群运行:hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar-input input-output o

15、utput-streaming-python-mapper/home/ysc/mapper.py-reducer/home/ysc/reducer.py 名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 44 页 -大数据相关框架讲义杨尚川6/44第三讲 Hive 基于 HADOOP的数据仓库wget http:/ hive-0.11.0-bin.tar.gz cd hive-0.11.0-bin sudo vi/etc/profile 增加:export HIVE_HOME=/home/ysc/hive-0.10.0-bin export PATH=$PATH:$HIVE_HOM

16、E/bin source/etc/profile hadoop fs-mkdir/tmp hadoop fs-mkdir/user/hive/warehouse hadoop fs-chmod g+w/tmp hadoop fs-chmod g+w/user/hive/warehouse cp conf/hive-log4j.properties.template conf/hive-log4j.properties 如使用 local 模式:SET mapred.job.tracker=local;使用 HADOOP集群(默认):SET mapred.job.tracker=host001:9001;本地使用 hive服务:hive(如出现错误:Missing Hive Builtins Jar:/home/ysc/hive-0.11.0-bin/lib/hive-builtins-*.jar,则需要重启 sudo reboot)命令行执行 HiveQL命令:创建表、准备文本数据、导入、查询创建 hive 表:名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 44 页 -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 初中教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号