精编制作Hadoop大数据平台部署与应用PPT课件

资源描述

《精编制作Hadoop大数据平台部署与应用PPT课件》由会员分享，可在线阅读，更多相关《精编制作Hadoop大数据平台部署与应用PPT课件（61页珍藏版）》请在金锄头文库上搜索。

1、Hadoop大数据平台部署与应用主讲吕震宇主要内容 l1 Hadoop 生态系统概述以及版本演化 l2 Hadoop 发行版介绍开源版 l3 Hadoop 安装 l4 HDFS 上机操作 l5 HBASE 上机操作 l6 YARN 上机操作 l7 MapReduce 上机操作 l8 SPARK 概述 1 Hadoop 生态系统概述以及版本演化 Hadoop 1 0 与 Hadoop 2 0 分布式存储系统 HDFS Hadoop Distributed File System 提供了高可靠性高扩展性和高吞吐率的数据存储服务分布式计算框架 MapReduce 具有易于编程高容错性和

2、高扩展性等优点资源管理系统 YARN Yet Another Resource Negotiator 负责集群资源的统一管理和调度 HADOOP 1 0HADOOP 2 0 HDFS redundant reliable storage MapReduce cluster resource management private Text word new Text public void map Object key Text value Context context throws IOException InterruptedException StringTokenizer itr n

3、ew StringTokenizer value toString while itr hasMoreTokens word set itr nextToken context write word one public static class IntSumReducer extends Reducer private IntWritable result new IntWritable public void reduce Text key Iterable values Context context throws IOException InterruptedException int

4、 sum 0 for IntWritable val values sum val get result set sum context write key result WordCount MapReduce 实现 public static void main String args throws Exception Configuration conf new Configuration String otherArgs new GenericOptionsParser conf args getRemainingArgs if otherArgs length 2 System err

5、 println Usage wordcount System exit 2 Job job new Job conf word count job setJarByClass WordCount class job setMapperClass TokenizerMapper class job setCombinerClass IntSumReducer class job setReducerClass IntSumReducer class job setOutputKeyClass Text class job setOutputValueClass IntWritable clas

6、s FileInputFormat addInputPath job new Path otherArgs 0 FileOutputFormat setOutputPath job new Path otherArgs 1 System exit job waitForCompletion true 0 1 WordCount Hive 实现 SELECT word COUNT FROM doc LATERAL VIEW explode split text lTable as word GROUP BY word WordCount Pig 实现加载数据 input load input

7、data as line chararray 将字符串分割成单词 words foreach input generate flatten TOKENIZE line as word 对单词进行分组 grpd group words by word 统计每组中单词数量 cntd foreach grpd generate group COUNT words 打印结果 dump cntd Mahout 数据挖掘库 lMahout l基于Hadoop的机器学习和数据挖掘的分布式计算框架 l实现了三大类算法 l推荐 Recommendation l聚类 Clustering l分类 Classifi

8、cation Hbase 分布式数据库 l源自 Google 的 Bigtable 论文 l发表于 2006 年 11 月 lHbase 是 Google Bigtable 克隆版 Hadoop 生态系统 2 0 时代 Flume 日志收集 Zookeeper 分布式协调服务 Tez DAG计算 Shark Oozie 作业流调度系统 MapReduce 分布式计算框架 Ambari 安装部署工具 HDFS 分布式存储系统 Hbase 分布式数据库 Sqoop 数据库TEL工具 HivePig YARN 分布式计算框架 Spark 内存计算 Hive2Pig2 2 Hadoop 发行版介绍开

9、源版 Hadoop 发行版介绍开源版 lApache Hadoop l推荐使用最新的2 x x版本比如2 4 0 l下载地址 http hadoop apache org releases html lSVN http svn apache org repos asf hadoop common branches lCDH Cloudera Distributed Hadoop l推荐使用最新的 CDH5 版本比如 CDH 5 0 0 l下载地址 lHDP Hortonworks Data Platform l推荐使用最新的 HDP 2 x 版本比如 HDP 2 1 版本 l下载地址

10、Hadoop 版本演化 HDP Hadoop 版本演化 CDH 3 Hadoop 安装 Hadoop 安装软件准备 l下载 Intellij IDEA 在windows中安装即可 l l选择 Community Edition l下载 Hadoop 安装包 lhadoop l lhbase l lspark l l下载 JDK 安装包 Hadoop 安装安装操作系统 l安装 Vmware Workstation 10 0 0 4 l在虚拟机中安装 Ubuntu 12 04 操作系统 l目前虚拟机已经准备好可以直接使用 l映射虚拟目录 l为虚拟机添加共享文件夹 l在虚拟机中 mount 文

11、件夹 sudo mount t vmhgfs host mnt hgfs Hadoop 安装 JDK l安装 JDK l将 jdk 6u45 linux i586 bin 拷贝到 usr lib jvm 文件夹运行命令 chmod x usr lib jvm jdk 6u45 linux i586 bin sudo usr lib jvm jdk 6u45 linux i586 bin l修改 etc profile 文件 sudo gedit etc profile l向 etc profile 追加如下代码并保存 export JAVA HOME usr lib jvm jdk1 6 0

12、 45 export PATH JAVA HOME bin PATH export CLASSPATH JAVA HOME lib dt jar JAVA HOME lib tools jar l更新 etc profile 文件最好重新登录 source etc profile l验证 JDK 安装正确 java version Hadoop 安装安装 Hadoop l安装 Hadoop l1 将 hadoop 2 5 0 cdh5 2 0 tar gz 拷贝到工作目录下 l2 解压 hadoop压缩包 tar zxvf hadoop 2 5 0 cdh5 2 0 tar gz l3 拷

13、贝 experiment single cluster 下的 core site xml 和 hdfs site xml 文件到 hadoop 2 5 0 cdh5 2 0 etc hadoop 目录 l4 拷贝 experiment single cluster 下的 mapred site xml 和 yarn site xml 文件到 hadoop 2 5 0 cdh5 2 0 etc hadoop 目录 l5 修改 etc hadoop 下的几个配置文件 l 1 hadoop env sh 可以在命令窗口中使用下面显示java安装目录 echo JAVA HOME 将 export J

14、AVA HOME JAVA HOME 修改为 export JAVA HOME usr lib jvm jdk1 6 0 45 l 2 hdfs site xml l将 dfs namenode name dir 和 dfs datanode data dir 改成自己对应的路径 l6 启动 HDFS 和 YARN l 1 启动 HDFS 格式化 HDFS 第一次使用前做一次就可以了 bin hadoop namenode format 启动 namenode sbin hadoop daemon sh start namenode 启动 datanode sbin hadoop daemo

15、n sh start datanode l 2 启动 YARN 启动 resourcemanager sbin yarn daemon sh start resourcemanager 启动 nodemanager sbin yarn daemon sh start nodemanager l 3 备注停止 resourcemanager sbin yarn daemon sh stop resourcemanager 停止 nodemanager sbin yarn daemon sh stop nodemanager l7 验证安装成功 l打开浏览器比如 firefox 输入 l 1

16、开启 HDFS 界面 http localhost 50070 l 2 YARN 界面 http localhost 8088 l8 使用 HDFS l 1 创建目录 bin hdfs dfs mkdir tmp bin hdfs dfs mkdir tmp input l 2 将本地文件上传到 HDFS 上 bin hdfs dfs put src BUILDING txt tmp input l 3 查看上传到 HDFS 中的文件 bin hdfs dfs ls tmp input l9 运行 MapReduce 程序 bin hadoop jar share hadoop mapreduce2 hadoop mapreduce examples 2 5 0 cdh5 2 0 jar pi 2 1000 4 HDFS 上机操作 HDFS shell 使用 l文件操作命令为 bin hdfs dfs l1 创建目录 bin hdfs dfs mkdir tmp input l2 删除目录 bin hdfs dfs rmr tmp input l3 将本地文件上传到 HDFS bin

展开阅读全文