先电大数据平台
版本:先电 Cloud-BigData-v2.1
发布日期:2017 年 02 月 21 日
南京第五十五所技术开发有限公司
1
版本修订说明
修订版本
修订时间
修订说明
先电大数据平台用户册
增加 GRE、VLAN 网络的部署
方法
2016 年 4 月 12 日
为防止与 Java Web中
MapReduce 开发混淆。删除
hadoop 案例开发
更新基于 Ambari 版本 2.2.2.0
二次开发的 hadoop 平台
更新镜像中与 perl 版本不兼容
问题的解决办法;
升级系统版本为 centos7,升 级
HDP 版本至 2.4。
更新软件包 logo,修改文档
“8.2.2 基于项目的协同过滤”
表格参数
XD-BigData-v2.1
2017 年 04 月 21 日
更新用户手册
2
1
2
3
4
5
6
7
部署 Hbase 分布式列数据库...................................................................................................49
8
9
部署 Mahout 数据挖据工具 ....................................................................................................59
第 5 页 共 79 页
图 1.1 Ambari 结构图
以两台节点为例来组件 Hadoop 分布式集群,这里采用的系统版本为 Centos7,如下表
主机名
master
slaver1
内存
硬盘
IP 地址
角色
192.168.200.131
192.168.200.133
Ambari-Server
Ambari-Agent
第 6 页 共 79 页
# slaver1
将 XianDian-BigData-v2.0.2-BASE.iso 挂在到/mnt 目录下,将其中的 ambari 解压到/opt
目录下,并在 master 节点配置 ftp 服务。
这里可以采用 IAAS 中的 Centos7 Yum源。
# master & slaver1
# cd /etc/yum.repos.d/
# rm -vf *
# vi ambari.repo
第 7 页 共 79 页
[centos7]
gpgcheck=0
name=centos
[ambari]
name=ambari
gpgcheck=0
# systemctl status httpd.service
第 8 页 共 79 页
# systemctl enable ntpdate
# master & slaver1
2.6 禁用 Transparent Huge Pages
第 9 页 共 79 页
# master & slaver1
# echo never > /sys/kernel/mm/transparent_hugepage/enabled
# echo never > /sys/kernel/mm/transparent_hugepage/defrag
# cat /sys/kernel/mm/transparent_hugepage/enabled
always madvise [never]
重启后失效,需要再次执行
# mount -o loop XianDian-BigData-v2.0.2-BASE.iso /mnt/
# cd /mnt/
#java –version
#mkdir /usr/jdk64/
#scp 172.24.14.106://mnt/jdk-8u77-linux-x64.tar.gz .
# tar -zxvf jdk-8u77-linux-x64.tar.gz -C /usr/jdk64/
第 10 页 共 79 页
# vi /etc/profile
#java –version
Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
# master
3.1 安装 MariaDB 数据库
# systemctl enable mariadb
#mysql_secure_installation
# mysql -uroot -pbigdata
第 11 页 共 79 页
MariaDB [ambari]> source
# master
Configuring database...
第 12 页 共 79 页
====================================================================
[1] - PostgreSQL (Embedded)
第 13 页 共 79 页
4 配置 ambari-agent
5 部署管理 Hadoop 集群
登陆界面 http://{IP Address}:8080/,用户名密码为admin:admin。接下来就可以启动安
装向导,创建集群,安装服务。
第 14 页 共 79 页
第 15 页 共 79 页
第 16 页 共 79 页
XianDian-BigData-v2.0.2-BASE.iso 软件包包含 HDFS、MapReduce2、YARN、Tez、Hive、
XianDian-BigData-v2.0.2-EXT.iso软件包包含了 accumulo、atlas、falcon、kafka、knox、
文件,如下:
第 17 页 共 79 页
gpgcheck=0
第 18 页 共 79 页
这里要设置 Grafana Admin的密码。
第 19 页 共 79 页
部署成功后,便可成功进入界面。在主界面中,可以查看集群状态监控信息。
些进程表示主节点进程启动成功。
第 20 页 共 79 页
过提示的命令来对文件系统进行管理。
命令如下:
$ hadoop fs -
执行结果如下:
命令选项
描述
--config confdir
第 21 页 共 79 页
命令 管理命令两组。
件系统进行操作,需要给其赋予相应的权限,这里为了方便操作,将所有用户的读写执行权
限全部放开,命令如下:
# su hdfs
描述
-conf
-D
-fs
-jt
-files <逗号分隔的文件列表>
第 22 页 共 79 页
-libjars <逗号分隔的 jar 列表>
指定要被解压到计算节点上的档案文件的逗号分割的列
创建一个 hadoop 档案文件。参考 Hadoop Archives.
命令选项
描述
父路径,格式与正则表达式一致。
父路径下面需要创建档案的文件名(可多个)
保存档案文件的目标目录。
dest
描述
用法:hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]
运行一个常规的文件系统客户端。
fsck
运行 HDFS 文件系统检查工具。参考 Fsck 了解更多。
第 23 页 共 79 页
用法:hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files
描述
检查的起始目录。
-delete
-openforwrite
-files
打印出写打开的文件。
打印出正被检查的文件。
打印出块信息报告。
打印出每个块的位置信息。
打印出 data-node 的网络拓扑结构。
-racks
行。
命令选项
描述
-submit
提交作业
-status
打印 map 和 reduce 完成百分比和所有计数器。
第 24 页 共 79 页
-events <#
-of-events>
打印给定范围内 jobtracker 接收到的事件细节。
-history [all]
查看。
-list [all]
-list all 显示所有作业。-list 只显示将要完成的作业。
杀死任务。被杀死的任务不会不利于失败尝试。
使任务失败。被失败的任务会对失败尝试不利。
pipes
命令选项
描述
-conf
-jobconf , , ...
-input
第 25 页 共 79 页
输出目录
Java Reduce 类
-reduces
reduce 个数
hadoop 集群管理员常用的命令。
描述
磁盘容量的百分比。这会覆盖缺省的阀值。
第 26 页 共 79 页
daemonlog
获取或设置每个守护进程的日志级别。
命令选项
描述
-getlevel
打印运行在的守护进程的日志级别。这个命令
内部会连接 http:///logLevel?log=
-setlevel
设置运行在的守护进程的日志级别。这个命令
内部会连接 http:///logLevel?log=
描述
报告文件系统的基本信息和统计信息。
态下,Namenode
终结 HDFS 的升级操作。Datanode 删除前一个版本的工作目录,
之后 Namenode 也这样做。这个操作完结整个升级过程。
-upgradeProgress status | 请求当前系统的升级状态,状态的细节,或者强制升级操作进行。
details | force
第 27 页 共 79 页
-metasave filename
...
整数,强制限定了目录树下的名字个数。
命令会在这个目录上工作良好,以下情况会报错:
1. N 不是一个正整数,或者
2. 用户不是管理员,或者
3. 这个目录不存在或是文件,或者
4. 目录会马上超出新设定的配额。
为每一个目录清除配额设定。
命令会在这个目录上工作良好,以下情况会报错:
1. 这个目录不存在或是文件,或者
2. 用户不是管理员。
-clrQuota
...
secondarynamenode
描述
第 28 页 共 79 页
-geteditsize
打印EditLog 大小。
1. 查看当前系统中启动的进程
命令如下:
# jps
执行结果如下:
2. 重启NameNode 和DateNode 进程
命令如下:
更改集群冗余副本的复制因子为5,从而避