先电大数据平台操作手册-XianDian-BigData-v2.1

资源描述

先电大数据平台版本：先电 Cloud-BigData-v2.1 发布日期：2017 年 02 月 21 日南京第五十五所技术开发有限公司 1 版本修订说明修订版本修订时间修订说明先电大数据平台用户册增加 GRE、VLAN 网络的部署方法 2016 年 4 月 12 日为防止与 Java Web中 MapReduce 开发混淆。删除 hadoop 案例开发更新基于 Ambari 版本 2.2.2.0 二次开发的 hadoop 平台更新镜像中与 perl 版本不兼容问题的解决办法；升级系统版本为 centos7，升级 HDP 版本至 2.4。更新软件包 logo，修改文档 “8.2.2 基于项目的协同过滤” 表格参数 XD-BigData-v2.1 2017 年 04 月 21 日更新用户手册 2 1 2 3 4 5 6 7 部署 Hbase 分布式列数据库...................................................................................................49 8 9 部署 Mahout 数据挖据工具 ....................................................................................................59 第 5 页共 79 页图 1.1 Ambari 结构图以两台节点为例来组件 Hadoop 分布式集群，这里采用的系统版本为 Centos7，如下表主机名 master slaver1 内存硬盘 IP 地址角色 192.168.200.131 192.168.200.133 Ambari-Server Ambari-Agent 第 6 页共 79 页 # slaver1 将 XianDian-BigData-v2.0.2-BASE.iso 挂在到/mnt 目录下，将其中的 ambari 解压到/opt 目录下，并在 master 节点配置 ftp 服务。这里可以采用 IAAS 中的 Centos7 Yum源。 # master & slaver1 # cd /etc/yum.repos.d/ # rm -vf * # vi ambari.repo 第 7 页共 79 页 [centos7] gpgcheck=0 name=centos [ambari] name=ambari gpgcheck=0 # systemctl status httpd.service 第 8 页共 79 页 # systemctl enable ntpdate # master & slaver1 2.6 禁用 Transparent Huge Pages 第 9 页共 79 页 # master & slaver1 # echo never > /sys/kernel/mm/transparent_hugepage/enabled # echo never > /sys/kernel/mm/transparent_hugepage/defrag # cat /sys/kernel/mm/transparent_hugepage/enabled always madvise [never] 重启后失效，需要再次执行 # mount -o loop XianDian-BigData-v2.0.2-BASE.iso /mnt/ # cd /mnt/ #java –version #mkdir /usr/jdk64/ #scp 172.24.14.106://mnt/jdk-8u77-linux-x64.tar.gz . # tar -zxvf jdk-8u77-linux-x64.tar.gz -C /usr/jdk64/ 第 10 页共 79 页 # vi /etc/profile #java –version Java(TM) SE Runtime Environment (build 1.8.0_77-b03) # master 3.1 安装 MariaDB 数据库 # systemctl enable mariadb #mysql_secure_installation # mysql -uroot -pbigdata 第 11 页共 79 页 MariaDB [ambari]> source # master Configuring database... 第 12 页共 79 页 ==================================================================== [1] - PostgreSQL (Embedded) 第 13 页共 79 页 4 配置 ambari-agent 5 部署管理 Hadoop 集群登陆界面 http://{IP Address}:8080/，用户名密码为admin：admin。接下来就可以启动安装向导，创建集群，安装服务。第 14 页共 79 页第 15 页共 79 页第 16 页共 79 页 XianDian-BigData-v2.0.2-BASE.iso 软件包包含 HDFS、MapReduce2、YARN、Tez、Hive、 XianDian-BigData-v2.0.2-EXT.iso软件包包含了 accumulo、atlas、falcon、kafka、knox、文件，如下：第 17 页共 79 页 gpgcheck=0 第 18 页共 79 页这里要设置 Grafana Admin的密码。第 19 页共 79 页部署成功后，便可成功进入界面。在主界面中，可以查看集群状态监控信息。些进程表示主节点进程启动成功。第 20 页共 79 页过提示的命令来对文件系统进行管理。命令如下： $ hadoop fs - 执行结果如下：命令选项描述 --config confdir 第 21 页共 79 页命令管理命令两组。件系统进行操作，需要给其赋予相应的权限，这里为了方便操作，将所有用户的读写执行权限全部放开，命令如下： # su hdfs 描述 -conf -D -fs -jt -files <逗号分隔的文件列表> 第 22 页共 79 页 -libjars <逗号分隔的 jar 列表> 指定要被解压到计算节点上的档案文件的逗号分割的列创建一个 hadoop 档案文件。参考 Hadoop Archives. 命令选项描述父路径，格式与正则表达式一致。父路径下面需要创建档案的文件名（可多个）保存档案文件的目标目录。 dest 描述用法：hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS] 运行一个常规的文件系统客户端。 fsck 运行 HDFS 文件系统检查工具。参考 Fsck 了解更多。第 23 页共 79 页用法：hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files 描述检查的起始目录。 -delete -openforwrite -files 打印出写打开的文件。打印出正被检查的文件。打印出块信息报告。打印出每个块的位置信息。打印出 data-node 的网络拓扑结构。 -racks 行。命令选项描述 -submit 提交作业 -status 打印 map 和 reduce 完成百分比和所有计数器。第 24 页共 79 页 -events

<# -of-events> 打印给定范围内 jobtracker 接收到的事件细节。 -history [all] 查看。 -list [all] -list all 显示所有作业。-list 只显示将要完成的作业。杀死任务。被杀死的任务不会不利于失败尝试。使任务失败。被失败的任务会对失败尝试不利。 pipes 命令选项描述 -conf -jobconf , , ... -input 第 25 页共 79 页输出目录 Java Reduce 类 -reduces reduce 个数 hadoop 集群管理员常用的命令。描述磁盘容量的百分比。这会覆盖缺省的阀值。第 26 页共 79 页 daemonlog 获取或设置每个守护进程的日志级别。命令选项描述 -getlevel 打印运行在的守护进程的日志级别。这个命令内部会连接 http:///logLevel?log= -setlevel 设置运行在的守护进程的日志级别。这个命令内部会连接 http:///logLevel?log= 描述报告文件系统的基本信息和统计信息。态下，Namenode 终结 HDFS 的升级操作。Datanode 删除前一个版本的工作目录，之后 Namenode 也这样做。这个操作完结整个升级过程。 -upgradeProgress status | 请求当前系统的升级状态，状态的细节，或者强制升级操作进行。 details | force 第 27 页共 79 页 -metasave filename ... 整数，强制限定了目录树下的名字个数。命令会在这个目录上工作良好，以下情况会报错： 1. N 不是一个正整数，或者 2. 用户不是管理员，或者 3. 这个目录不存在或是文件，或者 4. 目录会马上超出新设定的配额。为每一个目录清除配额设定。命令会在这个目录上工作良好，以下情况会报错： 1. 这个目录不存在或是文件，或者 2. 用户不是管理员。 -clrQuota ... secondarynamenode 描述第 28 页共 79 页 -geteditsize 打印EditLog 大小。 1. 查看当前系统中启动的进程命令如下： # jps 执行结果如下： 2. 重启NameNode 和DateNode 进程命令如下：更改集群冗余副本的复制因子为5，从而避

展开阅读全文

温馨提示：

金锄头文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。