先电大数据平台操作手册-XianDian-BigData-v2.1

举报
资源描述
先电大数据平台 版本:先电 Cloud-BigData-v2.1 发布日期:2017 年 02 月 21 日 南京第五十五所技术开发有限公司 1 版本修订说明 修订版本 修订时间 修订说明 先电大数据平台用户册 增加 GRE、VLAN 网络的部署 方法 2016 年 4 月 12 日 为防止与 Java Web中 MapReduce 开发混淆。删除 hadoop 案例开发 更新基于 Ambari 版本 2.2.2.0 二次开发的 hadoop 平台 更新镜像中与 perl 版本不兼容 问题的解决办法; 升级系统版本为 centos7,升 级 HDP 版本至 2.4。 更新软件包 logo,修改文档 “8.2.2 基于项目的协同过滤” 表格参数 XD-BigData-v2.1 2017 年 04 月 21 日 更新用户手册 2 1 2 3 4 5 6 7 部署 Hbase 分布式列数据库...................................................................................................49 8 9 部署 Mahout 数据挖据工具 ....................................................................................................59 第 5 页 共 79 页 图 1.1 Ambari 结构图 以两台节点为例来组件 Hadoop 分布式集群,这里采用的系统版本为 Centos7,如下表 主机名 master slaver1 内存 硬盘 IP 地址 角色 192.168.200.131 192.168.200.133 Ambari-Server Ambari-Agent 第 6 页 共 79 页 # slaver1 将 XianDian-BigData-v2.0.2-BASE.iso 挂在到/mnt 目录下,将其中的 ambari 解压到/opt 目录下,并在 master 节点配置 ftp 服务。 这里可以采用 IAAS 中的 Centos7 Yum源。 # master & slaver1 # cd /etc/yum.repos.d/ # rm -vf * # vi ambari.repo 第 7 页 共 79 页 [centos7] gpgcheck=0 name=centos [ambari] name=ambari gpgcheck=0 # systemctl status httpd.service 第 8 页 共 79 页 # systemctl enable ntpdate # master & slaver1 2.6 禁用 Transparent Huge Pages 第 9 页 共 79 页 # master & slaver1 # echo never > /sys/kernel/mm/transparent_hugepage/enabled # echo never > /sys/kernel/mm/transparent_hugepage/defrag # cat /sys/kernel/mm/transparent_hugepage/enabled always madvise [never] 重启后失效,需要再次执行 # mount -o loop XianDian-BigData-v2.0.2-BASE.iso /mnt/ # cd /mnt/ #java –version #mkdir /usr/jdk64/ #scp 172.24.14.106://mnt/jdk-8u77-linux-x64.tar.gz . # tar -zxvf jdk-8u77-linux-x64.tar.gz -C /usr/jdk64/ 第 10 页 共 79 页 # vi /etc/profile #java –version Java(TM) SE Runtime Environment (build 1.8.0_77-b03) # master 3.1 安装 MariaDB 数据库 # systemctl enable mariadb #mysql_secure_installation # mysql -uroot -pbigdata 第 11 页 共 79 页 MariaDB [ambari]> source # master Configuring database... 第 12 页 共 79 页 ==================================================================== [1] - PostgreSQL (Embedded) 第 13 页 共 79 页 4 配置 ambari-agent 5 部署管理 Hadoop 集群 登陆界面 http://{IP Address}:8080/,用户名密码为admin:admin。接下来就可以启动安 装向导,创建集群,安装服务。 第 14 页 共 79 页 第 15 页 共 79 页 第 16 页 共 79 页 XianDian-BigData-v2.0.2-BASE.iso 软件包包含 HDFS、MapReduce2、YARN、Tez、Hive、 XianDian-BigData-v2.0.2-EXT.iso软件包包含了 accumulo、atlas、falcon、kafka、knox、 文件,如下: 第 17 页 共 79 页 gpgcheck=0 第 18 页 共 79 页 这里要设置 Grafana Admin的密码。 第 19 页 共 79 页 部署成功后,便可成功进入界面。在主界面中,可以查看集群状态监控信息。 些进程表示主节点进程启动成功。 第 20 页 共 79 页 过提示的命令来对文件系统进行管理。 命令如下: $ hadoop fs - 执行结果如下: 命令选项 描述 --config confdir 第 21 页 共 79 页 命令 管理命令两组。 件系统进行操作,需要给其赋予相应的权限,这里为了方便操作,将所有用户的读写执行权 限全部放开,命令如下: # su hdfs 描述 -conf -D -fs -jt -files <逗号分隔的文件列表> 第 22 页 共 79 页 -libjars <逗号分隔的 jar 列表> 指定要被解压到计算节点上的档案文件的逗号分割的列 创建一个 hadoop 档案文件。参考 Hadoop Archives. 命令选项 描述 父路径,格式与正则表达式一致。 父路径下面需要创建档案的文件名(可多个) 保存档案文件的目标目录。 dest 描述 用法:hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS] 运行一个常规的文件系统客户端。 fsck 运行 HDFS 文件系统检查工具。参考 Fsck 了解更多。 第 23 页 共 79 页 用法:hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files 描述 检查的起始目录。 -delete -openforwrite -files 打印出写打开的文件。 打印出正被检查的文件。 打印出块信息报告。 打印出每个块的位置信息。 打印出 data-node 的网络拓扑结构。 -racks 行。 命令选项 描述 -submit 提交作业 -status 打印 map 和 reduce 完成百分比和所有计数器。 第 24 页 共 79 页 -events <# -of-events> 打印给定范围内 jobtracker 接收到的事件细节。 -history [all] 查看。 -list [all] -list all 显示所有作业。-list 只显示将要完成的作业。 杀死任务。被杀死的任务不会不利于失败尝试。 使任务失败。被失败的任务会对失败尝试不利。 pipes 命令选项 描述 -conf -jobconf , , ... -input 第 25 页 共 79 页 输出目录 Java Reduce 类 -reduces reduce 个数 hadoop 集群管理员常用的命令。 描述 磁盘容量的百分比。这会覆盖缺省的阀值。 第 26 页 共 79 页 daemonlog 获取或设置每个守护进程的日志级别。 命令选项 描述 -getlevel 打印运行在的守护进程的日志级别。这个命令 内部会连接 http:///logLevel?log= -setlevel 设置运行在的守护进程的日志级别。这个命令 内部会连接 http:///logLevel?log= 描述 报告文件系统的基本信息和统计信息。 态下,Namenode 终结 HDFS 的升级操作。Datanode 删除前一个版本的工作目录, 之后 Namenode 也这样做。这个操作完结整个升级过程。 -upgradeProgress status | 请求当前系统的升级状态,状态的细节,或者强制升级操作进行。 details | force 第 27 页 共 79 页 -metasave filename ... 整数,强制限定了目录树下的名字个数。 命令会在这个目录上工作良好,以下情况会报错: 1. N 不是一个正整数,或者 2. 用户不是管理员,或者 3. 这个目录不存在或是文件,或者 4. 目录会马上超出新设定的配额。 为每一个目录清除配额设定。 命令会在这个目录上工作良好,以下情况会报错: 1. 这个目录不存在或是文件,或者 2. 用户不是管理员。 -clrQuota ... secondarynamenode 描述 第 28 页 共 79 页 -geteditsize 打印EditLog 大小。 1. 查看当前系统中启动的进程 命令如下: # jps 执行结果如下: 2. 重启NameNode 和DateNode 进程 命令如下: 更改集群冗余副本的复制因子为5,从而避
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关搜索

当前位置:首页 > 资格认证/考试 > 其它考试类文档


电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号