大数据运维管理平台说明书

上传人:飞****9 文档编号:143134559 上传时间:2020-08-26 格式:PDF 页数:31 大小:3.17MB
返回 下载 相关 举报
大数据运维管理平台说明书_第1页
第1页 / 共31页
大数据运维管理平台说明书_第2页
第2页 / 共31页
大数据运维管理平台说明书_第3页
第3页 / 共31页
大数据运维管理平台说明书_第4页
第4页 / 共31页
大数据运维管理平台说明书_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《大数据运维管理平台说明书》由会员分享,可在线阅读,更多相关《大数据运维管理平台说明书(31页珍藏版)》请在金锄头文库上搜索。

1、碧茂大数据运维管理平台说明书 版本控制 作者 日期 版本 备注 任大勇 2020 年 3 月 5 日 V1.0 初始创建 任大勇 2020 年 3 月 18 日 V1.1 修订 任大勇 2020 年 4 月 21 日 V1.4 修订 目 录 简介 . 3 功能详细介绍 . 3 配置管理. 6 集群监控. 11 告警系统. 17 巡检 . 20 知识库 . 24 简介 碧茂运维管理平台是针对大数据分布式集群系统设计的自动化运维管理平台, 核心功能包括 集群资产管理,监控系统,告警系统,系统巡检和运维知识库系统等。详细如下: 一、 资产管理 提供可视化界面实现对主机和集群资源的统一配置和管理, 对

2、各项监控管理任务进行调度配 置、监控和管理。方便运维人员能随时掌握系统全貌,集群服务角色分布情况,硬件资源分 配情况,能根据管理需求进行定制化定时任务调度。 二、 监控系统 1、 主机的健康性能的监控 2、 集群服务的端口、健康性能指标的监控 3、 集群参数的监控,并自动给出调优建议 4、 集群日志的监控预警,自动化收集汇总集群进程和应用日志,并对错误日志进行预警 三、 告警系统 1、 选择任意监控的指标和阈值,进行邮件告警 四、 系统巡检(特色功能) 对系统和集群进行健康和性能检查,自动化生成巡检报告。分为基础巡检和深度巡检。 基础巡检指的是根据需求可以灵活选择需要巡检的服务、 指标、 参数

3、, 自动化生成巡检报告。 深度巡检指的是对不同服务的结构对象进行深入分析诊断。 五、 知识库系统(特色功能) 一套高质量的集群管理运维相关的知识管理系统,包括运维工具箱、最佳实践和解决方案。 知识库系统中的方案可以一键执行来实现复杂运维流程的自动化处理,包括: 日常集群操作需求,包括服务启停、参数修改、备份恢复、集群扩容迁移、安全配置和 升级 自动化故障处理 功能详细介绍 登录界面登录界面 用户首先需要获取 license,激活产品后才能正常使用,提示如下: 点击激活,会自动生成机器码,请联系厂商获取激活码 激活后,会提示到期日,产品可以正常进行登录了 首页首页 首页是向导页,以路线图的方式引

4、导你进行集群配置和集群监控 配置管理 全局配置全局配置 用于配置全局参数和服务,包括数据保留配置、告警服务、告警配置和数据库配置等 修改全局参数 数据库配置数据库配置 用于配置关系型数据库,支持 Mysql 和 PostgreSQL 等,通常是 CM、Hive、Hue、Oozie 等 元数据库,方便管理和查询。 支持添加和删除数据库配置 主机主机配置配置 用于添加、修改和删除管理的主机信息 查看主机配置 添加配置 服务服务配置配置 用于添加修改或删除需要监控的集群类型、集群,包括服务、角色、主机、端口等 目前支持的集群包括:CDH、HDP、ApacheHadoop、华为 FusionInsig

5、ht 和星环 目前支持的服务包括:HDFS、YARN、HBase、Hive、Zookeeper、Impala 等 查看监控服务配置 可以通过选择“集群名”或“服务名”来过滤查询 查看主机角色分布 添加监控配置 集群类型 服务 调度配置调度配置 用于配置和监控集群监控所需的定时调度服务,包括指标采集服务、监控服务、分析服务和 其他需要定时调度的服务 查看调度配置 添加调度配置 查看调度日志 集群监控 此模块用于监控在“配置管理”模块中所添加的主机和服务 主机监控主机监控 监控主机的健康状态和各项关键指标,包括 CPU、内存、网络、IO、进程等 主机监控概览 所有集群主机的关键指标的展现,便于快速

6、及时发现主机健康问题和资源问 单台主机监控页面 用于展现单台主机所有监控指标,便于深入了解主机的配置情况和分析重要监控指标 以下是部分截图: 服务监控服务监控 监控集群服务的健康状态和性能指标。目前覆盖了 HDFS、YARN、HBASE、HIVE 等核心服 务组件。 服务监控主页 概览整个集群的所有服务状态、集群基本信息和各个组件的关键指标信息。 另外,也提供了对集群的基本操作,包括服务启停等 点击“操作”,可以对整个集群或服务进行启停操作 服务监控详情页 用于展现单个服务所有监控指标,便于深入了解服务的配置情况和分析重要监控指标。 此外,也可以对特定主机的角色进行操作。 以 HDFS 为例,

7、以下是部分截图: 点击“操作”,对特定主机的角色进行启停 参数监控参数监控 监控集群服务的运行所配置的参数情况,用于及时掌握集群配置情况,参数分为:文件目录 参数、主机端口参数、运行环境参数和性能参数 4 大类。每个参数都会有相应中文解释和调 优建议,用户可以参考建议来优化集群。 以 HDFS 为例,以下是部分截图: 日志监控日志监控 监控集群服务的进程日志和应用日志 进程日志监控 可以根据集群、服务、角色、日志级别和主机来选择要查看的日志类型,已经下载完整日志 用于深入分析。 应用日志监控 选择集群和日志级别,查看 YARN 应用日志 告警系统 此模块用于在监控过程中针对集群不合理的指标值(

8、全局参数控制)进行预警 告警配置告警配置 查看告警阈值 点击参数,可调整告警阈值 告警服务启停告警服务启停 点击“启动”后,告警服务会启动并及时发送告警邮件 每隔 15 分钟(全局参数控制)会重新检查并发送告警邮件,页面中可以看到告警信息 页面告警页面告警 页面提示出现告警 点击右上角邮件图标,查看告警详情 邮件告警邮件告警 巡检 此模块实现了集群自动化巡检和生成巡检报告,包括基础巡检和深度巡检两大块。 基础巡检 基础巡检范围主要涉及集群架构配置、主机运行情况、集群运行情况和参数配置。每个巡检 模块用户可以加入主观分析结果,即自定义填写分析结论和调优建议。 深度巡检 深度巡检用于深度分析集群潜

9、在的性能和配置问题。便于从规划和架构上对集群进行优化。 详细包括: HDFS 文件目录信息 HDFS 管理报告 HDFS 快照信息 FSCK 文件系统健康检查 YARN 基本信息 集群指标 调度队列 应用信息 应用统计信息 集群节点信息 HBASE 表快照信息 表和 Region 关系 HBCK 健康检查 HIVE Hive 表、字段统计分析 数据存储格式分析 表分区存储分布分析 基础基础巡检巡检 用户可自定义选择需要巡检的内容,包括集群、服务、指标和参数等 点击“基础巡检” 依次检查每项指标,直到提示“巡检完成” 点击“查看巡检报告” 以下为部分截图: 主机情况 点击“编辑”,可添加主观分析

10、结论和建议 以下为导出为 PDF 的巡检报告样例: 20200305myclus ter集群巡检报告.pdf 深度巡检深度巡检 深度巡检开始前,需要提前创建巡检方案(参考“知识库”=“解决方案”部分) 选择集群后,点击“深度巡检”,会打开已经创建好的巡检方案,如下: 点击“执行方案”,可选择“全部执行”或“断点执行”,执行完成截图: 知识库 知识库系统旨在提供一套灵活配置的自动化智能运维系统。 包含了运维工具箱、最佳实践和解决方案三大块。 运维工具箱运维工具箱 日常运维中用到的运维工具命令集合,目前支持 Linux 操作、关系型数据库操作、Hadoop 集群运维管理、开发和分析操作。工程师可以

11、根据需求自定义添加和删除, 包含 4 大类工具: 服务专用 shell 特定服务的专用 shell 工具,比如 hbase shell,hive shell 等 Linux 命令 Linux 终端可执行的任何命令,比如 linux 服务启停、文件系统操作和管理等 内嵌工具 运维平台内嵌好常用工具,比如 hbase compact 操作、hdfs 快照操作等 数据库操作 对“全局配置”-“数据库配置”中添加的关系型数据库进行操作,比如创建删除表、 授权操作等 运维工具箱界面: 通过选择“服务名”和“执行方式”来实现过滤查询 添加工具 创建过程的注意事项: 通常用户自定义,不要选择“内嵌工具” 名

12、称必须唯一 执行命令写入“命令“格,比如 hdfs dfs -mkdir 涉及到参数写入“参数”格,并且前面加上$,比如 $HDFS_PATH 执行方式为“数据库操作”时,才需要选择数据库配置 最佳实践最佳实践 最佳实践指的是处理特定运维问题的最佳流程和方法, 比如搭建集群、 处理故障、 备份恢复、 安全配置、迁移升级、扩容等 最佳实践界面: 通过选择“类别”、“标签”和“项目组”来实现过滤查询 添加实践 注意事项: 实践名称:必须唯一 实践类别:通常是服务名 项目组:决定了最佳实践是全部对外公开还是在项目组内部分享 标签:可以任意添加多个 实践主页面 浏览实践 编辑实践 界面中的“+”和“-”图标用于向下添加类别和步骤 新步骤会随机生成步骤名、内容和操作 点击编辑图标可以修改类别和步骤名称 点击图标编辑内容 正文内容包含描述和执行代码 2 部分: 描述部分用 markdown 格式编写,内容示例: 执行代码部分,可选择在“运维工具箱”创建好的工具 也可

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号