redoop crh . arm 用户手册.doc

资源描述

《redoop crh . arm 用户手册.doc》由会员分享，可在线阅读，更多相关《redoop crh . arm 用户手册.doc（128页珍藏版）》请在金锄头文库上搜索。

1、目录一、产品简介71.1 产品概述71.2 产品特性71.3 操作系统版本91.4 Redoop平台架构91.5 软件栈111.6 平台模块17二、硬件要求182.1 硬件环境要求182.2 操作系统要求192.3 Java环境要求192.4 支持的浏览器192.5 集群和网络拓扑要求192.6 系统的推荐设置20三、安装213.1 安装基础环境准备213.1.1 修改主机名213.1.2 主机与IP映射213.1.3 免密码登录233.1.4 启动apache2服务263.1.5 启动ntp服务263.1.6 配置源263.2 安装ambari293.2.1 安装ambari-server2

2、93.2.2 初始化ambari323.2.3 启动ambari343.3 安装部署集群343.3.1 配置集群343.3.2 安装Hadoop353.3.3 安装Hive423.3.4 安装HBase47四、综合使用514.1 Ambari-server 介绍514.1.1 访问Ambari Web524.1.2 登录和退出管理界面524.2 集群监控534.2.1 集群仪表板534.2.2 集群热图554.2.3 集群指标554.2.4 检查内存使用情况564.2.5 磁盘用量584.2.6 集群管理节点正常运行时间584.2.7 警告594.3 异常查看处理604.3.1 HDFS604

3、.3.2 Yarn634.3.3 Ambari65五、Redoop CRH服务角色675.1 HDFS角色685.2 YARN角色685.3 MapReduce2角色695.4 Zookeeper角色695.5 Hive角色695.6 HBase角色70六、服务管理和使用706.1 服务管理706.1.1 添加新服务706.1.2 服务的启动关闭删除716.1.3 服务活动726.1.4 监控后台操作736.1.5 快速链接756.1.6 服务配置766.1.8 服务警报776.2 HDFS的使用776.2.1 HDFS服务的管理786.2.3 HDFS服务的配置786.3 YARN的使用79

4、6.3.1 YARN服务的管理796.3.3 YARN服务的配置806.4 MapReduce的使用806.4.1 MapReduce服务的管理816.4.3 MapReduce服务的配置816.5 Hive的使用816.5.1 Hive服务的管理826.5.3 Hive服务的配置826.6 HBase的使用836.6.1 HBase服务的管理836.6.3 HBase服务的配置836.7 ZooKeeper的使用846.7.1 ZooKeeper服务的管理846.7.3 ZooKeeper服务的配置85七、测试使用887.1 hadoop测试887.2 导入数据到hbase917.2.2 生

5、成数据917.2.3 将数据传到hdfs917.2.4 将hdfs中的数据导入到hbase927.3 SQL语法兼容性测试1027.3.1 Hive与hbase集成1027.3.2 创建hbase识别的数据库1027.3.3 插入数据1037.4 Hadoop测试1087.4.1 写数据1087.4.2 读数据1117.4.3 清除测试数据1147.5 Hive测试1147.5.1 hive简单测试1147.5.2 hive建表测试1167.5.3 查看数据测试1177.5.4 分桶区测试1247.5.5 索引测试1247.5.6 切换计算引擎为tez测试1267.6 Hbase简单测试126

6、客户服务128版权所有北京红象云腾系统技术有限公司。保留所有权利。北京红象云腾系统技术有限公司版权所有,并保留对本说明书及本声明的最终解释权和修改权。本说明书的版权归北京红象云腾系统技术有限公司所有。未得到北京红象云腾系统技术有限公司的书面许可,任何人不得以任何方式或形式对本说明书内的任何部分进行复制、摘录、备份、修改、传播、翻译成其他语言、或将其全部或部分用于商业用途一、产品简介1.1 产品概述红象CRH平台是业内唯一全面支持国产和国际芯片,同时支持五种芯片架构，提供FPGA/GPU硬件加速的大数据平台,CRH平台支持一体化架构(YARN)，做到了真正的安全可靠，完全做到了以开源Apac

7、he Hadoop为基础构建的大数据平台，CRH平台经过无数次的迭代测试，不断完善功能，不仅使性能达到最优，而且还保障企业级使用时的稳定性和可靠性。CRH满足了企业静态数据分析的全部需求，助力企业在建设数据实时分析、数据仓库、机器学习、数据安全等方面加速落地，在商业中加速决策，为企业发掘数据价值提供了可靠的数据分析能力。CHINA REDOOP HYPERLOOP(CRH) 寓意”红象数据高铁”,作为分布式动力的新一代大数据技术 ,致力于中国IT系统大提速事业。1.2 产品特性l 开放性红象云腾(REDOOP)致力于采用完全开源的软件开发方式，从而保证了平台创新性 CRH使企业在处理和存储海

8、量的结构化、非结构化数据时无需像以前一样花费大量高额的成本 CRH提供企业级Hadoop发行版，100%开源，不但促进了平台创新还可以防止供应商的技术垄断 CRH跨平台支持五大主流硬件X86,Power,ARM,MIPS,Alpha架构 CRH支持硬件加速FPGA卡，提升Hadoop整体性能l 一体化 CRH基于YARN实现一体化的架构、统一资源管理。这种架构使得各种应用程序间可灵活的动态分配资源 YARN使企业可以灵活的支撑不同的数据应用，从而最大限度的使用资源快速提取数据 YARN为数据治理提供安全的集群服务、保障集群的稳定性l 兼容性 CRH与广泛的数据中心和云供应商可以互操作 CRH数

9、据的处理能力帮助企业最大程度降低成本、节省时间并且最大化的利用企业现有IT基础设施借助CRH，客户在采用Hadoop后仍然可以保全现有IT架构的投资l 企业级安全 CRH提供了对集群的一体化管理、监控和审计使用CRH，企业大数据平台内置数据安全、数据治理能力 CRH可以确保数据访问时的可靠性、并提供安全管控的能力重大新特性：CRH 5.0 重大新特性l 创新与性能全新的Data Science Workbench。全面支持Spark2.1，Spark1.6.3，Zeppelin 0.7和RedML Server，通过REST API 中提供的机器学习算法面向生产的Hive2 完全切换支持内

10、存计算引擎，整体性能提升10x倍以上。BI 工具可实现仅次于秒级的查询性能。客户无需等待即可复制Hadoop数据到传统数据库中并展现报表。基于Rest API的深度学习RedDL平台，为客户模型训练提供深度学习能力。l 适用于企业导入导出安全策略，自动同步权限Key Server可支持所有组件的强一致性的安全管控能力。在生态系统中扩展支持基于 Atlas 标记的策略。让基于分类的安全工作流程可以涵盖 HDFS、Kafka 和 HBase。行/列安全性。在 CRH v5.0全线产品中（包括 Spark 和 Hive）实现细粒度数据访问控制Kafka 和Spark Streaming 连接支持 S

11、SL认证。保障Spark Streaming 和 Kafka 安全性。高度可视化的集群服务，降低了使用门槛。资源监控、日志聚合分析服务、SQL工作台、审计、多租户等可视化操作。l 使用方便对PySpark(Spark Python API)和SparkR支持包。让数据科学家以他们喜欢的方式来运行R语言作业到Spark集群。支持可视化工具Zeppelin Notebook、R Studio。日志聚合LogRedSearch服务。对集群所有组件进行日志聚合分析，及时发现集群组件异常、帮助快速解决问题。完全可视化的资源管理平台，可以实时动态调节集群租户的资源分配，无需重启集群。Monitor DAG

12、s监控平台。实现硬件级监控报警能力，帮助提升运维响应能力，减少故障率。1.3 操作系统版本版本系统版本CRH 5.0CentOS release7.21.4 Redoop平台架构组成部分数据库CRH-DB是红象云腾自主研发的基于实时的分布式数据库，可以实现千亿数据秒级响应。支持对象存储：以对象存储为主，容量可轻松扩展到PB，查询速度更快性能更优：支持多种工作负载的高性能高可靠性：设计保护单点故障的容错功能，数据存储可靠性更强多租户安全通过社区Ranger、knox、Yarn Resource Pool、Kerberos整合实现多租户和安全。可视化Zeppelin、Hue、SaiKu、（适配：P

13、owerBI，Tableau，Qlik，Other BI）。分布式搜索引擎CRH-SE基于ElasticSearch的搜索服务组件，能够达到实时搜索，具有稳定、可靠、快速的特点更加丰富的功能：丰富的查询语法，丰富的功能模块，有数据分析和可视化展现模块更加轻量级：配置简单轻量，一款更加轻量级“NOSQL数据库”更快的响应速度：查询速度更快，用户体验更佳。百万条数据秒级响应。时间序列数据库CRH-TSDB它基于HBase存储数据，充分发挥了HBase的分布式列存储特性，支持数百万每秒的读写。更节省存储空间：可动态增加的列式存储，节省存储空间更强的查询能力：融合key/value存储模式带来实时查询

14、的能力，以及通过MapReduce进行离线处理或者批处理的能力低延迟性：准实时近线数据处理，时效性更高准实时流处理组件CRH-CEP基于Storm和SparkStreaming的准实时流处理组件，具有低延迟、可扩展和高容错的诸多优点更好的水平扩展性：支持水平扩展，具有高容错性，数据处理可靠性好更快的计算速度：全内存计算，分布式实时计算，速度更快，性能更优更多的应用场景：适用实时分析、在线机器学习、持续计算、分布式RPC、ETL，等等多种场景数据仓库组件CRH-DW基于Apache Hive+Apache Hadoop的数据仓库，突破传统数据仓库数据量过大导致的数据提取缓慢的问题，存储数据量无上限要求更好的扩展性：基于HDFS存储，扩展性更强，动态无限扩容更强的容错性：多副本机制，具有更强的自动容错性更丰富的查询方式：它提供了丰富的SQL查询方式来分析存储在HDFS中的数据，用户可以很方便地利用

展开阅读全文

redoop crh . arm 用户手册.doc

最新文档