大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive

上传人：aa****6 文档编号：48663572 上传时间：2018-07-19 格式：PPTX 页数：38 大小：2.28MB

返回下载相关举报

大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第1页

第1页 / 共38页

大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第2页

第2页 / 共38页

大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第3页

第3页 / 共38页

大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第4页

第4页 / 共38页

大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第5页

第5页 / 共38页

点击查看更多>>

资源描述

《大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive》由会员分享，可在线阅读，更多相关《大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive（38页珍藏版）》请在金锄头文库上搜索。

1、大数据技术与应用基础21世纪高等院校“云计算和大数据”人才培养规划教材第6章分布式数据库Hbase能力CAPACITY要求了解HBase包含3个重要组件。熟悉HBase的基本应用。掌握HBase的特点。内容CONTENTS导航HBase接口HBase简介安装HBase集群HBase ShellHBase综合实例HBase API一、HBase简介HBase(Hadoop Database)是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。HBase包含3个重要组件：

2、ZooKeeper、HMaster和 HRegionServer。 ZooKeeper为整个HBase集群提供协助的服务(信息传输)， HMaster主要用于监控和操作集群中的所有RegionServer， HRegionServer主要用于服务和管理分区(regions)。内容CONTENTS导航Hbase简介Hbase接口安装HBase集群HBase ShellHBase综合实例HBase API二、Hbase接口HBase集群访问可以有多种方式，不同方式的使用场景不同，HBase的访问接口如下：1. Native Java API2. HBase ShellHBase Shell是HBa

3、se的命令行工具，是最简单的接口，适合HBase管理使用。3. Thrift Gateway4. REST Gateway5. PIG可以使用Pig Latin流式编程语言来操作HBase中的数据，其本质是编译成MapReduce Job来处理HBase表数据，适合做数据统计。6. HiveHive 0.7版本中添加了HBase的支持，可以使用类似SQL的语言HQL来访问HBase，其本质类似Pig ，把脚本编译成MapReduce Job来处理HBase表数据。内容CONTENTS导航HBase接口安装HBase集群HBase简介HBase ShellHBase综合实例HBase API三

4、、安装Hbase集群系统环境：Hadoop 2.6.0分布式系统基础架构Java jdk 1.7一种面向对象的编程语言 ZooKeeper 3.4.6分布式应用程序协调服务Hbase 0.98.21分布式、面向列的开源数据库Ubuntu 14.04 一种Linux操作系统安装ZooKeeper：在主节点上下载安装ZooKeeper。hadoopmaster:$wget http:/ dataDir=/hadoop/zookeeper/data在dataDir指定的数据目录(/hadoop/zookeeper/data)下，创建文件myid，文件内容为一个正整数值，用来唯一表示当前机器，因此不

5、同机器的数值不能相同，可以选择0、1、2。三、安装Hbase集群在zoo.cfg中加入如下参数，如图6-3所示。-server.0=master:2888:3888注释：0为master节点的myid-server.1=slave1:2888:3888注释：1为slave1节点的myid-server.2=slave2:2888:3888注释：2为slave2节点的myid将主节点的ZooKeeper安装目录分发到两个从节点slave1，slave2上。将$ZOOKEEPER_HOME/bin添加到Linux用户的环境变量文件.bashrc中。在各个节点上通过zkServer.sh start

6、命令启动ZooKeeper服务，命令如下zkServer.sh start /启动ZooKeeper服务zkServer.sh status /查看节点ZooKeeper服务状态，服务状态分为leader,follower三、安装Hbase集群安装Hbase：在主节点上通过下面命令下载Hbase到Linux用户的家目录中。 wget http:/ 修改HBase根目录下conf文件夹中hbase-site.xml文件如下： hbase.rootdir hdfs:/master:9000/hbase hbase.zookeeper.quorum master,slave1,slave2 hba

7、se.cluster.distributed true hbase.zookeeper.property.dataDir /hadoop/zookeeper/data三、安装Hbase集群修改HBase根目录下conf文件夹中regionservers文件，内容如下：slave1slave2修改HBase根目录下conf文件夹中hbase-env.sh文件，添加JKD的配置。内容如下：export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64将主节点的HBase安装目录分发到两个从节点slave1，slave2上。将$HBase_HOME/bin目录

8、添加到用户的环境变量文件.bashrc中，如图在各个节点上通过命令start-hbase.sh启动HBase，可以通过命令jps查看结果。如右图。内容CONTENTS导航HBase接口HBase Shell安装HBase集群HBase简介HBase综合实例HBase API四、Hbase Shell首先要确保Hadoop集群是开启的1. 在Linux命令行上执行hbase shell命令进入HBase Shell 。hadoopmaster:$ hbase shellVersion 1.0.3, rf1e1312f9790a7c40f6a4b5a1bab2ea1dd559890, Tue J

9、an 19 19:26:53 PST 2016hbase(main):001:0 2. 新建user表。hbase(main):001:0 create user,infomation0 row(s) in 1.2680 seconds = Hbase:Table - userhbase(main):002:0 3. 导入user表中的数据。 hbase(main):004:0 put user,001,infomation:name,lihao0 row(s) in 0.0270 secondsrow(s) in 0.0160 seconds四、Hbase Shellhbase(main):

10、005:0 put user,001,infomation:age,22 0 row(s) in 0.0120 seconds hbase(main):007:0 put user,002,infomation:name,yujianzhong 0 row(s) in 0.0110 seconds hbase(main):008:0 put user,002,infomation:age,30 0 row(s) in 0.0160 seconds hbase(main):009:0 put user,003,infomation:name,jixu 0 row(s) in 0.0140 sec

11、onds hbase(main):010:0 put user,003,infomation:age,364. 查看user表中的数据。 hbase(main):011:0 scan user 5. 查看user表的描述。 hbase(main):012:0 describe user 6. 删除user表。 hbase(main):013:0 disable user内容CONTENTS导航HBase接口HBase API安装HBase集群HBase ShellHBase综合实例HBase简介五、Hbase API查看表：以建表插入数据为例，参考书中P106页的程序代码查看表中的数据：内容C

12、ONTENTS导航HBase接口HBase综合实例安装HBase集群HBase ShellHBase简介HBase API六、HBase综合实例首先介绍HBase的相关API：（1）HbaseConfiguration关系：org.apache.hadoop.hbase.HBaseConfiguration 作用：通过此类可以对HBase进行配置（2）HBaseAdmin关系：org.apache.hadoop.hbase.client.HBaseAdmin 作用：提供一个接口来管理HBase数据库中的表信息。它提供创建表、删除表等方法。（3）HTableDescriptor关系：org.

13、apache.hadoop.hbase.client.HTableDescriptor 作用：包含了表的名字及其对应列族。（4）HColumnDescriptor 关系：org.apache.hadoop.hbase.client.HColumnDescriptor 作用：维护关于列的信息。（5）Htable关系：org.apache.hadoop.hbase.client.HTable 作用：用户与HBase表进行通信。（6）Put关系：org.apache.hadoop.hbase.client.Put 作用：用于对单个行执行添加操作（7）Get关系：org.apache.hado

14、op.hbase.client.Get 作用：用于获取单个行的相关信息（8）Result关系：org.apache.hadoop.hbase.client.Result 作用：存储Get或Scan操作后获取的单行值。五、Hbase API代码运行结果如右图本课将用一个Hbase综合实例来介绍如何用HbaseAPI来创建表，向表中添加数据，获取指定主键的cell，查看指定表的数据。请参考书中P111页的程序代码。进入hbase shell查看执行结果大数据技术与应用基础21世纪高等院校“云计算和大数据”人才培养规划教材第7章数据仓库工具Hive人民邮电出版社能力CAPACITY要求了解大数

15、据仓库Hive的原理和基本概念。掌握熟悉简单的Hive命令。内容CONTENTS导航Hive接口实战Hive简介Hive复杂语句实战Hive综合实例一、Hive简介Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。把海量数据存储于Hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用HQL（类SQL）语言对这些数据进行自动化管理和处理。Hive经过对语句进行解析和转换，最终生成一系列基于Hadoop的map/reduce任务，通过执行这些任务完成数据处理。Hive诞生于Facebook的日志分析需求，面对海量的结构化数据，Hive以较低的成本完成了以往需要大规模数据库才能完成的任务，并且学习门槛相对较低，应用开发灵活而高效。内容CONTENTS导航Hive简介Hive接口实战Hive复杂语句实战Hive综合实例二、Hive接口实战Ubuntu 16.04 server64JDK 1.8.0hadoop 2.6.0Hive 1.2.1接口实战详细步骤如下：环境配置（1

展开阅读全文

相关资源

涡轮钻井技术-大港

涡轮钻井技术-大港

优秀班组长培训教材(全面) PPT

优秀班组长培训教材(全面) PPT

普通高中新课程方案介绍

普通高中新课程方案介绍

第5章VHDL设计进阶

第5章VHDL设计进阶

金属储氢材料项目可行性研究部如何编写

金属储氢材料项目可行性研究部如何编写

民族药项目可行性研究部如何编写

民族药项目可行性研究部如何编写

全自动洗衣机离合器原理及维修

全自动洗衣机离合器原理及维修

金属基复合材料项目可行性研究部如何编写

金属基复合材料项目可行性研究部如何编写

柠檬酸酯项目可行性研究部如何编写

柠檬酸酯项目可行性研究部如何编写

聚硫密封剂材料项目可行性研究部如何编写

聚硫密封剂材料项目可行性研究部如何编写

相关搜索

当前位置：首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号