大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive

上传人:aa****6 文档编号:48663572 上传时间:2018-07-19 格式:PPTX 页数:38 大小:2.28MB
返回 下载 相关 举报
大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第1页
第1页 / 共38页
大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第2页
第2页 / 共38页
大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第3页
第3页 / 共38页
大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第4页
第4页 / 共38页
大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive》由会员分享,可在线阅读,更多相关《大数据技术与应用基础-第6、7章分布式数据库HBase、数据仓库工具Hive(38页珍藏版)》请在金锄头文库上搜索。

1、 大数据技术与应用基础21世纪高等院校“云计算和大数据”人才培养规划教材第6章 分布式数据库Hbase能力CAPACITY要求了解HBase包含3个重要组件。熟悉HBase的基本应用。掌握HBase的特点。内容CONTENTS导航HBase接口HBase简介安装HBase集群HBase ShellHBase综合实例HBase API一、HBase简介HBase(Hadoop Database)是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化 数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分 布式存储系统。HBase包含3个重要组件:

2、ZooKeeper、HMaster和 HRegionServer。 ZooKeeper为整个HBase集群提供协助的服务(信息传输), HMaster主要用于监控和操作集群中的所有RegionServer, HRegionServer主要用于服务和管理分区(regions)。内容CONTENTS导航Hbase简介Hbase接口安装HBase集群HBase ShellHBase综合实例HBase API二、Hbase接口HBase集群访问可以有多种方式,不同方式的使用场景不同,HBase的访问接口如下:1. Native Java API2. HBase ShellHBase Shell是HBa

3、se的命令行工具,是最简单的接口,适合HBase管理使 用。3. Thrift Gateway4. REST Gateway5. PIG可以使用Pig Latin流式编程语言来操作HBase中的数据,其本质是编译成MapReduce Job来处理HBase表数据,适合做数据统计。6. HiveHive 0.7版本中添加了HBase的支持,可以使用类似SQL的语言HQL来访问HBase,其本质类似Pig ,把脚本编译成MapReduce Job来处理HBase表数据。内容CONTENTS导航HBase接口安装HBase集群HBase简介HBase ShellHBase综合实例HBase API三

4、、安装Hbase集群系统环境:Hadoop 2.6.0分布式系统基础架构Java jdk 1.7一种面向对象的编程语言 ZooKeeper 3.4.6分布式应用程序协调服务Hbase 0.98.21分布式、面向列的开源数据库Ubuntu 14.04 一种Linux操作系统安装ZooKeeper:在主节点上下载安装ZooKeeper。hadoopmaster:$wget http:/ dataDir=/hadoop/zookeeper/data在dataDir指定的数据目录(/hadoop/zookeeper/data)下,创建文件myid,文件内容为一个正整数值, 用来唯一表示当前机器,因此不

5、同机器的数值不能相同,可以选择0、1、2。三、安装Hbase集群在zoo.cfg中加入如下参数,如图6-3所示。-server.0=master:2888:3888注释:0为master节点的myid-server.1=slave1:2888:3888注释:1为slave1节点的myid-server.2=slave2:2888:3888注释:2为slave2节点的myid将主节点的ZooKeeper安装目录分发到两个从节点slave1,slave2上。将$ZOOKEEPER_HOME/bin添加到Linux用户的环境变量文件.bashrc中。在各个节点上通过zkServer.sh start

6、命令启动ZooKeeper服务,命令如下zkServer.sh start /启动ZooKeeper服务zkServer.sh status /查看节点ZooKeeper服务状态,服务状态分为leader,follower三、安装Hbase集群安装Hbase: 在主节点上通过下面命令下载Hbase到Linux用户的家目录中。 wget http:/ 修改HBase根目录下conf文件夹中hbase-site.xml文件如下: hbase.rootdir hdfs:/master:9000/hbase hbase.zookeeper.quorum master,slave1,slave2 hba

7、se.cluster.distributed true hbase.zookeeper.property.dataDir /hadoop/zookeeper/data三、安装Hbase集群修改HBase根目录下conf文件夹中regionservers文件,内容如下:slave1slave2修改HBase根目录下conf文件夹中hbase-env.sh文件,添加JKD的配置。 内容如下:export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64将主节点的HBase安装目录分发到两个从节点slave1,slave2上。将$HBase_HOME/bin目录

8、添加到用户的环境变量文件.bashrc中,如图在各个节点上通过命令start-hbase.sh启动HBase,可以通过命令jps查看 结果。如右图。内容CONTENTS导航HBase接口HBase Shell安装HBase集群HBase简介HBase综合实例HBase API四、Hbase Shell首先要确保Hadoop集群是开启的1. 在Linux命令行上执行hbase shell命令进入HBase Shell 。hadoopmaster:$ hbase shellVersion 1.0.3, rf1e1312f9790a7c40f6a4b5a1bab2ea1dd559890, Tue J

9、an 19 19:26:53 PST 2016hbase(main):001:0 2. 新建user表。hbase(main):001:0 create user,infomation0 row(s) in 1.2680 seconds = Hbase:Table - userhbase(main):002:0 3. 导入user表中的数据。 hbase(main):004:0 put user,001,infomation:name,lihao0 row(s) in 0.0270 secondsrow(s) in 0.0160 seconds四、Hbase Shellhbase(main):

10、005:0 put user,001,infomation:age,22 0 row(s) in 0.0120 seconds hbase(main):007:0 put user,002,infomation:name,yujianzhong 0 row(s) in 0.0110 seconds hbase(main):008:0 put user,002,infomation:age,30 0 row(s) in 0.0160 seconds hbase(main):009:0 put user,003,infomation:name,jixu 0 row(s) in 0.0140 sec

11、onds hbase(main):010:0 put user,003,infomation:age,364. 查看user表中的数据。 hbase(main):011:0 scan user 5. 查看user表的描述。 hbase(main):012:0 describe user 6. 删除user表。 hbase(main):013:0 disable user内容CONTENTS导航HBase接口HBase API安装HBase集群HBase ShellHBase综合实例HBase简介五、Hbase API查看表:以建表插入数据为例,参考书中P106页的程序代码查看表中的数据:内容C

12、ONTENTS导航HBase接口HBase综合实例安装HBase集群HBase ShellHBase简介HBase API六、HBase综合实例首先介绍HBase的相关API:(1)HbaseConfiguration关系:org.apache.hadoop.hbase.HBaseConfiguration 作用:通过此类可以对HBase进行配置 (2)HBaseAdmin关系:org.apache.hadoop.hbase.client.HBaseAdmin 作用:提供一个接口来管理HBase数据库中的表信息。它提供创建表、删除表等方法。 (3)HTableDescriptor关系:org.

13、apache.hadoop.hbase.client.HTableDescriptor 作用:包含了表的名字及其对应列族。 (4)HColumnDescriptor 关系:org.apache.hadoop.hbase.client.HColumnDescriptor 作用:维护关于列的信息。 (5)Htable关系:org.apache.hadoop.hbase.client.HTable 作用:用户与HBase表进行通信。 (6)Put关系:org.apache.hadoop.hbase.client.Put 作用:用于对单个行执行添加操作 (7)Get关系:org.apache.hado

14、op.hbase.client.Get 作用:用于获取单个行的相关信息 (8)Result关系:org.apache.hadoop.hbase.client.Result 作用:存储Get或Scan操作后获取的单行值。五、Hbase API代码运行结果如右图本课将用一个Hbase综合实例来介绍如何用HbaseAPI来创建表,向表中添加数据,获取指定主键 的cell,查看指定表的数据。请参考书中P111页的程序代码。进入hbase shell查看执行结果大数据技术与应用基础21世纪高等院校“云计算和大数据”人才培养规划教材第7章 数据仓库工具Hive人民邮电出版社能力CAPACITY要求了解大数

15、据仓库Hive的原理和基本概 念。掌握熟悉简单的Hive命令。内容CONTENTS导航Hive接口实战Hive简介Hive复杂语句实战Hive综合实例一、Hive简介Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。把海量数据存储于Hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理 机制,并采用HQL(类SQL)语言对这些数据进行自动化管理和处理。Hive经过对语句进行解析和转换,最终生成一系列基于Hadoop的map/reduce任务,通过执行这 些任务完成数据处理。Hive诞生于Facebook的日志分析需求,面对海量的结构化数据,Hive以较低的成本完成了以往 需要大规模数据库才能完成的任务,并且学习门槛相对较低,应用开发灵活而高效。内容CONTENTS导航Hive简介Hive接口实战Hive复杂语句实战Hive综合实例二、Hive接口实战Ubuntu 16.04 server64JDK 1.8.0hadoop 2.6.0Hive 1.2.1接口实战详细步骤如下:环境配置(1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号