Hive入门基础知识ppt课件

资源描述

《Hive入门基础知识ppt课件》由会员分享，可在线阅读，更多相关《Hive入门基础知识ppt课件（55页珍藏版）》请在金锄头文库上搜索。

1、为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive入门与实战为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益一、 Hive简介二、 Hive体系结构三、 Hive工作机制四、 Hive应用场景五、 Hive安装部署六、 Hive开发使用为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive简介-Hive是什么？为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人

2、员聘用制度，保障用人单位和职工的合法权益Hive简介-Hive的历史由来Hive是Facebook开发的，构建于Hadoop集群之上的数据仓库应用。2008年Facebook将Hive项目贡献给Apache，成为开源项目。目前最新版本hive-2.0.0为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive简介-Hive的历史由来Hadoop和Hive组建成为Facebook数据仓库的发展史随着数据量增加某些查询需要几个小时甚至几天才能完成。当数据达到1T时，MySql进程跨掉。可以支撑几个T的数据，但每天收集用户点击流数据

3、（每天约400G）时,Oracle开始撑不住。有效解决了大规模数据的存储与统计分析的问题，但是MapReduce程序对于普通分析人员的使用过于复杂和繁琐。对外提供了类似于SQL语法的HQL语句数据接口，自动将HQL语句编译转化为MR作业后在Hadoop上执行。降低了分析人员使用Hadoop进行数据分析的难度。为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive体系结构-Hive在Hadoop中的位置Avro(序列化)Zookeeper(协调服务)Pig(数据流)SqoopHive(SQL)MapReduce(分布式计算框架

4、)Hbase(列存储)HCatalog(元数据)HDFS(Hadoop分布式文件系统)程序语言计算表存储对象存储为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive体系结构-Hive设计特征 Hive 做为Hadoop 的数据仓库处理工具，它所有的数据都存储在Hadoop 兼容的文件系统中。Hive 在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS 中Hive 设定的目录下，因此，Hive 不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。Hive 的设计特点如下。支持索引，加快数据查询。不同的

5、存储类型，例如，纯文本文件、HBase 中的文件。将元数据保存在关系数据库中，减少了在查询中执行语义检查时间。可以直接使用存储在Hadoop 文件系统中的数据。内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。编码跟Hadoop同样使用UTF-8字符集。为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive体系结构为了规范事业单位聘用关系，建立和完善适应社会主义

6、市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive体系结构解析器编译器:完成 HQL 语句从词法分析、语法分析、编译、优化以及执行计划的生成。优化器是一个演化组件，当前它的规则是：列修剪，谓词下压。执行器会顺序执行所有的Job。如果Task链不存在依赖关系，可以采用并发执行的方式执行Job。元数据库Hive的数据由两部分组成：数据文件和元数据。元数据用于存放Hive库的基础信息，它存储在关系数据库中，如 mysql、derby。元数据包括：数据库信息、表的名字，表的列和分区及其属性，表的属性，表的数据所在目录等。HadoopHive 的数据文件存储在 HDFS 中，大

7、部分的查询由 MapReduce 完成。（对于包含 * 的查询，比如 select * from tbl 不会生成 MapRedcue 作业）为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益HadoopHive的运行机制hivesqlMap/Reduce 用户用户接口1234为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive编译器的运行机制（Hive的核心）语义解析器语义解析器将查询字符串转换成解析树表达式。语法解析器语法解析器将解析树转换成基于语句块

8、的内部查询表达式。逻辑计划逻辑计划生成器生成器将内部查询表达式转换为逻辑计划，这些计划由逻辑操作树组成，操作符是Hive的最小处理单元，每个操作符处理代表一道HDFS操作或者是MR作业。查询计划查询计划生成器生成器将逻辑计划转化成物理计划（MR Job）。为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive的应用场景-Hive的优势解决了传统关系数据库在大数据处理上的瓶颈。适合大数据的批量处理。充分利用集群的CPU计算资源、存储资源，实现并行计算。Hive支持标准SQL语法，免去了编写MR程序的过程，减少了开发成本。具

9、有良好的扩展性，拓展功能方便。为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive的优势-上百行MR程序与一条HQL的对比为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive的应用场景-Hive的缺点为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive的应用场景适用场景海量数据的存储处理数据挖掘海量数据的离线分析不适用场景复杂的机器学习算法复杂的科学计算联机交互式实时查询为了规范事

10、业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive开发使用-Hive的连接HiveServer2目前Hive的Thrift服务端通常使用HiveServer2,它是HiveServer改进版本，它提供了新的ThriftAPI来处理JDBC或者ODBC客户端，可以进行Kerberos身份验证，支持多个客户端并发。BeeLineHiveServer2还提供了新的CLI：BeeLine，它是Hive 0.11引入的新的交互式CLI，基于SQLLine，可以作为Hive JDBC Client 端访问HievServer2。通过BeeLi

11、ne连接hivehive安装目录/bin/./beeline -u jdbc:hive2:/hiveServer2所在ip:端口号 -n 用户名例如： ./beeline -u jdbc:hive2:/127.0.0.1:10000 -n root为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive开发使用-Hive的基本数据类型基本类型大小描述TINYINT1个字节有符号整数SMALLINT2个字节有符号整数INT4个字节有符号整数BIGINT8个字节有符号整数STRING最大2GB字符串，类似SQL中的VARCHAR类

12、型FLOAT4个字节单精度浮点型DOUBLE8个字节双精度浮点型BOOLEANTRUE/FALSE为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive开发使用-Hive的复杂数据类型为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive开发使用-Hive元数据库表简介表名说明关联键DBS元数据库信息，存放HDFS路径信息DB_IDTBLS所有hive表的基本信息TBL_ID,SD_ID,DB_IDTABLE_PARAM表级属性，如是否外部表，表注释等TB

13、L_IDCOLUMNS_V2Hive表字段信息(字段注释，字段名，字段类型，字段序号)CD_IDSDS所有hive表、表分区所对应的hdfs数据目录和数据格式SD_ID,SERDE_IDSERDESHive表的序列化类型SERDE_IDSERDE_PARAM序列化反序列化信息，如行分隔符、列分隔符、NULL的表示字符等SERDE_IDPARTITIONSHive表分区信息PART_ID,SD_ID,TBL_IDPARTITION_KEYSHive分区表分区键TBL_IDPARTITION_KEY_VALSHive表分区名(键值)PART_IDSEQUENCE_TABLE保存Hive对象的下一个

14、可用ID,包括数据库，表，字段，分区等对象的下一个ID。默认ID每次+5SEQUENCE_NAME,NEXT_VAL为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive开发使用-Hive的数据模型Hive数据库类似传统数据库的DataBase，在元数据库里实际是一张表。对应于HDFS上的数据仓库目录下是一个文件夹。数据仓库目录路径，由hive-site.xml中$hive.metastore.warehouse.dir 参数指定。创建数据库示例： create database 数据库名; 元数据库中查询数据库列表: s

15、elect * from dbs; 如下图：为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive开发使用-Hive的数据模型内部表内部表与关系数据库中的Table在概念上类似。每一个Table在Hive中都有一个相应的目录存储数据。所有的Table数据（不包括External Table）都保存在这个目录中。删除表时，元数据与数据都会被删除。元数据库中查询数据表列表: HDFS下对应存储目录：为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive开发

16、使用-Hive的数据模型外部表外部表指向已经在HDFS中存在的数据，可以创建Partition。它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异。内部表的创建过程和数据加载过程这两个过程可以分别独立完成，也可以在同一个语句中完成，在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。而外部表只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL TABLE LOCATION），实际数据是存储在LOCATION后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个External Table时，仅删除该链接。为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度，保障用人单位和职工的合法权益Hive开发使用-Hive的数据模型如何选择使用内部表或外部表？如果所有处理都由hive来完成，则使用内部表如果需要用hive和外部其他工具处理同一组数据集，则使用外部表。为了规范事业单位聘用关系，建立和完善适应社会主义市场经济体制

展开阅读全文

Hive入门基础知识ppt课件

最新文档