HBase技术平台概述

上传人:I*** 文档编号:156357978 上传时间:2020-12-17 格式:PPTX 页数:33 大小:1.19MB
返回 下载 相关 举报
HBase技术平台概述_第1页
第1页 / 共33页
HBase技术平台概述_第2页
第2页 / 共33页
HBase技术平台概述_第3页
第3页 / 共33页
HBase技术平台概述_第4页
第4页 / 共33页
HBase技术平台概述_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《HBase技术平台概述》由会员分享,可在线阅读,更多相关《HBase技术平台概述(33页珍藏版)》请在金锄头文库上搜索。

1、,技术创新,变革未来,HBase技术平台概述,内容,HBase介绍 HBase在hadoop生态中的位置 HBase优缺点 HBase体系结构 HBase表逻辑结构,HBase是什么,HBaseHadoop Database 建立在HDFS之上的数据库系统 分布式 存储松散数据 HBase是Google Bigtable的开源实现,HBase特点,大:单表可以数十亿行,数百万列 无模式:同一个表的不同行可以有截然不同的列 面向列:存储、检索均面向列 稀疏:空列不占用存储,表可以设计的非常稀疏 多版本:每个单元中的数据可以有多个版本,默 认情况下版本号是单元格插入时的时间戳 数据类型单一:数据都

2、是字节,没有类型,HBase在hadoop生态体系中的位置,HBase在hadoop生态体系中的位置,HBase VS HDFS,两者都具有良好的容错性和扩展性,都可 以扩展到成百上千个节点 HDFS适合批处理场景 不支持随机查找 不支持数据更新 HBase是对HDFS很好的补充,HBase VS Hive,两者都有表、数据库等概念 两者都依赖HDFS做存储支持 Hive为统计分析而生 HBase要满足实时查询需求 Hive面向计算层面 HBase面向存储需求,HBase优点,高可靠 面向列(列存储) 高性能 可伸缩(自动切分、迁移) 可扩展,增加计算和存储能力,HBase缺点,通过行键和行键

3、序列来检索数据最高效 仅支持单行事务,HBase列存储,列存储较适用于: 海量数据中只需要访问某几个列 的数据 海量数据中某几列的统计计算 需要经常对表结构新增字段 列中有较多的重复数据,可以提 高压缩率,HBase体系结构,HBase体系结构,遵从主从服务器架构,由RegionServer和 Master构成 Master负责管理所有的RegionServer 所有服务器通过Zookeeper协调,并处理 服务器运行期间可能遇到的错误,HBase体系结构重要概念,HBase Client Master RegionServer Zookeeper,HBase Client,Client使用R

4、PC与Master和RegionServer通信 管理类操作,Client与Master通信 数据读写类操作,Client与RegionServer通信 Client读写HBase上数据不需要与Master交互, 只需要寻址访问Zookeeper和RegionServer Client维护着Region的位置信息加快对HBase的 访问,Master,为RegionServer分配Region 负责RegionServer的负载均衡 在Region Split后,负责新Region的分配 发现失效的RegionServer,并重新分配其 上的Region 仅仅维护Table和Region的元数

5、据信息,负 载很低,RegionServer,管理Master分配给它的Region 处理Client的I/O请求,数据保存在HDFS中 负责切分在运行过程中变得过大的Region,Zookeeper,保证任何时候,集群中只有一个Active Master 存储所有Region的寻址入口 实时监控RegionServer的状态,将 RegionServer的上下线信息实时通知给 Master,HBase体系结构,问题,HBase运行环境中有哪几类节点,HBase表逻辑结构,HBase表逻辑结构,每个column family存储在HDFS上的一个单独的文件里 Rowkey和version在每个

6、column family里均有一份,HBase表逻辑结构重要概念,Rowkey ColumnFamily Cell Version,HBase表Rowkey 主键 三种访问HBase表中数据方式:通过单个 rowkey访问、通过rowkey序列访问、全表 扫描 每一行rowkey必须是唯一的 rowkey可以是任意字符串(最大长度是 64KB),在HBase内部, rowkey保存为字 节数组,HBase表Rowkey,数据按照rowkey的字典序顺序存储 设计rowkey时,充分利用排序存储特性, 将经常一起读取的行存储到一起 不要把业务发生时间直接作为rowkey,导 致全部存储到一个r

7、egionserver中 可以在时间戳前面加上散列值,设计成“散 列值+时间戳”的形式,HBase表ColumnFamily,HBase中的每个列,都归属某个列族 列族是表元数据的一部分(而列不是),必须在使用 之前定义 列是在插入数据时动态增加的 列名都以列族作为前缀,即列族:标签,如info: qq , info:weibo 都属于info这个列族 物理上同列族数据存储在一起 最好将具备共同IO特性的列放在一个列族中,HBase表Cell 通过行键和列唯一确定的一个存储单元 Cell中可能包含多个版本的数据 Cell中数据是没有类型的,全部是字节码形 式存储,HBase表Version,每

8、行数据可以有多个版本 Version默认是TimeStamp(精确到毫秒的 当前系统时间),由HBase 在数据写入时 自动赋值 Version也可以由客户显式赋值 不同Version的数据按Version倒序排序,即 最新的数据排在最前面 获取数据时不指定Version,默认取最新的 数据,HBase表Version,数据存在过多版本造成存储负担 HBase提供两种数据版本回收方式 保存数据的最后n个版本 保存最近一段时间内的版本(如最近七天) 用户可以针对每个列族进行设置,HBase表,表定义时,应指定表名、列族 表中列族固定,列名可以在插入数据时指定 行健,列族+列名可以指定一个表中的Cell 一个Cell可以存储多版本数据 表中所有信息都是二进制形式存储 没有关系表中那么多数据类型 数据类型在程序中进行维护,问题,Rowkey类似于关系型数据库中的什么 HBase中的列和关系型数据库中的列有什么不同,回顾,HBase介绍 HBase在hadoop生态中的位置 HBase优缺点 HBase体系结构 HBase表逻辑结构,谢谢!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号