分布式数据库HBase

上传人：公**** 文档编号：469719568 上传时间：2023-04-29 格式：DOC 页数：7 大小：241.01KB

返回下载相关举报

分布式数据库HBase_第1页

第1页 / 共7页

分布式数据库HBase_第2页

第2页 / 共7页

分布式数据库HBase_第3页

第3页 / 共7页

分布式数据库HBase_第4页

第4页 / 共7页

分布式数据库HBase_第5页

第5页 / 共7页

点击查看更多>>

资源描述

《分布式数据库HBase》由会员分享，可在线阅读，更多相关《分布式数据库HBase（7页珍藏版）》请在金锄头文库上搜索。

1、HBase概念HBase Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookee

2、per作为对应。上图描述了Hadoop EcoSystem中的各层系统，其中HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。此外，Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。HBase访问接口1. Native Java API，最常规和高效的访问方式，

3、适合Hadoop MapReduce Job并行批处理HBase表数据2. HBase Shell，HBase的命令行工具，最简单的接口，适合HBase管理使用3. Thrift Gateway，利用Thrift序列化技术，支持C+，PHP，Python等多种语言，适合其他异构系统在线访问HBase表数据4. REST Gateway，支持REST 风格的Http API访问HBase, 解除了语言限制5. Pig，可以使用Pig Latin流式编程语言来操作HBase中的数据，和Hive类似，本质最终也是编译成MapReduce Job来处理HBase表数据，适合做数据统计6. Hive，当

4、前Hive的Release版本尚没有加入对HBase的支持，但在下一个版本Hive 0.7.0中将会支持HBase，可以使用类似SQL语言来访问HBaseHBase数据模型Table & Column FamilyRow KeyTimestampColumn FamilyURIParserr1t3title=天天特价t2host=t1r2t5content=每天t4host=Row Key: 行键，Table的主键，Table中的记录按照Row Key排序Timestamp: 时间戳，每次数据操作对应的时间戳，可以看作是数据的version numberColumn Family：列簇，Tab

5、le在水平方向有一个或者多个Column Family组成，一个Column Family中可以由任意多个Column组成，即Column Family支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型转换。Table & Region当Table随着记录数不断增加而变大后，会逐渐分裂成多份splits，成为regions，一个region由startkey,endkey)表示，不同的region会被Master分配给相应的RegionServer进行管理：-ROOT- & .META. TableHBase中有两张特殊的Table，

6、-ROOT-和.META. .META.：记录了用户表的Region信息，.META.可以有多个regoin -ROOT-：记录了.META.表的Region信息，-ROOT-只有一个region Zookeeper中记录了-ROOT-表的locationClient访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问，中间需要多次网络操作，不过client端会做cache缓存。MapReduce on HBase在HBase系统上运行批处理运算，最方便和实用的模型依然是MapReduce，如下图：HBase Tabl

7、e和Region的关系，比较类似HDFS File和Block的关系，HBase提供了配套的TableInputFormat和TableOutputFormat API，可以方便的将HBase Table作为Hadoop MapReduce的Source和Sink，对于MapReduce Job应用开发人员来说，基本不需要关注HBase系统自身的细节。HBase系统架构ClientHBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信，对于管理类操作，Client与HMaster进行RPC；对于数据读写类操作，Client与HRegionServ

8、er进行RPCZookeeperZookeeper Quorum中除了存储了-ROOT-表的地址和HMaster的地址，HRegionServer也会把自己以Ephemeral方式注册到 Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的健康状态。此外，Zookeeper也避免了HMaster的单点问题，见下文描述HMasterHMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行，HMaster在功能上主要负责Table和Region的管理工作：1. 管理

9、用户对Table的增、删、改、查操作2. 管理HRegionServer的负载均衡，调整Region分布3. 在Region Split后，负责新Region的分配4. 在HRegionServer停机后，负责失效HRegionServer 上的Regions迁移HRegionServerHRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。 HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region，HRegion中由多个HStore组成。每个HStore对应了Table中的

10、一个Column Family的存储，可以看出每个Column Family其实就是一个集中的存储单元，因此最好将具备共同IO特性的column放在一个Column Family中，这样最高效。 HStore存储是HBase存储的核心了，其中由两部分组成，一部分是MemStore，一部分是StoreFiles。MemStore是 Sorted Memory Buffer，用户写入的数据首先会放入MemStore，当MemStore满了以后会Flush成一个StoreFile（底层实现是HFile），当StoreFile文件数量增长到一定阈值，会触发Compact合并操作，将多个StoreFi

11、les合并成一个StoreFile，合并过程中会进行版本合并和数据删除，因此可以看出HBase其实只有增加数据，所有的更新和删除操作都是在后续的compact过程中进行的，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。当StoreFiles Compact后，会逐步形成越来越大的StoreFile，当单个StoreFile大小超过一定阈值后，会触发Split操作，同时把当前 Region Split成2个Region，父Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer 上，使得原先1个Reg

12、ion的压力得以分流到2个Region上。下图描述了Compaction和Split的过程：在理解了上述HStore的基本原理后，还必须了解一下HLog的功能，因为上述的HStore在系统正常工作的前提下是没有问题的，但是在分布式系统环境中，无法避免系统出错或者宕机，因此一旦HRegionServer意外退出，MemStore中的内存数据将会丢失，这就需要引入HLog了。每个HRegionServer中都有一个HLog对象，HLog是一个实现Write Ahead Log的类，在每次用户操作写入MemStore的同时，也会写一份数据到HLog文件中（HLog文件格式见后续），HLog文件定

13、期会滚动出新的，并删除旧的文件（已持久化到StoreFile中的数据）。当HRegionServer意外终止后，HMaster会通过Zookeeper感知到，HMaster首先会处理遗留的 HLog文件，将其中不同Region的Log数据进行拆分，分别放到相应region的目录下，然后再将失效的region重新分配，领取到这些region的HRegionServer在Load Region的过程中，会发现有历史HLog需要处理，因此会Replay HLog中的数据到MemStore中，然后flush到StoreFiles，完成数据恢复。HBase存储格式HBase中的所有数据文件都存储在

14、Hadoop HDFS文件系统上，主要包括上述提出的两种文件类型：1. HFile， HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile2. HLog File，HBase中WAL（Write Ahead Log）的存储格式，物理上是Hadoop的Sequence FileHFile下图是HFile的存储格式：首先HFile文件是不定长的，长度固定的只有其中的两块：Trailer和FileInfo。正如图中所示的，Trailer中有指针指向其他数据块的起始点。

15、File Info中记录了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等。Data Index和Meta Index块记录了每个Data块和Meta块的起始点。 Data Block是HBase I/O的基本单元，为了提高效率，HRegionServer中有基于LRU的Block Cache机制。每个Data块的大小可以在创建一个Table的时候通过参数指定，大号的Block有利于顺序Scan，小号Block利于随机查询。每个Data块除了开头的Magic以外就是一个个KeyValue对拼接而成, Magic内容就是一些随机数字，目的是防止数据损坏。后面会详细介绍每个KeyValue对的内部构造。 HFile里面的每个KeyValue对就是一个简单的byte数组。但是这个byte数组里面包含了很多项，并且有固定的结构。我们来看看里面的具体结构：开始是两个固定长度的数值，分别表示Key的长度和Value的长度。紧接着是Key，开始是固定长度的数值，表示RowKey的长度，紧接着是 RowKey，然后是固定长度的数值，表示Family的长度，然后是Family，接

展开阅读全文

相关资源

高二语文唐诗宋词选读教案望月怀远苏教版选修通用

高二语文唐诗宋词选读教案望月怀远苏教版选修通用

环卫设备及环卫车配套件生产线项目资金申请报告写作模板

环卫设备及环卫车配套件生产线项目资金申请报告写作模板

谈幼儿的德育教育

谈幼儿的德育教育

毕业生实习自我鉴定表自我鉴定

毕业生实习自我鉴定表自我鉴定

华债网田洋民营资产管理公司眼里的中国债权市场

华债网田洋民营资产管理公司眼里的中国债权市场

新版202x年生育保险待遇最新政策解读汇编

新版202x年生育保险待遇最新政策解读汇编

大班区域活动：五子棋

大班区域活动：五子棋

【苏教版】六年级下册数学第6单元大树有多高习题

【苏教版】六年级下册数学第6单元大树有多高习题

宁波大学土木工程施工考试题库与答案

宁波大学土木工程施工考试题库与答案

制造部管理评审报告(修改)

制造部管理评审报告(修改)

相关搜索

当前位置：首页 > 机械/制造/汽车 > 汽车技术

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号