hadoop+hive+hbase分享－金锄头文库

资源描述

《hadoop+hive+hbase分享》由会员分享，可在线阅读，更多相关《hadoop+hive+hbase分享（33页珍藏版）》请在金锄头文库上搜索。

1、Hadoop分享孙龙海 3G数据统计组讲解提纲 Hadoop框架 Hadoop周边框架Hadoop框架Hadoop框架Master同时是NameNode,在runtime时会生成JobTracker Slave同时是DataNode，在runtime时会生成TaskerTrackerMaster与Slave之间通过RPC互相通讯，没隔一定时间进行一次心跳，如果某一个salve在定期时间没有发回心跳，则认为没有存活，进行相应处理Hadoop框架Hadoop 特点提供高性能运算和分布式文件体统如何提供高性能运算？生成Map-Reduce程序Hadoop框架1 客户端提交任务给JobTracke

2、r 2 JobTracker与NameNode交谈确定data所在的位置 3 JobTracker确定与data最近的位置的服务器生成TaskTracker 4 JobTracker把任务Task分配给TaskTracker执行计算任务在TaskTracker执行任务期间会被监视， TaskTracker定时向JobTracker 发送心跳，如果没有发送心跳，则会把任务分配给其它TaskTracker，甚至会把宕掉的TaskTracker拉入黑名单。如果执行完毕， JobTracker会更新 status，把数据给客户端Map-Reduce运行流程：JobJobTrackerNamenode

3、DataNodeTaskTrackerHadoop框架分布式文件系统结构图Hadoop框架Hadoop框架HDFS 是 master/slave 结构的. 一个 HDFS 集群只有一个NameNode, master 管理着分布式文件系统的命名空间和访问规则。一个NameNode 有很多个 DataNodes,目前是一个 Cluster可以有2000个左右的DataNode。一个文件会给分拆成很多个block，每个block会被replicated到不同的server上，可以用replicationnumber来配置复制的个数，一般来讲是3个Hadoop框架Hadoop周边框架HiveH

4、IVE是什么hive是一个基于hadoop的数据仓库。使用hadoop-hdfs作为数据存储层；提供类似SQL的语言（HQL），通过hadoop-mapreduce完成数据计算；通过HQL语言提供使用者部分传统RDBMS一样的表格查询特性和分布式存储计算特性。类似的系统有yahoo的pig，google的sawzall，microsoft的DryadLINQ。Hadoop周边框架Hive架构Hadoop周边框架Hive应用架构Hadoop周边框架Hive操作界面：CLI，Web，Thrift driver：hive系统将用户操作转化为mapreduce计算的模块（重点） hadoop：hd

5、fs+mapreduce metastore：存储元数据(可以用mysql，默认是内存数据库Derby)CLI(shell)类似于mysql启动客户端后的执行命令Hadoop周边框架Hive语言一般有DDL和DML两种：hive采用DDL方式和少量DML方式，类似sql；DDL：data definition language（数据定义语言）create/alter/droptable/view/partition例如：CREATE TABLE logtest1 (timeField STRING, url STRING) PARTITIONED BY (dateField STRING) R

6、OW FORMAT DELIMITED FIELDS TERMINATED BY |;CREATE EXTERNAL TABLE log_test(timeField string, url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY | LOCATION /log_sunlonghai/test;和hbase结合的例句：CREATE TABLE hbase_table_1(key int, value string) STORED BY org.apache.hadoop.hive.hbase.HBaseStorageHandler W

7、ITH SERDEPROPERTIES (“hbase.columns.mapping“ = “:key,cf1:val“) TBLPROPERTIES (“hbase.table.name“ = “xyz“);Hadoop周边框架HiveDML：data manipulation language（数据操作语言）Select * from tablename例如：select * from pokes;会把DML语句转换成hadoop的mapreduce程序，进行计算Hive 加载数据LOAD DATA LOCAL INPATH /opt/hive-0.9.0/examples/files/

8、kv1.txt OVERWRITE INTO TABLE pokes;把数据从指定文件夹下加载到数据库表，但是不检查文件格式，当进行运算的时候才会检查文件格式Hadoop周边框架HiveWeb界面连接控制台 http:/10.3.17.21:9998/hwi/Hadoop周边框架HbaseHBase简介 HBase Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储

9、系统，HBase利用Hadoop HDFS作为其文件存储系统； Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用 Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。Hadoop周边框架HbaseHbase Table 简单认识架构Hadoop周边框架HbaseHadoop周边框架Hbase表操作流程HBase中有两张特殊的Table，-ROOT-和.META.META.：记录了用户表的Region信息，.META.可以有多个regoin-R

10、OOT-：记录了.META.表的Region信息，-ROOT-只有一个regionZookeeper中记录了-ROOT-表的locationHadoop周边框架HbaseClientHBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信，对于管理类操作，Client与HMaster进行RPC；对于数据读写类操作，Client与HRegionServer进行RPCZookeeperZookeeper 中除了存储了-ROOT-表的地址和HMaster的地址， HRegionServer也会把自己注册到 Zookeeper中，使得HMaster可以

11、随时感知到各个HRegionServer的健康状态。Hadoop周边框架HbaseHMasterHMaster没有单点问题，HBase中可以启动多个HMaster，通过 Zookeeper的Master Election机制保证总有一个Master运行，HMaster在功能上主要负责Table和Region的管理工作：1. 管理用户对Table的增、删、改、查操作2. 管理HRegionServer的负载均衡，调整Region分布3. 在Region Split后，负责新Region的分配4. 在HRegionServer停机后，负责失效HRegionServer 上的Regions 迁移

12、Hadoop周边框架HbaseHRegionServerHRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。Hadoop周边框架sqoop Sqoop是一个数据的导入导出工具，利用脚本可以把RDBMS的数据库导到 HIVE或者HBASE中，也可以把HIVE或者HBASE中的数据导入到RDBMS中用hive或者hbase统计完结果之后可以先存入到本地的数据库中，然后用 Sqoop导出到RDBMS(例如mysql)中，web应用就可以访问数据库，展示数据了 Sqoop在整个hadoop生态应用中的位置：Haoop周边框架-Chukwa

13、Chukwa简介chukwa 是一个开源的用于监控大型分布式系统的数据收集系统，它包含5个部分1. agents : 负责采集最原始的数据,并发送给 collectors，它包含 adaptors ， adaptor直接采集数据的接口和工具,一个 agent 可以管理多个 adaptor 的数据采集2. collectors : 负责收集 agents 收送来的数据,并定时写入目的地包括磁盘，分布式文件系统或者hbase3. ETL Processes(Extraction, Transformation, and Load) : 解析和压缩数据4. Data Analytics Scri

14、pts :数据解析脚本，用脚本来进一步解析粗粒度的数据，满足细粒度数据的需求5. HICC : 负责数据的展示，主要是展示运行时的性能指数Haoop周边框架-ChukwaHaoop周边框架-ChukwaHICCHaoop周边框架-ChukwaHICCHaoop周边框架-ChukwaChukwa可以作为收集日志的中间件，前端可以作为收集日志的agent，中间可以架设一个或者多个collector，collector可以对数据做粗粒度的平行处理，然后把数据存储在hdfs上或者是hbase里面，定期执行mapreduce，进行细粒度的数据分析，可以每隔一段时间（一分钟或者五分钟或者适合的时间段），进行细粒度的日志分析，以达到实时的效果Haoop周边框架-FlumeFlume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方( 可定制)的能力。与Chukwa相比， Flume 定制性开发量大。 Chukwa有HICC功能，在web页面可以实时查看系统情况， Flume没有但是FLUME的架构简单，与Chukwa相比属于轻量级的，Haoop周边框架-Flume

展开阅读全文