hadoop+hive+hbase分享

上传人:飞*** 文档编号:48803183 上传时间:2018-07-20 格式:PPT 页数:33 大小:1.34MB
返回 下载 相关 举报
hadoop+hive+hbase分享_第1页
第1页 / 共33页
hadoop+hive+hbase分享_第2页
第2页 / 共33页
hadoop+hive+hbase分享_第3页
第3页 / 共33页
hadoop+hive+hbase分享_第4页
第4页 / 共33页
hadoop+hive+hbase分享_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《hadoop+hive+hbase分享》由会员分享,可在线阅读,更多相关《hadoop+hive+hbase分享(33页珍藏版)》请在金锄头文库上搜索。

1、Hadoop分享孙龙海 3G数据统计组讲解提纲 Hadoop框架 Hadoop周边框架Hadoop框架Hadoop框架Master同时是NameNode,在runtime时会生成JobTracker Slave同时是DataNode,在runtime时会生成TaskerTrackerMaster与Slave之间通过RPC互相通讯,没隔一定时间进行一次心跳,如果 某一个salve在定期时间没有发回心跳,则认为没有存活,进行相应处理Hadoop框架Hadoop 特点提供高性能运算和分布式文件体统 如何提供高性能运算?生成Map-Reduce程序Hadoop框架1 客户端提交任务给JobTracke

2、r 2 JobTracker与NameNode交谈确定data所在的位置 3 JobTracker确定与data最近的位置的服务器生成TaskTracker 4 JobTracker把任务Task分配给TaskTracker执行计算任务在TaskTracker执行任务期间会被监视, TaskTracker定时向JobTracker 发送心跳,如果没有发送心跳,则会把任务分配给其它TaskTracker,甚至 会把宕掉的TaskTracker拉入黑名单。如果执行完毕, JobTracker会更新 status,把数据给客户端Map-Reduce运行流程:JobJobTrackerNamenode

3、DataNodeTaskTrackerHadoop框架分布式文件系统结构图Hadoop框架Hadoop框架HDFS 是 master/slave 结构的. 一个 HDFS 集群 只有一个NameNode, master 管理着分布式文件系统的命名空间和访问规则。一个NameNode 有很多个 DataNodes,目前是一个 Cluster可以有2000个左右的DataNode。一个文件会给分拆成很多 个block,每个block会被replicated到不同的server上,可 以用replicationnumber来配置复制的个数,一般来讲是3个Hadoop框架Hadoop周边框架HiveH

4、IVE是什么hive是一个基于hadoop的数据仓库。使用hadoop-hdfs作为数据存储层;提供类 似SQL的语言(HQL),通过hadoop-mapreduce完成数据计算;通过HQL语言提 供使用者部分传统RDBMS一样的表格查询特性和分布式存储计算特性。类似的系统有yahoo的pig,google的sawzall,microsoft的DryadLINQ。Hadoop周边框架Hive架构Hadoop周边框架Hive应用架构Hadoop周边框架Hive操作界面:CLI,Web,Thrift driver:hive系统将用户操作转化为mapreduce计算的模块(重点) hadoop:hd

5、fs+mapreduce metastore:存储元数据(可以用mysql,默认是内存数据库Derby)CLI(shell)类似于mysql启动客户端后的执行命令Hadoop周边框架Hive语言一般有DDL和DML两种:hive采用DDL方式和少量DML方式,类似sql;DDL:data definition language(数据定义语言)create/alter/droptable/view/partition例如:CREATE TABLE logtest1 (timeField STRING, url STRING) PARTITIONED BY (dateField STRING) R

6、OW FORMAT DELIMITED FIELDS TERMINATED BY |;CREATE EXTERNAL TABLE log_test(timeField string, url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY | LOCATION /log_sunlonghai/test;和hbase结合的例句:CREATE TABLE hbase_table_1(key int, value string) STORED BY org.apache.hadoop.hive.hbase.HBaseStorageHandler W

7、ITH SERDEPROPERTIES (“hbase.columns.mapping“ = “:key,cf1:val“) TBLPROPERTIES (“hbase.table.name“ = “xyz“);Hadoop周边框架HiveDML:data manipulation language(数据操作语言)Select * from tablename例如:select * from pokes;会把DML语句转换成hadoop的mapreduce程序,进行计算Hive 加载数据LOAD DATA LOCAL INPATH /opt/hive-0.9.0/examples/files/

8、kv1.txt OVERWRITE INTO TABLE pokes;把数据从指定文件夹下加载到数据库表,但是不检查文件格式,当进行运算的时候才会检查文件格式Hadoop周边框架HiveWeb界面连接控制台 http:/10.3.17.21:9998/hwi/Hadoop周边框架HbaseHBase简介 HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩 的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结 构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作 为其文件存储

9、系统,HBase利用Hadoop HDFS作为其文件存储系统; Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用 Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。Hadoop周边框架HbaseHbase Table 简单认识架构Hadoop周边框架HbaseHadoop周边框架Hbase表操作流程HBase中有两张特殊的Table,-ROOT-和.META.META.:记录了用户表的Region信息,.META.可以有多个regoin-R

10、OOT-:记录了.META.表的Region信息,-ROOT-只有一个regionZookeeper中记录了-ROOT-表的locationHadoop周边框架HbaseClientHBase Client使用HBase的RPC机制与HMaster和HRegionServer进 行通信,对于管理类操作,Client与HMaster进行RPC;对于数据读写类操 作,Client与HRegionServer进行RPCZookeeperZookeeper 中除了存储了-ROOT-表的地址和HMaster的地址, HRegionServer也会把自己注册到 Zookeeper中,使得HMaster可以

11、随时 感知到各个HRegionServer的健康状态。Hadoop周边框架HbaseHMasterHMaster没有单点问题,HBase中可以启动多个HMaster,通过 Zookeeper的Master Election机制保证总有一个Master运行,HMaster在 功能上主要负责Table和Region的管理工作:1. 管理用户对Table的增、删、改、查操作2. 管理HRegionServer的负载均衡,调整Region分布3. 在Region Split后,负责新Region的分配4. 在HRegionServer停机后,负责失效HRegionServer 上的Regions 迁移

12、Hadoop周边框架HbaseHRegionServerHRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数 据,是HBase中最核心的模块。Hadoop周边框架sqoop Sqoop是一个数据的导入导出工具,利用脚本可以把RDBMS的数据库导到 HIVE或者HBASE中,也可以把HIVE或者HBASE中的数据导入到RDBMS中用hive或者hbase统计完结果之后可以先存入到本地的数据库中,然后用 Sqoop导出到RDBMS(例如mysql)中,web应用就可以访问数据库,展示 数据了 Sqoop在整个hadoop生态应用中的位置:Haoop周边框架-Chukwa

13、Chukwa简介chukwa 是一个开源的用于监控大型分布式系统的数据收集系统,它包含5个 部分1. agents : 负责采集最原始的数据,并发送给 collectors,它包含 adaptors , adaptor直接采集数据的接口和工具,一个 agent 可以管理多个 adaptor 的数据采集2. collectors : 负责收集 agents 收送来的数据,并定时写入目的地包括磁盘,分布式 文件系统或者hbase3. ETL Processes(Extraction, Transformation, and Load) : 解析和压缩数据4. Data Analytics Scri

14、pts :数据解析脚本,用脚本来进一步解析粗粒度的数据,满 足细粒度数据的需求5. HICC : 负责数据的展示,主要是展示运行时的性能指数Haoop周边框架-ChukwaHaoop周边框架-ChukwaHICCHaoop周边框架-ChukwaHICCHaoop周边框架-ChukwaChukwa可以作为收集日志的中间件,前端可以作为收集日志的agent,中间可以架设 一个或者多个collector,collector可以对数据做粗粒度的平行处理,然后把数据存储 在hdfs上或者是hbase里面,定期执行mapreduce,进行细粒度的数据分析,可以每 隔一段时间(一分钟或者五分钟或者适合的时间段),进行细粒度的日志分析,以达 到实时的效果Haoop周边框架-FlumeFlume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送 方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方( 可定制)的能力。 与Chukwa相比, Flume 定制性开发量大。 Chukwa有HICC功能,在web页面可以实时查看系统情况, Flume没有 但是FLUME的架构简单,与Chukwa相比属于轻量级的,Haoop周边框架-Flume

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号