Hadoop数据收集与入库系统Flume与Sqoop

资源描述

《Hadoop数据收集与入库系统Flume与Sqoop》由会员分享，可在线阅读，更多相关《Hadoop数据收集与入库系统Flume与Sqoop（49页珍藏版）》请在金锄头文库上搜索。

1、小象科技让你的数据产生价值 Hadoop数据收集与入库系统Flume与 Sqoop 讲师：董西成小象科技让你的数据产生价值主要内容 1. 背景介绍 2. Hadoop数据收集系统 3. 传统数据库与 Hadoop间数据同步 4. 总结小象科技让你的数据产生价值主要内容 1. 背景介绍 2. Hadoop数据收集系统 3. 传统数据库与 Hadoop间数据同步 4. 总结小象科技让你的数据产生价值背景介绍 Hadoop提供了一个中央化的存储系统：有利于进行集中式的数据分析与数据共享 Hadoop对存储格式没有要求：用户访问日志；产品信息网页数据等如何将数据存入 H

2、adoop：数据分散在各个离散的设备上数据保存在传统的存储设备和系统中小象科技让你的数据产生价值常见的两种数据来源分散的数据源：机器产生的数据；用户访问日志 ; 用户购买日志 ; 传统系统中的数据：传统关系型数据库 :MySQL、 Oracle等 ; 磁盘阵列 ; 磁带 . 小象科技让你的数据产生价值 Hadoop收集和入库基本要求分布式数据源多样化数据源分散可靠性保证不丢数据允许丢部分数据可扩展数据源可能会不断增加通过并行提高性能小象科技让你的数据产生价值常见的 Hadoop收集与入库系统数据收集 Flume Kafka Scribe 传统数据库

3、与 Hadoop同步 Sqoop 小象科技让你的数据产生价值主要内容 1. 背景介绍 2. Hadoop数据收集系统 3. 传统数据库与 Hadoop间数据同步 4. 总结小象科技让你的数据产生价值 Hadoop数据收集系统 Flume Flume OG OG：“ Original Generation” 0.9.x或 cdh3以及更早版本由 agent、 collector、 master等组件构成 Flume NG NG：“ Next/New Generation” 1.x或 cdh4以及之后的版本由 Agent、 Client等组件构成为什么要推出 NG版本精简代码架

4、构简化小象科技让你的数据产生价值 Flume OG基本架构小象科技让你的数据产生价值 Flume OG基本架构小象科技让你的数据产生价值 Agent 用于采集数据数据流产生的地方通常由 source和 sink两部分组成 Source用于获取数据，可从文本文件， syslog， HTTP等获取数据； Sink将 Source获得的数据进一步传输给后面的 Collector。 Flume自带了很多 source和 sink实现 syslogTcp(5140) | agentSink(localhost,35853) tail(/etc/services) | agentSink(

5、localhost,35853) 小象科技让你的数据产生价值 Collector 汇总多个 Agent结果将汇总结果导入后端存储系统，比如 HDFS， HBase Flume自带了很多 collector实现 collectorSource(35853) | console CollectorSource(35853) | collectorSink(file:/tmp/flume/collected, syslog); collectorSource(35853) | collectorSink(hdfs:/namenode/user/flume/ ,syslog); 小象科技让你的数

6、据产生价值 Agent与 Collector对应关系小象科技让你的数据产生价值 Agent与 Collector对应关系可手动指定，也可自动匹配自动匹配的情况下， master会平衡 collector之间的负载。小象科技让你的数据产生价值问题：为什么引入 Collector？对 Agent数据进行汇总，避免产生过多小文件；避免多个 agent连接对 Hadoop造成过大压力；中间件，屏蔽 agent和 hadoop间的异构性。小象科技让你的数据产生价值 Master 管理协调 agent 和 collector的配置信息； Flume集群的控制器；跟踪数据流的最

7、后确认信息，并通知 agent；通常需配置多个 master以防止单点故障；借助 zookeeper管理管理多 Master。小象科技让你的数据产生价值容错机制小象科技让你的数据产生价值三种可靠性级别 agentE2ESink(machine,port) agent收到确认消息才认为数据发送成功，否则重试 . agentDFOSink(machine,port) 当 agent发现在 collector操作失败的时候， agent写入到本地硬盘上，当collctor恢复后，再重新发送数据。 agentBESink(machine,port) 效率最好， agent不写入到

8、本地任何数据，如果在 collector 发现处理失败，直接删除消息。小象科技让你的数据产生价值构建基于 Flume的数据收集系统 Agent和 Collector均可以动态配置可通过命令行或 Web界面配置命令行配置在已经启动的 master节点上，依次输入 ”flume shell”connect localhost ” 如执行 exec config a1 tailDir(“/data/logfile”) agentSink Web界面选中节点，填写 source、 sink等信息小象科技让你的数据产生价值常用架构举例拓扑 1 agentA : tail(“/

9、ngnix/logs”) | agentSink(collector,35853); agentB : tail(“/ngnix/logs”) | agentSink(collector,35853); agentC : tail(“/ngnix/logs”) | agentSink(collector,35853); agentD : tail(“/ngnix/logs”) | agentSink(collector,35853); agentE : tail(“/ngnix/logs”) | agentSink(collector,35853); agentF : tail(“/ngnix

10、/logs”) | agentSink(collector,35853); collector : collectorSource(35853) | collectorSink(hdfs:/namenode/flume/,srcdata); 小象科技让你的数据产生价值常用架构举例拓扑 2 agentA : src | agentE2ESink(collectorA,35853); agentB : src | agentE2ESink(collectorA,35853); agentC : src | agentE2ESink(collectorB,35853); agentD : sr

11、c | agentE2ESink(collectorB,35853); agentE : src | agentE2ESink(collectorC,35853); agentF : src | agentE2ESink(collectorC,35853); collectorA : collectorSource(35853) | collectorSink(hdfs:/.,src); collectorB : collectorSource(35853) | collectorSink(hdfs:/.,src); collectorC : collectorSource(35853) |

12、collectorSink(hdfs:/.,src); 小象科技让你的数据产生价值常用架构举例拓扑 3 agentA : src | agentE2EChain(collectorA:35853,collectorB:35853); agentB : src | agentE2EChain(collectorA:35853,collectorC:35853); agentC : src | agentE2EChain(collectorB:35853,collectorA:35853); agentD : src | agentE2EChain(collectorB:35853,coll

13、ectorC:35853); agentE : src | agentE2EChain(collectorC:35853,collectorA:35853); agentF : src | agentE2EChain(collectorC:35853,collectorB:35853); collectorA : collectorSource(35853) | collectorSink(hdfs:/.,src); collectorB : collectorSource(35853) | collectorSink(hdfs:/.,src); collectorC : collectorS

14、ource(35853) | collectorSink(hdfs:/.,src); 小象科技让你的数据产生价值主要内容 1. 背景介绍 2. Hadoop数据收集系统 3. 传统数据库与 Hadoop间数据同步 4. 总结小象科技让你的数据产生价值 Sqoop是什么 Sqoop： SQL-to-Hadoop 连接传统关系型数据库和 Hadoop 的桥梁把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS HBase 和 Hive) 中；把数据从 Hadoop 系统里抽取并导出到关系型数据库里。利用 MapReduce加快数据传输速度批处理方式进行数据传输小象科技让你的数据产生价值 Sqoop优势高效、可控地利用资源任务并行度，超时时间等数据类型映

展开阅读全文