Hadoop数据收集与入库系统Flume与Sqoop

上传人:豆浆 文档编号:11049092 上传时间:2017-09-02 格式:PDF 页数:49 大小:1.16MB
返回 下载 相关 举报
Hadoop数据收集与入库系统Flume与Sqoop_第1页
第1页 / 共49页
Hadoop数据收集与入库系统Flume与Sqoop_第2页
第2页 / 共49页
Hadoop数据收集与入库系统Flume与Sqoop_第3页
第3页 / 共49页
Hadoop数据收集与入库系统Flume与Sqoop_第4页
第4页 / 共49页
Hadoop数据收集与入库系统Flume与Sqoop_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《Hadoop数据收集与入库系统Flume与Sqoop》由会员分享,可在线阅读,更多相关《Hadoop数据收集与入库系统Flume与Sqoop(49页珍藏版)》请在金锄头文库上搜索。

1、小象科技 让你的数据产生价值 Hadoop数据收集与入库系统Flume与 Sqoop 讲师:董西成 小象科技 让你的数据产生价值 主要内容 1. 背景介绍 2. Hadoop数据收集系统 3. 传统数据库与 Hadoop间数据同步 4. 总结 小象科技 让你的数据产生价值 主要内容 1. 背景介绍 2. Hadoop数据收集系统 3. 传统数据库与 Hadoop间数据同步 4. 总结 小象科技 让你的数据产生价值 背景介绍 Hadoop提供 了一个中央化的存储系统: 有利于进行集中式的数据分析与数据共享 Hadoop对存储格式没有要求: 用户访问日志; 产品信息 网页数据等 如何将数据存入 H

2、adoop: 数据分散在各个离散的设备上 数据保存在传统的存储设备和系统中 小象科技 让你的数据产生价值 常见的两种数据来源 分散的数据源: 机器产生的数据; 用户访问日志 ; 用户购买日志 ; 传统系统中的数据: 传统关系型数据库 :MySQL、 Oracle等 ; 磁盘阵列 ; 磁带 . 小象科技 让你的数据产生价值 Hadoop收集和入库基本要求 分布式 数据源多样化 数据源分散 可靠性 保证不丢数据 允许丢部分数据 可扩展 数据源可能会不断增加 通过并行提高性能 小象科技 让你的数据产生价值 常见的 Hadoop收集与入库系统 数据收集 Flume Kafka Scribe 传统数据库

3、与 Hadoop同步 Sqoop 小象科技 让你的数据产生价值 主要内容 1. 背景介绍 2. Hadoop数据收集系统 3. 传统数据库与 Hadoop间数据同步 4. 总结 小象科技 让你的数据产生价值 Hadoop数据收集 系统 Flume Flume OG OG:“ Original Generation” 0.9.x或 cdh3以及更早版本 由 agent、 collector、 master等组件构成 Flume NG NG:“ Next/New Generation” 1.x或 cdh4以及之后的版本 由 Agent、 Client等组件构成 为什么要推出 NG版本 精简代码 架

4、构简化 小象科技 让你的数据产生价值 Flume OG基本架构 小象科技 让你的数据产生价值 Flume OG基本架构 小象科技 让你的数据产生价值 Agent 用于采集数据 数据流产生的地方 通常由 source和 sink两部分组成 Source用于获取数据,可从文本文件, syslog, HTTP等获取数据; Sink将 Source获得的数据进一步传输给后面的 Collector。 Flume自带了很多 source和 sink实现 syslogTcp(5140) | agentSink(localhost,35853) tail(/etc/services) | agentSink(

5、localhost,35853) 小象科技 让你的数据产生价值 Collector 汇总多个 Agent结果 将汇总结果导入后端存储系统,比如 HDFS, HBase Flume自带了很多 collector实现 collectorSource(35853) | console CollectorSource(35853) | collectorSink(file:/tmp/flume/collected, syslog); collectorSource(35853) | collectorSink(hdfs:/namenode/user/flume/ ,syslog); 小象科技 让你的数

6、据产生价值 Agent与 Collector对应关系 小象科技 让你的数据产生价值 Agent与 Collector对应关系 可手动指定,也可自动匹配 自动匹配的情况下, master会平衡 collector之间的负载。 小象科技 让你的数据产生价值 问题:为什么引入 Collector? 对 Agent数据进行汇总,避免产生过多小文件; 避免多个 agent连接对 Hadoop造成过大压力 ; 中间 件,屏蔽 agent和 hadoop间的异构性。 小象科技 让你的数据产生价值 Master 管理协调 agent 和 collector的配置信息; Flume集群的控制器; 跟踪数据流的最

7、后确认信息,并通知 agent; 通常需配置多个 master以防止单点故障; 借助 zookeeper管理管理多 Master。 小象科技 让你的数据产生价值 容错机制 小象科技 让你的数据产生价值 三 种可靠性级别 agentE2ESink(machine,port) agent收到确认消息才认为数据发送成功,否则重试 . agentDFOSink(machine,port) 当 agent发现在 collector操作失败的时候, agent写入到本地硬盘上, 当collctor恢复后,再重新 发送数据。 agentBESink(machine,port) 效率最好, agent不写入到

8、本地任何数据,如果在 collector 发现处理失败,直接删除消息 。 小象科技 让你的数据产生价值 构建基于 Flume的数据收集系统 Agent和 Collector均可以动态配置 可通过命令行或 Web界面配置 命令行配置 在已经启动的 master节点 上, 依次输入 ”flume shell”connect localhost ” 如执行 exec config a1 tailDir(“/data/logfile”) agentSink Web界面 选中节点,填写 source、 sink等信息 小象科技 让你的数据产生价值 常用架构举例 拓扑 1 agentA : tail(“/

9、ngnix/logs”) | agentSink(collector,35853); agentB : tail(“/ngnix/logs”) | agentSink(collector,35853); agentC : tail(“/ngnix/logs”) | agentSink(collector,35853); agentD : tail(“/ngnix/logs”) | agentSink(collector,35853); agentE : tail(“/ngnix/logs”) | agentSink(collector,35853); agentF : tail(“/ngnix

10、/logs”) | agentSink(collector,35853); collector : collectorSource(35853) | collectorSink(hdfs:/namenode/flume/,srcdata); 小象科技 让你的数据产生价值 常用架构举例 拓扑 2 agentA : src | agentE2ESink(collectorA,35853); agentB : src | agentE2ESink(collectorA,35853); agentC : src | agentE2ESink(collectorB,35853); agentD : sr

11、c | agentE2ESink(collectorB,35853); agentE : src | agentE2ESink(collectorC,35853); agentF : src | agentE2ESink(collectorC,35853); collectorA : collectorSource(35853) | collectorSink(hdfs:/.,src); collectorB : collectorSource(35853) | collectorSink(hdfs:/.,src); collectorC : collectorSource(35853) |

12、collectorSink(hdfs:/.,src); 小象科技 让你的数据产生价值 常用架构举例 拓扑 3 agentA : src | agentE2EChain(collectorA:35853,collectorB:35853); agentB : src | agentE2EChain(collectorA:35853,collectorC:35853); agentC : src | agentE2EChain(collectorB:35853,collectorA:35853); agentD : src | agentE2EChain(collectorB:35853,coll

13、ectorC:35853); agentE : src | agentE2EChain(collectorC:35853,collectorA:35853); agentF : src | agentE2EChain(collectorC:35853,collectorB:35853); collectorA : collectorSource(35853) | collectorSink(hdfs:/.,src); collectorB : collectorSource(35853) | collectorSink(hdfs:/.,src); collectorC : collectorS

14、ource(35853) | collectorSink(hdfs:/.,src); 小象科技 让你的数据产生价值 主要内容 1. 背景介绍 2. Hadoop数据收集系统 3. 传统数据库与 Hadoop间数据同步 4. 总结 小象科技 让你的数据产生价值 Sqoop是什么 Sqoop: SQL-to-Hadoop 连接 传统关系型数据库 和 Hadoop 的桥梁 把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS HBase 和 Hive) 中; 把数据从 Hadoop 系统里抽取并导出到关系型数据库里。 利用 MapReduce加快数据传输速度 批处理方式进行数据传输 小象科技 让你的数据产生价值 Sqoop优势 高效、可控地利用资源 任务并行度,超时时间等 数据类型映

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号