六大主流大数据采集平台架构分析_光环大数据培训

资源描述

《六大主流大数据采集平台架构分析_光环大数据培训》由会员分享，可在线阅读，更多相关《六大主流大数据采集平台架构分析_光环大数据培训（19页珍藏版）》请在金锄头文库上搜索。

1、光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/六大主流大数据采集平台架构分析六大主流大数据采集平台架构分析_ _光环大数据培训光环大数据培训光环大数据培训机构，随着大数据越来越被重视，数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台：Apache FlumeFluentdLogstashChukwaScribeSplunk Forwarder大数据平台与数据采集大数据平台与数据采集任何完整的大数据平台，一般包括以下的几个过程：数据采集数据存储数据处理数据展现(可视化，报表和监控)光环大数据光环大数据-大数据培训知名品牌大

2、数据培训知名品牌http:/ 光环大数据光环大数据 http:/其中，数据采集是所有数据系统必不可少的，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。这其中包括：数据源多种多样数据量大变化快如何保证数据采集的可靠性的性能如何避免重复数据如何保证数据的质量我们今天就来看看当前可用的六款数据采集的产品，重点关注它们是如何做到高可靠，高性能和高扩展。1 1、ApacheApache FlumeFlume光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/官网：https:/flume.apache.org/Flume 是 Apache

3、旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume 使用 JRuby 来构建，所以依赖 Java 运行环境。Flume 最初是由 Cloudera 的工程师设计用于合并日志数据的系统，后来逐渐发展用于处理流数据事件。Flume 设计成一个分布式的管道架构，可以看作在数据源和目的地之间有一个Agent 的网络，支持数据路由。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/每一个 agent 都由 Source，Channel 和 Sink 组成。SourceSourceSource 负责接收输入数据，并

4、将数据写入管道。Flume 的 Source 支持HTTP，JMS，RPC，NetCat，Exec，Spooling Directory。其中 Spooling 支持监视一个目录或者文件，解析其中新生成的事件。ChannelChannelChannel 存储，缓存从 source 到 Sink 的中间数据。可使用不同的配置来做 Channel，例如内存，文件，JDBC 等。使用内存性能高但不持久，有可能丢数据。使用文件更可靠，但性能不如内存。SinkSinkSink 负责从管道中读出数据并发给下一个 Agent 或者最终的目的地。Sink 支持的不同目的地种类包括：HDFS，HBASE，

5、Solr，ElasticSearch，File，Logger 或者其它的 Flume Agent。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Flume 在 source 和 sink 端都使用了 transaction 机制保证在数据传输中没有数据丢失。Source 上的数据可以复制到不同的通道上。每一个 Channel 也可以连接不同数量的 Sink。这样连接不同配置的 Agent 就可以组成一个复杂的数据收集网络。通过对 agent 的配置，可以组成一个路由复杂的数据传输网络。光环大数据光环大数据-大数据培训知名品牌大数

6、据培训知名品牌http:/ 光环大数据光环大数据 http:/配置如上图所示的 agent 结构，Flume 支持设置 sink 的 Failover 和 Load Balance，这样就可以保证即使有一个 agent 失效的情况下，整个系统仍能正常收集数据。Flume 中传输的内容定义为事件(Event)，事件由 Headers(包含元数据，Meta Data)和 Payload 组成。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Flume 提供 SDK，可以支持用户定制开发：Flume 客户端负责在事件产生的源头把事件发送给

7、Flume 的 Agent。客户端通常和产生数据源的应用在同一个进程空间。常见的 Flume 客户端有 Avro，log4J，syslog 和 HTTP Post。另外 ExecSource 支持指定一个本地进程的输出作为 Flume 的输入。当然很有可能，以上的这些客户端都不能满足需求，用户可以定制的客户端，和已有的 FLume 的 Source 进行通信，或者定制实现一种新的 Source 类型。同时，用户可以使用 Flume 的 SDK 定制 Source 和 Sink。似乎不支持定制的 Channel。2 2、FluentdFluentd官网：http:/docs.fluentd

8、.org/articles/quickstartFluentd 是另一个开源的数据收集框架。Fluentd 使用 C/Ruby 开发，使用 JSON 文件来统一日志数据。它的可插拔架构，支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data, Inc 对该产品提供支持和维护。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Fluentd 的部署和 Flume 非常相似：光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Flue

9、ntd 的架构设计和 Flume 如出一辙：光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Fluentd 的 Input/Buffer/Output 非常类似于 Flume 的 Source/Channel/Sink。InputInputInput 负责接收数据或者主动抓取数据。支持 syslog，http，file tail 等。BufferBufferBuffer 负责数据获取的性能和可靠性，也有文件或内存等不同类型的 Buffer 可以配置。OutputOutputOutput 负责输出数据到目的地例如文件，AWS S3 或者其

10、它的 Fluentd。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Fluentd 的配置非常方便，如下图：Fluentd 的技术栈如下图：光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/FLuentd 和其插件都是由 Ruby 开发，MessgaePack 提供了 JSON 的序列化和异步的并行通信 RPC 机制。Cool.io 是基于 libev 的事件驱动框架。FLuentd 的扩展性非常好，客户可以自己定制(Ruby)Input/Buffer/Output。Fluent

11、d 从各方面看都很像 Flume，区别是使用 Ruby 开发，Footprint 会小一些，但是也带来了跨平台的问题，并不能支持 Windows 平台。另外采用 JSON 统一数据/日志格式是它的另一个特点。相对去 Flumed，配置也相对简单一些。3 3、LogstashLogstashhttps:/ 光环大数据光环大数据 http:/Logstash 是著名的开源数据栈 ELK (ElasticSearch, Logstash, Kibana)中的那个 L。Logstash 用 JRuby 开发，所有运行时依赖 JVM。Logstash 的部署架构如下图，当然这只是一种部署的选项。一个

12、典型的 Logstash 的配置如下，包括了 Input，filter 的 Output 的设置。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/几乎在大部分的情况下 ELK 作为一个栈是被同时使用的。所有当你的数据系统使用 ElasticSearch 的情况下，logstash 是首选。4 4、ChukwaChukwa官网：https:/chukwa.apache.org/光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Apache Chukwa 是 apache 旗下另一个开源的数据收集平台，它远没有其他几个有名。Chukwa 基于 Hadoop 的 HDFS 和 Map Reduce 来构建(显而易见，它用 Java 来实现)，提供扩展性和可靠性。Chukwa 同时提供对数据的展示，分析和监视。很奇怪的是它的上一次 github 的更新事 7 年前。可见该项目应该已经不活跃了。Chukwa 的部署架构如下：Chukwa 的主要单元有： Agent，Collector，Data

展开阅读全文