大数据采集的技术方法

资源描述

《大数据采集的技术方法》由会员分享，可在线阅读，更多相关《大数据采集的技术方法（9页珍藏版）》请在金锄头文库上搜索。

1、2.3大数据采集的技术方法,1,2,3,4,1.系统日志采集方法,2.网络数据采集方法,3.其他数据采集方法,Your Text,点击添加文本,点击添加文本,点击添加文本,点击添加文本,1.系统日志采集方法,Hadhoop的Chukwa,Cloudra的Flume,Facebook的Scribe,很多互联网企业都有自己的海量数据采集工具，多用于系统日志采集，如以下三种。这些系统均采用分布式架构，能满足每秒数百MB的日志数据采集和传输需求。,Facebook的Scribe,Scribe架构,Scribe是facebook开源的日志收集系统，在facebook内部已经得到大量的应用。它能够

2、从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。它为日志的“分布式收集，统一处理”提供了一个可扩展的，高容错的方案。,(1)Scribe agent scribe agent实际上是一个thrift client。向scribe发送数据的唯一方法是使用thrift client，scribe内部定义了一个thrift接口，用户使用该接口将数据发送给server。 (2)scribe scribe接收到thrift client发送过来的数据，根据配置文件，将不同主题的数据发送给不同的对象。 (3)存储系统存储系统实际上就是s

3、cribe中的store。,Hadhoop的Chukwa,主要部件,（1）代理：负责采集最原始的数据，并发送给收集器。（2）适配器：直接采集数据的接口和工具。（3）收集器：负责收集代理收送来的数据，并定时写入集群中。（4）MapReduce分析（5）多路分配器：负责对数据的分类、排序和去重。,2.网络数据采集方法,网络爬虫,URL队列,数据处理,数据, Site Url, 需要抓取数据网站的 Url 信息； Spider Data, 爬虫从网页中抽取出来的数据； Dp Data, 经过 dp 处理之后的数据,从Internet上抓取网页内容，并抽取出需要的属性内容。,对爬虫抓取的内容进行处理,为爬虫提供需要抓取数据网络的URL,（1）四个主要模块及功能,将需要抓取数据网站的URL信息写入URL队列,爬虫从URL队列中获取需要抓取数据网站的Site URL信息,爬虫从Internet抓取对应网页内容，并抽取其特定属性的内容值,爬虫将从网页中抽取出的数据写入数据库,Dp读取Spider Data（数据），并进行处理； Dp将处理后的数据写入数据库,（2）数据采集和处理的基本步骤,3.其他数据采集方法,对于企业生产经营数据或学科研究数据等保密性要求较高的数据，可以通过与企业或研究机构合作，使用特定系统接口等相关方式采集数据。,THANK YOU,

展开阅读全文

大数据采集的技术方法

最新文档