大数据采集的技术方法

上传人:小** 文档编号:58519199 上传时间:2018-10-30 格式:PPT 页数:9 大小:237.81KB
返回 下载 相关 举报
大数据采集的技术方法_第1页
第1页 / 共9页
大数据采集的技术方法_第2页
第2页 / 共9页
大数据采集的技术方法_第3页
第3页 / 共9页
大数据采集的技术方法_第4页
第4页 / 共9页
大数据采集的技术方法_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《大数据采集的技术方法》由会员分享,可在线阅读,更多相关《大数据采集的技术方法(9页珍藏版)》请在金锄头文库上搜索。

1、2.3大数据采集 的技术方法,1,2,3,4,1.系统日志 采集方法,2.网络数据 采集方法,3.其他数据 采集方法,Your Text,点击添加文本,点击添加文本,点击添加文本,点击添加文本,1.系统日志采集方法,Hadhoop的Chukwa,Cloudra的Flume,Facebook的Scribe,很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如以下三种。这些系统均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。,Facebook的Scribe,Scribe架构,Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用。它能够

2、从各种日志源上收集日志,存储到一个中央存储系统 (可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。,(1)Scribe agent scribe agent实际上是一个thrift client。 向scribe发送数据的唯一方法是使用thrift client,scribe内部定义了一个thrift接口,用户使用该接口将数据发送给server。 (2)scribe scribe接收到thrift client发送过来的数据,根据配置文件,将不同主题的数据发送给不同的对象。 (3)存储系统 存储系统实际上就是s

3、cribe中的store。,Hadhoop的Chukwa,主要部件,(1)代理:负责采集最原始的数据,并发送给收集器。 (2)适配器:直接采集数据的接口和工具。 (3)收集器:负责收集代理收送来的数据,并定时写入集群中。 (4)MapReduce分析 (5)多路分配器:负责对数据的分类、排序和去重。,2.网络数据采集方法,网络爬虫,URL队列,数据处理,数据, Site Url, 需要抓取数据 网站的 Url 信息; Spider Data, 爬虫从网页中抽取出 来的数据; Dp Data, 经过 dp 处理之后的数据,从Internet上抓取网页内容, 并抽取出需要的属性内容。,对爬虫抓取的内容进行处理,为爬虫提供需要抓取数据网络的URL,(1)四个主要模块及功能,将需要抓取数据网站的URL信息写入URL队列,爬虫从URL队列中获取需要抓取数据网站的Site URL信息,爬虫从Internet抓取对应网页内容,并抽取其特定属性的内容值,爬虫将从网页中抽取出的数据写入数据库,Dp读取Spider Data(数据),并进行处理; Dp将处理后的数据写入数据库,(2)数据采集和处理的基本步骤,3.其他数据采集方法,对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。,THANK YOU,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号