《大数据的来源与数据采集方法》由会员分享,可在线阅读,更多相关《大数据的来源与数据采集方法(10页珍藏版)》请在金锄头文库上搜索。
1、大数据的来源,社交媒体,如微博、微信、人人网、facebook等,通过这些大众常用的社交平台,可以分析用户平时在这些社交媒体上的行为动向,归纳出用户的喜好或关注点,这些能够为企业挖掘用户需求提供重要依据。,越来越多的机器配备了连续测量和报告运行情况的装置。这些机器传感数据也属于大数据的范围。,一些视频、音频设备等产生的数据,如一些大型超市,通过监控器观察消费者在超市购物的整个流程,从而对商品进行合理摆放,促进对某些商品的间接促销。,企业内部本身的一些行业数据等等。,大数据的数据采集方法,系统日志采集方法,很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa
2、,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。,网络数据采集方法:对非结构化数据的采集,网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。,其他数据采集方法,对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。,谢谢观赏,thankyou,9.15,