《大数据工作流程ppt课件》由会员分享,可在线阅读,更多相关《大数据工作流程ppt课件(12页珍藏版)》请在金锄头文库上搜索。
大数据处理流程及相关工具介绍 目录 一 大数据处理流程简析 一 大数据处理流程简析 二 分布式并行处理技术MapReduce 单词技术问题 MapReduce工作流程 分割文本 生成新的文本 结果归拢排序 原文本 MapReduce是一套软件框架 包括Map 映射 和Reduce 化简 两个阶段 可以进行海量数据分割 任务分解与结果汇总 从而完成海量数据的并行处理 三 各处理流程相关技术简析 数据采集 数据采集是数据分析 挖掘的基础 常用的海量数据采集工具有Hadoop的Chukwa Cloudera的Flume Facebook的Scribe等 这些工具均采用分布式架构 能满足每秒数百MB的日志数据采集和传输需求 Chukwa数据采集原理 三 各处理流程相关技术简析 数据预处理 SQL与HBASE HIVE之间进行内容传递时 需要一个数据转移工具 如Sqoop 其工作过程如下 三 各处理流程相关技术简析 数据存储 HDFS结构 三 各处理流程相关技术简析 数据存储 三 各处理流程相关技术简析 数据分析挖掘 三 各处理流程相关技术简析 数据展现 聚类算法结果展示 此课件下载可自行编辑修改 此课件供参考 部分内容来源于网络 如有侵权请与我联系删除 感谢你的观看