主流大数据计算引擎对比分析

上传人:飞*** 文档编号:56609662 上传时间:2018-10-14 格式:PPTX 页数:20 大小:4.04MB
返回 下载 相关 举报
主流大数据计算引擎对比分析_第1页
第1页 / 共20页
主流大数据计算引擎对比分析_第2页
第2页 / 共20页
主流大数据计算引擎对比分析_第3页
第3页 / 共20页
主流大数据计算引擎对比分析_第4页
第4页 / 共20页
主流大数据计算引擎对比分析_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《主流大数据计算引擎对比分析》由会员分享,可在线阅读,更多相关《主流大数据计算引擎对比分析(20页珍藏版)》请在金锄头文库上搜索。

1、主流大数据引擎对比分析,分布式批处理计算引擎介绍分布式流处理计算引擎介绍,提纲,MapReduce应用场景,MapReduce基于Google发布的分布式计算框架MapReduce论文设计开发,用于大规模数据集(大于1TB)的并行运算,特点如下: - 易于编程:程序员仅需描述做什么,具体怎么做就交由系统的执行框架处理。 - 良好的扩展性:可以添加机器扩展集群能力。 - 高容错性:通过计算迁移或数据迁移等策略提高集群的可用性与容错性。,MapReduce原理,MapReduce原理,MapReduce应用场景,MapRedcue适合做什么? 大规模数据集的离线批处理计算 任务分而治之,子任务相对

2、独立 MapRedcue不适合做什么? 实时的交互式计算,要求快速响应,低延迟,比如SQL查询 流式计算、实时分析,比如广告点击计算等 任务之间相互依赖(迭代计算) 谁在使用MapReduce?,HIVE - 基于MapReduce的OLAP引擎,Spark 应用场景,是什么 - Spark系统是分布式批处理系统和分析挖掘引擎。 - Spark是AMP LAB贡献到Apache社区的开源项目,是AMP大数据栈的基础组件。 做什么 - 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 - 迭代计算(Iterative Computation):支持迭代计算

3、,有效应对多步的数据处理逻辑。,Spark 应用场景,大多数现有集群计算框架如Hadoop等基于从稳定存储(文件系统)到稳定存储的非循环数据流-应对数据集重用型应用时低效,与传统的MR任务的频繁读写磁盘数据相比,基于内存计算的Spark则更适合应用与迭代计算,交互式分析等场景,Spark核心概念 RDD,定义:只读的,可分区的分布式数据集; 容错:根据依赖关系重计算恢复丢失数据 RDD操作:Transformation算子和Action算子。,Spark核心概念 宽依赖和窄依赖,RDD父子依赖关系:窄(Narrow)依赖和宽(Wide)依赖。窄依赖指父RDD的每一个分区最多被一个子RDD的分区

4、所用。宽依赖指子RDD的分区依赖于父RDD的所有分区。,Spark SQL- Spark 生态圈的查询引擎,分布式批处理计算引擎介绍分布式流处理计算引擎介绍,提纲,Storm 可以对大量的数据流进行可靠的实时处理,这一过程也称为“流式处理”;Storm 支持多种类型的应用,包括:实时分析、在线机器学习、连续计算、分布式RPC(DRPC)、ETL等;快速的数据处理、可扩展性与容错性;,STORM 应用场景,STROM原理,基于STROM的情感分析,相对于Storm,Spark Streaming支持更的大吞吐量;基于Spark内核的迭代计算,Spark Streaming是准实时处理;良好的容错性和故障恢复能力;,SPARK Streaming 应用场景,Spark Streaming原理,流入的记录以短时批处理的方式进行计算,每一个批次转化成一个RDD,STORM流处理应用,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号