主流大数据计算引擎对比分析

资源描述

《主流大数据计算引擎对比分析》由会员分享，可在线阅读，更多相关《主流大数据计算引擎对比分析（20页珍藏版）》请在金锄头文库上搜索。

1、主流大数据引擎对比分析,分布式批处理计算引擎介绍分布式流处理计算引擎介绍,提纲,MapReduce应用场景,MapReduce基于Google发布的分布式计算框架MapReduce论文设计开发，用于大规模数据集（大于1TB）的并行运算，特点如下： - 易于编程：程序员仅需描述做什么，具体怎么做就交由系统的执行框架处理。 - 良好的扩展性：可以添加机器扩展集群能力。 - 高容错性：通过计算迁移或数据迁移等策略提高集群的可用性与容错性。,MapReduce原理,MapReduce原理,MapReduce应用场景,MapRedcue适合做什么？大规模数据集的离线批处理计算任务分而治之，子任务相对

2、独立 MapRedcue不适合做什么？实时的交互式计算，要求快速响应，低延迟，比如SQL查询流式计算、实时分析，比如广告点击计算等任务之间相互依赖(迭代计算）谁在使用MapReduce？,HIVE - 基于MapReduce的OLAP引擎,Spark 应用场景,是什么 - Spark系统是分布式批处理系统和分析挖掘引擎。 - Spark是AMP LAB贡献到Apache社区的开源项目，是AMP大数据栈的基础组件。做什么 - 数据处理(Data Processing)：可以用来快速处理数据，兼具容错性和可扩展性。 - 迭代计算(Iterative Computation)：支持迭代计算

3、，有效应对多步的数据处理逻辑。,Spark 应用场景,大多数现有集群计算框架如Hadoop等基于从稳定存储（文件系统）到稳定存储的非循环数据流-应对数据集重用型应用时低效，与传统的MR任务的频繁读写磁盘数据相比，基于内存计算的Spark则更适合应用与迭代计算，交互式分析等场景,Spark核心概念 RDD,定义：只读的，可分区的分布式数据集；容错：根据依赖关系重计算恢复丢失数据 RDD操作：Transformation算子和Action算子。,Spark核心概念宽依赖和窄依赖,RDD父子依赖关系：窄（Narrow）依赖和宽（Wide）依赖。窄依赖指父RDD的每一个分区最多被一个子RDD的分区

4、所用。宽依赖指子RDD的分区依赖于父RDD的所有分区。,Spark SQL- Spark 生态圈的查询引擎,分布式批处理计算引擎介绍分布式流处理计算引擎介绍,提纲,Storm 可以对大量的数据流进行可靠的实时处理，这一过程也称为“流式处理”;Storm 支持多种类型的应用，包括：实时分析、在线机器学习、连续计算、分布式RPC（DRPC）、ETL等;快速的数据处理、可扩展性与容错性;,STORM 应用场景,STROM原理,基于STROM的情感分析,相对于Storm，Spark Streaming支持更的大吞吐量；基于Spark内核的迭代计算，Spark Streaming是准实时处理；良好的容错性和故障恢复能力；,SPARK Streaming 应用场景,Spark Streaming原理,流入的记录以短时批处理的方式进行计算，每一个批次转化成一个RDD,STORM流处理应用,

展开阅读全文

主流大数据计算引擎对比分析

最新文档