后Hadoop时代的大数据架构

资源描述

《后Hadoop时代的大数据架构》由会员分享，可在线阅读，更多相关《后Hadoop时代的大数据架构（11页珍藏版）》请在金锄头文库上搜索。

1、后后 HadoopHadoop 时代的大数据架构时代的大数据架构背景篇背景篇 Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括 HDFS，MapReduce 基本组件。 HDFS：提供了一种跨服务器的弹性数据存储系统。 MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的输出。 Amazon Elastic Map Reduce(EMR)：托管的解决方案，运行在

2、由 Amazon Elastic Compute Cloud（EC2）和 Simple Strorage Service（S3）组成的网络规模的基础设施之上。如果你需要一次性的或不常见的大数据处理，EMR 可能会为你节省开支。但 EMR 是高度优化成与 S3 中的数据一起工作，会有较高的延时。 Hadoop 还还包含了一系列技术的扩展系统，这些技术主要包括了 Sqoop、Flume、Hive、Pig、Mahout、Datafu 和 HUE 等。 Pig：分析大数据集的一个平台，该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。 Hive：用于 Hadoop 的一

3、个数据仓库系统，它提供了类似于 SQL 的查询语言，通过使用该语言，可以方便地进行数据汇总，特定查询以及分析。 Hbase：一种分布的、可伸缩的、大数据储存库，支持随机、实时读/写访问。 Sqoop：为高效传输批量数据而设计的一种工具，其用于 Apache Hadoop 和结构化数据储存库如关系数据库之间的数据传输。 Flume：一种分布式的、可靠的、可用的服务，其用于高效地搜集、汇总、移动大量日志数据。 ZooKeeper：一种集中服务，其用于维护配置信息，命名，提供分布式同步，以及提供分组服务。 Cloudera：最成型的 Hadoop 发行版本，拥有最多的部署案例。提供强大的部署

4、、管理和监控工具。开发并贡献了可实时处理大数据的 Impala 项目。 Hortonworks：使用了 100%开源 Apache Hadoop 提供商。开发了很多增强特性并提交至核心主干，这使得 Hadoop 能够在包括 Windows Server 和 Azure 在内平台上本地运行。 MapR：获取更好的性能和易用性而支持本地 Unix 文件系统而不是 HDFS。提供诸如快照、镜像或有状态的故障恢复等高可用性特性。领导着 Apache Drill 项目，是 Google 的 Dremel 的开源实现，目的是执行类似 SQL 的查询以提供实时处理。原理篇原理篇数据存储数据存储我

5、们的目标是做一个可靠的，支持大规模扩展和容易维护的系统。计算机里面有个 locality（局部性定律），如图所示。从下到上访问速度越来越快，但存储代价更大。相对内存，磁盘和 SSD 就需要考虑数据的摆放，因为性能会差异很大。磁盘好处是持久化，单位成本便宜，容易备份。但随着内存便宜，很多数据集合可以考虑直接放入内存并分布到各机器上，有些基于 key-value, Memcached 用在缓存上。内存的持久化可以通过 (带电池的 RAM)，提前写入日志再定期做 Snapshot 或者在其他机器内存中复制。当重启时需要从磁盘或网络载入之前状态。其实写入磁盘就用在追加日志上面，读的话就直

6、接从内存。像 VoltDB, MemSQL，RAMCloud 关系型又基于内存数据库，可以提供高性能，解决之前磁盘管理的麻烦。HyperLogLog 设计目标是横跨全球上百个数据中心,覆盖百万台服务器,包含万亿条行记录！(Google 就是这么霸气-) F1: 构建于 Spanner 之上,在利用 Spanner 的丰富特性基础之上,还提供分布式 SQL、事务一致性的二级索引等功能,在 AdWords 广告业务上成功代替了之前老旧的手工 MySQL Shard 方案。 Dremel: 一种用来分析信息的方法，它可以在数以千计的服务器上运行，类似使用 SQL 语言，能以极快的速度处理

7、网络规模的海量数据(PB 数量级)，只需几秒钟时间就能完成。 Spark2014 年最火的大数据技术 Spark，有什么关于 Spark 的书推荐？董飞的回答做了介绍。主要意图是基于内存计算做更快的数据分析。同时支持图计算，流式计算和批处理。 Berkeley AMP Lab 的核心成员出来成立公司 Databricks 开发 Cloud 产品。 Flink使用了一种类似于 SQL 数据库查询优化的方法，这也是它与当前版本的 Apache Spark 的主要区别。它可以将全局优化方案应用于某个查询之上以获得更佳的性能。 KafkaAnnouncing the Confluent Plat

8、form 1.0 Kafka 描述为 LinkedIn 的“中枢神经系统”，管理从各个应用程序汇聚到此的信息流，这些数据经过处理后再被分发到各处。不同于传统的企业信息列队系统，Kafka 是以近乎实时的方式处理流经一个公司的所有数据，目前已经为 LinkedIn, Netflix, Uber 和 Verizon 建立了实时信息处理平台。Kafka 的优势就在于近乎实时性。 StormHandle Five Billion Sessions a Day in Real Time，Twitter 的实时计算框架。所谓流处理框架，就是一种分布式、高容错的实时计算系统。Storm 令持续不断的

9、流计算变得容易。经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和 ETL 等领域。 SamzaLinkedIn 主推的流式计算框架。与其他类似的 Spark，Storm 做了几个比较。跟 Kafka 集成良好，作为主要的存储节点和中介。 Lambda architectureNathan 写了文章如何去打败 CAP 理论How to beat the CAP theorem，提出 Lambda Architecture，主要思想是对一些延迟高但数据量大的还是采用批处理架构，但对于即时性实时数据使用流式处理框架，然后在之上搭建一个服务层去合并两边的数据流，这种系统能够平衡实时的

10、高效和批处理的 Scale，看了觉得脑洞大开，确实很有效，被很多公司采用在生产系统中。SummingbirdLambda 架构的问题要维护两套系统，Twitter 开发了 Summingbird 来做到一次编程，多处运行。将批处理和流处理无缝连接，通过整合批处理与流处理来减少它们之间的转换开销。下图就解释了系统运行时。NoSQL数据传统上是用树形结构存储（层次结构），但很难表示多对多的关系，关系型数据库就是解决这个难题，最近几年发现关系型数据库也不灵了，新型 NoSQL 出现如 Cassandra，MongoDB，Couchbase。NoSQL 里面也分成这几类，文档型，图运算型，列

11、存储，key-value 型，不同系统解决不同问题。没一个 one-size-fits-all 的方案。Cassandra大数据架构中，Cassandra 的主要作用就是存储结构化数据。DataStax 的 Cassandra 是一种面向列的数据库，它通过分布式架构提供高可用性及耐用性的服务。它实现了超大规模的集群，并提供一种称作“最终一致性”的一致性类型，这意味着在任何时刻，在不同服务器中的相同数据库条目可以有不同的值。 SQL on Hadoop开源社区业出现了很多 SQL-on-Hadoop 的项目，着眼跟一些商业的数据仓库系统竞争。包括 Apache Hive, Spark

12、SQL, Cloudera Impala, Hortonworks Stinger, Facebook Presto, Apache Tajo，Apache Drill。有些是基于 Google Dremel 设计。 ImpalaCloudera 公司主导开发的新型查询系统，它提供 SQL 语义，能够查询存储在 Hadoop 的 HDFS 和 HBase 中的 PB 级大数据，号称比 Hive 快 5-10 倍，但最近被 Spark 的风头给罩住了，大家还是更倾向于后者。 DrillApache 社区类似于 Dremel 的开源版本Drill。一个专为互动分析大型数据集的分布式系统。Drui

13、d在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层，一个分布式、shared-nothing 的架构，和一个高级的索引结构，来达成在秒级以内对十亿行级别的表进行任意的探索分析。 Berkeley Data Analytics Stack上面说道 Spark，在 Berkeley AMP lab 中有个更宏伟的蓝图，就是 BDAS，里面有很多明星项目，除了 Spark，还包括： Mesos：一个分布式环境的资源管理平台，它使得 Hadoop、MPI、Spark 作业在统一资源管理环境下执行。它对 Hadoop2.0 支持很好。Twitter，Course

14、ra 都在使用。 Tachyon：是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像 Spark 和 MapReduce 那样。项目发起人李浩源说目前发展非常快，甚至比 Spark 当时还要惊人，已经成立创业公司 Tachyon Nexus. BlinkDB：也很有意思，在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它允许用户通过权衡数据精度来提升查询响应时间，其数据的精度被控制在允许的误差范围内。ClouderaHadoop 老大哥提出的经典解决方案。 HDP （Hadoop Data Platform)Hortonworks 提出的架构选型。

15、 RedshiftAmazon RedShift 是 ParAccel 一个版本。它是一种（massively parallel computer）架构，是非常方便的数据仓库解决方案，SQL 接口，跟各个云服务无缝连接，最大特点就是快，在 TB 到 PB 级别非常好的性能，我在工作中也是直接使用，它还支持不同的硬件平台，如果想速度更快，可以使用 SSD。 Netflix完全基于 AWS 的数据处理解决方案。 Intel参考链接参考链接 The Hadoop Ecosystem Table How to beat the CAP theorem Lambda Architecture Questioning the Lambda Architecture【编辑推荐】大数据没用？5 个通过大数据分析提升客户体验的方式大数据时代，石化企业应该如何进行数据分析社保数据面临泄漏，大数据安全危机的序幕? 大数据专家：大数据 7 大最奇特应用大数据时代：投资布局四维开拓如何才能将蕴藏于大数据内的潜能全部释放出来

展开阅读全文