spark实时流处理编程指南(v1.2.0)

资源描述

《spark实时流处理编程指南(v1.2.0)》由会员分享，可在线阅读，更多相关《spark实时流处理编程指南(v1.2.0)（40页珍藏版）》请在金锄头文库上搜索。

1、 1 / 40 Spark 亚太研究院 QQ 群：297931500 翻译者：李军 Spark 官方文档翻译团成员 Spark 官方文档翻译Spark 实时流处理编程指南(v1.2.0) Life is short, you need spark! 实时流处理编程指南 (v1.2.0) 翻译者李军 Spark 官方文档翻译团成员 Spark 官方文档翻译 2 / 40 Spark 官方文档翻译Spark 实时流处理编程指南(v1.2.0) Life is short, you need spark! TEL: 4006-998-758 前言伴随着大数据相关技术和产业的逐步成熟，继 Ha

2、doop 之后，Spark 技术以集大成的无可比拟的优势，发展迅速，将成为替代 Hadoop 的下一代云计算、大数据核心技术。 Spark 是当今大数据领域最活跃最热门的高效大数据通用计算平台，基于 RDD， Spark 成功的构建起了一体化、多元化的大数据处理体系，在 “One Stack to rule them all” 思想的引领下， Spark 成功的使用 Spark SQL、 Spark Streaming、 MLLib、 GraphX 近乎完美的解决了大数据中 Batch Processing、Streaming Processing、Ad-hoc Query 等三大核心

3、问题，更为美妙的是在 Spark 中 Spark SQL、Spark Streaming、 MLLib、GraphX 四大子框架和库之间可以无缝的共享数据和操作，这是当今任何大数据平台都无可匹敌的优势。在实际的生产环境中，世界上已经出现很多一千个以上节点的 Spark 集群，以 eBay 为例，eBay 的 Spark 集群节点已经超过 2000 个，Yahoo！等公司也在大规模的使用 Spark，国内的淘宝、腾讯、百度、网易、京东、华为、大众点评、优酷土豆等也在生产环境下深度使用 Spark。2014 Spark Summit 上的信息，Spark 已经获得世界 20 家顶级公司

4、的支持，这些公司中包括 Intel、IBM 等，同时更重要的是包括了最大的四个 Hadoop 发行商，都提供了对 Spark 非常强有力的支持。与 Spark 火爆程度形成鲜明对比的是 Spark 人才的严重稀缺，这一情况在中国尤其严重，这种人才的稀缺，一方面是由于 Spark 技术在 2013、2014 年才在国内的一些大型企业里面被逐步应用，另一方面是由于匮乏 Spark 相关的中文资料和系统化的培训。为此，Spark 亚太研究院和 51CTO 联合推出了“Spark 亚太研究院决胜大数据时代 100 期公益大讲堂” ，来推动 Spark 技术在国内的普及及落地。具体视频信息

5、请参考 http:/ 与此同时，为了向 Spark 学习者提供更为丰富的学习资料，Spark 亚太研究院去年 8 月发起并号召，结合网络社区的力量构建了 Spark 中文文档专家翻译团队，翻译了 Spark 中文文档 V1.1.0 版本。2014 年 12 月，Spark 官方团队发布了 Spark 1.2.0 版本，为了让学习者了解到最新的内容，Spark 中文文档专家翻译团队又对 Spark 1.2.0 版本进行了部分更新，在此，我谨代表 Spark 亚太研究院及广大 Spark 学习爱好者向专家翻译团队所有成员热情而专业的工作致以深刻的敬意！当然，作为相对系统的 Spark 中文文

6、档，不足之处在所难免，大家有任何建议或者意见都可以发邮件到；同时如果您想加入 Spark 中文文档翻译团队，也请发邮件到进行申请；Spark 中文 3 / 40 Spark 亚太研究院 QQ 群：297931500 翻译者：李军 Spark 官方文档翻译团成员 Spark 官方文档翻译Spark 实时流处理编程指南(v1.2.0) Life is short, you need spark! 文档的翻译是一个持续更新的、不断版本迭代的过程，我们会尽全力给大家提供更高质量的 Spark 中文文档翻译。最后，也是最重要的，请允许我荣幸的介绍一下我们的 Spark 中文文档 1.2.0

7、版本翻译的专家团队成员，他们分别是（排名不分先后）：傅智勇, 快速开始(v1.2.0) 王宇舟,Spark 机器学习库 (v1.2.0) 武扬，在 Yarn 上运行 Spark (v1.2.0) Spark 调优(v1.2.0) 徐骄， Spark 配置(v1.2.0) Spark 作业调度(v1.2.0) 蔡立宇， Bagel 编程指南(v1.2.0) harli， Spark 编程指南 (v1.2.0) 韩保礼， Spark SQL 编程指南(v1.2.0) 李丹丹，文档首页(v1.2.0) 李军， Spark 实时流处理编程指南(v1.2.0) 俞杭军，使用 Maven 编

8、译 Spark(v1.2.0) 王之，给 Spark 提交代码(v1.2.0) Ernest，集群模式概览(v1.2.0)监控与相关工具(v1.2.0)提交应用程序(v1.2.0) Life is short, You need Spark! Spark 亚太研究院院长王家林 2015 年 2 月 4 / 40 Spark 官方文档翻译Spark 实时流处理编程指南(v1.2.0) Life is short, you need spark! TEL: 4006-998-758 Spark 亚太研究院决胜大数据时代 100 期公益大讲堂简介作为下一代云计算的核心技术， Spark性

9、能超Hadoop百倍，算法实现仅有其1/10 或 1/100,是可以革命 Hadoop 的目前唯一替代者，能够做 Hadoop 做的一切事情，同时速度比 Hadoop 快了 100 倍以上。目前 Spark 已经构建了自己的整个大数据处理生态系统，国外一些大型互联网公司已经部署了 Spark。甚至连 Hadoop 的早期主要贡献者 Yahoo 现在也在多个项目中部署使用 Spark；国内的淘宝、优酷土豆、网易、 Baidu、腾讯、皮皮网等已经使用 Spark 技术用于自己的商业生产系统中，国内外的应用开始越来越广泛。Spark 正在逐渐走向成熟，并在这个领域扮演更加重要的

10、角色, 刚刚结束的 2014 Spark Summit 上的信息，Spark 已经获得世界 20 家顶级公司的支持，这些公司中包括 Intel、IBM 等，同时更重要的是包括了最大的四个 Hadoop 发行商都提供了对非常强有力的支持 Spark 的支持. 鉴于 Spark 的巨大价值和潜力，同时由于国内极度缺乏 Spark 人才，Spark 亚太研究院在完成了对 Spark 源码的彻底研究的同时，不断在实际环境中使用 Spark 的各种特性的基础之上，推出了 Spark 亚太研究院决胜大数据时代 100 期公益大讲堂，希望能够帮助大家了解 Spark 的技术。同时，对 Spark

11、人才培养有近一步需求的企业和个人，我们将以公开课和企业内训的方式，来帮助大家进行 Spark 技能的提升。同样，我们也为企业提供一体化的顾问式服务及 Spark 一站式项目解决方案和实施方案。 Spark 亚太研究院决胜大数据时代 100 期公益大讲堂是国内第一个 Spark 课程免费线上讲座，每周一期，从 7 月份起，每周四晚 20:00-21:30，与大家不见不散！老师将就 Spark 内核剖析、源码解读、性能优化及商业实战案例等精彩内容与大家分享，干货不容错过！时间：从 7 月份起，每周一期，每周四晚 20:00-21:30 形式：腾讯课堂在线直播学习条件：对云计算大数据感

12、兴趣的技术人员课程学习地址：http:/ 5 / 40 Spark 亚太研究院 QQ 群：297931500 翻译者：李军 Spark 官方文档翻译团成员 Spark 官方文档翻译Spark 实时流处理编程指南(v1.2.0) Life is short, you need spark! 实时流处理编程指南(v1.2.0) （翻译者：李军） Spark Streaming Programming Guide，原文档链接： http:/spark.apache.org/docs/latest/streaming-programming-guide.html 目录第 1 章 Spark Str

13、eaming 编程指南. 6 1.1 概述 6 1.2 一个简单的例子 7 1.3 基础知识 . 9 1.3.1 链接 . 9 13.2 初始化 StreamingContext . 10 1.3.3 离散流(DStreams) 11 1.3.4 输入离散流 12 1.3.5 离散流转换 16 1.3.6 在 DStreams 输出操作 . 23 1.3.7 缓存/持久化 26 1.3.8 检查点 26 1.3.9 部署应用程序 29 1.3.10 监控应用 31 1.4 性能优化 . 31 1.4.1 减少每个批次的处理时间 32 1.4.2 设定正确的批次大小 33 1.4.3 内存优化

14、34 1.5 容错特性 . 34 1.5.1 Worker 节点的故障错误！未定义书签。 1.5.2 Driver 节点的故障 . 错误！未定义书签。 1.6 从 0.9.1 或以下到 1.x 的迁移指南 37 1.7 从这里到哪 . 38 6 / 40 Spark 官方文档翻译Spark 实时流处理编程指南(v1.2.0) Life is short, you need spark! TEL: 4006-998-758 第1章 Spark Streaming 编程指南 1.1 概述 Spark Streaming 是 Spark 核心 API 的一种扩展，它实现了对实时流数据的高吞吐量

15、，低容错率的流处理。数据可以有许多来源，如 Kafka, Flume, Twitter, ZeroMQ, Kinesis 或 TCP 套接字，可以使用复杂算法对其处理实现高层次的功能，如 map,reduce,join 和 window。最后，经处理的数据可被输出到文件系统，数据库，和实时仪表盘。事实上，你可以在数据流上使用 Spark 公司的机器学习和图形处理算法。它的内部工作原理如下: Spark Streaming 接收实时输入数据流并将数据划分为批次，其然后由 Spark Enigne 分批处理用来生成结果的最终流。 Spark Streaming 提供了一个称为离散流或DStream的高层次的抽象，它代表一个持续的流数据。DStreams 被创建，可以是来自诸如 Kafka、 Flume 和 Kinesis 的输入数据流，也可以通过在其他 DStreams 上应用高级操作中创建。在内部，DSTREAM 代表 RDDS 中的一个序列。本指南将告诉您如何开始用DStreams编写Spark Streaming程序。您可以使用Scala、 Java、Python (参考 Spark 1.2 中介绍)，它们均

展开阅读全文