大数据环境下并行计算模型的研究进展整理.ppt

上传人:摩西的****12 文档编号:133151145 上传时间:2020-05-24 格式:PPT 页数:21 大小:932.50KB
返回 下载 相关 举报
大数据环境下并行计算模型的研究进展整理.ppt_第1页
第1页 / 共21页
大数据环境下并行计算模型的研究进展整理.ppt_第2页
第2页 / 共21页
大数据环境下并行计算模型的研究进展整理.ppt_第3页
第3页 / 共21页
大数据环境下并行计算模型的研究进展整理.ppt_第4页
第4页 / 共21页
大数据环境下并行计算模型的研究进展整理.ppt_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《大数据环境下并行计算模型的研究进展整理.ppt》由会员分享,可在线阅读,更多相关《大数据环境下并行计算模型的研究进展整理.ppt(21页珍藏版)》请在金锄头文库上搜索。

1、大数据环境下并行计算模型的研究进展 李梦洋计算机科学与技术16081200210003 作为高性能计算和超级计算的核心技术 并行计算是充分利用资源加速计算的主要途径 并行程序设计始终没有成为主流程序设计的核心 设计和开发并行程序的必要性和紧迫性被无意的掩盖 编程门槛极高 并行控制逻辑编写难度大 遵循摩尔定律的影响大数据时代的来临 人们对应用需求 硬件环境 互联模式到计算技术都在发生显著的变化 分布式并行计算的需求也在日益突出多样化的并行计算模型是消除分布式并行应用开发瓶颈 推动大数据发展的核心技术之一 并行计算的回顾并行计算模型结论与展望 内容介绍 并行计算是突破串行计算效率瓶颈 提高计算性能

2、的有力和必须的手段 并行计算 由流水线技术为代表的时间并行以多处理器并发执行为代表的空间并行 并行计算的回顾 基本介绍 1954年 首台内建浮点硬件的商用机器IBM704 并行加速理念被随之带入 1964年第一台在技术和市场上同时获得成功的高性能大规模并行计算机CDC6600研制成功 1965年 分时操作系统Multics 宣告失败 但诞生了Unix系统和C语言 1966年 Flynn分类法等对并行计算系统进行分类大量数值并行算法和并行程序设计技术的出现也在有力推动着并行计算的发展和应用 并行计算的回顾 并行计算思想渗透 在生物制药 气候预测 高精武器设计等科学计算领域获得了巨大的成功 在非科

3、学计算领域滞后主要原因摩尔定律 随着半导体技术的发展 单个处理器的性能以平均年50 的速度在不断提升 无发展动力 分布式并行编程的门槛相对较高 不确定性和异步性 并行计算的模式高度依赖于并行硬件环境和体系结构 但是并行硬件环境本身的构建也存在着成本高 可扩展性差 管理困难 能耗大等诸多问题 并行计算的回顾 并行计算发展 摩尔定律的影响力正在减弱 并行技术成为最大限度利用多 众核处理器能力的必须途径云计算为分布式并行计算提供了新的平台 开放性 商业性 大数据带来了迫切的应用需求 数据密集型科学研究 数据密集型计算 并行计算的回顾 大数据时代并行计算发展的机遇和挑战 集群规模的可伸缩性和分布式并行

4、应用的可编程性成为了主要的发展矛盾 而架构在硬件和应用之间的计算模型则成为缓解两者之间矛盾的最关键的技术之一 计算模型是一种涵盖存储模型 执行模型 调度模型 恢复模型的综合抽象 特点 可以有效屏蔽大量繁杂的并行控制细节 能够在大规模廉价集群中以并行 可扩展 容错 易用 透明的方式支持各种并行算法的高效执行 为开发人员提供简洁的编程抽象 极大降低大规模集群并行编程的门槛 并行计算模型 计算模型 Dryad Micros0ft MapReduce Google 谷歌公司的MapReduce是最早受到关注且应用最广泛的并行编程模型 并且随着其开源实现Hadoop的兴起 已经成为学术界和工业界事实上的

5、海量数据并行批量处理的标准 特性 线性可扩展性 高可用性 易用性 容错性 负载平衡以及鲁棒性 可伸缩性和可编程性上实现了极佳的平衡点 并行计算模型 1 面向批处理的并行计算模型及优化技术 针对多核或GPU等新型硬件进行专门的优化处理MapReduce在通用多核处理器 集群 上的研究 架构在共享内存体系结构上Phoenix系统是MapReduce在多核环境下的实现方案 Phoenix 则提供了一个支持模块化和可扩展流水线的Phoenix增强版本 通用多核处理器集群MapReduce在专用的多核处理器芯片CellB E CellBroadbandEngine 以及GPU上也有相关的优化研究工作Ma

6、pReduce架构性的优化 提高迭代性能 优化调度效率 增强流水线处理等 并行计算模型 MapReduce的性能优化 基于MapReduce的流处理MapReduce数据流处理策略是将无界的数据流划分成较小的有界批处理子集 然后用批处理模式对已持久化的数据流快照进行分析 无法满足流式应用对实时性的需求 一些研究者尝试将MapReduce模型与典型的数据流系统进行融合 连续型MapReduce DEDUCE系统 C MR M3 并行计算模型 2 面向流处理的并行计算模型及优化技术 流数据专用系统大数据概念出现之前 实时数据流处理领域已出现的专用系统Aurora 布朗大学 MIT Borealis

7、 Aurora后续演化的加入分布式特征 Telegraph 加州大学伯克利分校 SPC IBM NiagaraCQ 威斯康星大学 近年的大规模高扩展的流式计算模型S4 Yahoo Puma Facebook Millwheel google Storm Twitter 并行计算模型 面向流数据的专用并行计算模型 相比于批处理计算模型 流式并行计算模型从流数据本身的特征出发 从底层架构上就与流数据处理高度耦合 虽然适用范围比较局限 但是可以有效地将系统响应时间控制在毫秒级 但是在吞吐能力 负载平衡等方面尚有待进一步提高 并行计算模型 流式并行计算模型与批处理模型的比较 大图数据处理存在两种典型的

8、模式 采用通用的海量数据分布式并行计算框架MapReduce进行处理 采用完全面向图结构设计的专用大图计算框架MapReduce针对模式自由 schemafree 的数据对象实现高吞吐的批量处理 缺乏有效处理大图的内部机制 专用大图并行计算模型有针对性地考虑了图计算的基本特征 内部就已经提供了对大图处理的支持 能获得较好的性能 并行计算模型 3 面向大图数据的并行计算模型及优化技术 从存储架构上 面向分布内存架构的大图并行计算模型代表模型 Pregel HAMA Giraph DistributedGraphLab Trinity特点 网络通信代价很高 用图划分法解决 面向单机多核共享内存架构

9、的大图并行计算模型优化技术 序列化随机访问 利用多核以及新型存储的高并发能力 引入异步机制 并行计算模型 大图并行计算模型两种分类方式 从计算模式上 同步大图并行计算模型代表 BSP BulkSynchronousParallel 同步计算模型特点 只能使用上轮迭代获得的输入进行计算 通信与同步性能存在瓶颈异步大图并行计算模型代表 基于共享内存的GraphLab及其分布式版本DistributedGraphLab特点 可以使用最新的数据作为计算输入 能够加快迭代的收敛速度 但管理需控制更多细节增加了变成编程难度优化 基于优先级或增量的优化技术 面向顶点的执行调度 并行计算模型 发展契机应对新型

10、实时型应用对于实时 即席 交互式分析的复杂业务诉求大数据不同维度特征所表现出的增量速度快 持续增加规模大 数据类型差异明显等客观事实加剧了现有计算模型所面临的内存容量有限 I O效率低下 并发控制困难 数据处理总体性能较低等诸多问题基于磁盘的分布式存储环境又难以满足性能上的实时需求 而随着SCM storageclassmemory 技术的快速发展 内存容量越来越大 同时价格越来越便宜相比于全部数据集 大部分应用的活跃的工作数据集明显有限 也为常驻内存处理提供了事实的依据 并行计算模型 4 基于内存的并行计算模型及优化技术 工业界 Memcache 最著名的全内存式数据存取系统 Redis 内

11、存存储功能的性能卓越 提供易于使用的API HekatonHANA学术界 H Store MIT 内存数据处理环境下的原型系统 DeBrabant等人对H Store系统提出了Anti Caching策略HyPer原型系统 并行计算模型 基于内存的数据管理技术的研究成果和经验 Spark 基于内存的分布式并行处理框架 提供的最主要的抽象即弹性分布式数据集RDD resilientdistributeddatasets 提供了和Hive类似的类SQL命令接口Shark基于Spark的内存计算分析生态系统正在不断的完善与开发之中 并行计算模型 以最短响应时间为设计目标的面向内存设计的编程模型及其系统 在大数据背景下 传统应用领域以及新兴应用领域都对信息系统的数据处理能力提出越来越高的需求基础硬件环境的重大技术突破以及云计算等商业模式的成功也为数据处理提供了新的发展契机 分布式并行处理将是解决大数据处理问题的主要技术手段 而分布式并行计算模型在多个指标上有针对性的优化和平衡则是推动分布式并行计算在大数据环境下成功应用的关键所在 并行计算模型已经起步 但是仍处于发展初期 尚面临着大量的研究挑战 未来多样化的并行计算模型百花齐放的发展格局将成为推动并行计算快速发展的有力助推器 结论与展望 谢谢观看

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号