云计算基础第8章ppt课件

上传人:资****亨 文档编号:145061978 上传时间:2020-09-16 格式:PPTX 页数:75 大小:4.69MB
返回 下载 相关 举报
云计算基础第8章ppt课件_第1页
第1页 / 共75页
云计算基础第8章ppt课件_第2页
第2页 / 共75页
云计算基础第8章ppt课件_第3页
第3页 / 共75页
云计算基础第8章ppt课件_第4页
第4页 / 共75页
云计算基础第8章ppt课件_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《云计算基础第8章ppt课件》由会员分享,可在线阅读,更多相关《云计算基础第8章ppt课件(75页珍藏版)》请在金锄头文库上搜索。

1、Google云计算原理,V1,.,目录,1.概念回顾,2.背景,3.GFS,4.MapReduce,Google云计算原理,.,概念回顾,1,.,大气“云”、星系“云” 亚马逊弹性计算“云”EC2 将闲置资源出租利用 “云”计算的核心思想 计算、服务在“云”端,“云”计算命名的猜想,“云”的规模较大 “云”具有可伸缩性 “云”的边界模糊 “云”飘忽不定,无法确定具体位置,4,.,2,背景,.,Google与Microsoft的战争,6,.,Google和微软之间日益激烈的对立将是一场史诗般的企业战争,将对两家公司的成功和发展产生重要影响,并规定着消费者和企业如何工作、购物、通讯,以及“他们过的

2、数字生活” Google认为这一切将发生在遥远的数据中心中的服务器,用户可以通过许多有线和无线设备访问这些服务,这就是所谓的“云计算” 微软也认为未来在于Web,但它的重心仍然是其桌面PC软件,冲突之源,7,.,90%计算任务都能够通过“云计算”技术完成 桌面软件正在向Web软件转型 云计算是开放标准 ,业界不会有公司独裁 中小企业、大学、消费者会相对迅速地转向基于Web的“云计算”技术 新的赢利模式 低廉的云计算给Google带来更多的流量,进而带来更多的广告收入 承认“云计算”不会在一夜之间普及 大公司通常会慢慢地改变自己的习惯 其它问题,例如“飞机问题”,以及在不能上网时用户如何工作。,

3、Google的观点,Google CEO 埃立克.施米特,8,.,在计算机上安装的传统软件是微软的根本 比尔盖茨(Bill Gates)接受媒体采访时曾提出:“我们致力于推动PC成为一切的中心” 微软将自身的战略称为“软件加服务” 微软将Google的乐观称作是一厢情愿。 利用Web软件收发电子邮件、处理文档和电子表格、进行协作很方便吗? 高速宽带连接会象Google断言的那样普及和可靠吗? 企业、大学、消费者会让Google保存他们的资料吗?,Microsoft的观点,Microsoft CEO 史蒂夫.鲍尔默,孰优孰劣,等待市场检验!,9,.,应用规模对于系统架构设计的重要性 Google

4、应用的特性 海量用户+海量数据 需要具备较强的可伸缩性 如何又快又好地提供服务?,Google的秘密武器,秘密武器:云计算平台,10,.,Google的云计算梦想,“浏览器操作系统”,11,.,Google云计算应用的分类,12,Google App Engine 可提供快速开发和部署,管理简单,无需担心硬件、补丁或备份,并可轻松实现可扩展性,.,3,GFS,.,什么是文件系统? FAT, FAT32, NTFS, EXT, 用于持久地存储数据的系统 通常覆盖在底层的物理存储介质上 硬盘、CD、磁带等 数据组织的基本单元:文件 具有文件名(1.txt) 通常支持层次化嵌套(目录结构),文件系统

5、基础,14,.,文件路径 文件与目录的结合,用于定位文件 绝对路径,/home/aaron/foo.txt 相对路径,docs/someFile.doc 规范路径 定位文件的最短绝对路径 /home/aaron/foo.txt, /home/./home/aaron/./foo.txt 所有规范路径的集合构成了文件系统的目录结构,文件系统基础,15,.,文件系统的存储内容 主要内容:用户的实际数据 元数据:驱动器元数据与文件元数据,文件系统基础,16,.,文件分块存储,文件系统基础,17,.,文件系统设计的考虑因素 最小存储单元 较小可减少浪费空间,较大则可提高文件顺序读取速度(随机访问呢?)

6、 文件系统的设计目标是提高访问速度还是提高使用率? 文件系统的安全性 多用户环境下的文件安全 读/写权限分配 文件附带访问控制列表(ACL) 文件系统缓存 提高文件系统读写效率,文件系统基础,18,.,Google需要一个支持海量存储的文件系统 购置昂贵的分布式文件系统与硬件?,Google设计GFS的动机,是否可以在一堆廉价且不可靠的硬件上构建可靠的分布式文件系统?,19,.,Google云计算平台技术架构 文件存储,Google Distributed File System,GFS 并行数据处理MapReduce 分布式锁Chubby 结构化数据表BigTable,Google如何实现?

7、,20,.,21,.,Google需要一个支持海量存储的文件系统 购置昂贵的分布式文件系统与硬件?,Google设计GFS的动机,是否可以在一堆廉价且不可靠的硬件上构建可靠的分布式文件系统?,22,.,为什么不使用当时现存的文件系统? Google所面临的问题与众不同 不同的工作负载,不同的设计优先级(廉价、不可靠的硬件) 需要设计与Google应用和负载相符的文件系统,Google设计GFS的动机,23,一个适用于大规模分布式数据处理相关应用的,可扩展的分布式文件系统。它基于普通的不算昂贵的硬件设备,实现了容错的设计,并且为大量客户端提供极高的聚合处理性能。,.,GFS的假设与目标,硬件出错

8、是正常而非异常 系统应当由大量廉价、易损的硬件组成 必须保持文件系统整体的可靠性 主要负载是流数据读写 主要用于程序处理批量数据,而非与用户的交互或随机读写 数据写主要是“追加写”,“插入写”非常少 需要存储大尺寸的文件 存储的文件尺寸可能是GB或TB量级,而且应当能支持存储成千上万的大尺寸文件,24,.,将文件划分为若干块(Chunk)存储 每个块固定大小(64M) 通过冗余来提高可靠性 每个数据块至少在3个数据块服务器上冗余 数据块损坏概率? 通过单个master来协调数据访问、元数据存储 结构简单,容易保持元数据一致性 无缓存 Why?,GFS的设计思路,25,.,GFS将容错的任务交给

9、文件系统完成,利用软件的方法解决系统可靠性问题,使存储的成本成倍下降。 GFS将服务器故障视为正常现象,并采用多种方法,从多个角度,使用不同的容错措施,确保数据存储的安全、保证提供不间断的数据存储服务,GFS架构是怎样的?,.,GFS系统架构,Client(客户端):应用程序的访问接口 Master(主服务器):管理节点,在逻辑上只有一个,保存系统的元数据,负责整个文件系统的管理 Chunk Server(数据块服务器):负责具体的存储工作。数据以文件的形式存储在Chunk Server上,控制流,状态流,IO并行,.,分布式系统设计告诉我们: 这是单点故障 这是性能瓶颈 GFS的解决办法 单

10、点故障问题,单一Master问题,采用多个(如3个)影子Master节点进行热备,一旦主节点损坏,立刻选举一个新的主节点服务,28,.,GFS的解决办法 性能瓶颈问题,单一Master问题,尽可能减少数据存取中Master的参与程度,不使用Master读取数据,仅用于保存元数据,客户端缓存元数据,数据修改顺序交由Primary Chunk Server完成,Simple, and good enough!,29,.,存储元数据 文件系统目录管理与加锁 与ChunkServer进行周期性通信 发送指令,搜集状态,跟踪数据块的完好性 数据块创建、复制及负载均衡 对ChunkServer的空间使用和

11、访问速度进行负载均衡,平滑数据存储和访问请求的负载 对数据块进行复制、分散到ChunkServer上 一旦数据块冗余数小于最低数,就发起复制操作,Master节点的任务,30,.,垃圾回收 在日志中记录删除操作,并将文件改名隐藏 缓慢地回收隐藏文件 与传统文件删除相比更简单、更安全 陈旧数据块删除 探测陈旧的数据块,并删除,Master节点的任务,31,.,采用中心服务器模式 可以方便地增加Chunk Server Master掌握系统内所有Chunk Server的情况,方便进行负载均衡 不存在元数据的一致性问题,GFS架构的特点,32,.,不缓存数据 GFS的文件操作大部分是流式读写,不存

12、在大量的重复读写,使用Cache对性能提高不大 Chunk Server上的数据存取使用本地文件系统,如果某个Chunk读取频繁,文件系统具有Cache 从可行性看,Cache与实际数据的一致性维护也极其复杂,GFS架构的特点,?,33,.,在用户态下实现 无需了解操作系统的内部实现机制和接口,降低了实现难度,提高了通用性。 POSIX接口提供的功能更丰富,而在内核态中调试相对困难。 直接利用Chunk Server的文件系统存取Chunk,实现简单 用户态应用调试较为简单,利于开发 用户态的GFS不会影响Chunk Server的稳定性,GFS架构的特点,34,.,提供专用的访问接口 未提供

13、标准的POSIX访问接口:面向GOOGLE自身的应用而开发的。 降低GFS的实现复杂度:GFS是在应用层实现的 专用接口直接和Client,Master,Chunk Server交互,减少了操作系统之间上下文的切换,降低了复杂度,提高了效率。,.,GFS的容错方法,GFS的容错机制 Master容错 三类元数据:命名空间(目录结构)、Chunk与文件名的映射以及Chunk副本的位置信息 前两类通过日志提供容错,Chunk副本信息存储于Chunk Server,Master出现故障时可恢复,36,.,GFS的容错方法,GFS的容错机制 Chunk Server容错 每个Chunk有多个存储副本(

14、通常是3个),分别存储于不通的服务器上 每个Chunk又划分为若干Block(64KB),每个Block对应一个32bit的校验码,保证数据正确(若某个Block错误,则转移至其他Chunk副本),37,.,大规模集 群安装技术,故障检测技术,节点动态加入技术,节能技术,新的Chunk Server加入时 ,只需裸机加入,大大减少GFS维护工作量,GFS构建在不可靠廉价计算机之上的文件系统,由于节点数目众多,故障发生十分频繁,Google采用了多种机制降低服务器能耗,如采用蓄电池代替昂贵的UPS,系统管理技术,GFS集群中通常有非常多的节点,需要相应的技术支撑,系统管理技术,.,超过50个GF

15、S集群 每个集群包含数千个存储节点 管理着PB(1015Byte)级的数据,GFS在Google中的部署,巨型、廉价、稳定的数据中心,39,.,GFS小结,简单的,就是最好的!,40,实现了控制流和数据流的分离,.,总结与讨论,GFS有什么问题吗?,41,.,4,MapReduce,.,摩尔定律 集成电路芯片上所集成的电路的数目,每隔18个月就翻一番,同时性能也提升一倍 经验总结,12个月-18个月-24个月,并行计算基础,Gordon Moore,.,“免费的性能大餐”? Andy giveth, and Bill taketh away 软件算法、数据结构似乎不再重要,因为处理器性能不断提

16、升,并行计算基础,免费的午餐已经结束!,Intel,Microsoft,.,摩尔定律正在走向终结 单芯片容纳晶体管的增加,对制造工艺提出要求 CPU制造18nm技术,电子泄漏问题 CPU主频已达3GHz时代,难以继续提高 散热问题(发热太大,且难以驱散) 功耗太高,并行计算基础,未来的发展:多核,.,在多核时代生存,必须考虑并发问题 不存在解决多核编程问题的银弹, 不存在可以简单地将并发编程问题化解掉的工具, 开发高性能的并行程序必须要求开发者从根本上改变其编程方法 从某种意义上来说,这不仅仅是要改变50年来顺序程序设计的工艺传统, 而且是要改变数百万年来人类顺序化思考问题的习惯,并行计算基础,Herb Sutter,.,串行编程 早期的计算里,程序一般是被串行执行的 程序是指令的序列,在单处理器的机器里,程序从开始到结束,这些指令一条接一条的执行,并行计算基础,传统的串行计算,.,并行编程 一道处理可以被划分为几部分,然后它们可以并发地执行 各部分的指令分别在不同的CPU上同时运行,这些CPU可以存在于单台机器中,也可以存在于多台机器上,它们

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号