分布式与云计算系统第1章

资源描述

《分布式与云计算系统第1章》由会员分享，可在线阅读，更多相关《分布式与云计算系统第1章（59页珍藏版）》请在金锄头文库上搜索。

1、Distributed and Cloud Distributed and Cloud ComputingComputing分布式与云计算系统分布式与云计算系统1分布式系统模型和关键技术分布式系统模型和关键技术 21.1 互联网之上的可扩展计算分布式系统是个由多个互相连接的处理资源组成的计算机系统，它们在整个系统的控制下协同执行同一个任务，最少依赖于集中的程序、数据或硬件。优点：缺点：3互联网之上的可扩展计算n平台的变革：1950年代起大型机、小型机、个人计算机、便携式计算机 n高性能计算：HPC系统强调系统的原生速度性n高吞吐量计算：HTC主要应用于被百万以上用户同时使用的互联网

2、搜索和Web服务讨论的问题包括集群、MPP、P2P网络、网格、云、Web服务、社会网络和物联网。事实上，集群、网格、P2P网络和云之间的区别将会越来越模糊。4HPC: High-Performance ComputingHTC: High-Throughput ComputingP2P: Peer to PeerMPP: Massively Parallel Processors图1-1 HPC和HTC系统的演化趋势（并行、分布式、云计算，具有集群、MPP、P2P网络、网格、云、Web服务和物联网）5计算范式间的区别：集中式计算:这种计算范式是将所有计算资源集中在一个物理系统之内。

3、所有资源（处理器、内存、存储器）是全部共享的，并且紧耦合在一个集成式的操作系统中。并行计算：在并行计算中，所有处理器或是紧耦合于中心共享内存或是松耦合于分布式内存。分布式计算：一个分布式系统由众多自治的计算机组成，各自拥有其私有内存，通过计算机网络通信。分布式系统中的信息交换通过消息传递的方式完成。 6云计算：一个互联网云的资源可以是集中式的也可以是分布式的。云采用分布式计算或并行计算，或两者兼有。云可以在集中的或分布式的大规模数据中心之上，由物理的或虚拟的计算资源构建。普适计算是指在任何地点和时间通过有线或者无线网络使用普遍的设备进行计算。物联网是一个日常生活对象（包

4、括计算机、传感器、人等）网络化的连接。物联网通过互联网云实现任何对象在任何地点和时间的普适计算。互联网计算这一术语几乎涵盖了所有和互联网相关的计算范式。7HPC和HTC系统需要遵从如下设计原则：效率:在HPC系统中开发大规模并行计算时，度量执行模型内资源的利用率。对于HTC系统，效率更依赖于系统的任务吞吐量、数据访问、存储、节能。可信：度量从芯片到系统到应用级别的可靠性和自管理能力。目的是提供有服务质量（QoS）保证的高吞吐量服务，即使是失效的情况下。编程模型适应性：度量在海量数据集和虚拟云资源上各种负载和服务模型下支持数十亿任务请求的能力。应用部署的灵活性：度量分布

5、式系统能够同时很好地运行在HPC（科学和工程）和HTC（商业）应用上的能力。8可扩展性计算趋势和新的范式l位级并行（BitLevel Parallelism，BLP） l指令级并行（InstructionLevel Parallelism ，ILP）。通过指令流水线、超标量计算、VLIW体系结构、多线程实践了ILP。ILP需要分支预测、动态规划、投机预测、提高运行效率的编译支持。 l数据级并行（DataLevel Parallelism，DLP）的流行源于SIMD和使用向量与数组指令类型的向量机 l任务级并行（TaskLevel Parallelism，TLP） l作业级并行（Jo

6、bLevel Parallelism ，JLP）910新技术成熟周期n第一阶段技术萌芽期，这意味着一种新技术诞生。往往是这种新技术在参加了一些行业前沿展会譬如消费电子展 (CES)之后，由于其新奇性、高科技含量被各大媒体广泛报道。11新技术成熟周期n第二阶段期望膨胀期，一些企业推出产品。在这一阶段，有很多成功的案例，也有很多失败的案例，让很多企业暂停创新。n第三阶段幻想破灭期，新产品、新服务达不到公众的预期。12新技术成熟周期n第四阶段复苏期。在此阶段,新技术将稳步发展，步入成熟期并最终跻身主流市场.n第五阶段成熟期。在此阶段，新科技产生的利益与潜力被市场实际接受，支援此

7、经营模式的工具、方法论经过数代的演进，进入了非常成熟的阶段。13新技术成熟周期n通过“技术成熟周期”五阶段发展曲线，可以认识清楚，哪些是炒作，哪些将成为真正火热的产品。n握好时间点是一切成功的关键。如果过早推出一个产品，消费者可能还没有准备好。但是，如果适时抢在别人前面推出新产品，那么企业将独占鳌头。 142011 Gartner 2011 Gartner “ “IT Hype CycleIT Hype Cycle ” ” for Emerging Technologies for Emerging Technologies新技术成熟周期 15物联网和CPS物联网是指日常生活中对象

8、、工具、设备或计算机间存在网络互连。物联网为互联了所有我们生活中的对象的无线传感器网络。CPS是计算过程和物理世界之间交互的结果。 CPS集成了“计算节点”（同构，异构）和“物理 ”（并发和信息密集的）对象。CPS在物理世界和信息世界之间将“3C”技术（计算、通信、控制）融合到了一个智能闭环反馈系统中。物联网强调物理对象之间的多样化连接，而 CPS强调物理世界中虚拟现实应用的开发和研究。161.2 基于网络的系统技术多核CPU和多线程技术17摩尔定律 n摩尔定律是由英特尔（Intel）创始人之一戈登摩尔（Gordon Moore）提出来的。其内容为：当价格不变时，集成电路上可容

9、纳的晶体管数目，约每隔18个月便会增加一倍，性能也将提升一倍。换言之，每一美元所能买到的电脑性能，将每隔18个月翻两倍以上。这一定律揭示了信息技术进步的速度。18图1-5 现代多核CPU芯片的层次cache示意图，其中L1 cache是每个核私有的，片上L2 cache是共享的，L3 cache和DRAM是非片上的19图1-6 现代CPU处理器的5种微体系结构，通过多核和多线程技术支持ILP和TLP20图1-7 数百或数千处理核心的海量并行处理中协同CPU 的GPU使用大规模和超大规模GPU计算 21GPU与CPU（一）nGPU的竞争远比CPU的竞争来得激烈。通用PC的CPU就只有

10、英特尔和AMD两家大厂。而在GPU方面领先的是NVIDIA和 AMD两家厂商，但能生产中低端产品的还有英特尔、三星等好几家厂商。它们的产品虽然不如前两家，但在很多应用方面也能满足用户的需要，所以N记和A 记只有拼命往前跑才不会死掉。 22GPU与CPU（二）nCPU除了处理游戏的AI，情节等方面的数据外，对于有些图像方面也是由它完成的。当微软每次发布新的DX时，并不是每款GPU都能支持DX新的特性，所以有些图像方面的任务还得由CPU来完成。 23GPU与CPU（三）nGPU相当于专用于图像处理的CPU，正因为它专，所以它强，在处理图像时它的工作效率远高于CPU，但是CPU

11、是通用的数据处理器，在处理数值计算时是它的强项，它能完成的任务是GPU无法代替的，所以不能用GPU来代替CPU。 24GPU与CPU（四）n微软发布Windows7 其中一个显著特性就是联合GPU和CPU的强大实力，提升 GPU在硬件使用的价值，在Windows7中，CPU与GPU组成了协同处理环境。 CPU运算非常复杂的序列代码，而GPU 则运行大规模并行应用程序。 25内存、外部存储和广域网图1-10 过去33年中内存和磁盘技术的改进。2011年， Seagate Barracuda XT磁盘容量为3TB26图1.11三种连接服务器、客户机、存储设备的互连网络，LAN连接客户

12、机和服务器，SAN连接服务器和磁盘阵列，NAS连接客户机和网络环境中大规模存储系统系统区域互连 27图1-12 三种虚拟机体系结构与传统的物理机的比较虚拟机和虚拟化中间件建立大规模集群、网格和云，我们需要以虚拟的方式访问大量的计算、存储和网络化资源。我们需要集群化这些资源，并希望提供一个单独的系统镜像。 28Primitive Operations in Virtual Machines: Primitive Operations in Virtual Machines: 图1-13 分布式计算环境中的虚拟机复用、挂起、供应和迁移291.3 分布式和云计算系统模型分布式和云计算系统都建

13、立于大量自治的计算机节点之上。这些节点通过SAN、LAN 或WAN以层次方式互连。大系统被认为高可扩展，并能在物理上或逻辑上达到Web规模互连。大系统被划分为四组：集群、P2P网络、计算网格、大数据中心之上的互联网云。3031A Typical Cluster ArchitectureA Typical Cluster Architecture协同计算机集群图1-15 服务器集群通过高带宽SAN或LAN互连以共享I/O设备和磁盘阵列；集群以一个单独计算机的身份接入互联网 32计算机集群 n计算机集群简称集群是一种计算机系统，它通过一组松散集成的计算机软件和/ 或硬件连接起来高度紧密

14、地协作完成计算工作。在某种意义上，他们可以被看作是一台计算机。 n集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机，比如工作站或超级计算机性能价格比要高得多。 33计算机集群n高可用性集群一般是指当集群中有某个节点失效的情况下，其上的任务会自动转移到其他正常的节点上。还指可以将集群中的某节点进行离线维护再上线，该过程并不影响整个集群的运行。34计算机集群n负载均衡集群负载均衡集群运行时一般通过一个或者多个前端负载均衡器将工作负载分发到后端的一组服务器上，从而达到整个系统的高性能和高可用性。这样的计算机集群有时也被称为服务器群（S

15、erver Farm）。 35计算机集群n高性能计算集群高性能计算集群采用将计算任务分配到集群的不同计算节点儿提高计算能力，因而主要应用在科学计算领域。比较流行的HPC采用Linux操作系统和其它一些免费软件来完成并行运算。36网格计算在过去30年，用户经历了一个从互联网到Web和网格计算服务的自然发展。互联网服务（如Telnet 命令）使本地计算机可以连接到一台远程计算机。一个Web服务（如HTTP）使远程访问Web页面成为可能。网格计算被预想用于同时在多台远距离计算机上运行的应用间进行近距离交互。网格呈现为集成的计算资源。它们也可以被视为支持虚拟组织的虚拟平台。37图1-

16、16 计算网格或数据网格通过资源共享和多个组织间合作提供了计算效用、数据和信息服务38网格计算n网格计算通过共享网络将不同地点的大量计算机相联，从而形成虚拟的超级计算机,将各处计算机的多余处理器能力合在一起，可为研究和其他数据集中应用提供巨大的处理能力。 n有了网格计算，那些没有能力购买价值数百万美元的超级计算机的机构，也能利用其巨大的计算能力。 3940对等网络家族客户端服务器体系结构。客户机（PC和工作站）被连接到一个中央服务器，用来进行计算、电子邮件、文件访问和数据库应用。P2P体系结构提供了一个分布式的网络化系统模型。在一个P2P系统中，每个节点既是客户端又是服务器，提供部分系统资源。节点机器都是简单的接入互联网的客户机。所有客户机自治、自由地加入和退出系统。不存在主从关系。无需中心协作或中心数据库。系统是分布式控制下自组织的。41覆盖网络:简单说来覆盖网络就是应用层网络，它是面向应用层的，不考虑或很少考虑网络层，物理层的问题。如p2p、基于内容的网络

展开阅读全文