最有价值云计算资料

上传人:第*** 文档编号:61258974 上传时间:2018-11-27 格式:PPT 页数:41 大小:5.22MB
返回 下载 相关 举报
最有价值云计算资料_第1页
第1页 / 共41页
最有价值云计算资料_第2页
第2页 / 共41页
最有价值云计算资料_第3页
第3页 / 共41页
最有价值云计算资料_第4页
第4页 / 共41页
最有价值云计算资料_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《最有价值云计算资料》由会员分享,可在线阅读,更多相关《最有价值云计算资料(41页珍藏版)》请在金锄头文库上搜索。

1、云计算,邓玉辉 暨南大学,信息学院计算机系,概要,背景 云体系结构 云计算 云存储 云传输 讨论,阿喀琉斯之踵,古希腊神话中的阿喀琉斯是海神之子,荷马史诗中的英雄,传说他的母亲曾把他浸在冥河里使其能刀枪不入。但因冥河水流 湍急,母亲捏着他的脚后跟不敢松手,所以其脚踵是最脆弱的地方。 在特洛伊战争中,阿喀琉斯杀死了特洛伊王子赫克托耳,因而惹怒了赫克托耳的保护神阿波罗,于是太阳神用毒箭射中了阿喀琉斯的脚踵,送了这位勇士的命。,数据量,数据爆炸性增涨(2006,161 EB;2011,1800 EB;年增长率达到60%. IDC报告)。 数据中的绝大部分将存储在世界各地的大型数据中心。,GB-TB-

2、PB-EB,2005年,美国新建立的数据中心需要消耗的能量=加利福尼亚州所消耗能量的10%(大约5GW),约40亿美金。 英国的1500个数据中心每年消耗的能量和英国第十大城市莱卡斯特所需要的能量相当。 2010年,英国单个数据中心每年在能量上的花费达到大约740万英镑。 计算机集群系统由于采用商用化部件,其能耗问题更为突出。,IT基础设施能耗,热密度,Google数据中心,Google数据中心以集装箱为单位,每个集装箱有1160台服务器,每个数据 中心有众多集装箱。 Google一次搜索查询的能耗能点亮100瓦的灯泡11秒钟。,比利时的圣吉兰(Saint Ghislain)数据中心完全依靠数

3、据中心外面的空气来冷却系统。,Dalles数据中心位于俄勒冈州的哥伦比亚河旁,河上的Dalles大坝为数据中心提供电力。数据中心有2座4层楼高的冷却塔。,What matters most to the computer designers at Google is not speed but power low power, because data centers can consume as much electricity as a city.,-Eric Schmidt, CEO, Google,Microsoft数据中心,美国华盛顿州Grand Coulee水坝是世界第三大混合电力

4、水坝,供电量是650万千瓦。 Microsoft在水坝边上建一个有10个沃尔玛商店那么大的数据中心。,微软在美国芝加哥的数据中心.总面积为70万平方英尺。即使只启用半数服务器,能耗也达到30兆瓦。,机遇,大部分企业IT基础设施的利用率只有35%. 还有许多企业的IT资源利用率不到15%(IDC报告). Google的数据表明其绝大部分服务器的利用率在10%到50%之间。 Why? ? 突发性的数据访问行为 。,推动力,摩尔定律。商用化的组件组成的电脑其性能已足以支持多个操作系统的并行运行。 虚拟机技术的复苏(出现在上世纪70年代,并主要用在IBM 360的大型机中) 利用商用化的计算机组件来构

5、造云环境 利用虚拟机技术来实现计算资源的按需分配。,杀手级的应用,任何一项新技术或者新的服务模式的成功,往往是因为其出现在恰当的时间,并且有合适的外因和内因来推动。 杀手级的应用(WWW互联网)。 云计算之历史渊源: 元计算(Metacomputing)、普适计算(pervasive computing)、 按需计算(On demand computing)、效用计算(Utility computing)、 自主计算(Autonomic computing)、网格计算(Grid computing)等等。,什么是云计算,一种新的服务模式。按服务类型大致可分: 将基础设施作为服务(Infrast

6、ructure as a Service, IaaS)、 将平台作为服务(Platform as a service, PaaS) 将软件作为服务(Software as a service, SaaS)。,服务模式,根据实际需要通过定制或租用的方式使用基于Web的软件来完成所需的工作。 将应用和计算机资源包括硬件和系统软件包装成服务,通过按需付费(pay-as-you-go)的方式,穿越Internet来满足用户各种不同的需求。 用户可以不再需要购买昂贵的计算机系统,不再因为需要短时间使用某个软件而不得不购买该软件的使用版权。 云计算通过虚拟化技术,通过资源整合,实现按需资源分配。提高资源利

7、用率,同时降低用户的设备投入和使用成本。,云体系结构,一条双向可无限延长的、被分成一个个方格的磁带, 格里写有符号 一个有限状态控制器 一个读写磁头,图灵机,这个装置就是根据程序的命令以及它的内部状态进行磁带的读写、移动。 图灵机的动作由五元组确定: 其中,q和q为控制器的当前状态和下一状态;b和a为方格中的原有符号和修改后的符号,m指示磁头移动方向,或左或右或停。 由状态和符号确定的工作过程称图灵机程序。,图灵论题:凡是可计算的函数都可以用图灵机计算。,冯诺伊曼架构,计算机由控制器、运算器、存储器、输入设备和输出设备五大部分组成。 基本原理:存储程序(stored program)并按地址顺

8、序执行。 控制器按照程序顺序,逐条把指令和数据从存储器中取出并加以执行,自动完成由程序所描述的处理工作。 以计算为中心,云环境架构,服务器,存储系统,网络设备,虚拟化技术,应用/计算,传输,数据,云环境架构与用户视图,云架构的特点:将地理上分布、大规模、异构的资源进行虚拟化,并能够对用户提供按需服务。 云的成功在很大程度上决定于云的规模效应。 同时,云环境下非常重要的问题之一就是如何合适地安排计算、存储和传输,使得其规模和性能能够同步扩展。,云计算:虚拟机,虚拟机通过软件来模拟具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。 优点: 提高资源的利用率。多个操作系统可以同时存在

9、和运行于同一个物理平台上(在单个服务器上有可能同时运行数百个虚拟机器)。 有效隔离操作系统和资源。虚拟机中的操作系统崩溃后恢复比较容易,并不会对同一个物理平台上的其它操作系统造成影响,而且比较容易实现操作系统的数据重放和回滚。,一个典型的虚拟机环境,虚拟机技术的问题,虚拟机技术最初使用在IBM 360的大型机中。大型机中往往采用专门的通道来来保证外部设备的访问和性能。 将该技术移植到基于商用组件的X86环境下,由于缺乏专用的通道和通道处理机来应对I/O访问,虚拟机环境下的I/O问题已经成为当前虚拟机系统中面临的最大问题。,虚拟机环境下:第二个域的应用通过系统调用产生异步I/O,进入管理程序(H

10、ypervisor),该管理程序将该I/O操作转给第零个域,然后返回到第二个域的操作系统(异步I/O)和上层应用程序。此时第零个域的操作系统将进行实际的I/O操作。待I/O完成后,会产生一个虚拟中断给第零个域的操作系统,该操作系统给虚拟化软件发出相应的虚拟中断。待虚拟化软件完成I/O后,会给第零个域的操作系统返回一个系统调用来唤醒第二个域的操作系统,然后虚拟机管理程序将I/O完成的中断交给第二个域的操作系统,最后将I/O操作产生的数据交给第二个域中的应用程序。,传统的计算机系统中:应用程序通过系统调用产生异步I/O操作后直接返回。待I/O操作完成后会产生中断给操作系统,并将I/O操作产生的数据

11、交给应用程序。,云存储:磁盘驱动器,磁盘是一种机电混合设备。 在过去的十多年中,磁盘的区域密度、轨密度和线密度分别获得了100%, 50% 和 30% 的增长。,磁记录技术,存储的角色演变,数据的增涨导致了以“计算”为中心到以“数据存储”为中心的的观念革新。 存储领域的两个重要转折点: 并行存储。比如磁盘阵列技术(RAID)。 网络存储。NAS,SAN,新型存储体系结构,将网络引入存储系统,改变主机与外部存储节点间的连接模式,产生了若干新型存储体系结构: 直接联网存储( Direct attached storage , DAS ) 附网存储(network attached storage

12、, NAS) 存储区域网(storage area network , SAN)。 存储系统必须要从少数的存储引擎向连在网络上的成千上万的商用化存储设备进行转变。,三种典型的存储系统,附网存储,存储区域网,直连存储,存储需求,科学计算,航空,航天,生物医学,石油勘探,在过去的十多年中集群网络的重要进展之一是可以将成千上万的节点连起来,同时保证高可扩展性和相对较低的通讯开销。 采用商用化的技术来构造可扩展的集群是云存储的基本组件。 搭积木的形式来聚合存储组件。,云存储理想架构,挑战1:名字空间,存储器空间的组织和分配,数据的存储、保护和检索都依赖于文件系统。 文件系统由文件和目录构成文件系统的树

13、形层次化结构。包括集群文件系统。 当数据的访问从树根走向树叶的时候,访问的延迟会响应的增加。如果不知道文件保存位置,必须遍历整个目录。 还有两个重要的因素导致树形架构不适合于云存储环境: (1)树根本身就是一个单一失效点,而且很容易形成系统的瓶颈。 (2)树形架构很难在Internet上扩展到地理上分布的规模。 云存储只有采用非集中式的名字空间来避免潜在的性能瓶颈和单点失效。,挑战2:元数据,元数据是描述数据的数据,主要用来反映地址信息和控制信息,通常包括文件名、文件大小、时间戳、文件属性等等。 在文件系统的操作中,超过50%的操作是针对元数据的. 另有研究指出,使用NFS 3.0时,其客户端

14、和服务器端交互的信息中65%的信息是和元数据相关的。 元数据是小的随机请求。,和存储容量的增长不同,机械组件所带来的延迟,磁盘的平均访问时间每年的降低不足8%。 小的随机请求,寻道时间是磁盘访问延迟中最组要的部分。这是由于磁头的稳定时间主导着磁盘的寻道时间,而且磁头的稳定时间数年来基本上没有太大的变化。 因此,对于大规模系统来讲,元数据的访问往往成为制约整个系统性能的瓶颈。,云传输:广域网性能,Nielsen 法则:终端用户的网络带宽以每年50%的速度增长。 广域网: 一条T1线路的带宽只相当于千兆网的千分之一,许多帧中继线路的带宽只有256Kbits/秒。 Garfinkel 通过测量发现从

15、美国伯克利大学到西雅图的平均网络写带宽大约是5 to 18 Mbits/秒。 我们的测量数据:在格林尼治标准时间下午7点到10点,从英国剑桥大学到中国北京的平均网络带宽大约是1.8 Mbits每秒。 由于广域网物理距离的原因,不可避免的时延也会对带宽造成影响。例如,一个T3链路(44.736 Mbits/秒),当时延超过40ms时,其带宽很快就下降到与T1链路(1.544 Mbits/秒)相当。,简单计算,基于以上的测试数据,如果假设网络带宽为20 Mbits/秒,从美国伯克利大学传输10TB数据到西雅图需要45天的时间 如果通过亚马逊(S3)来进行该数据传输,需要另外向亚马逊支付1000美金

16、的网络传输费用。,云传输可能的解决方案,云环境必须是地理上分布的,因为云的成功在很大程度上决定于其规模效应。 计算和存储相对便宜,然而,由于广域网环境下的低带宽、高延迟和较高的丢包率,使得广域网成为云环境下那块最短的木板。 图灵奖获得者Jim Gray 在2006年就指出在广域网上处理大数据集时,应该将程序传给数据,而不是将数据传给程序。 另外,通过数据压缩、数据的去重等方法来减少网域网上的数据传输流量,降低对网络带宽的需求。采用动态缓存、IP流量管理以及QoS等方法来降低广域网的延迟。 但是,这些方法只能在一定程度上来缓解网络瓶颈问题,不能从根本上解决问题。因此,在设计云架构时,必须要考虑广域网的带宽、延迟和包丢失率所带来的影响。,云环境下的传输协议,目前广泛使用的TCP/IP协议是在实验室低速网络环境下诞生的,在设计初期只是为了保证数据在链路上的可靠传输。因此,它并不是为广域网而设计的网络传输协议。 TCP/IP协议的滑动窗口,重传和恢复等机制使得广域网的传输效率急剧下降。 TCP的窗口尺寸、慢启动等机制也无法充分利用已有的网络带宽。 我们需要重新审视在大

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号