从咼性能数值计算看网格黄度,张云泉中科院软件所并行计算实验室(北京 8718 信箱,100080){dhuang, zyq}@一、引言20世纪末,由于计算方法和计算机科学的飞速发展,计算科学 (包括信息科学)从理论科学和实验科学中分离出来,成为了一门独立的科学由于计算科学的独特理论体系(来 自于理论科学和实验科学)和研究工具(计算机)推动了理论科学和实验科学的发展,在 某些方面具备了实验科学和理论科学不可替代的作用美国Argonne国家实验室资深科学家、 美国计算网格项目的领导人 Ian Foster在其1999年出版的《The Grid: Blueprint for a New Computing Infrastructure 》书上对网格的定义为: "网格是构筑在In ternet上的一组新型技术,它将高速互联网、高性能计算机、大型数据库、 传感器、远程设备等融为一体,为科技人员与普通用户提供更多的资源、 功能和交互方式”GRID是新一代网络应用框架,它运用新一代 In ternet技术、高速宽带网络连接超级计算机和超级服务器,以发展迅速的 Middleware为网格操作系统,为科学研究、新技术发展提供前所未有的动态和分布式高性能科学计算环境。
当今的科学研究变得更加需要合作和多学科综合 ,一个研究小组的人员可能分布在不同的研究单位、国家甚至不同的洲 通过E-mail和Web可以提供一起合作的基本机制 但是,这仍然需要科学研究人员花大量的时间学习新增加的计算资源的技术细节、访问远程的应 用程序或者等待本地的计算资源有空闲但是如果能够把这些分布的数据、计算机、传感 器和其它资源连接成一个虚拟的实验室,结果会怎样?网格技术( Grid Technologies )的目的正是通过提供协议、服务和能够实现灵活可控大规模资源共享的软件开发包,让这一切 变成现实网格计算研究的最终目的是像提供电力一样向用户提供计算资源目前,对计算网格的研究内容主要分为七个领域 (工作组):⑴计算网格信息服务; ⑵安全;(3)调度和资源管理;(4)性能;(5)计算网格体系结构;(6)数据管理;(7)应用、编程模 型和环境最近,ASCI计划又提出了其对计算网格的计划该计划指出,对计算平台的研究,主 要集中在对计算性能的提高,只能提高一个计算资源的能力;而对 ASCI计算网格的研究,主要集中在总体模拟工作能力的提高;计算网格研究的首要评价标准是通过提高资源的可 访问性提高用户生产率,进而让用户把主要的精力集中在研究科学问题上。
研究网格的目的仍然是推动科学家加快科研活动的创新周期,因此,过多的关注对网 格硬件层次和中间件的研究,而忽视对问题求解环境(应用程序设计、性能优化、可视化 等)的研究,将导致最终用户不能高效率的利用投资巨 大的网格环境对一个应用程序设计者和用户来说,网格是他们 1所面对的全新程序设计环境,这既不同于传统的单个PC和工作站,也不同于大规模并行计算系统在上述环境下,用户面对的程序设计目标往往是同构的,且是独占的而在网格下的广域网络环境下,首 先要面对的就是计算平台的异构性,计算资源的分时共享,网络环境的不确定性和高延迟 等一系列问题并行程序设计对一般用户来说已经很困难,而在网格环境下的并行程序设 计、性能评价分析和优化将更加困难因此,及早开展以网络为基础的科研活动环境下的 大规模并行计算程序设计、性能评价分析和优化关键技术的研究,成为一个迫切的问题二、高性能计算与网格的关系高性能计算( High Performance Computing -- HPC )解决了世界上最为复 杂和艰巨的计算难题,并且能够轻松处理气象建模、模拟撞车试验、人体基因绘图以及 核爆炸模拟等多种与人类生命相关的重要领域都要用到 HPC 。
突飞猛进的性能、急剧下降 的成本以及势如潮涌的需求等众多因素,促使 HPC 迅速走出科学研究实验室,步入主流商 业领域目前,对于高性能计算和网格的关系,主要有以下三种观点:1. 网格是高性能计算机的未来,网格计算将取代高性能计算 把网格看成一个超级计算机,利用网格上的计算资源,完成一个具 有挑战性的计算任务这种计算任务如果用传统的单节点高性能计算机,可能无 法得到满意的求解结果在这种应用形式中,要求并行算法设计和实现要考虑到 网格计算平台的分布性,异构性,动态性等特点往往会比较复杂这和 90 年代初期 PVM 并行计算环境所解决的问题类似,不过规模尺度有较大区别另外,针 对网格平台的并行算法设计中,还需要引入经济开销对算法设计的影响这就需 要从性能和经济角度考虑采用数据压缩算法随着科学计算的发展,很多应用领 域的计算数据量很快就要达到 PetaByte 量级的规模,如果对 PetaByte 量级的数据 进行一次传输,需要的时间是 3 年面对如此大规模的数据量,如何有效的进行 快速传输和存储,成为一个很迫切的问题而解决这一问题的比较有效且低成本 的方法是采用压缩的方法对压缩后的数据进行存储和传输。
这样既可以降低存储 所需要的物理开销和容量,也可以降低传输的容量和网络开销加快应用程序的 运行速度2. 网格计算是高性能计算的一种形式,就是现在所说的计算网格在网格 计算中包括 5 个关键技术,a) 网格结点 网格结点就是网格计算资源的提供者,这些资源在地理位置上是分 布的,系统具有异构特性b) 宽带网络系统 宽带网络系统是在网格计算环境中,提供高性能通信的必要手 段c) 资源管理和任务调度工具 计算资源管理工具要解决资源的描述、组织和管理 等关键问题它们属于网格计算的中间件d) 监测工具 帮助使用人员充分利用网格计算中的资源,这就要靠性能分析和监 测工具这对监视系统资源和运行情况十分重要e) 应用层的可视化工具 把计算结果转换成直观的图形信息,就能帮助研究人员 摆脱理解数据的困难,这就要研究能在网格计算中传输和读取的可视化工具并提供友好的用户界面利用MPMD编程模型,实现的大规模全系统、多尺度、真三维高性能数值模 拟可以利用网格中多个不同计算主节点机器资源和性能特点( 10性能,CPU计算速度,网络传输速度,软件环境等等) ,把整个模拟的不同功能模块根据其对计算资源的要求和计算与通讯的模式特点分配到最优的计算节点上, 来共同完成一个计算流程。
达到最快的计算速度或 HPCS ( High Productivity Computing System ),这就需要研究针对特定的应用的最优资源调度模型 传统高性能计算过程, 只是局限在一台特定的高性能计算机上, 由于现代高性能计算机设计时往往没有考虑系统的平衡性,一个平台不能满足一个应用计算过程的所有阶段的资源和性能要求, 因而不能达到最佳计算效果往往造成计算资源的浪费3. 网格计算与高性能计算是两种不同的计算模式,目前正处在分化与共生的阶段,二者相辅相成高性能计算可以作为网格计算的心脏利用网格的资源共享,动态配置,协同工作,不存在任何集中控制;使用标准、通用、开放的协议和接口;高服务质量,包括响应时间、流量、可用性 和安全性等特点,为普通用户更方便使用高性能计算提供便捷的平台通过将台 式机、集群和大型 SMP系统的性能进行完美结合, HPC正在步入网格计算时代,它将使任何人都能随时随地、经济高效地进行计算三、结论目前,国内对网格的研究还主要停留在网格计算硬件平台和中间件对于如何利 用网格平台实现高性能计算以及相关并行程序设计模型,性能优化方法的研究尚处在 起步阶段,应当尽快加强这些方面的研究工作。
同时,网格应用的需求对网格的发展 将起到极大的推动作用参考文献:1. IBM 蓝色基因工程, 美国 ASCI 计划,http://www.llnl.gov/asci/3. 世界高性能计算机TOP500排行榜,http://www.top500.org .4. 全球计算网格论坛, http://www.gridforum.org/ .5. 中国国家高性能计算环境, .HPCS, http://www.darpa.mil/ipto/programs/hpcs/#欧美国家:http://www.esde nce-grid.org.uk/i ndex.htm英国科学网格官方网站,下图中是已经建立的9 个 e-Scienee 中心三GV >附录:网格相关网站#Edinburgh iNewc^LeRanchiyr Oxford >:Sauthjiiiptunhttp://www. nesc.ac.uk/英国国家 e-Scienee 中心http://www.e-science.clrc.ac.uk/CCLRC( Council for the Central Laboratory of the Research Councils')e-Scienee 中心http://www.escience.cam.ac.uk/ in dex.htm剑桥大学科学网格研究中心,包括物理分子化学等领域的科学网格应用项目。
http://e-science.ox.ac.uk/牛津大学科学网格研究中心http://www .n eesgrid.org/NEESgrid是联结美国地震学研究的一个网格http://www. ncsa.uiuc.edu/NCSA( National Center for Supercomputing Applications)是TeraGrid 项目的 4个初始成员 之一http://www.sdsc.edu/SDSC(The San Diego Supercomputer Center)的网格和集群计算项目为 SDSC的其他方向发展提供硬件,软件和应用http://www. nsf-middleware.org/NSF中间件,现在是 NMI-R4版本http://www.griphyn.org/in dex.phpGriPhyN (Grid Physics Network) 是实验物理学家和信息学家建立的一个环境http://doecollaboratory.pnl.gov/美国能源部协作项目http://www.research-co un cils.ac.uk/escie nee/ 英国E-scienee项目研究委员会http://www.es.jamstec.go.jp/esc/e ng/日本地球模拟器http://www-fp.mcs.anl.gov/fl/accessgrid/Access 网格http://www.cs.wisc.edu/con dor/Con dor项目是为了在分布的资源上发展、实现高吞吐能力的机制。
http://www.cs.berkeley.edu/Research/Projects/tita nium/Titanium编译器用来支持高性能科学计算http://www.llnl.gov/Lawrenee Livermore 国家实验室http://www.gridforum.org/GGF,全球网格论坛,目的是提高和支持网格技术和应用的发展和执行http://www.eurogrid.org/欧洲网格计划包含了Bio GRIDMeteo GRIDCAE 。