科学工作流kepler及其应用

上传人:宝路 文档编号:48059387 上传时间:2018-07-09 格式:PPT 页数:39 大小:1.88MB
返回 下载 相关 举报
科学工作流kepler及其应用_第1页
第1页 / 共39页
科学工作流kepler及其应用_第2页
第2页 / 共39页
科学工作流kepler及其应用_第3页
第3页 / 共39页
科学工作流kepler及其应用_第4页
第4页 / 共39页
科学工作流kepler及其应用_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《科学工作流kepler及其应用》由会员分享,可在线阅读,更多相关《科学工作流kepler及其应用(39页珍藏版)》请在金锄头文库上搜索。

1、科学工作流kepler及其应用 周园春、林小光、程洁 黄刚、王鹏飞、屈侠 2008-10-28背景工作流概述科学工作流系统简介Kepler系统及其应用基于Web的科学工作流目录背景海量科学数据l数字化技术和无处不在的网络发展推动了数据 的收集、产生、共享、与分析。l科学数据规模越来越庞大,科学实验过程也越 来越复杂。l科学与工程研究日益成为数据密集型的工作。 背景超级计算环境l与观察实验、理论分析鼎足而立的科学计算已 成为e-Science的核心。l现今很多交叉和前沿学科的研究越来越需要高 性能计算,如大气科学计算、生命科学计算、 湍流计算、分子模拟等。l由于这些研究所需的数据资源和计算资源非

2、常 庞大,目前各研究机构很难为这些科研需求提 供足够的资源,导致了很多研究无法往前推进 。 背景科学密集型实验迭代的科学数据处理流程源数据获取Web服务、SRB、FTP、HTTP数据输入数据预处理数据运算数据分析 数据挖掘结果输出结果数据集 可视化图片等背景动态的科学逻辑处理过程l虽然数据密集型科学问题的求解过程也遵循一 定的基本流程,但是整个过程中的诸多细节却 是动态的、不确定的,科学实验流程的定义往 往是不完整的,在执行过程中也需要根据实验 流程的运行态势做出动态修改。工作流概述商业工作流l工作流的概念起源于办公自动化领域。它所关 注的问题是处理过程的自动化,它根据一系列 定义的规则,把文

3、档、信息或任务在参与者之 间传递,以达到某种目的。 l工作流管理联盟(WfMC)对工作流的定义: 一类能够完全或者部分自动执行的经营过程, 根据一系列过程规则、文档、信息或任务能够 在不同的执行者之间传递、执行。工作流概述商业工作流l经营过程的一个计算机实现。l工作流管理软件(WfMS)是一个软件系统。 用以完成工作流的定义和管理,并按照在计算 机中预先定义好的工作流逻辑推进工作流实例 的执行。运行在一个或多个工作流引擎上。与 工作流执行者交互,推进工作流实例的执行, 并监控工作流的运行状态。工作流概述科学工作流l2O世纪9O年代,随着问题求解环境(PSE)在 科学研究活动中的应用,科学工作流

4、和科学工 作流管理被引入到科学问题求解环境中。l科学工作流就是采用工作流的思想,用来描述 和控制科学实验和过程的执行,它是面向e- Science,服务于科学家,使得科学家能够更 容易的分析和管理科学数据。工作流概述科学工作流l科学工作流是获取科学数据(包括传感器数据 、医学影像、卫星图像、仿真输出、各类观测 数据等等),并对所获取到的数据执行复杂分 析的灵活的工具。 l目的在于组合一个广阔领域的应用程序,从实 验的设计、执行、监控到归档,以及使得实验 数据重用等的管理和分析流水线化。 工作流概述科学工作流lStreaming/pipelined executionlHighly data-c

5、entriclCompute-intensivelAnalysis-intensive lVisualization-intensivelInterconnection between multiple tools工作流概述商业工作流 VS. 科学工作流l科学工作流面向数据量,以数据驱动l商业工作流面向控制流,事务驱动actor namedata (state)portsInput dataparametersOutput dataWhat flows through an object is streams of datacallreturnclass namedatamethodsWhat

6、 flows through an object is sequential control科学工作流系统介绍国际上比较成熟的科学工作流系统:l学术领域的:KeplerTavernaTrianal商业性质的:DiscoveryNetPipeline-PilotLabView科学工作流系统介绍KeplerlOpen-Source,Javal圣地亚哥超算中心l地学、生物信息学、化学等科学工作流系统介绍TavernalOpen-source,JavalOMII-UK l生物信息学科学工作流系统介绍TrianalOpen-Source,JavalCardiff University, UKl信号、文本

7、、图片处理科学工作流系统介绍商业性质科学工作流科学工作流系统介绍国内相关研究现状l目前,国内在科学工作流领域的研究尚处于起 步阶段。l许多具体领域的研究机构已经开始着手使用国 际上成熟的科学工作流系统(如Kepler等) 进行涉及科学数据处理的大规模复杂科学实验 。l一些大学及研究所也开始对科学工作流系统进 行了针对性研究,比如武汉大学软件工程国家 重点实验室、南京大学计算机软件新技术国家 重点实验室等。Kepler系统Kepler允许科学家设计科学工作流,并使 用基于网格的分布式计算方法执行这些工 作流。Kepler是用于科学数据分析与建模的软件 应用程序。Kepler使用一个可视化展现(

8、科学工作流模型,用以展示离散分析和建 模组件之间的数据流),使得创建可执行 模型的过程简单化。 Kepler系统Kepler用户即使没有计算机科学背景,也 可以使用标准组件来生成工作流,或者修 改现有的工作流模型以满足需要。Kepler集成了一些通用数据分析及可视化 软件,如Matlab、R等,为领域科学家提 供了方便。高级用户也能从Kepler提供的大量优良特 性获益,特别是当使用一个方便理解地以 及容易分享的方式呈现一个复杂程序和分 析。 Kepler系统Kepler构建于另一个开源可视化建模系统 PtolemyII之上,为科学家提供了一个方 便易用的工作平台。Kepler是一个用户友好的

9、程序,允许科学 家通过简单地拖拉、连接一些特定的组件 ,建立满足条件的科学工作流,而不用手 工整合大量的软件程序,也不用借助于计 算机程序员的协助。 Kepler系统Ptolemy系统由UC Berkeley大学开发, 用于研究并发、实时以及嵌入式系统的建 模、仿真和设计。Kepler系统很好地继承和发展了Ptolemy 面向角色建模的特性,并加入了大量新特 性,用于支持科学工作流。主要体现在对 科学数据的获取、处理。Kepler系统术语l角色(actor):执行一系列复杂操作的组件 ,是SWF中处理科学数据的实体。l参数(parameter):角色可配置的值。l端口(port):角色间供相互

10、连接的通道,有 输入端口和输出端口。l连接(relation):用于连接角色的端口,是 数据传递的通道。Kepler系统DirectorActorActorActorPortPortThe Director controls the sequence of actor execution. Each actor takes data on its input ports, processes that data, and send results its output ports.Component TabWorkflow Display PanelSearchable Component L

11、istAn actor fires, placing the resulting data in a container called a token. The data token then flows from the output port to the input port of connected actors.Data TokenData TokenBegin workflow execution buttonActors transform input tokens into output data tokens which then get passed to the next

12、 actor under control of the director.Kepler系统在用Kepler/PtolemyII构建的科学工作 流中,独立处理具体任务的组件实体被称 为“actor”。“actor”之间通信的接口是“port”,有 input port和output port两种。actor使用“parameter”来配置和定制相 关的行为。actor之间通过“channel”相互连接。Kepler系统类型定义良好的面向角色工作流模型 Define a workflow: W = lA: a set of ActorslD: a set of connectionsl: i/o-

13、signature of WlM: a director (model of computation)l: a set of constraintsKepler系统“director”指定了模型执行的语义,定义 了actor如何执行,以及相互之间如何通 信。用户定制好的工作流模型,包括一个 特定领域的“director”,以及至少一个 “actor”。工作流执行的时候,“director” 控制数据在“actor”中的流动,按照定制 好的流程,调度部署每个“actor”的迭代 执行。Kepler系统在Kepler/PtolemyII系统中,定制好的 科学工作流模型以XML文件形式存储,该 XM

14、L文件满足MoML(Modeling Markup Language)XML模式要求。MoML使用DTD(文档类型定义)定义。 Kepler系统Contributors for Kepler基于web的科学工作流系统该系统拟提供给用户(具体领域研究人员)一个 基于web的简单易用的工具,用于对数据密集型 科学实验的全过程。该方案使用Web服务、SRB 、FTP等多种方式获取研究所需要的科学数据, 并通过实现在web浏览器上的VML/SVG可视化 操作界面,定制满足需求的工作流实例,提交给 后台Kepler/PtolemyII工作流引擎服务器,经 过对所获取的数据调用科学数据专有的处理软件 (包

15、括NCL、Matlab、CDO等)进行分析计算 ,最终得到所需要的可视化结果或是将结果数据 反馈给用户。 基于工作流的科学数据分析平台分布式数据分布式数据算法模型个性化的Web空间 1)数据分析流程可视化定制 2)数据和算法的管理 模型选择数据资源定位工作流的计算数据和模型的结合计算结果返回应用结果流程定制模型和数据管理根据结果评价 不断迭代 科研人员模型管理数据管理基于web的科学工作流系统体系架构图数据资源层l完成对物理资源及分布式资源(大规模科学数 据,如IPCC、NCAR等)的存取。l算法模型库简单算法:加、减、乘、除等复杂操作:统计、聚类分析等 l高性能计算环境基于web的科学工作流

16、系统工作流引擎及中间件层l提供一个稳定的工作流引擎 ,并支持资源、引 擎、web等之间的通信。l使用Kepler:管理actor的分类信息;处理工作流实例的运行;动态添加算法模型(actor)。 基于web的科学工作流系统Web接口层l提供给用户一个设计良好、方便易用的接口, 以组装、查看、执行、管理工作流实例。l提供给用于一个一站式服务的web环境,从数 据资源获取、结果数据反馈、用户信息管理、 及其它服务。l使用Ajax等web技术开发。基于web的科学工作流系统数据 Data manager输入 reader运算 operator分析 Sci analyzer输出 outputer可视化 visualizeStorage searchNCL,NCO CDO,MATLABNCL,NCO CDO,MATLABNCL,AVS MATLABNCL,MATLAB基于web的科学工作流系统对实验自动化流程提供了以下支持:l读写数据lrapid

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号