虚拟太阳天文台(VSO)技术回顾 林钢华国家天文台 报告内容一、虚拟太阳天文台的提出;二、建立虚拟太阳天文台要解决的技术 问题;三、虚拟太阳天文台的体系结构;四、VSO的可扩展性;五、采用的技术;六、VSO今后的发展一、虚拟太阳天文台的提出n n虚拟天文台由科学驱动而产生,基于计算机技术、网络技术的发展而得以发展 n n在1998年卡波迪蒙蒂瓷的天文台的Kevin Reardon提出:太阳活动周期变化的详细研究需要分析横跨多年的观测记录,还要使用标准协议将多个单独维护的数据库无缝地连接起来,实现跨多个档案的复杂检索; 一、虚拟太阳天文台的提出n n1998年意大利8个天文台和研究所的天文工作者提出“全部太阳数据目录”(WSC:the Whole Sun Catalog)项目:WSC 将有效连接遍布世界的可用太阳档案 WSC通过已提供的单个太阳档案,简化执行检索的任务和扩展科学家的查询范围,WSC使这种可能性极大地增加其中Roudier指出1995年时仅在欧洲就列出了几十个可用的数据库,显而易见,访问这几十个数据库是一个耗费时间的任务,并且这个任务几乎不可能完成 提出WCS项目,就是为了生成太阳天文台的数据目录,解决这样广泛查询的困难; 一、虚拟太阳天文台的提出n n19971997年年Sanchez-DuarteSanchez-Duarte等首先提出了结合太阳档案等首先提出了结合太阳档案成为一个统一系统的思想;成为一个统一系统的思想;n n1998 1998 年年DimitoglouDimitoglou等进一步讨论了这一思想;等进一步讨论了这一思想;n n由前期发展而演化为由前期发展而演化为VSOVSO的项目还有的项目还有JOSO(theJOSO(the Joint Joint Organization for Solar Observation)Organization for Solar Observation)、、SOLAR(SOHO SOLAR(SOHO Long_termLong_term Archive) Archive)、、ARTHEMISARTHEMIS、、BASS2000BASS2000。
n n19981998年美国国家研究委员会关于地基太阳研究的空间年美国国家研究委员会关于地基太阳研究的空间研究理事会组织了关于数据档案及其挖掘对于太阳研究研究理事会组织了关于数据档案及其挖掘对于太阳研究团体重要性的讨论,并推荐:团体重要性的讨论,并推荐:“ “开发一个由开发一个由NSFNSF和和NASANASA合作支持的通过合作支持的通过WWWWWW访问的分布数据档案访问的分布数据档案” ”之后美国国家研究委员会天文学天体物理调查委员会郑之后美国国家研究委员会天文学天体物理调查委员会郑重签署了把国家虚拟天文台作为顶级优先的小型项目启重签署了把国家虚拟天文台作为顶级优先的小型项目启动协议国家虚拟天文台(动协议国家虚拟天文台(NVONVO::National Virtual National Virtual ObservatoriesObservatories)是一个夜间天文学上与)是一个夜间天文学上与VSOVSO的相似项的相似项目,代表了在交叉相关研究中天文团体日益增长的兴趣目,代表了在交叉相关研究中天文团体日益增长的兴趣 一、虚拟太阳天文台的提出n n20012001年年7 7月月NASANASA空间科学日地结合部举行了两空间科学日地结合部举行了两年一次的运作使命和数据中心的回顾会议,太阳年一次的运作使命和数据中心的回顾会议,太阳数据分析中心(数据分析中心(SDACSDAC)也包括在此次会议内。
也包括在此次会议内这次会上对这次会上对VSOVSO提出了研究、原型、开发方面的提出了研究、原型、开发方面的经费预算在此基础上,经费预算在此基础上,20022002年年1111月由美国斯月由美国斯坦福大学、国家太阳天文台、蒙大纳州州立大学坦福大学、国家太阳天文台、蒙大纳州州立大学和太阳数据中心组成的和太阳数据中心组成的VSOVSO研究组发布了虚拟太研究组发布了虚拟太阳天文台设计协议书,此书中给出了阳天文台设计协议书,此书中给出了VSOVSO的体系的体系结构、组织结构、特性、技术方法、首批参加此结构、组织结构、特性、技术方法、首批参加此项目的成员、经费分配、项目运作时间表等问题项目的成员、经费分配、项目运作时间表等问题的描述至此的描述至此VSOVSO项目正式起动项目正式起动二、建立虚拟太阳天文台要解决的技术问题 n n搜索和证认的可视化;n n形成多种可能的搜索;n n标准化查询形成方法;n n标准化数据服务信息;n n包括元数据标准和统一的数据模型;n n能传送数据或至少指向数据源;n n能吸收新数据源;n n进一步还有:软件和文献资源;查询登记;分布式处理;证认服务 三、虚拟天太阳文台的体系结构 n n如由美国四所天文单位牵头的VSO体系结构;n n由欧洲联盟提出的EGSO(European Grid of Solar Observations 欧洲网格太阳天文台)体系结构;n nCoSEC (Collaborative Sun Earth Connector 协作式日地连接器) 体系结构 二、虚拟太阳天文台的体系结构三、虚拟天太阳文台的体系结构VSOVSO的简化体系结构如图所示的简化体系结构如图所示, ,它主要由图中所示它主要由图中所示6 6部分组成:部分组成:1.1.用户。
指访问用户指访问VSOVSO的人,如太阳物理学家、空间的人,如太阳物理学家、空间物理学家等;物理学家等;2.2.访问方法指为访问访问方法指为访问VSOVSO专门开发的用户应用程专门开发的用户应用程序接口;序接口;3.VSO3.VSO实例它是实例它是VSOVSO核心,用来处理用户查询,核心,用来处理用户查询,确定到哪一个站点去查询数据并将数据返回;确定到哪一个站点去查询数据并将数据返回;4.4.中心服务器它用来记录搜索的重复性和属性中心服务器它用来记录搜索的重复性和属性(是谁做了哪些查询);它也记录下各个数据提(是谁做了哪些查询);它也记录下各个数据提供者提供的可用数据和数据更新;供者提供的可用数据和数据更新;5.5.数据提供者它是实际执行数据查询所在地;数据提供者它是实际执行数据查询所在地;三、虚拟太阳天文台的体系结构6.数据要求和返回用户通过数据提供者提供的工具直接检索数据,或者通过使用智能VSO代理,它向(那些)数据提供者询问数据的可用性,并将询问结果集中起来,用电子邮件将这些结果通知用户,如:在什么地点什么时间数据是可用的几个单位已在不同站点从多种数据服务方面测试了这一体系结构的可用性。
四、VSO的可扩展性n nVSO体系结构的成功开发增加了基础系统体系结构在处理分布式系统的扩展性和容错性方面的能力 n n这种扩展性体现在数据提供者方面,它由原来的几个天文台扩展到全美国、乃至全世界;可以精细化数据模型;可以增加其它服务,如联接更为典型的分布式处理项目,如CoSEC、EGSO等;n n体现在用户方面,将由单一类型用户和界面扩展到多种类型用户和界面; 四、VSO的可扩展性n n容错性能则体现在:这个系统的全部体系结构受到那些不同数据仓库(它们是不具有共享能力的普通数据集)的影响,当增加新数据提供者或新搜索能力时,返回有用结果的时间不应随着它们的增加而线性增加,在原型开发中,开发者小心地识别并孤立出那些慢的或无反应的数据仓库,使它们不影响VSO搜索的整体质量对这种额外的复杂性的处理使搜索者集中精力于搜索目标上而不是使用的工具上 五、采用的技术 — XMLn n采用了XML(可扩展标记语言)n n它的自描述性使其非常适用于不同应用间的数据交换,这种交换不以预先规定一组数据结构定义为前提n nVSO使用它作为文档中识别结构的一种机制如数据提供方的元数据采用XML定义并存储;在关系数据库中提供了XML视图,这样可实现基于XML的检索,实现XML视图和关系数据库之间的映射;采用XML进行数据交换,VSO中的注册项就是根据数据模型的定义用XML来描述的。
五、采用的技术—WEB服务n nWEBWEB服务它是网络上可用的服务,标准化的服务它是网络上可用的服务,标准化的XMLXML消息,它独立于操作系统和编程语言;它建消息,它独立于操作系统和编程语言;它建立在如下协议堆栈基础上:立在如下协议堆栈基础上:n n发现发现 UDDIUDDIn n描述描述 WSDLWSDLn nXML XML 消息消息 XML-RPC,SOAPXML-RPC,SOAPn n传输传输 HTTP,SMTP,FTPHTTP,SMTP,FTPn nInternet IPv4, IPv6Internet IPv4, IPv6 在在VSOVSO中使用它以应用为中心替代了以人为中心中使用它以应用为中心替代了以人为中心((POST/GETPOST/GET)的特性;及它的)的特性;及它的WebWeb自动化特性:自动化特性:如服务描述,服务注册。
如服务描述,服务注册五、采用的技术— SOAPn nSOAPSOAP((Simple Object Access Protocol Simple Object Access Protocol 简单简单对象访问协议)的应用对象访问协议)的应用n n它是它是RPC(RPC(远程过程调用远程过程调用) )机制,它用机制,它用HTTPHTTP进行传进行传输,客户和服务器之间的消息是以输,客户和服务器之间的消息是以XMLXML编写的n n虚拟太阳天文台的目的就是整合分布的不同的数虚拟太阳天文台的目的就是整合分布的不同的数据档案成为一个看似集中的虚拟的数据集合去提据档案成为一个看似集中的虚拟的数据集合去提供通用的搜索和传递服务供通用的搜索和传递服务VSOVSO使用使用SOAPSOAP来实来实现这一目的现这一目的SOAPSOAP即可用于服务器端也可用于即可用于服务器端也可用于客户端 SOAPSOAP正是在松散的联合和动态的集成正是在松散的联合和动态的集成之间建立的无缝跨平台互操作的协议,之间建立的无缝跨平台互操作的协议,SOAPSOAP和和XMLXML也正是也正是WEBWEB服务中最为适合的消息交换协议。
服务中最为适合的消息交换协议VSOVSO使用使用PerlPerl的的SOAPSOAP::::LiteLite模块,提供数据访模块,提供数据访问与操作系统平台的无关性问与操作系统平台的无关性 (其实使用其实使用JavaJava的的Axis:Axis:模块,或模块,或C/C++C/C++的的gSOAPgSOAP: :模块也都是可模块也都是可以的,因为以的,因为JavaJava和和C/C++C/C++都支持都支持SOAPSOAP) )五、采用的技术— SOAPn nSOAPSOAP是网络胶合剂,它使是网络胶合剂,它使VSOVSO和数据提供者通和数据提供者通话,还能使话,还能使VSOVSO和其他虚拟天文台项目如和其他虚拟天文台项目如EGSOEGSO、、CoSECCoSEC结合SOAPSOAP分布服务器通过分布服务器通过SOAPSOAP协协议和每一个议和每一个VSOVSO实例通讯实例通讯. .)其中SOAPSOAP::::LiteLite模块是模块是APIAPI的关键所在的关键所在n nSOAPSOAP具有错误处理机制,如超时处理,对标准具有错误处理机制,如超时处理,对标准的和自行定制的错误原因进行处理。
的和自行定制的错误原因进行处理n n在在VSOVSO使用使用SOAPSOAP的基础上,就要上天的空间望的基础上,就要上天的空间望远镜如:远镜如:STEREOSTEREO、、Solar-BSolar-B、、SDOSDO,获取的数,获取的数据也将采用基于据也将采用基于SOAPSOAP的技术提供用户使用的技术提供用户使用 五、采用的技术--DMn n数据模型(DM):定义了一个统一的全世界范围的视图,因此解除了任何数据提供方在数据方面的特性它尽可能全面而完整的定义了数据查询时可能给出的查询项目及其值n n它用于描述任何数据提供者站点的数据集,使其与资源注册中的一致,也使得元数据按照DM组织用户查询及结果返回都以DM的术语表示,在VSO各个部分编程实现中,都以此DM作为内部数据结构五、采用的技术--DMn n转换:转换:数据存储不需要按照数据存储不需要按照DMDM进行,但在查询提出时,进行,但在查询提出时,需要有一个从需要有一个从VSO DM VSO DM 到数据提供方数据规范的转换,到数据提供方数据规范的转换,在查询结果得到时,需要有一个从数据提供方数据规范到在查询结果得到时,需要有一个从数据提供方数据规范到VSO DMVSO DM的转换。
数据模型中的名字使用了更多的惯例和的转换数据模型中的名字使用了更多的惯例和惯例的统一,这使得数据描述和接口对于用户来说更为直惯例的统一,这使得数据描述和接口对于用户来说更为直观由于数据模型是独立开发的,还需和国际间其它虚拟观由于数据模型是独立开发的,还需和国际间其它虚拟天文台项目如天文台项目如EGSOEGSO协调去统一此模型中的数据描述协调去统一此模型中的数据描述n n显而易见的优点:采用统一国际数据标准(显而易见的优点:采用统一国际数据标准(DMDM),),有利于整合现有资源,也易于维护和升级换代;有利于整合现有资源,也易于维护和升级换代;可以提供动态服务,能够适应网络和资源提供处可以提供动态服务,能够适应网络和资源提供处的变化 五、采用的技术—实例n n实例实例. .下图给出了对下图给出了对VSOVSO实例功能较详细地概括实例功能较详细地概括 n n实例是实例是VSOVSO的核心的核心. .实例工作过程如下:实例工作过程如下:VSOVSO用户接口得到查用户接口得到查询参数,如:询参数,如:n n” ”MDI,Yohkoh,SXT,NSO,EITMDI,Yohkoh,SXT,NSO,EIT magnetogrammagnetogram from Oct-28- from Oct-28-2001”2001”n nVSOVSO搜索引擎通过包含有搜索引擎通过包含有VSOVSO提供者信息的提供者信息的VSOVSO注册器确定注册器确定到图中到图中〈〈1 1〉〉、、〈〈3 3〉〉、、〈〈5 5〉〉、、〈〈7 7〉〉所指位置进行查询,所指位置进行查询,n n图图2 VSO2 VSO实例实例n n在在〈〈1 1〉〉、、〈〈3 3〉〉、、〈〈5 5〉〉、、〈〈7 7〉〉所指本地服务器中提供者查所指本地服务器中提供者查询引擎分别执行如下操作:询引擎分别执行如下操作:n nSELECTSELECT observation observation FROMFROM database database WHEREWHERE date=’28-Oct-2001’ date=’28-Oct-2001’ AND AND instrument=EITinstrument=EITn nSELECTSELECT observation observation FROMFROM database database WHEREWHERE date=’28-Oct-2001’ date=’28-Oct-2001’ ANDAND instrument=NSO instrument=NSO magnetogrammagnetogramn nSELECTSELECT observation observation FROMFROM database database WHEREWHERE date=’28-Oct-2001’ date=’28-Oct-2001’ ANDAND instrument= instrument=YohkohYohkohn nSELECTSELECT observation observation FROMFROM database database WHEREWHERE date=’28-Oct-2001’ date=’28-Oct-2001’ ANDAND instrument=MDI instrument=MDIn n提供者查询引擎将结果提供者查询引擎将结果〈〈2 2〉〉、、〈〈4 4〉〉、、〈〈6 6〉〉、、〈〈8 8〉〉返回用返回用户接口。
这一过程由多个实例独立地完成这一过程由多个实例独立地完成 五、采用的技术—实例n nVSO要求对于注册器和会话的集中存储(存储在图1〈4〉所示的中心服务器中)实例运行类似的代码作基于注册器的转换工作;用户是通过和VSO实例通讯实现询问和请求的;分布式服务器通过SOAP协议和每一个VSO实例通讯实例运行在本地机器上,它使VSO成为没有执行瓶颈的分布式系统 五、采用的技术—实例n n实例 以Perl语言实现选择Perl的原因是因为流行的WEB服务用它编写,、前期已开发的网络、数据库接口及词汇匹配包都用它编写 五、采用的技术—资源注册技术 n n它用于记录数据提供者、他们提供什么样的可用数据及其数据更新;VSO搜索引擎使用这些信息确定向哪些数据提供者发送查询要求;它还记录下如何访问这些数据及数据输出方法 五、采用的技术—资源注册技术n n描述斯坦福描述斯坦福MDIMDI数据注册项的例子如下:数据注册项的例子如下:n nSourceSource: SOHO: SOHOn nInstrumentInstrument: MDI: MDIn nObservablesObservables:Dopplergram,Magnetogram:Dopplergram,Magnetogram LOS, LOS, Continuum Intensity, Line DepthContinuum Intensity, Line Depthn nTime RangeTime Range:1996.01.03 :1996.01.03 present presentn n描述如何访问斯坦福数据注册项查询接口的例子如下:描述如何访问斯坦福数据注册项查询接口的例子如下:n nServerServer: 15-m5.stanford.edu: 15-m5.stanford.edun nURLURL: : http://15-m5.stanford.edu/SHAIhttp://15-m5.stanford.edu/SHAIn nProxyProxy: :http://15-m5.stanford.edu/cgi-http://15-m5.stanford.edu/cgi-bin/soap/shai.cgibin/soap/shai.cgin n输出接口例子如下:输出接口例子如下:n nMethodMethod: GET: GETn nURLURL: : http://flap.stanford.edu/cgi-http://flap.stanford.edu/cgi-bin/export/expvrfybin/export/expvrfy五、采用的技术— VSO搜索引擎 n n它通过寻问资源注册器确定向哪个数据提供方发出查寻它通过寻问资源注册器确定向哪个数据提供方发出查寻要求;等待提供方的响应;汇集提供方的查询结果。
查要求;等待提供方的响应;汇集提供方的查询结果查寻项按照寻项按照DMDM给出n n它在它在SOAPSOAP核心接口中还要实现如下功能:高速缓存核心接口中还要实现如下功能:高速缓存/SQL/SQL引擎,负载平衡管理器引擎,负载平衡管理器/ /高速缓存同步器负载平高速缓存同步器负载平衡管理器和高速缓存同步器保证在引擎之间的同步和最衡管理器和高速缓存同步器保证在引擎之间的同步和最佳的性能佳的性能n n有两种引擎模型:基于数据提供者方提供(通过有两种引擎模型:基于数据提供者方提供(通过GUIGUI实实现)的和非数据提供者方(通过现)的和非数据提供者方(通过UIUI实现)的一般方式下实现)的一般方式下的查寻这些查寻通过使用的查寻这些查寻通过使用SOAPSOAP调用实现调用实现VSOVSO数据数据提供者方的引擎,在提供者方的引擎,在SOAPSOAP调用中完成大量调用中完成大量XMLXML消息交消息交换,这些消息在所有换,这些消息在所有VSOVSO接口中都是一样的;对于非接口中都是一样的;对于非VSOVSO数据提供者方的引擎,定义它已知数据提供者方的数据提供者方的引擎,定义它已知数据提供者方的数据库和存储结构,在数据库和存储结构,在SOAPSOAP调用中只提供了运行调用中只提供了运行SQLSQL和操作系统命令的一般方法。
和操作系统命令的一般方法五、采用的技术—会话记录 n n会话记录的目的是为了收集数据使用状态统计和能够重复保存过的查询实例运行类似的代码作基于注册的转换工作用于记录下前面的搜索, 以便以后类似搜索的重复能力和分布目的VSO会话被定义在VSO搜索引擎外部;会话记录下查询输入、中间结果及最终结果等内容五、采用的技术—网格技术 n n虚拟天文台是网格技术的实验床,它不仅允许用户主动访问分布的计算资源,数据网格的概念还扩展了两个基础服务:存储和相应的处理系统,元数据和通信管理通过它实现世界各处地理位置数据资源的连通;各个数据资源协同起来处理一个项目.六、VSO今后的发展 n n虚拟天文台是一个发展中的项目,今后它要将更多数据源加入进来;合并世界范围内的数据目录并整合它们使能搜索;使中心登录服务可查讯;实现注册更新和重复可用;完善API;完成数据提供者实现工具;发行VSO正式版本 六、VSO今后的发展n n有众多的项目在进行有众多的项目在进行VSOVSO研究,这些研究正在产生互研究,这些研究正在产生互相有用的工具:来自相有用的工具:来自IVOAIVOA(国际虚拟天文台联盟)(国际虚拟天文台联盟)的的VOTableVOTable (XML) (XML),来自,来自EGSOEGSO(太阳天文台欧洲(太阳天文台欧洲网格)的多个数据目录,来自网格)的多个数据目录,来自VSOVSO的的SOAPSOAP的使用,的使用,来自来自CoSECCoSEC( ( 协作式日地连接器协作式日地连接器 ) )的管道方法,每个的管道方法,每个虚拟天文台项目发展了各自的天文应用和技术特色,虚拟天文台项目发展了各自的天文应用和技术特色,真对专门的太阳物理研究领域(天文学研究)提供了真对专门的太阳物理研究领域(天文学研究)提供了前所未有的工具手段和方法,未来的空间望远镜项目前所未有的工具手段和方法,未来的空间望远镜项目如,如,STEREOSTEREO,,Solar-B, SDOSolar-B, SDO,它们的数据正朝着,它们的数据正朝着全世界统一的太阳数据模型进展,都将通过虚拟天文全世界统一的太阳数据模型进展,都将通过虚拟天文台供用户使用,而没有先前意义上的中心服务器,天台供用户使用,而没有先前意义上的中心服务器,天文学因此而开始了一个虚拟天文台的年代。
文学因此而开始了一个虚拟天文台的年代。