高性能计算集群的使用

上传人:夏** 文档编号:567530326 上传时间:2024-07-21 格式:PPT 页数:63 大小:564.18KB
返回 下载 相关 举报
高性能计算集群的使用_第1页
第1页 / 共63页
高性能计算集群的使用_第2页
第2页 / 共63页
高性能计算集群的使用_第3页
第3页 / 共63页
高性能计算集群的使用_第4页
第4页 / 共63页
高性能计算集群的使用_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《高性能计算集群的使用》由会员分享,可在线阅读,更多相关《高性能计算集群的使用(63页珍藏版)》请在金锄头文库上搜索。

1、高性能计算集群的使用计算中心2015.10.13提纲n本地计算集群使用n本地集群计算服务n实验文件存储服务n各实验使用的方法提纲n本地计算集群使用n本地集群计算服务n实验文件存储服务n各实验使用的方法本地集群介绍计算中心成立于1974年,经过30多年的发展,现拥有国内领先的高性能计算平台、世界一流的网格站点、技术先进的海量存储系统。目前高性能计算平台包括12,000多个CPU核、4PB的磁盘空间和5PB的磁带存储系统,网络带宽达到20GB目前支持BESIII实验、大亚湾中微子、江门中微子实验、加速器物理以及LHC实验的计算任务本地集群提供的服务主要包含三个部分,用户管理、计算服务、存储服务Ar

2、chitecture10Gb Ethernet(computing. & StorageNetwork)10GE10GE10GEIHEPCampus NetworkCNIC10Gbps10Gbps10Gbps10Gbps1GbpsDisk ServersCPU serversON-line farmFCTPservers10GbpsLogin ServersHome Dirs(AFS)+Monitoring+SchedulerTape Lib.本地集群使用登录到登录结点在登录结点上编辑文件,调试程序,并将程序保存在自己的文件目录中提交作业到指定队列作业被调度到计算结点上执行,执行完毕后结果将被

3、拷贝回用户指定的输出目录用户在登录结点上检查作业执行的结果AFS账号申请-1用户想要使用集群中的资源,必须拥有计算平台的个人账号AFS账号,才能登录到登陆节点AFS用户申请流程示意图AFS账号申请-2用户账号申请在线地址:http:/:86/ccapply/userapplyaction.action按实际情况填写,类别的有效期不同正确的email,才能收到用户名密码自己所在部门AFS账号安全用户首次登录到登录节点后,请立刻用kpasswd命令修改密码。密码长度不少于8位,且必须包含字母、数字或特殊字符中的任意两种。不符合要求的密码将不被系统接受密码有效期为254天。密码到期前30天、7天和2

4、天,将会收到三次邮件提醒。收到密码到期邮件尽快修改,否则到期用户账号将自动被封锁,无法使用用户邮箱如果发生改变,请及时与计算中心联系更新电话:88236855(工作时间)邮箱:ihep_computing_用户登录登录结点是用户使用计算平台的唯一接口。用户在登录结点编辑文件、调试程序、提交作业。用户使用AFS账号和密码连接登录结点成功后,即可使用相应的计算资源。登录结点部署了负载均衡策略,用户只需指定连接的机器域名,计算平台会自动分配登录到当前负载最轻的登录结点。序号序号登陆结点操作系统登陆结点操作系统数量(台)数量(台)机器域名机器域名164位Scientific Linux 264位Sci

5、entific Linux 登录方法Windows系统Windows操作系先安装ssh登录软件如SSHSecureShellClient、PuTTY、Xmanager等Linux系统ssh命令直接从字符终端登录提纲n本地计算集群使用n本地集群计算服务n实验文件存储服务n各实验使用的方法本地集群作业n针对不同的实验计算需求,计算平台提供两类作业的运行方式。(1)TorqueMaui作业(2)HTCondor作业nTorqueMaui是一款开源的批作业管理以及作业调度软件。目前管理BES实验,羊八井天体实验,大亚湾中微子实验,MPI等计算资源。nHTCondor是新近提供用户使用的另一个开源批作业

6、处理系统,具有调度效率高且运行稳定的优点。目前支持JUNO及CMS实验计算,预计今后将会有更多资源归属于HTCondor管理。TorqueMaui作业-编写进入相应的工作目录,使用vim或者emacs等编辑器,编辑作业脚本文件。TorqueMaui支持单核CPU的串行作业,多cpu核的并行作业。提供BES,BIO实验的用户GPU作业计算服务。单单CPU核串行计算作业编写示例核串行计算作业编写示例$ more PBSExample1.sh#!/bin/sh # 指定脚本执行时的命令解释器#PBS N ExampleJob #指定作业名称#PBS q besq #指定作业提交队列。如不指定,则作业

7、被提交到缺省队列运行Date #打印当前的时间和日期sleep 10 #休眼10秒钟date #再次打印当前的时间和日期多多cpu核并行计算作业编写示例核并行计算作业编写示例$ more PBSExample2.sh#!/bin/bash # 指定脚本执行时的命令解释器#PBS -o /home/cc/publicUser/JobResults/$PBS_JOBID.output # 指定输出作业结果的文件名#PBS -l nodes=2:ppn=3 # 指定本作业所需的计算资源: 2个结点,每个结点3个cpu核echo Hello Worldsleep 5TorqueMaui作业-提交作业脚

8、本编写好后,就可以进行作业提交了。如果没有指定提交的作业队列,默认情况下作业会被提交到publicq队列。这是一个作业时长为6小时的公用队列。$qsubtest.sh用户在提交作业前,应该明确自己可以提交的作业队列。lxslc501$提交成功后,将返回作业idlxslc501$qsubqbesqo/scratchfs/bes/usernamee/scratchfs/bes/usernametest.sh指定输出文件位置TorqueMaui作业-查看查看作业$ qstat 86222Job id Name User Time Use S Queue- - - - - -86222.torqsrv

9、 test.sh pemxz 0 R workqR:Runing运行状态Q:Queue排队状态E:Exit作业结束,退出状态查看队列$qstatQ$qstatQfworkq其他命令查看所有作业情况命令:$qstatan查看详细作业情况命令:$qstatfJOBID查看某个用户的全部作业命令:$qstatuUSERNAME查看某个队列的情况命令:$qstatqQUEUENAME删除作业命令:$qdelJOBIDTorqueMaui作业-结束默认情况下,作业运算结束后,会在HOME目录或者运行的目录下产生两个文件,一个是作业运行日志文件,文件名构成为:作业脚本名+“.o”+作业ID,如test.s

10、h.o86222;另一个是作业出错信息记录文件,文件名构成为:作业脚本名+“.e”+作业ID,如test.sh.e86222。lxslc501$qsubqbesqtest.shjoeo/dev/nulltest.sh-joe表示将.o.e文件输出到一个文件,而不再是两个文件-o/dev/null没有任何输出HTCondor作业-编写说明文件用户提交作业时,需在提交作业的目录下编写submit作业描述文件,格式如下:Universe = vanillaExecutable = myexe #与作业名一致Arguments = arg1 arg2Output = myexe.outError =

11、myexe.errQueueUniverse不需改动Executable为提交作业的可执行文件,需用户设定具体内容Arguments为作业可执行文件的输入参数,需用户指定,参数形式可自行设定。如不需要输入参数,删除该行或以“#”注释即可Output表示将作业标准化屏幕输出保存在该文件Error表示将标准错误输出保存在该文件;Queue不需改动注意:请严格按照示例格式编写submit文件。其中涉及的文件名称可以为相对路径或绝对路径。HTCondor作业-提交准备好submit文件后,在submit所在目录下执行如下命令:$condor_submitsubmitgroupgroup_name说明:

12、group_name是用户所属的用户组名(例如,juno,cms)。设定的组名表明用户要求使用某个实验的计算资源。所有组信息保存在/etc/condor/group/accounting_group_listHTCondor作业查看查询用户user1的作业状态,执行如下命令:$ condor_q user1 name 输出(其中,ID为作业号、OWNER为用户名、ST为作业状态):- submitter: : : ID OWNER SUBMITTED RUN_TIME ST PRI SIZE CMD 348.0 user1 2/10 21:35 0+00:00:00 R 0 0.0 sim

13、ple 4 10 349.0 user1 2/10 21:35 0+00:00:00 R 0 0.0 simple 4 10 350.0 user1 2/1021:35 0+00:00:00 R 0 0.0 simple 4 10 351.0 user1 2/1021:35 0+00:00:00 R 0 0.0 simple 4 10 jobs; 0 completed, 0 removed, 0 idle, 4 running, 0 held, 0 suspendedHTCondor作业删除(1)依据作业ID删除作业,命令如下:$ condor_rm 348.0 -name (2)依据用户u

14、ser1的作业,命令如下:$ condor_rm user1 -name 作业记账统计用户通过afs账号,可访问http:/ 路径卷空间(KB)用途/afs/ 所有登录结点1.4TYBJYBJ用户根目录/ihepbatch/home-ybjor/home/home-ybj所有登录结点673GGLUSTER文件存储Gluster文件系统是一个开源的分布式文件系统,可以支持数PB级存储容量和上千客户端,支持副本功能,具有高扩展性、高可用性、可横向弹性扩展等特点,提供BES实验、羊八井天体物理实验的存储服务总空间(TB)用途备份情况/ybjgfs347argo实验数据asgamma实验数据lhaas

15、o实验数据无备份/besfs2387BES冷数据有备份GLUSTER文件专用命令命令格式:grmdirDIRECTORY示例如下:$grmdir/ybjgfs/shijy/huangql由于软件自身原因,在删除/ybjgfs目录时,有时无法正常进行,提示错误信息:“Noemptydirectory”,此时可改用grmdir命令,这是计算中心针对此类错误开发的新命令,建议在作业脚本中删除/ybjgfs的rm命令替换成grmdir命令,避免出现目录删不干净的问题LUSTRE文件存储nLUSTRE是高性能计算平台中使用规模最大的文件系统。提供BES,DYB,JUNO等多个实验海量存储服务。nLust

16、re文件系统完全支持LinuxPOSIX语义,用户可以使用Linux文件系统访问命令及API访问Lustre。n如果需要使用ACL和扩展属性功能,请提交请求至总空间(TB)用途备份情况/besfs740BESIII生产数据,BESIIIgroup数据,用户数据原始数据有磁带备份,其它无备份/bes3fs1100BESIII生产数据原始数据有磁带备份,其它无备份/besfs2387BESIII生产数据有备份/publicfs565ATLAS,CMS,DYB分池共享数据盘各组资源完全隔离使用,无备份/scratchfs115用户临时文件两周以上不被访问的文件将被自动删除,无备份/workfs13用

17、户个人文件全备份+增量备份,只在登陆结点可写,计算结点只读/cefs66CEPC用户数据无备份/junofs502JUNO实验数据无备份/dybfs782DYB实验数据原始数据有带库备份,其它无备份Lustre专用命令(1)查看用户的资源配额使用命令:命令格式:$lfsquota-uusernamedirname(2)查看磁盘池的空间使用情况:命令格式:$lfsdfhppoolnamedirname磁带库存储高能所计算中心对带库管理软件CASTOR1.7.1.5做了二次开发优化,用于带库管理。当前高性能计算平台中计算结点和登录结点均已安装部署了CASTOR环境。目前提供BES,DYB,JUNO

18、,YBJ等实验磁带存储服务。用户如果希望使用磁带存储,首先要向相关实验应用负责人提出申请,由负责人联系计算中心为用户开放使用权限。Bes负责人:文硕频电话:88236067DYB负责人:何苗电话:88233823JUNO负责人:邓子艳电话:88236067YBJ负责人:吴超勇电话:88236106磁带库存储专用命令(1) 检查CASTOR目录命令格式:nsls dirname(2) CASTOR文件查看命令命令格式:nsls l filename(3) CASTOR文件拷贝命令命令格式 :rfcpx -M -NUM -v -V -h -T -U -nocopy -L filelist file

19、1 files2 file3 . targetrfcpx /castor/ /tmp (4) 其他命令CASTOR用户手册(http:/ 数据备份是对重要数据提供保护的技术,可在发生问题之前采取预防措施。高能所采用开源的Amanda备份软件进行备份。Amanda是由马里兰大学开发的一个网络备份系统,它提供全备份和增量备份的两种方式,把需要备份的数据文件通过网络传输到服务器进行备份。Amanda技术支持网页:http:/ /home/bes/为NFS文件系统,仅用于存储个人程序。不要将物理数据存放于此,更不要通过大量作业访问NFS数据文件,这会引起其他用户无法正常读写NFS文件。(2) /afs

20、和/workfs是计算平台提供个人用户保存重要文件的存储空间,主要提供用户程序编码,调试等交互操作,因此登录结点可以不受限制访问上述两个目录。计算节点不可写,作业输出不要指向这两个目录。如果在上述两个目录下提交作业,用户需要特别设定作业结果输出目录,否则将无法正常得到作业日志结果。指定作业输出结果目录命令:$qsubqbesqo/scratchfs/bes/usernamee/scratchfs/bes/usernamejob.sh(3)BES实验专用存储目录,BES计算环境设置、BES软件使用等可参见网页:http:/http:/羊八井宇宙线实验 羊八井天体物理实验包括argo、asgamm

21、a、lhaaso三个实验。目前羊八井的实验数据存储采用基于Gluster文件系统实现的分布式元数据管理集群ZeFS。在本地的计算集群中,羊八井宇宙线实验的作业可使用计算资源有400个cpu核,存储容量达347TB。为了系统兼容,提供2个专用登录节点SLSL55羊八井作业队列用于YBJ计算的本地计算集群队列以及相关用途队列名用途Cpu核可使用组名/用户名优先级操作系统ArgorecqArgo数据模拟重建 共享328个cpu核Argo高ScientifcLinux(SL)5.5ArgolqArgo长作业队列ybj,argo低ArgofqArgo快作业队列Zham低AsgqAsgamma数 据 分析

22、队列Asgrun中Ybjshortq短作业队列ybj,asgrun很低ArgosqArgo短作业ybj,argo,中LhaasoqLhaaso数据模拟64核Lhaasorun中Pulibcq公共队列40核所有用户共享低羊八井实验存储羊八井文件存储目录结构按实验划分,包含三个主目录:/ybjgfs|-argo|-asgamma|-lhaasoargo目录配额171.4TB,asgamma目录配额38.3TB如果已用空间超过quota,将封锁目录,并邮件通知负责人和管理员。羊八井实验存储目前argo下的目录划分为:/ybjgfs/argo|-public|-experiment|-simulati

23、on|-temp-user|-user1-user2user1正式的职工用户,user2主要为学生和客座,用户空间份额为500GB,文件数限制10万个temp空间为10TB,每用户空间大小为5GB,数据两个月后自动删除大亚湾中微子实验-计算队列队列名用途Cpu核可使用组名/用户名优先级操作系统dyb64q数据分析共享1148个cpu核Dybrun较低ScientifcLinux(SL)5.8dybdpq数据重建Dyboffline、jetter较高dybkupqDyboffline低dybcalibq 数据刻度Dybcalibqrun高publicq40核所有用户共享SL5.5大亚湾中微子实验

24、-存储-11.用户目录:提供用户存放个人数据文件磁盘名称空间限额/文件数限额查看使用份额的命令/afs/ PMT测试数据 none/30万/publicfs/dyb/data/rec/KUP11A/KUP数据none/30万JUNO实验计算服务JUNO实验使用HTCondor作业管理系统(1)JUNO计算资源仅允许实验成员使用,所以使用前请确认自己属于“juno”用户组,必要时请申请组权限:$ groups zoujhzoujh : physics bespub juno dybrun dyw(2)只有一个队列JUNO,在提交作业时使用“-group”参数指定使用JUNO计算资源:$ cond

25、or_submit -group juno submit.jobJUNO实验存储目录名称空间限额/文件数限额查看使用份额的命令存放用途/afs/ 5GB/5万lfsquota-uusername/workfs个人文件,程序/scratchfs/juno/username500GB/none(数据只保存两周)lfsquota-uusername/scratchfs个人临时文件/junofs/user/username500GB/30万Lfsquotauusername/junofs个人数据文件JUNO实验资源JUNO实验受保护的网络资源(如DocDB等)即将与所内统一认证系统进行整合,将来用户必

26、须使用统一认证(单点登录)账号才能获取这些资源的访问权限。SVN账号申请:发送申请邮件到马秋梅()JUNO项目主页:http:/ 应的设备品牌型号。如果用户申请上架的设备是新品牌或者新型号的机器,则需在“设备品牌”栏下拉菜单中选择空白,同时在“其他品牌”栏中填写申请上架设备的具体品牌型号;l填写过程中如有疑问,请与ihep_computing_联系。设备管理-托管服务托管服务是指用户将计算存储设备安放于计算中心机房,计算中心提供电力制冷等基础设施,用户自己拥有设备的管理权限。内网托管是指设备将被分配内网地址外网托管指设备将被分配外网地址。如果需要设备托管服务,请联系:电话:88236855邮箱

27、:ihep_computing_FAQ-1(1)我如何更新我的计算平台联系邮箱?可用注册邮箱发送更改邮箱请求到ihep_computing_(2)我突然无法正常登录计算平台,该如何处理?最可能的原因是用户口令过期。在密码到期前的30天、7天和2天,用户将会分别收到三次邮件提醒用户尽快修改密码。如果用户没有注意到邮件,未能及时修改密码,可发送邮件至ihep_computing_寻求帮助。(3)为什么我在登录结点上运行的程序会突然死掉?登录结点是所有用户共享的机器。如果一个用户占用资源(cpu和内存)过多,其进程将被杀掉。请检查程序是否过多占用资源。FAQ-2(4)为什么我突然无法向afs目录下写

28、文件了?用afs账号成功登录计算平台后,系统会为用户生成一个具有25小时时效的afstokens,如果超过时效时间,则用户无法向/afs目录写入或修改文件。此时可运行命令:$tokens查看当前tokens的有效时间,如果已经过期,可运行命令:$klogusername正确口令后,可以重新生成tokens。(5)为什么我的作业可以在登录结点上正常运行,提交作业运行就很快退出还看不到任何作业输出文件?用户如果在/afs目录或是/workfs目录下提交作业,又没有指定其它作业输出目录,则作业运行完成后不会返回结果。如果作业在运行中试图写入或修改上述两个目录中的文件,则作业会失败。请确认改变作业提交

29、目录,指定文件输出路径,重新提交作业运行。FAQ-3(6)为什么自己的目录(/besfs等)突然无法访问了?用户个人目录或是用户组的公共目录都被设置了最大可用份额。当使用空间超过最大可用份额时,相关人员会收到邮件提醒,需要尽快清理目录下文件。如果超过此份额,目录将被封掉。只能联系计算中心工作人员解封后再进行文件清理工作。(7)为什么我的有些目录可以访问,可是不能写入新的文件?请检查此目录份额是否已经超过规定。(8)我申请了网格证书,已经收到证书批准邮件,为什么无法正常下载?请检查并确认使用申请证书时所有用计算机及浏览器下载证书FAQ-4(9)我是羊八井用户,为什么我不能正常删除自己的目录?由于软件自身原因,在删除/ybjgfs目录时,有时无法正常进行,提示错误信息:“Noemptydirectory”,此时可改用grmdir命令,这是计算中心针对此类错误开发的新命令。(10)运行startx命令时,报错authenticationfailed,该如何解决?$startxxauth:errorinlockingauthorityfile/afs/

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号