用户使用手册

上传人:hs****ma 文档编号:570034737 上传时间:2024-08-01 格式:PPT 页数:35 大小:509.52KB
返回 下载 相关 举报
用户使用手册_第1页
第1页 / 共35页
用户使用手册_第2页
第2页 / 共35页
用户使用手册_第3页
第3页 / 共35页
用户使用手册_第4页
第4页 / 共35页
用户使用手册_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《用户使用手册》由会员分享,可在线阅读,更多相关《用户使用手册(35页珍藏版)》请在金锄头文库上搜索。

1、中国科学院合肥分院物质科学计算中心浪潮天梭用浪潮天梭用浪潮天梭用浪潮天梭用户户手册手册手册手册2目目录集群硬件配置集群软件配置登录、退出系统主要目录使用计算任务投放软件安装及使用规范关机和启动维护人员联系方式3一:集群硬件一:集群硬件配置配置硬件信息硬件信息管理节点管理节点NF5220*1 2*146G SAS raid1NF5220*1 2*146G SAS raid1登录节点登录节点NF5220*1 2*146G SAS raid1NF5220*1 2*146G SAS raid1I/OI/O节点节点NF5220*1 2*146G SAS raid1NF5220*1 2*146G SAS

2、raid1网格节点网格节点NF5220*2 5*300G SAS raid5NF5220*2 5*300G SAS raid5计算节点计算节点NX7140N*112 64G SSDNX7140N*112 64G SSD胖节点胖节点NF560D2*2 1*146G SASNF560D2*2 1*146G SAS存储存储AS400 8*1T raid5 AS400 8*1T raid5 (1 1 热备盘)热备盘)管理网络管理网络H3CH3C千兆以太网千兆以太网计算网络计算网络Qlogic 9120Qlogic 91204集群物理拓扑图集群物理拓扑图用户用户提交作业提交作业编译调试编译调试可视化可视

3、化202.127.207.131202.127.207.1325集群的并行配置信息集群的并行配置信息Inspur group集群角色集群角色主机名主机名备注备注管理节点管理节点mu01mu01登录节点登录节点logonlogonIPIP:202.127.207.132202.127.207.132计算节点计算节点cu001 - cu112cu001 - cu112NFSNFS服务服务io01io01共享目录共享目录 /home ,/home ,用于存储普通用户的信息用于存储普通用户的信息 共享目录共享目录 /opt /opt ,用户安装公用软件,用户安装公用软件lustrelustre服务服务

4、lu01 - lu06lu01 - lu06共享目录共享目录 / /lustrelustre ,用于存放计算临时文件,用于存放计算临时文件NISNIS服务服务mu01 logonmu01 logonnisdomainname nisdomainname : TS10K TS10K NIS server NIS server :mu01 mu01 NIS slave server NIS slave server :logonlogon作业调度作业调度TSJMTSJMmu01 logon grid1mu01 logon grid1PBS server PBS server :mu01 mu01

5、WEB server WEB server :logon logon WEB backup server WEB backup server :grid1grid16集群硬件集群硬件配置配置n 112个NX7140N计算刀片(双路四核Nehalem 2.8GHz处理器,DDR3 3GB/core) 一个刀片为两颗CPU,8核心,最大内存为24Gbn 24 Xeon X7460(2.66GHz/6c)/16M L3/1066MHz,4GB/core 共两个胖节点,每个胖节点四颗CPU,24核心,最大内存为96Gbn 16.2T容量的LUSTRE并行文件系统n 8T容量的存储系统(4Gb光纤存储)

6、n 1个登陆节点和管理节点,2个网格节点n 高速互联网络环境(20Gbps InfiniBand计算网络 + 1000M管理网络)合肥分中心的聚合计算能力为10万亿次/秒,总存储容量24.2T。7二:集群软件二:集群软件配置配置软件信息软件信息操作系统操作系统RedHat AS 5 update3 RedHat AS 5 update3 (内核(内核2.6.18-1282.6.18-128)编译器编译器/ /数学库数学库Intel C+/Fortran Intel C+/Fortran 编译器编译器/ Intel MKL/ Intel MKL数学核心库数学核心库应用软件应用软件GaussGau

7、ssianian vasp Wien2k vasp Wien2kMPIMPI实现实现intel mpi 3.1intel mpi 3.1作业调度作业调度TSJMTSJM/PBS/PBS集群管理集群管理浪潮天梭监管软件浪潮天梭监管软件2.12.18名称名称版本版本安装路径安装路径Intel C/C+Intel C/C+Compiler (32bitCompiler (32bit/ /64bit)64bit)10.1.02110.1.021/opt/intel/cc/10.1.021/opt/intel/cc/10.1.021 /opt/intel/cce/10.1.021/opt/intel/c

8、ce/10.1.021Intel C/C+Intel C/C+Compiler Compiler 11.1.04611.1.046/opt/intel/Compiler/11.1/046/opt/intel/Compiler/11.1/046/Intel Fortran Compiler (32bitIntel Fortran Compiler (32bit/ /64bit)64bit)10.1.02110.1.021/opt/intel/fc/10.1.021/opt/intel/fc/10.1.021/opt/intel/fce/10.1.021/opt/intel/fce/10.1.02

9、1Intel Fortran Compiler Intel Fortran Compiler 11.1.04611.1.046/opt/intel/Compiler/11.1/046/opt/intel/Compiler/11.1/046/Intel MKLIntel MKL9.1.0189.1.018/opt/intel/mkl/9.1.018/opt/intel/mkl/9.1.018Intel MKLIntel MKL10.1.2.02410.1.2.024/opt/intel/mkl/10.1.2.024/opt/intel/mkl/10.1.2.024Intel MKLIntel M

10、KL10.2.2.02510.2.2.025/opt/intel/mkl/10.2.2.025/opt/intel/mkl/10.2.2.025Intel MPIIntel MPI3.13.1/opt/intel/impi/3.1/opt/intel/impi/3.1Perl Perl 5.8.85.8.8/usr/bin/usr/binPythonPython2.4.32.4.3/usr/bin/usr/bin9三:三:登录、登录、退出系统退出系统1. 登录方式 SSH: 缺省提供,该登录方式有一定强度的加密安全保证 软件可以使用Putty, Sshclient, Xmanager等2. 文

11、件上传与下载 SFTP: 缺省提供,暂不提供FTP方式Windows下传送文件:下传送文件: Sshclient, Xmanager等自带文件传输功能 软件还可以使用SecureFX、WinSCP等LinuxLinux下下传送文件:传送文件: scp -r 文件夹名 dyliu202.127.207.132:/lustre/ISSP2/dyliu/ scp 文件名 dyliu202.127.207.132:/lustre/ISSP2/dyliu/10三:三:登录、登录、退出系统退出系统3. 长时间误操作,请结束访问,避免占用系统资源4. 结束系统访问必要操作 非停电、断网等意外设备故障导致,严

12、禁在终端上直接关闭访问窗口或直接关闭终端电源实现结束系统访问。 SSH访问必需主动使用exit命令一到多次确保最终结束连接。5. 为安全考虑,系统具有防火墙配置,用户如果发现在非断网情况下无法登陆节点,有可能是自己的IP不在防火墙允许的IP段,需要查看自己的IP地址,把IP段告知管理员开放。 11登陆天梭集群系统:u提交作提交作业 登登陆节点点 ssh -l your count 202.127.207.132 用户可以在登录节点查看目录、编辑文件、查看提交作业情况等。但是用户不允许在登录节点运行计算程序或前后处理程序,也不允许进行程序编译。u编译、调试、可视化编译、调试、可视化 胖节点胖节点

13、1 ssh -l your count 202.127.207.131 用户可以登录编译节点(胖节点1)进行程序编译。第一次登陆,修改密码 yppasswd username 设置环境变量 vi /.bashrc source /opt/intel/impi/3.1/bin64/mpivars.sh source /opt/intel/cce/10.1.021/bin/iccvars.sh source /opt/intel/fce/10.1.021/bin/ifortvars.sh source /opt/intel/mkl/10.2.2.025/tools/environment/mklv

14、arsem64t.sh 保存退出后 source /.bashrc三:三:登录、登录、退出系统退出系统12四:主要目录四:主要目录使用使用1.主目录:2.为登录后缺省进入的目录 /home/每用户默认限制容量为50Gb,用于安装自用软件,备份文件,保存计算结果文件 主目录用于系统存放管理用户的登陆和所使用软件配置文件,可以安装个人所需软件,严禁用户随意存放执行程序的临时文件和非相关的文件,避免占用和耗费宝贵的系统存储资源,影响登陆连接服务。每次登陆后在属主目录下使用命令 du -kh | sort n主动检查异常或较大的文件并作相应清理。 2. 工作目录: /lustre/yourid总容量9

15、.6TB ,单用户无容量限制,作为运算临时文件目录,请及时删除临时文件,三个月内无访问的文件将被系统自动删除13存储存储空间使用空间使用 系统使用lustre并行文件系统提高I/O性能,作为工作目录,由于其承载压力较大,容易出现硬盘故障,因此,该目录只存放计算中的临时文件,请及时将结果文件备份回主目录或自己的个人电脑中。 主目录(home)只允许存放最终结果文件,严禁将运算临时目录指向属主目录,如违规操作,造成属主目录损坏,管理员有权追究其责任。 主目录有磁盘配额限制,如需扩大容量(例如需要安装专用软件),可向管理员申请协调。 应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文

16、件存放不要超过三个月。重要数据应打包或再压缩存放。 工作目录(lustre)中存放的临时文件,请及时清除,管理员会定期清理长时间无访问文件,如因未及时备份而被误删,管理员不承担任何责任。 严禁在主目录中存放无关文件,如发现违反,管理员将调低该用户磁盘配额。14五:五:计算任务投放计算任务投放1. 不论任务有多紧急,请务必先检测提交程序的正确性以及资源占用的合理适度,通过小批量测试数据预估占用CPU、内存和存储资源,强烈建议进行代码优化以减少CPU、内存、I/O资源占用,及时释放申请的内存,优化文件目录读写访问等I/O功能,避免资源和计算时间的浪费。总内存利用不能超过(平均每刀片节点:24Gb+

17、8Gb(swap);大内存任务投放至胖节点队列(fuque):96Gb+16Gb(swap) ,否则会造成作业杀不掉、死机等情况。2. 大规模资源占用(占用实际内存超过1/4)或紧急任务时务必先联系管理员协调。 3. 计算任务提交后,应注意定时查看自己任务状态,当需要杀死自己进程或删除任务时,以用qdel命令, 如果无法删除必要时联系管理员协助。4. 应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。5. 不能在主目录(home)下存放任务临时文件,提交作业时必须指定作业输出路径为工作目录(lustre)。6. 不能在登陆节点上

18、直接运行任务,只能在登陆节点提交查看作业、简单的 vi编辑、查看、管理自己的数据以及程序。15PBS基本组件pbs command:用于提交、监视、修改和删除作业。pbs server: 提供基本的批处理服务,例如接收/创建一个批处理作业,管理维护作业队列,管理输出结果等。pbs mom:是一个守护进程,从pbs server处接收作业后放入其执行队列中等待执行。scheduler(maui): 对用户提交的作业进行调度五:五:计算任务投放计算任务投放在登录节点,用户必须通过作业脚本提交作业!在登录节点,用户必须通过作业脚本提交作业!作业调度软件采用Pro PBS,计算任务是通过脚本文件提交到

19、作业管理系统的。16PBS基本命令qsub 作业提交脚本qstat 参数qdel 作业号五:五:计算任务投放计算任务投放(1)提交作业的命令 qsub 作业提交脚本 此命令执行后,会给出个作业号(2)查询作业命令 qstat 参数 -q 列出系统队列信息 -Q:列出队列的一些限制信息 -an:列出队列中的所有作业 -r:列出正在运行的作业 -f jobid:列出指定作业在信息 -Qf queue:列出指定队列的所有信息 -B:列出PBS服务器的相关信息目前可用队列:目前可用队列:paraque 并行队列,可用资源:并行队列,可用资源:108 nodes x 8核心核心 ; serique 串行

20、队列,可用资源:串行队列,可用资源:4 nodes x 8 核心;核心; fuque 胖节点队列,可用资源:胖节点队列,可用资源:2 nodes x 24核心核心17(3)作业删除命令 qdel 作业号 其中作业号为qsub提交后系统所给出的一个号码注意事项 1、非root用户只能查看、删除自己提交的作业 2、在提交作业时一定要根据自己的使用的机器数估算内存,选择正确的队列:串行作业一定要放在serique队列,并行作业放在paraque,大内存需求(24Gb)作业放在fuque队列。 3、检查PBS脚本是否正确,一定要严格按照规范格式书写。不规范的PBS脚本可导致作业提交失败,甚至造成作业杀

21、不掉,计算刀片死机等。 五:五:计算任务投放计算任务投放18提交作业查询作业(1)五:五:计算任务投放计算任务投放作作业管理管理19查询作业(2)查询作业(3)作作业管理管理五:五:计算任务投放计算任务投放20删除作业作作业管理管理五:五:计算任务投放计算任务投放21五:五:计算任务投放计算任务投放作业脚本的编写基本参数#!/bin/bash#PBS -d /lustre/ISSP2/dyliu/workdir#PBS -o /lustre/ISSP2/dyliu/output#PBS -e /lustre/ISSP2/dyliu/error#PBS -l nodes=2:ppn=8#PBS

22、-l walltime=240:00:00#PBS -l mem=4gb#PBS -q paraque作业脚本可到计算中心网页下载22五:五:计算任务投放计算任务投放配置MPI环境(VASP) ulimit -s unlimitedsource /opt/intel/Compiler/11.1/046/bin/intel64/iccvars_intel64.shsource /opt/intel/Compiler/11.1/046/bin/intel64/ifortvars_intel64.shsource /opt/intel/mkl/10.2.2.025/tools/environment

23、/mklvarsem64t.shsource /opt/intel/impi/3.1/bin64/mpivars.shEXEC=/opt/issp2/vasp_4.6.2823五:五:计算任务投放计算任务投放配置MPI环境(VASP)NP=cat $PBS_NODEFILE | wc -lNN=cat $PBS_NODEFILE | sort | uniq | tee /tmp/nodes.$ | wc -lcat $PBS_NODEFILE /tmp/nodes.$sed -i s/$/-ib:8/ /tmp/nodes.$mpdboot -n $NN -f /tmp/nodes.$ -r

24、sshmpiexec -genv I_MPI_DEVICE rdma -machinefile /tmp/nodes.$ -n $NP $EXECmpdallexitrm -f /tmp/nodes.$24五:五:计算任务投放计算任务投放配置环境wien2kalias lsi=ls -aslp *.in*alias lso=ls -aslp *.ou*alias lsd=ls -aslp *.defalias lsc=ls -aslp *.cl*alias lss=ls -aslp *.sc*alias lse=ls -aslp *.erroralias pslapw=ps -ef |grep

25、 lapwalias cdw=cd $curdirexport EDITOR=xterm -e viexport SCRATCH=$curdir25四:计算任务投放四:计算任务投放配置环境wien2kexport WIENROOT=/opt/issp2/wien2kexport W2WEB_CASE_BASEDIR=$curdirexport STRUCTEDIT_PATH=$WIENROOT/SRC_structeditor/binexport PDFREADER=acroreadexport PATH=$PATH:$WIENROOT:$STRUCTEDIT_PATH:.export OCT

26、AVE_EXEC_PATH=$PATH:export OCTAVE_PATH=$STRUCTEDIT_PATH:export PATH=$PATH:$WIENROOT:.ulimit -s unlimitedalias octave=octave -p $OCTAVE_PATH26五:五:计算任务投放计算任务投放配置环境wien2k EXEC=/opt/issp2/wien2k/runsp_lapw -ec 0.00001 -cc 0.00001 -i 400 -pcat $PBS_NODEFILE nodelist.$sed -i s/$/-ib/ nodelist.$echo # .mac

27、hinesecho granularity:1 .machinesecho lapw0:sed -n 1p nodelist.$ .machinesfor i in cat nodelist.$do echo 1:$i .machinesdoneecho extrafine:1 .machinesrm -f nodelist.$EXEC27五:五:计算任务投放计算任务投放配置环境Gaussian export GAUSS_EXEDIR=/opt/issp2/g03export g03root=/opt/issp2/export PATH=/opt/issp2/g03:/opt/issp2/g0

28、3/linda7.2/opteron-linux-I8/bin:$PATHexport GAUSS_SCRDIR=/lustre/ISSP2/dyliu/g03tmpexport LINDA_PATH=/opt/issp2/g03/linda7.2/opteron-linux-I8source /opt/issp2/g03/bsd/g03.profile/opt/issp2/g03 $FILENAME28作业脚本注意事项 为减少资源消耗,系统配置采用autofs,20分钟无操作,即会卸载目录,因此,在脚本中,需使用绝对路径,保证任务可以正常运行作业脚本参考VASPWien2kg03castep

29、dmol3espresso五:五:计算任务投放计算任务投放29六:软件安装及使用规范六:软件安装及使用规范1. 系统默认安装了部分公用软件,位置在 /opt 下,主要为Intel 编译器、MPI及数学库。2. 各研究室公用应用软件分别安装在 /opt/ 目录下 3. 用户如果有特殊软件需求,可以申请安装于公用目录下,也可以安装于自己属主目录下,如果该软件使用人员较多,推荐安装于公用目录下,减少对属主目录的空间占用。4. 使用时,应注意用户的环境变量,修改属主目录下的.bashrc文件,设置正确的用户环境变量。5. 作业脚本中,应使用软件绝对路径指明应用软件所在位置。6. 严禁未经许可擅自修改公

30、用软件。30六:软件安装及使用规范六:软件安装及使用规范名称名称版本版本安装路径安装路径GaussianGaussianE01E01/opt/issp2/g03/opt/issp2/g03VASPVASP4.6.284.6.28/opt/issp2/vasp.4.6.28/opt/issp2/vasp.4.6.28Material StudioMaterial Studio4.44.4/opt/issp2/Accelrys/MaterialsStudio44/opt/issp2/Accelrys/MaterialsStudio44wien2kwien2k/opt/issp2/wien2k/op

31、t/issp2/wien2k应用软件按照各研究室安装于/opt/目录下,如issp2:31六:软件安装及使用规范六:软件安装及使用规范用户环境变量配置举例:vi /.bashrc# g03 #export GAUSS_EXEDIR=/opt/issp2/g03export g03root=/opt/issp2export PATH=/opt/issp2/g03/:/opt/issp2/g03/linda7.2/opteron-linux-I8/bin:$PATHexport GAUSS_SCRDIR=/lustre/ISSP2/export LINDA_PATH=/opt/issp2/g03/

32、linda7.2/opteron-linux-I8source /opt/issp2/g03/bsd/g03.profile# intel #source /opt/intel/impi/3.1/bin64/mpivars.shsource /opt/intel/cce/10.1.021/bin/iccvars.shsource /opt/intel/fce/10.1.021/bin/ifortvars.shsource /opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.sh32七:关机和启动七:关机和启动1. 遇有紧急情况和计划

33、性维护工作时,系统将关机,请各用户接获通知后,应注意保证投放的任务能够在预定的关机时间前结束。2. 系统重新启动后,具体应用项目组应安排人员及时启动相应服务。紧急关机并重新启动后,请各自应检查关机前计算任务的状态和结果,注意确保计算结果的无误和完整,并注意文件和目录(特别是高度重要的数据)是否出现的访问异常情况。33八:八:账号的申请和使用账号的申请和使用1. 严禁使用大型机账号及计算、存储资源进行与账号所属项目无关的任何活动和行为,违者必究并将视影响、损失轻重予以锁闭账号等处理。2. 主机资源申请,联系系统管理员进行申请。管理员联系方式见本指南维护人员联系方式。3. 建议避免公用账号,避免项

34、目移交的时候数据混乱。4. 人员发生调动时,请调动人员做好数据移交,并及时通知管理员申请权限改动。5. 临时用户项目结束或阶段性完成时,请及时通知管理员清理/锁闭/注销临时账号及项目组成员账号。6. 注销账号时请整理好用此账号建立的所有数据,做好移交及备份清理工作,并至少提前一天通知管理员。7. 数据和程序(非公用程序)文件一律存放于自己的属主目录下,计算临时文件存放于工作目录下(lustre),计算临时文件不得存放于自己的属主目录下。8. 个人账号只限个人使用,严禁将帐号和密码泄露给外单位和项目组外人员,公共组账号由管理员负责控制和使用分发。9. 密码应定期(三个月)更换,建议8位以上并注意加强密码复杂度。34八:维护人员联系方式八:维护人员联系方式王瑞宁 5591464-330周望怀 5591464-326 刘大勇 5591464-329计算中心网页:http:/ group谢谢大家!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号