高性能集群管理xx股份有限公司解决方案中心

上传人:j****9 文档编号:54644999 上传时间:2018-09-16 格式:PPTX 页数:74 大小:6.80MB
返回 下载 相关 举报
高性能集群管理xx股份有限公司解决方案中心_第1页
第1页 / 共74页
高性能集群管理xx股份有限公司解决方案中心_第2页
第2页 / 共74页
高性能集群管理xx股份有限公司解决方案中心_第3页
第3页 / 共74页
高性能集群管理xx股份有限公司解决方案中心_第4页
第4页 / 共74页
高性能集群管理xx股份有限公司解决方案中心_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《高性能集群管理xx股份有限公司解决方案中心》由会员分享,可在线阅读,更多相关《高性能集群管理xx股份有限公司解决方案中心(74页珍藏版)》请在金锄头文库上搜索。

1、何沧平 曙光信息产业股份有限公司,高性能集群管理,提纲,常规方式管理 IPMI使用 Clusconf管理集群 Gridview管理集群,系统开机,集群系统设备的开启和关闭需要按照一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。集群系统开启的顺序为:机柜上电。将机柜电源箱空开拨至“ON”状态,将每个机柜PDU的空开拨至“ON”状态。一般情况下,机柜上电后,会自动开启网络交换机、存储磁盘阵列、KVM等设备。 确保已开启网络交换设备,包括以太网交换机、IB交换机、存储交换机等。 确保已开启磁盘阵列。检查磁盘阵列指示灯或显示屏,确保磁盘阵列已启动。 开启IO节点,等待操作系统完全启动后

2、,检查确保已挂载上磁盘阵列存储空间。 开启登陆管理节点,操作系统完全启动后,检查是否挂载上IO节点的网络共享存储。 开启计算节点,包括刀片计算节点、GPGPU计算节点、SMP胖节点等,其中开启刀片计算节点前,需要按刀片机箱电源按钮为刀片机箱上电。,系统关机,集群系统关闭的顺序原则上与开启顺序相反:关闭所有计算节点,包括刀片计算节点、GPGPU计算节点、SMP胖节点等。 关闭登陆管理节点。 关闭IO节点。 机柜下电,将机柜PDU的空开拨至“OFF”状态,将机柜电源箱空开也拨至“OFF”状态。机柜下电同时也关闭了网络交换机、磁盘阵列、KVM等设备。,网络配置管理,主机名/etc/sysconfig

3、/network(redhat);/etc/hostname(suse) 网络的配置 $cd /etc/sysconfig/network-scripts $vi ifcfg-eth0 写入网络IP等 $vi ifcfg-eth1 写入网络IP等 设置完IP后,重启网络系统 $ /etc/init.d/network restart /etc/hosts 文件格式: ip地址 主机名 $cat /etc/hosts 127.0.0.1 localhost.localdomain localhost 10.10.10.1 node1,存储系统管理,集群IO节点光纤网络挂载磁盘阵列存储设备,存储挂

4、载到/public目录,可以在IO节点上使用root账户执行以下命令进行手动挂载:$mount /dev/sdc /public以上挂载命令可加进系统开机自动执行脚本中,系统启动后,会自动挂载磁盘阵列存储。IO节点作为NFS Server,集群其它节点通过以太网或InfiniBand网挂载网络共享存储,在其它节点上可以使用以下命令执行手动挂载:$mount -t nfs io:/public /public以上挂载命令可加进系统开机自动执行脚本中,节点系统启动后,会自动挂载网络共享存储。,系统环境设置,开机启动脚本(RedHat: /etc/rc.local;Suse:/etc/init.d/

5、after.local)$cat /etc/init.d/after.localsleep 30mount -t nfs io:/public /publicmount -bind /public/home /home 软件安装管理高性能集群需要安装编译器、数学库和各种应用软件等,为避免混乱需统一规划。源代码: /public/software/sourcecode编译器: /public/software/compiler数学库: /public/software/mathlibMPI: /public/software/mpi应用软件:/public/software环境变量:/publi

6、c/software/profile.d,系统环境设置(续),全局环境变量 /etc/profile、/etc/profile.d/*.sh这些文件中设置的环境变量对所有用户都起作用,登录时自动生效,称为全局环境变量。全局环境变量可用来设定一些默认的应用环境,如指定编译器、MPI并行库等。 用户环境变量 安装一个应用程序后,相关的环境参数尽量不要加入全局环境变量,避免版本冲突。可在/public/software/profile.d/目录下创建相应的env文件,让用户在/.bashrc 或PBS脚本中自由选择source。 设置一个新的环境变量:export 命令 $ export NAME=

7、“RaidCheng“ $ echo $NAME RaidCheng 几个关键的环境变量: HOME:当前用户的主目录 PATH:决定了shell将到哪些目录中寻找命令或可执行程序 LD_LIBRARY_PATH:shell在哪些目录寻找动态链接库,非常重要 INCLUDE:编译程序时,设定在哪些目录下寻找头文件,集群同步文件和执行相同命令,同步文件$for i in seq 1 20;do scp /etc/hosts 10.10.10.$i:/etc/;done $for i in seq 1 20;do scp /etc/rc.local node$i:/etc/;done执行相同的命令

8、$for i in seq 1 20;do ssh node$i hostname;done $for i in seq 1 20;do ssh node$i init 0;done,集群用户管理(添加用户),添加用户需要使用root账户在登录管理节点上进行,分以下几个步骤:在登录管理节点上添加用户、设定密码,用户主目录需指定在共享文件夹(/public/home)下$useradd -m -d /public/home/$passwd username将登录管理节点的几个用户信息文件“/etc/passwd, /etc/shadow, /etc/group”同步到所有计算节点设置无密码登录由

9、root用户切换到新添加用户,执行命令$ssh-keygen t rsa一路回车,在用户的主目录下生成.ssh的文件夹,进入到.ssh文件夹内$cd /.ssh$cat id_rsa.pub authorized_keys,集群用户管理(删除用户),删除用户也需要使用root账户在登录管理节点上进行,注意加上-r参数会同时删除该用户主目录,请慎用:$userdel -r username删除用户后,同样需要同步集群用户信息,提纲,常规方式管理 IPMI使用 Clusconf管理集群 Gridview管理集群,IPMI IPMI(Intelligent Platform Management I

10、nterface)即智能平台管理接口,是使硬件管理具备智能化的新一代通用接口标准。用户可以利用IPMI监控服务器的物理特征,比如温度、电压、风扇工作状态等。IPMI的最大优势在于它是独立于BIOS和OS的,所以用户无论在开机还是在关机的状态下,只要接通电源就可以实现对服务器的监控发展历史 1998年Intel、DELL、HP及NEC共同提出IPMI规格,可以透过网路远端控制温度、电压。 2001年IPMI从1.0版改版至1.5版,新增 PCI Management Bus等功能。 2004年Intel发表了IPMI 2.0的规格,能够向下相容IPMI 1.0及1.5的规格。新增了Console

11、 Redirection,并可以通过Port、Modem以及Lan远端管理伺服器,并加强了安全、VLAN 和刀片服务器的支持。,IPMI简介,IPMI硬件结构,IPMI工作原理,应用类型1、自动安装OS2、监控管理3、故障监控使用方式1、IPMITOOL2、浏览器http方式登录到BMC,IPMI功能使用,IPMITOOL Ipmitool 是一种可用在 linux 系统下的命令行方式的 ipmi 平台管理工具,它支持 ipmi 1.5 规范(最新的规范为 ipmi 2.0),通过它可以实现获取传感器的信息、显示系统日志内容、网络远程开关机等功能。 使用条件: 服务器硬件本身提供对 ipmi,

12、BIOS 中确定服务器是否支持 ipmi,即主板上要具有 BMC 管理微控制器。操作系统提供相应的 ipmi 驱动 ipmi 管理工具ipmitool 使用方式 本地调用 远程调用,IPMITOOL,配置本地IPMI,载入支持IPMI功能的系统模块$cd /lib/modules/2.6.18-238.el5/kernel/drivers/char/ipmi$insmod ipmi_devintf.ko $insmod ipmi_msghandler.ko $insmod ipmi_poweroff.ko $insmod ipmi_si.ko $insmod ipmi_watchdog.ko

13、创建字符设备node,使ipmitool可以通过驱动程序访问ipmi系统接口$cat /proc/devices | grep ipmi252 ipmidev$mknod /dev/ipmi c 252 0 查看$/etc/init.d/ipmi statusipmi_msghandler module loaded.ipmi_si module loaded.ipmi_devintf module loaded./dev/ipmi0 exists,本地使用IPMI,IPMI本地监控使用命令: ipmitool -I open command其中-I open表示使用OpenIPMI接口,co

14、mmand有以下项:raw:发送一个原始的IPMI请求,并且打印回复信息。 lan:配置网络(lan)信道(channel) chassis :查看主板的状态和配置电源 event:向BMC发送一个已定义的事件(event),可用于测试配置的SNMP是否成功 mc: 查看MC(Management Contollor)状态和各种允许的项 sdr:打印传感器仓库中的任何监控项和从传感器读取到的值。 sensor:打印周详的传感器信息。 Fru:打印内建的Field Replaceable Unit (FRU)信息 sel: 打印 System Event Log (SEL) pef: 配置 Pl

15、atform Event Filtering (PEF),事件过滤平台用于在监控系统发现有event时候,用PEF中的策略进行 事件过滤,然后看是否需要报警。 sol/isol:用于配置通过串口的Lan进行监控 user:配置BMC中用户的信息 。 channel:配置Management Controller信道,本地使用IPMI示例,ipmitool -I open sensor list 获取传感器中的各种监测值和该值的监测阈值 ipmitool -I open sdr 同样获取传感器中的各种监测值和该值的监测阈值 ipmitool -I open sensor thresh 配置ID值

16、等于id的监测项的各种限制值 ipmitool -I open chassis status 查看主板状态,其中包括了主板电源信息,主板工作状态等 ipmitool -I open chassis restart_cause 查看上次系统重启的原因 ipmitool -I open chassis policy list 查看支持的底盘电源相关策略。 ipmitool -I open chassis power/power on 启动底盘,用此命令能够远程开机 ipmitool -I open chassis power/power off 关闭底盘,用此命令能够远程关机 ipmitool -

17、I open chassis power/power status 查看电源状态 ipmitool -I open chassis power reset 实现硬重启,用此命令能够远程重启 ipmitool -I open mc reset 使BMC重新硬启动 ipmitool -I open mc info 查看BMC硬件信息 ipmitool -I open mc setenables =on|off, 配置bmc相应的允许/禁止选项。 ipmitool -I open mc getenables 列出BMC任何允许的选项 ipmitool -I open lan print 1 打印现在channel 1的信息,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号