服务器日常维护及常见故障排除方法

上传人:汽*** 文档编号:592826646 上传时间:2024-09-22 格式:PPT 页数:49 大小:1.67MB
返回 下载 相关 举报
服务器日常维护及常见故障排除方法_第1页
第1页 / 共49页
服务器日常维护及常见故障排除方法_第2页
第2页 / 共49页
服务器日常维护及常见故障排除方法_第3页
第3页 / 共49页
服务器日常维护及常见故障排除方法_第4页
第4页 / 共49页
服务器日常维护及常见故障排除方法_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《服务器日常维护及常见故障排除方法》由会员分享,可在线阅读,更多相关《服务器日常维护及常见故障排除方法(49页珍藏版)》请在金锄头文库上搜索。

1、2024/9/22Inspur groupInspur group服务器日常维护及常见故障排除方法22024/9/22Inspur group主要内容主要内容故障维修注意事项常见故障处理及调试32024/9/22Inspur group故障维修注意事项故障维修注意事项服务器故障排错的基本原则服务器硬件维护注意事项关于最小化和还原出厂配置42024/9/22Inspur group服务器故障排错的基本原则服务器故障排错的基本原则1.尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c:BIOS,F/W,驱动程序:升级最新的BIOS,F

2、/W和相关驱动程序;d:TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2.从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。c:软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。3.交换对比a:在最大可能相同的条件下,交换操作简单效果明显的部件;b:交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境52024/9/22Inspur group服务器硬件维护注意事项服务器硬件

3、维护注意事项只有合格的技术人员才可以对主板进行设置系统电源开关:系统前面板上的直流电源开关并不能关闭系统电源的交流输入,系统中尚有8mA的伺服电流,在设置之前,必须拔下系统交流电源电缆系统外界设备:必须拔下系统外接网线和Modem等外接设备,否则可能会对人员或设备造成意外伤害静电释放和静电释放保护措施:静电释放会对主板、硬盘、板卡和系统的其它部件造成损害,在您要对系统硬件进行设置时,最好在防静电环境下进行(一端接地)静电释放和板卡持拿:因为板卡上的芯片对静电特别敏感,持拿板卡必须小心,只能接触主板的边沿。当板卡暂时不用时,必须把它放回专用的防静电袋中,芯片朝上放在接地平台上机箱盖:为了系统正常

4、散热和空气流通,在系统上电前一定要安装机箱盖,否则会对系统部件造成损害,机架式服务器要特别注意62024/9/22Inspur group硬件维修注意事项硬件维修注意事项确保在机箱和主板之间不存在短路把和主板相连接的线缆断掉,包括键盘和鼠标移走所有的外插板卡安装一颗CPU(确保安装牢固)连接机箱扬声器连线和电源指示灯LED连线到主板检查主板等部件的跳线设置是否正确72024/9/22Inspur group关于最小化和还原出厂配置关于最小化和还原出厂配置遇到复杂问题时,需要进行机器的最小化操作来进行问题定位,笼统的讲,最小化指单cpu、单内存或双内存(根据主板要求决定)、主板、电源接显示器开机

5、测试,其他的板卡、跳线等都去掉。但由于机型的差异,通过一些案例分析,我们真正做到最小化了么?还原到出厂配置要求保证原厂的部件,去掉用户自己扩配的部件,甚至要求bios版本的还原。82024/9/22Inspur group排除非浪潮部件干扰非常重要排除非浪潮部件干扰非常重要硬件故障并不单单指硬件有问题,它也指硬件之间不兼容。因为服务器的正常运作需要各部件之间的大力协调。建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障92024/9/22Inspur group外设故障不可小看外设故障不

6、可小看这些外设部件往往是最容易被忽略的,但这些故障会被引起以下故障:蓝屏切换器导致开机报错键盘导致开机报警鼠标线缆被老鼠咬了!键盘故障显示器安装as4.6死机,安装其他系统没问题。必要时要替换测试102024/9/22Inspur group主要内容主要内容故障维修注意事项常见故障处理及调试112024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬硬盘相关故障相关故障开机无显机器不加电意外重启风扇故障前面板状态灯相关说明系统相关故障数据读写缓慢网络相关故障122024/9/22Inspur group硬盘相关故障硬盘相关故障硬盘无法识别1.检测不到硬盘2.可检测到硬盘

7、数量不正确开机自检硬盘报错检测到硬盘时报错:smart error 或disk I/O error硬盘亮红灯阵列中硬盘频繁掉线132024/9/22Inspur group硬盘相关故障:硬盘检测问题硬盘相关故障:硬盘检测问题硬盘无法识别问题可从以下几个方面考虑1.重新拔插硬盘电源及数据线缆,注意是否有接触不良的问题。2.更换硬盘至原先可正常检测到的槽位,如果仍然检测不到则可能存在硬盘损坏故障。3.可检测到硬盘数量不正确实的情况要注意先确定bios中是否设置了正确的参数,然后再排除上述1.2问题。4.硬盘背板故障。5.磁盘控制器可能存在故障。142024/9/22Inspur group硬盘相关

8、故障:硬盘检测问题硬盘相关故障:硬盘检测问题Sata硬盘的识别问题更多表现在bios设置上,例如NF190/NF280G2/NF190Ebios中相关sata参数设置 152024/9/22Inspur group硬盘相关故障:硬盘检测问题硬盘相关故障:硬盘检测问题例如NF190D/NF280Dbios中相关sata参数设置 162024/9/22Inspur groupNF190D/NF280D ESB2 SATA3种模式:Compatible、AHCI、HostRaid172024/9/22Inspur group NF190D/NF280D SATA RAID关于SATAHostRAID

9、有如下限制:RAID-0Min2drives,max4drives.RAID-1Min2drives,max2drives.RAID-10Min4drives,max4drives.thesamelimitationwithSCSIHostRAID182024/9/22Inspur group NF190D/NF280D SATA CompatibleMode:IDE0Mas,IDE0Sla,SATA0,SATA2orSATA1,SATA3,支持Windows,Linux,nodriverrequiredEnhanceIDEMode:IDE0Mas,IDE0Sla,SATA0,SATA1,SA

10、TA2,SATA3,支持Windows,nodriverrequiredEnhanceMode(AHCIorRAIDenabled):IDE0Mas,IDE0Sla,SATA0,SATA1,SATA2,SATA3,SATA4,SATA5,driverisrequired.192024/9/22Inspur group硬盘相关故障:开机自检硬盘报错硬盘相关故障:开机自检硬盘报错检测到硬盘时报错:smarterror、diskI/Oerror或预期错误1.使用现有的硬盘控制器校验硬盘。2.出现此类报错时背板或主板也是故障原因但几率较小。202024/9/22Inspur group磁盘相关故障硬盘

11、亮红灯磁盘相关故障硬盘亮红灯很多机器背板有硬盘故障检测功能,如硬盘亮红灯一般意味着硬盘掉线、背板检测到硬盘存在故障隐患,此时可以从raid卡配置界面中查看硬盘的状态,如果处于非掉线状态,需要安装对应的管理软件,从管理软件中查看是否有磁盘mediaerror,有一点需要强调,硬盘亮红灯并不一定意味着硬盘掉线。212024/9/22Inspur group硬盘相关故障硬盘掉线硬盘相关故障硬盘掉线对于硬盘频繁掉线的故障,首先校验硬盘是否有坏道,如确定有坏道建议立即更换而不是通过其他修正的方法经过校验确认硬盘没有坏道,但此硬盘频繁掉线,同样需要更换硬盘,然后依次考虑背板、主板或raid卡、数据线、终结

12、器故障。222024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬盘相关故障开机无显开机无显机器不加电意外重启风扇故障前面板状态灯相关说明系统相关故障数据读写缓慢网络相关故障232024/9/22Inspur group开机无显的维护思路开机无显的维护思路ClearCMOS检查供电环境,零-火;零-地电压?检查电源指示灯,如果亮,正常吗?按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?是否更换过显示器,更换另一台显示器。去掉增加内存去掉增加的CPU去掉增加的第三方I/O卡检查内存和CPU插的是否牢靠主板是否有显示屏蔽的跳线更换主要备件,如主板,内存和CPU24202

13、4/9/22Inspur group开机无显开机无显-清清cmosNF190/NF280G2清cmos方法:用跳线帽将跳线2的bc短接,保持5秒钟;重启机器使设置生效;关掉机器,将跳线帽接回原先位置即可。 252024/9/22Inspur group开机无显清开机无显清cmosNF190D/NF280D清cmos方法:用金属物体(如小螺丝刀)将JBT1的两个脚点短接即可。 262024/9/22Inspur group开机无显内存最小化开机无显内存最小化单条内存插法:1.NF280G2/NF190单内存插在靠近主板边缘的A1或B1槽位2.NF190D/NF280D单内存插在靠近主板内部的DI

14、MM1A槽位上主板power开关跳线位置:NF280D/NF190D: 272024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬盘相关故障开机无显机器不加电机器不加电意外重启风扇故障前面板状态灯相关说明系统相关故障数据读写缓慢网络相关故障282024/9/22Inspur group主机不加电主机不加电确定外插电源线是否正常,更换电源线测试清cmos、最小化拔插相关部件在确定外部电源没有问题的情况下,将电源单独取出,插上电源线后短接电源24针插座的绿、黑接口,看电源风扇是否转动来确认电源故障。(台达的一些电源有空载保护机制,不能通过此方法进行测试,还有一些电源有节电

15、功能,必须在电源内部温度达到一定阀值才启动风扇,如NP110D共享工程机器,所以也不能用此方法测试)更换主板测试,(依照现场更换情况定位最终故障)292024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬盘相关故障开机无显机器不加电意外重启意外重启风扇故障前面板状态灯相关说明系统相关故障数据读写缓慢网络相关故障302024/9/22Inspur group意外重启意外重启查看bios相关日志及系统日志考虑相关因素如果是蓝屏重启,可查看dump日志进行分析与系统有关,重装系统内存和主板是导致硬件蓝屏的主要原因,可对内存进行校验,或对内存进行最小化测试312024/9/2

16、2Inspur group关于系统蓝屏故障的分析关于系统蓝屏故障的分析关于windbgDump文件的生成,及设置Windbg设置如何分析dump文件具体案例分析322024/9/22Inspur group关于关于windbg什么是windbg微软在DDK和SDK中提供的一个调试工具,既能调试驱动程序也能调试应用程序。同时可以对系统进行调试,对于蓝屏后产生的dump文件也有很强大的分析能力,帮助我们找到在蓝屏发生的最后一刻,系统在执行什么操作。 Windbg下载http:/ 分析性能如何 1,如果是软件原因造成的,尤其是杀毒软件防 火墙原因造成,确定的成功率可以达到90%以上。 2,如果是硬件

17、原因造成的蓝屏,不能唯一确定到哪个硬件,但是可以大体上判定问题出现在哪一路上332024/9/22Inspur groupDump文件生成文件生成当一个核心态错误发生的时候,windows缺省的方式是产生一个带有报错代码的蓝屏。有三种类型的dump文件: 完全内存转储 核心内存转储 最小内存转储342024/9/22Inspur groupWindbg 设置设置Symbol file path1,下载并安装2,直接连接到微软网站SRV*d:/temp/*http:/ group案例分析讲解案例分析讲解杀毒软件原因瑞星,天网等杀毒软件或防火墙软件。驱动问题硬件故障实例:河北省沧州市计生委2079

18、90484NF380D接网线蓝屏stop:0x000000FC(f78ae884,2fbf0963,f78ae7f0,00000000)100s重启,不接网线运行正常。使用winDbg分析结果:Probablycausedby:BlackDrv.sys(BlackDrv+11c6)安装了BlackICE(黑冰)防火墙,卸载后正常362024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬盘相关故障开机无显机器不加电意外重启风扇故障扇故障前面板状态灯相关说明系统相关故障数据读写缓慢网络相关故障372024/9/22Inspur group风扇相关故障风扇相关故障风扇转速问

19、题:1. 一些机型有针对不同操作系统的降速调节软件如NF190/NF280G22. 可通过修正bios中相关参数实现自动调节降速如NF280D/NF190D3.也可通过bios修改来实现对风扇转速的控制如NP370D/NF280风扇故障会造成内部温度过高,出现cpu过热而使系统自动断电的情况,可从bios监控页面查看风扇转速或查看bios事件日志是否有相关信息。高端机型机箱风扇本身有状态指示灯,当风扇本身异常时灯状态会有变化,如NF520D,正常状态下风扇指示灯为绿色,故障时会变为橙红色,预示风扇可能存在异常。有时风扇故障可能由槽位或其他因素引起,所以对于多个冗余风扇的情况下,尽可能现场交换风

20、扇测试确定可能性原因。382024/9/22Inspur group风扇故障风扇故障NF190D/NF280D硬件监控及风扇参数调整:BIOS风扇限速(6000转风扇-4500转)(1)Disable:FANatfullspeed(2)1U(3-pin):fanvoltagecontrolledto9V,10V,12V.(3)2U(3-pin):fanvoltagecontrolledto8V,9V,10V.清cmos或恢复bios默认值后要修改回正确的参数392024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬盘相关故障开机无显机器不加电意外重启风扇故障前面板状前

21、面板状态灯相关灯相关说明明系统相关故障数据读写缓慢网络相关故障402024/9/22Inspur group关于故障指示灯关于故障指示灯首先要明确状态灯的不同含义,比如服务器的网卡,有两个状态灯,一个为绿色,加电后常亮,代表网卡通电,另外一个是网络连接状态灯,不亮代表处于10m连同状态,绿色代表100m连接状态,红色代表千兆连接状态,闪烁代表正在进行数据交换。高端服务器一般都有系统状态指示灯,不同机器指示灯含义是不同的,如NF180正常情况下是绿色,系统异常时表现为红色,而NF500正常情况下是绿色常亮,非紧急故障状态为绿色闪烁,紧急故障情况下是橙色常亮。根据不同状态的变化,系统在报警的同时也

22、进行日志记录,此时可参考系统日志、bmc日志灯进行问题的诊断和分析。412024/9/22Inspur group前面板状态灯说明前面板状态灯说明NF190/NF280G2前面板状前面板状态灯灯NF190D/NF280D前面板状前面板状态灯灯 422024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬盘相关故障开机无显机器不加电意外重启风扇故障前面板状态灯相关说明系系统相关故障相关故障数据读写缓慢网络相关故障432024/9/22Inspur group系统相关故障系统相关故障系统不能正常启动1.可能是系统本身故障,重装系统测试2.查看系统相关日志和启动信息,测试相关

23、部件分区不能挂载1.挂载设备是否正确连接?是否工作正常?2.系统相关参数是否设置正确?3.硬盘为只读时需要进行单独格式化后重新挂载。系统安装问题1.驱动制作不正常或驱动错误导致安装系统时蓝屏或找不到硬盘2.由于一些机型对传统ide通道的颠覆,在linux系统安装时需要添加引导参数,并且在安装后修改相应文件,如NP120D2/NF190D2/NF290D23.对系统安装版本的要求,有些芯片组要求安装windows2003必须是集成sp1的,windows2000必须是集成sp4的,否则安装时蓝屏,而象NF500必须在windows2003系统安装时保证没有外插hba卡,否则安装过程中提示找不到光

24、盘。4.oem2003光盘在系统安装时需要添加的驱动和普通2003系统光盘需要的驱动是不一样的,要将驱动软盘文件目录中加新目录:$OEM$/TEXTMODE将驱动拷贝进入此目录442024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬盘相关故障开机无显机器不加电意外重启风扇故障前面板状态灯相关说明系统相关故障数据数据读写写缓慢慢网络相关故障452024/9/22Inspur group导致数据读写缓慢的原因导致数据读写缓慢的原因1.硬盘掉线,后台正在rebuild,或raid阵列正在进行一致性校验。2.病毒导致,从任务管理器看出,cpu占用率达100,一般与蠕虫类病毒

25、严重占用系统资源有关。3.磁盘控制器驱动问题,使磁盘性能不能得到稳定发挥或存在bug,导致读写缓慢。4.数据库相关,数据库优化或程测试序有问题,导致程序执行时不能正常获取相关信息,表现为硬盘读写慢。5.硬件故障,包括硬盘、背板、线缆和硬盘控制器。6.raid卡设置相关,磁盘性能参数是否已经设置到最优化?使用磁盘性能工具进行对磁盘读写性能进行测试,如iometer或hdtune等,评估磁盘性能优劣。462024/9/22Inspur group数据读写缓慢数据读写缓慢针对LSISATA/SCSIraid卡配置多块硬盘时出现的数据读写缓慢问题的说明:RAID卡进行一次写操作需要以下过程:首先是控制

26、器和缓存之间进行数据的通信,然后缓存再将数据写入硬盘,完成一次写操作。RAID卡写策略分为两种:writeback、writethrough。写策略设置为writeback时,当控制器的缓存接收到一次交易的数据后,控制器发出传输完成的信号给host主机,之后缓存和硬盘进行数据的通讯,完成写的结束。而设置writethrough时,只有当硬盘接收到一次交易的数据后控制器才可以发送传输完成的信号给host主机。相比较而言,前者的效率更高,之前的Firmware无法使用writeback策略,导致写性能很低,升级至新的Firmware后,writeback策略可以正常使用,极大的提升了RAID卡的性

27、能,并提高了系统的稳定性。472024/9/22Inspur group常见故障处理及调试常见故障处理及调试硬盘相关故障开机无显机器不加电意外重启风扇故障前面板状态灯相关说明系统相关故障数据读写缓慢Usb光驱问题网网络相关故障相关故障482024/9/22Inspur group网络相关故障网络相关故障主要表现为网卡不通,不能正常连接或有严重丢包现象,时通时断1.查看网卡灯是否正常,一般情况下插上网线后网卡灯亮。2.如果灯不亮,更换网线测试,其他机器上正常的网线,在此机器上是否正常?3.网卡网络配置是否正确?4.系统原因,重装操作系统。5.直连线测试是确定网络硬件是否有问题的主要方法。492024/9/22Inspur group谢谢大家!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号