cpu故障维修(服务器CPU 主板问题处理)
服务器的CPU集成在主板上,不支持单独更换,CPU或主板出现故障时只能更换主板解决。常见的CPU及主板问题主要有以下几种。
1.CPU 过热关机
当检测到CPU温度过高,导致OS关机时,会产生此告警。告警示例如下。
告警描述(iBMC V296及以上版本):
The OS was shut down due to CPU arg1 overheating (SN: arg2, BN: arg3).
可能的原因如下:
●风扇模块故障。
●环境温度过高。
●进风口/出风口堵塞。
●存在空槽位或间隔。
●未安装导风罩。
●散热器接触不良或液冷装置故障。
● CPU故障
2.CPU VRD 温度读取失败
CPUarg1 VRD温度读取失败时,会产生如下告警。读取温度失败示例如下。
告警描述:
Failed to obtain data of the CPU arg1 VRD temperature (SN: arg2, BN: arg3).
可能原因如下:
●CPU VRD电源芯片故障或访问通道故障。
3.CPU 不在位
当系统无法启动,CPU不在位时,产生此告警。CPU不在位故障示例如下。
告警描述:
Failed to start the system. CPU arg1 was not detected (SN: arg2, BN: arg3).
可能原因如下:
● CPU故障。
●主板故障。
4. CPU 自检失败
系统启动过程中,当CPU自检失败系统无法启动时,产生此告警,CPU自检失败示例
如下。
告警描述:
CPU arg1 self-test failed (SN: arg2, BN: arg3).
可能原因如下:
● CPU故障。
●主板故障。
处理方法:更换主板。
5.CPU 配置错误
CPU配置错误,操作系统会无法启动,有如下告警。
告警描述:
CPU arg1 cÑnfigñrì²Ñn error (SN: arg2, BN: arg3).
可能原因如下:
● CPU故障。
●主板故障。
6.CPU MCE/AER 错误
当CPU产生不可纠正的错误时,系统挂死,产生如下告警。
告警描述:
CPU arg1 triggered an uncorrectable error, arg2 (SN: arg3, BN: arg4).
可能原因如下:
●非内存镜像模式下,SMI2链路失效。
● CPU执行错误的程序。
● VMSE链路发生奇偶校验错误。
●内存控制器接收到带poison标签的数据。
处理方法:先冷复位一次,如果告警再次出现,更换主板。
7.CPU 电压过高或过低
CPU当前核心电压高于高压门限时,产生如下告警,当电压恢复到正常范围时,告警
恢复。CPU电压过高告警示例如下。
告警描述:
CPU arg1 core voltage (arg2 V) exceeds the overvoltage threshold (arg3 v) (SN: arg4, BN: arg5).
CPU当前核心电压低于低压门限时,产生如下告警,当电压恢复到正常范围时,告警
恢复。CPU电压过低示例如下。
告警描述:
CPU arg1 core voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).
该类型故障可能导致系统挂死,可能是CPU故障或主板故障,处理方法是更换主板。
8.主板异常下电
当主板电源故障导致系统异常下电时,产生此告警。主板异常下电故障示例如下。
告警描述:
The [arg1] power arg2 failure results abnormal power-off.
对系统的影响:
服务器自动关机,导致操作系统业务中断。
可能原因:
●主板电压跌落。
●主板故障。
9.主板上电超时
电源故障导致系统上电超时无法正常开机时,BMC产生此告警。电源故障示例如下。
告警描述:
The [arg1] power [arg2] failure results host power-on timed out.
可能原因:
●外部供电不满足服务器整机的功耗要求。
●主板故障。