首页 常识

常识

cpu故障维修(服务器CPU 主板问题处理)

2024-12-23 08:45:30 100

服务器的CPU集成在主板上,不支持单独更换,CPU或主板出现故障时只能更换主板解决。常见的CPU及主板问题主要有以下几种。

1.CPU 过热关机

当检测到CPU温度过高,导致OS关机时,会产生此告警。告警示例如下。

告警描述(iBMC V296及以上版本):

The OS was shut down due to CPU arg1 overheating (SN: arg2, BN: arg3).

可能的原因如下:

●风扇模块故障。

●环境温度过高。

●进风口/出风口堵塞。

●存在空槽位或间隔。

●未安装导风罩。

●散热器接触不良或液冷装置故障。

● CPU故障


2.CPU VRD 温度读取失败

CPUarg1 VRD温度读取失败时,会产生如下告警。读取温度失败示例如下。

告警描述:

Failed to obtain data of the CPU arg1 VRD temperature (SN: arg2, BN: arg3).

可能原因如下:

●CPU VRD电源芯片故障或访问通道故障。


3.CPU 不在位

当系统无法启动,CPU不在位时,产生此告警。CPU不在位故障示例如下。

告警描述:

Failed to start the system. CPU arg1 was not detected (SN: arg2, BN: arg3).

可能原因如下:

● CPU故障。

●主板故障。


4. CPU 自检失败

系统启动过程中,当CPU自检失败系统无法启动时,产生此告警,CPU自检失败示例

如下。

告警描述:

CPU arg1 self-test failed (SN: arg2, BN: arg3).

可能原因如下:

● CPU故障。

●主板故障。

处理方法:更换主板。


5.CPU 配置错误

CPU配置错误,操作系统会无法启动,有如下告警。

告警描述:

CPU arg1 cÑnfigñr†ì²Ñn error (SN: arg2, BN: arg3).

可能原因如下:

● CPU故障。

●主板故障。


6.CPU MCE/AER 错误

当CPU产生不可纠正的错误时,系统挂死,产生如下告警。

告警描述:

CPU arg1 triggered an uncorrectable error, arg2 (SN: arg3, BN: arg4).

可能原因如下:

●非内存镜像模式下,SMI2链路失效。

● CPU执行错误的程序。

● VMSE链路发生奇偶校验错误。

●内存控制器接收到带poison标签的数据。

处理方法:先冷复位一次,如果告警再次出现,更换主板。


7.CPU 电压过高或过低

CPU当前核心电压高于高压门限时,产生如下告警,当电压恢复到正常范围时,告警

恢复。CPU电压过高告警示例如下。

告警描述:

CPU arg1 core voltage (arg2 V) exceeds the overvoltage threshold (arg3 v) (SN: arg4, BN: arg5).

CPU当前核心电压低于低压门限时,产生如下告警,当电压恢复到正常范围时,告警

恢复。CPU电压过低示例如下。

告警描述:

CPU arg1 core voltage (arg2 V) is lower than the undervoltage threshold (arg3 V) (SN: arg4, BN: arg5).

该类型故障可能导致系统挂死,可能是CPU故障或主板故障,处理方法是更换主板。

8.主板异常下电

当主板电源故障导致系统异常下电时,产生此告警。主板异常下电故障示例如下。

告警描述:

The [arg1] power arg2 failure results abnormal power-off.

对系统的影响:

服务器自动关机,导致操作系统业务中断。

可能原因:

●主板电压跌落。

●主板故障。


9.主板上电超时

电源故障导致系统上电超时无法正常开机时,BMC产生此告警。电源故障示例如下。

告警描述:

The [arg1] power [arg2] failure results host power-on timed out.

可能原因:

●外部供电不满足服务器整机的功耗要求。

●主板故障。