华为V6服务器 RAID控制卡用户指南 10

机器人指挥官 · 于 2024-07-18 03:21:43

硬盘故障

问题描述

当服务器出现如下现象时，说明硬盘故障。

硬盘故障指示灯常亮。
服务器开机状态下，硬盘指示灯不亮。
服务器上报硬盘故障告警。

处理方法

确认故障硬盘槽位。

JBOD模式下的硬盘为UBAD状态时，硬盘Fault指示灯会被点亮，iBMC会对其进行告警。

通过硬盘故障指示灯处于橙色常亮状态确认故障硬盘槽位，请参考各型号服务器用户指南硬盘编号章节。
通过管理软件iBMC硬盘告警信息确认故障硬盘槽位，请参考iBMC告警参考。
通过RAID控制卡GUI界面确认故障硬盘槽位信息，参考Drive Management。
通过RAID控制卡命令行工具确认故障硬盘槽位信息，参考查询RAID控制卡/RAID组/物理硬盘信息。

更换新硬盘。

拔出故障硬盘，在故障硬盘槽位插入新硬盘，新硬盘根据原故障硬盘的RAID配置情况有如下恢复方式：

UEFI模式下创建RAID0的方法请参见创建RAID 0。
通过命令行方式创建RAID0的方法请参见创建和删除RAID。
若故障硬盘所属RAID组已配置热备盘，新插入的硬盘在热备盘重构完成后会进行回拷动作。新硬盘回拷完成后，原热备盘恢复热备状态。
若故障硬盘所属RAID组为冗余RAID且未配置热备盘，新插入的硬盘自动执行rebuild操作重构故障硬盘数据，操作完成；如RAID组中故障硬盘数量超过1块，则需要按照硬盘故障时间由远及近的顺序逐一更换，且需要在已更换硬盘重构完成后再依次更换其他故障硬盘。
若故障硬盘为直通盘，则直接更换即可。
若故障硬盘属于非冗余RAID组（即RAID0），则需要重新创建RAID0。
更换硬盘前，为避免拔错硬盘导致RAID组失效，请务必提前确认好硬盘槽位，参考1。如硬盘故障为人为在线插拔RAID组中的硬盘或硬盘背板故障导致，则可以将硬盘设置为Unconfig Good后，参考导入/清除外部配置章节恢复RAID组，无需更换硬盘。
若故障硬盘属于直通盘或非冗余RAID组（即RAID0），则硬盘数据不可恢复。
若故障硬盘属于冗余RAID组且已故障硬盘数量未超过RAID组支持的最大故障硬盘数量时，则RAID组数据不会丢失；否则RAID组数据会丢失。请在表12-2查看RAID组支持的最大故障硬盘数量。
更换RAID组的硬盘时，故障硬盘在脱离硬盘背板后，需要等待30秒后再完全拔出，插入新硬盘。此时硬盘告警依然存在，待RAID组（RAID0除外）重构完成后告警消除。为避免新硬盘二次离线告警，请避免反复高频率在线插拔硬盘。
新插入的硬盘不能带有RAID配置信息，若插入的硬盘存在RAID配置信息，则需要在原RAID组创建时使用的同型号RAID控制器下删除RAID配置信息或者进行硬盘低格，具体请参考各型号RAID控制卡删除RAID配置信息或硬盘低格章节。

硬盘状态为fail或prefail

问题描述

正常情况下，使能RAID控制卡的紧急备份功能后，任意一个具备冗余功能的RAID组中硬盘故障且没有指定热备盘时，该RAID控制卡下的与故障盘同类型的空闲盘会自动替代fail或prefail状态的成员盘并进行重构，避免数据丢失。

但当RAID控制卡未设置紧急热备时，成员盘状态显示为fail或prefail时，可使用以下方法处理。

处理方法

使用StorCLI工具，具体操作请参考下载和安装StorCLI工具。
执行以下命令，将RAID组成员盘状态设置为离线，具体操作请参考设置硬盘状态。

storcli64 /ccontroller_id/eenclosure_id/sslot_id set offline [force]

controller_id：硬盘所在RAID控制卡的ID
enclosure_id：硬盘所在Enclosure的ID
slot_id：物理硬盘槽位ID

更换离线硬盘。
RAID组自动执行重构。

等待重构完成。

硬盘状态为Unconfigured Bad或UBad

问题描述

硬盘状态显示为Unconfigured Bad或UBad。

处理方法

使用StorCLI工具，具体操作请参见下载和安装StorCLI工具。
执行以下命令，将RAID组成员盘状态设置为good，具体操作请参见设置硬盘状态。

storcli64 /ccontroller_id/eenclosure_id/sslot_id set good [force]

controller_id：硬盘所在RAID控制卡的ID
enclosure_id：硬盘所在Enclosure的ID
slot_id：物理硬盘槽位ID

重新查看硬盘状态是否更改为Unconfigured Good或Ugood。具体操作请参见Drive Management界面或查询RAID控制卡/RAID组/物理硬盘信息。

问题解决 => 处理完毕。
问题未解决 => 4。

查看硬盘是否存在外部配置，如存在外部配置则导入或清除外部配置。具体操作请参见导入/清除外部配置或查看/导入/清除外部配置。

问题解决 => 处理完毕。
问题未解决 => 联系技术支持处理。

[华为服务器] 华为V6服务器 RAID控制卡用户指南 10

硬盘故障

问题描述

处理方法

硬盘状态为fail或prefail

问题描述

处理方法

硬盘状态为Unconfigured Bad或UBad

问题描述

处理方法

作者的其他帖子

[华为服务器] 华为V6服务器 RAID控制卡 用户指南 10

硬盘故障

问题描述

处理方法

硬盘状态为fail或prefail

问题描述

处理方法

硬盘状态为Unconfigured Bad或UBad

问题描述

处理方法

作者的其他帖子

[华为服务器] 华为V6服务器 RAID控制卡用户指南 10