硬盘故障问题描述当服务器出现如下现象时,说明硬盘故障。 - 硬盘故障指示灯常亮。
- 服务器开机状态下,硬盘指示灯不亮。
- 服务器上报硬盘故障告警。
处理方法- 确认故障硬盘槽位。
JBOD模式下的硬盘为UBAD状态时,硬盘Fault指示灯会被点亮,iBMC会对其进行告警。
- 更换新硬盘。
拔出故障硬盘,在故障硬盘槽位插入新硬盘,新硬盘根据原故障硬盘的RAID配置情况有如下恢复方式:
- UEFI模式下创建RAID0的方法请参见创建RAID 0。
- 通过命令行方式创建RAID0的方法请参见创建和删除RAID。
- 若故障硬盘所属RAID组已配置热备盘,新插入的硬盘在热备盘重构完成后会进行回拷动作。新硬盘回拷完成后,原热备盘恢复热备状态。
- 若故障硬盘所属RAID组为冗余RAID且未配置热备盘,新插入的硬盘自动执行rebuild操作重构故障硬盘数据,操作完成;如RAID组中故障硬盘数量超过1块,则需要按照硬盘故障时间由远及近的顺序逐一更换,且需要在已更换硬盘重构完成后再依次更换其他故障硬盘。
- 若故障硬盘为直通盘,则直接更换即可。
- 若故障硬盘属于非冗余RAID组(即RAID0),则需要重新创建RAID0。
- 更换硬盘前,为避免拔错硬盘导致RAID组失效,请务必提前确认好硬盘槽位,参考1。如硬盘故障为人为在线插拔RAID组中的硬盘或硬盘背板故障导致,则可以将硬盘设置为Unconfig Good后,参考导入/清除外部配置章节恢复RAID组,无需更换硬盘。
- 若故障硬盘属于直通盘或非冗余RAID组(即RAID0),则硬盘数据不可恢复。
- 若故障硬盘属于冗余RAID组且已故障硬盘数量未超过RAID组支持的最大故障硬盘数量时,则RAID组数据不会丢失;否则RAID组数据会丢失。请在表12-2查看RAID组支持的最大故障硬盘数量。
- 更换RAID组的硬盘时,故障硬盘在脱离硬盘背板后,需要等待30秒后再完全拔出,插入新硬盘。此时硬盘告警依然存在,待RAID组(RAID0除外)重构完成后告警消除。为避免新硬盘二次离线告警,请避免反复高频率在线插拔硬盘。
- 新插入的硬盘不能带有RAID配置信息,若插入的硬盘存在RAID配置信息,则需要在原RAID组创建时使用的同型号RAID控制器下删除RAID配置信息或者进行硬盘低格,具体请参考各型号RAID控制卡删除RAID配置信息或硬盘低格章节。
硬盘状态为fail或prefail问题描述正常情况下,使能RAID控制卡的紧急备份功能后,任意一个具备冗余功能的RAID组中硬盘故障且没有指定热备盘时,该RAID控制卡下的与故障盘同类型的空闲盘会自动替代fail或prefail状态的成员盘并进行重构,避免数据丢失。 但当RAID控制卡未设置紧急热备时,成员盘状态显示为fail或prefail时,可使用以下方法处理。 处理方法- 使用StorCLI工具,具体操作请参考下载和安装StorCLI工具。
- 执行以下命令,将RAID组成员盘状态设置为离线,具体操作请参考设置硬盘状态。
storcli64 /ccontroller_id/eenclosure_id/sslot_id set offline [force]
- controller_id:硬盘所在RAID控制卡的ID
- enclosure_id:硬盘所在Enclosure的ID
- slot_id:物理硬盘槽位ID
- 更换离线硬盘。
- RAID组自动执行重构。
等待重构完成。
硬盘状态为Unconfigured Bad或UBad问题描述硬盘状态显示为Unconfigured Bad或UBad。 处理方法- 使用StorCLI工具,具体操作请参见下载和安装StorCLI工具。
- 执行以下命令,将RAID组成员盘状态设置为good,具体操作请参见设置硬盘状态。
storcli64 /ccontroller_id/eenclosure_id/sslot_id set good [force]
- controller_id:硬盘所在RAID控制卡的ID
- enclosure_id:硬盘所在Enclosure的ID
- slot_id:物理硬盘槽位ID
- 重新查看硬盘状态是否更改为Unconfigured Good或Ugood。具体操作请参见Drive Management界面或查询RAID控制卡/RAID组/物理硬盘信息。
- 查看硬盘是否存在外部配置,如存在外部配置则导入或清除外部配置。具体操作请参见导入/清除外部配置或查看/导入/清除外部配置。
- 问题解决 => 处理完毕。
- 问题未解决 => 联系技术支持处理。
|