为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

RAID5同时坏两块硬盘的处理办法

2018-01-17 6页 doc 114KB 127阅读

用户头像

is_589748

暂无简介

举报
RAID5同时坏两块硬盘的处理办法RAID5同时坏两块硬盘的处理办法 】RAID5 两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的,然后rebuildraid后,再利用这个机会换掉那块先坏的,再 rebuild。这样所有盘都Online了,不过最好还是换了那块后坏的,再 重新rebuild一次。不过不是每次都那么幸运,能够强行Online成功。如果把先出问题的那块强行ONLINE,并对后出问题的盘rebuild的话,数据就完全被毁掉了。通常来说RAID5中两块,或两块以上硬盘同时 出现问题的几率是非常低,但并不代表这种情况不会发生。最常见的...
RAID5同时坏两块硬盘的处理办法
RAID5同时坏两块硬盘的处理办法 】RAID5 两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的,然后rebuildraid后,再利用这个机会换掉那块先坏的,再 rebuild。这样所有盘都Online了,不过最好还是换了那块后坏的,再 重新rebuild一次。不过不是每次都那么幸运,能够强行Online成功。如果把先出问题的那块强行ONLINE,并对后出问题的盘rebuild的话,数据就完全被毁掉了。通常来说RAID5中两块,或两块以上硬盘同时 出现问题的几率是非常低,但并不代这种情况不会发生。最常见的情 况是一块硬盘先出问题,在没有发现,或是未及时更换之前,又一块硬 盘出现问题,造成服务器瘫痪。这时候一定要分析哪块盘是后出问题的, 因为这块盘上的数据才是最“新鲜”的,与RAID中其他硬盘的数据组合 后才是完整,并且可以正常使用的。 RAID52DEAD RAID 1、有两块硬盘掉线,阵列状态变为DEAD。这种情况下无法做REBUILD!! 2、选择管理容器(Manage Containers),在需要强行恢复的阵列上按CTRL +R。 3、提示数据将会全部丢失,按Y确认 4、硬盘状态都会成为正常,阵列状态(Container Status)会变为UNPROTECTED。由于这个操作只是将硬盘的状态强制设置为在线,并没有对数据进行同步, 所以阵列真正恢复的可能性非常小。 字体: 小 中 大 打印 廉价冗余磁盘阵列RAID(Redundant Array of Inexpensive Disk)是一种容量大、速度快、可靠性高的外部存储器,现已在各种高性能的服务器、工作站及大中型 计算机中得到广泛应 用。其中的RAID5级为无独立校验磁盘的奇偶校验磁盘阵列,采用数据分块和 独立存取技术,能在同一磁盘上并行处理多个访问请求,较适用于访问请求频繁 的场合,如医院信息系统(HIS)。由于此技术特点:在一个硬盘出现错误时, 当插入新硬盘,能利用其他硬盘上信息对受损数据进行恢复,但当两块硬盘出现 错误时,要恢复数据就会有一定的困难了,我们医院在不久前就出现过类似现象。 一、故障重现 我们医院硬件配置为:HP LH6000 PIII700 Xeon 512M内存,18G硬盘一块?2台,作两机容错,*作系统为Windows NT SP4,数据库平台为Oracle 7.3,光纤为主干的星形拓扑网络,HP磁盘阵列柜一台,四块18G IBM硬盘做RAID5用以存放HIS系统数据,分别标为硬盘ID0、ID1、ID2和ID3。下面是当时故障的 重现: 1、硬盘ID2在早上7:30时出现闪红灯现象,其余硬盘正常,无出错提示。 2、硬盘ID0在下午14:00时也出现闪红灯现象,另两块硬盘正常,网络可访问, 3、14:15时,服务器屏幕上出现出错提示框:D盘(即阵列盘)不能访问。依 次关掉备份服务器、主域服务器、磁盘阵列柜后保护,开始分析故障原因, 处理故障。 二、故障分析 RAID5技术原理是:采用磁盘冗余技术和磁盘校验技术,将数据分布在磁盘阵 列中的各个磁盘上,这样做可以提高数据的可靠性和读取数据时的速度。如果阵 列中的某一个硬盘失效时,能运用上述技术,利用阵列中其他硬盘的信息,恢复 失效硬盘中的数据,但如果有一个以上的硬盘同时失效时,在技术上来说数据是 不可恢复的。结合我院出现的实际情况,我们分析:有可能是由于硬盘ID2出现 错误后,数据的读取量增大,导致另三个硬盘在进行冗余校验时可能出现逻辑错 误,而并不是出现了真正的物理损坏或失效。基于以上分析,我们在保证数据完 整性的原则下,开始拯救数据。 三、数据拯救 1、打开磁盘阵列柜,启动主域服务器,自检至阵列柜时按Ctrl+M进入NetRaid管理程序,查看阵列信息,发现硬盘ID0与硬盘ID2状态为Failed,运用修改配置将硬盘ID0强制OnLine,重新启动服务器,在进入NT前的硬件自检时,出 现硬盘ID2,ID0依次闪红灯,访问D盘失败。 2、打开磁盘阵列柜,启动主域服务器,自检至阵列柜时按Ctrl+M进入NetRaid管理程序,选择磁盘阵列,将阵列配置信息清空,然后新建磁盘阵列信息(不作 初始化),并将硬盘ID2与ID0强制OnLine后,重新启动服务器,在进入NT前的硬件自检时,出现硬盘ID2,ID0依次闪红灯,访问D盘失败。 3、关闭磁盘阵列柜,将磁盘阵列柜上的所有四块硬盘全部拔除,启动主域服务 器,正常进入NT,打开磁盘阵列柜,用NT下的HP NetRaid管理软件,将硬盘ID0进行热插拔,软件能检测到此硬盘,并无任何错误提示,依次将硬盘ID1,ID2,ID3进行热插拔,但在进行至硬盘ID2时软件检测不到此硬盘,立刻将其 拔除,换上一块新硬盘,此时四块硬盘状态为Ready,全部选中后新建RAID5信息,成功后将硬盘ID2状态置为Failed,然后进行Rebuild,运用RAID5技术恢复这块真正失效的硬盘上的数据。但当进度到达50%左右时,出现错误提示, 重新启动服务器,进入NT后,系统自动进行CHKDSK,出现修复硬盘信息, 无任何错误提示,在磁盘正常自检后访问D盘成功。此时时间18:00分左右。 四、个案 在经过了长达6小时的紧张的数据抢救后,我们终于成功的恢复了数据,经过此 次惊心动魄的数据拯救后,我们痛定思痛,总结了以下几条经验: 1、在出现问题后不能紧张,应冷静分析故障原因,全面了解硬件知识,作出正 确合理的判断,以最小的代价解决问题。在我们此次故障处理过程中,我们对故 障的进行了合理的分析,运用了服务器硬盘可热插拔的性能特点,在保证另两块 硬盘数据完整的基础上,进行了正确的数据拯救,从而确保了故障的圆满解决。 2、在处理问题时应遵循由简单到复杂,由安全到危险的原则,应确保不破坏数 据的原则下进行故障处理。硬盘内的数据信息对我们医院来说,是非常重要的, 处理故障的过程也就是我们拯救数据的过程,因此我们在故障处理过程中没有进 行一味的蛮干,在清除磁盘阵列信息的同时,并没有对硬盘内数据进行任何*作, 从而确保了数据的安全性。 3、在处理故障时应将服务器与网络的连接切断,因为在恢复网络,受损硬盘修 复的过程中,会有用户登录至服务器,进行数据*作,从而产生新的数据,这样就有可能产生新的逻辑错误,对于故障的排除非常不利。 4、经过此次故障,我们认为任何先进的技术手段都不可能是万无一失的,如果 要确保数据安全,就一定要做好备份工作,最好每天作一次数据库的异地备份; 并至少备好一块新硬盘,以便在第一块硬盘出现错误时就能及时换上,进行数据 恢复,防止以上类似事件的再次发生。
/
本文档为【RAID5同时坏两块硬盘的处理办法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索