服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境&故障:
一臺emc某型號存儲服務(wù)器,存儲服務(wù)器上組建了一組raid5磁盤陣列,陣列中有兩塊磁盤作為熱備盤使用。存儲服務(wù)器在運行過程中有兩塊磁盤出現(xiàn)故障離線,但是只有一塊熱備盤激活,最終導(dǎo)致該raid5陣列崩潰,上層應(yīng)用無法正常使用。
服務(wù)器故障檢測:
將故障存儲服務(wù)器中所有磁盤編號后取出,由硬件工程師對兩塊掉線的硬盤進行物理故障檢測,經(jīng)過檢測發(fā)現(xiàn)這2塊離線的磁盤確實存在物理故障,需要對這2塊盤進行物理故障修復(fù)后才能進行下一步的數(shù)據(jù)恢復(fù),存儲服務(wù)器中其他硬盤經(jīng)過檢測沒有發(fā)現(xiàn)存在物理故障及壞道。
將故障存儲服務(wù)器中的完好硬盤以只讀方式進行扇區(qū)級的全盤鏡像。針對存在物理故障的2塊磁盤,由硬件工程師進行開盤處理后使用專業(yè)工具進行全盤鏡像。由于故障存儲服務(wù)器中所有磁盤的扇區(qū)大小為520字節(jié),在進行數(shù)據(jù)恢復(fù)之前需要將所有鏡像數(shù)據(jù)做520字節(jié)to512字節(jié)的轉(zhuǎn)換。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、基于鏡像文件分析所有磁盤底層數(shù)據(jù),經(jīng)過分析發(fā)現(xiàn)故障存儲服務(wù)器中的兩塊熱備盤是空的,沒有寫入任何數(shù)據(jù),據(jù)此推斷有一塊熱備盤雖然上線,但此時raid陣列仍處于缺盤狀態(tài),數(shù)據(jù)并沒有開始同步。
2、通過分析底層數(shù)據(jù)獲取到條帶大小、磁盤順序等raid陣列結(jié)構(gòu)基礎(chǔ)信息,利用這些信息虛擬重組raid5陣列。
3、由于該型號存儲服務(wù)器的LUN是基于RAID5陣列的,在raid5陣列重組完成之后,需要分析LUN在RAID陣列中的分配信息以及LUN分配的數(shù)據(jù)塊MAP。
4、根據(jù)上一步獲取到的信息,使用北亞企安自研程序解釋LUN的數(shù)據(jù)MAP并導(dǎo)出LUN的所有數(shù)據(jù)。
5、使用北亞企安自研的ZFS文件系統(tǒng)解釋程序?qū)ι傻腖UN做文件系統(tǒng)解釋,但是在解釋某些文件系統(tǒng)元文件的時候程序報錯。開發(fā)工程師對該解釋程序做debug調(diào)試并分析程序報錯原因,與此同時,文件系統(tǒng)工程師分析ZFS文件系統(tǒng)是否存在問題。經(jīng)過數(shù)小時的分析與調(diào)試,最終確認導(dǎo)致程序無法正常解釋ZFS文件系統(tǒng)的原因:ZFS文件系統(tǒng)中某些元文件損壞。對損壞的元文件進行分析,發(fā)現(xiàn)ZFS文件系統(tǒng)正在進行I/O操作的時候存儲服務(wù)器癱瘓,導(dǎo)致部分文件系統(tǒng)元文件損壞。
6、北亞企安數(shù)據(jù)恢復(fù)工程師對損壞的ZFS文件系統(tǒng)元文件進行手工修復(fù),直到ZFS文件系統(tǒng)能夠正常解析。
7、對修復(fù)后的ZFS文件系統(tǒng)進行解析并驗證數(shù)據(jù)。經(jīng)過用戶方工程師的仔細驗證,確認存儲服務(wù)器內(nèi)所有數(shù)據(jù)成功恢復(fù)。本次存儲服務(wù)器數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
存儲
+關(guān)注
關(guān)注
13文章
4170瀏覽量
85482 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8843瀏覽量
84946 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
525瀏覽量
17311 -
emc
+關(guān)注
關(guān)注
167文章
3816瀏覽量
182531 -
RAID5
+關(guān)注
關(guān)注
0文章
106瀏覽量
12694
發(fā)布評論請先 登錄
相關(guān)推薦
評論