0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

服務器數(shù)據(jù)恢復—存儲中raid5陣列多塊磁盤離線導致lun不可用的數(shù)據(jù)恢復案例

Frombyte ? 來源:Frombyte ? 作者:Frombyte ? 2024-04-29 11:29 ? 次閱讀

服務器存儲數(shù)據(jù)恢復環(huán)境:
品牌MSA2000存儲,該存儲中有一組由8塊SAS硬盤(其中有一塊熱備盤)組建的RAID5陣列,raid5陣列上層劃分了6個lun,均分配給HP-Unix小型機使用,主要數(shù)據(jù)為oracle數(shù)據(jù)庫和OA服務端。

服務器存儲故障:
該MSA2000存儲RAID5陣列中2塊硬盤出現(xiàn)故障離線,陣列中只有一塊熱備盤,雖然熱備盤成功激活,RAID5陣列癱瘓,上層LUN無法使用,存儲不可用。

服務器存儲數(shù)據(jù)恢復過程:
1、收到故障存儲中所有磁盤后,由硬件工程師對所有磁盤做物理故障檢測,沒有發(fā)現(xiàn)有硬盤存在明顯物理故障,都可以正常讀取。使用壞道檢測工具檢測所有磁盤,也沒有發(fā)現(xiàn)有硬盤存在壞道。
2、將所有磁盤以只讀方式做扇區(qū)級全盤鏡像。鏡像完成后將所有磁盤還給用戶方,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復操作都基于鏡像文件進行,避免對原始磁盤數(shù)據(jù)造成二次破壞。

wKgZomYvE8uAAzFWAAFLRTt8vUw451.png

北亞企安數(shù)據(jù)恢復——LVM數(shù)據(jù)恢復



注:由于所有磁盤沒有檢測出存在明顯的物理故障或者壞道,所以可以判斷出磁盤離線的原因是讀寫性能不穩(wěn)定。因為MSA2000存儲中的raid控制器的磁盤檢查策略非常嚴格,一旦陣列中有磁盤性能不穩(wěn)定,控制器就將這些磁盤識別為壞盤并踢出RAID。一旦RAID中掉線的盤到超過該RAID級別所允許掉盤的最大數(shù)量,該RAID崩潰,上層基于RAID的LUN也將不可用。
3、MSA2000存儲的LUN都是基于RAID的。分析所有磁盤中數(shù)據(jù),發(fā)現(xiàn)其中一塊盤的數(shù)據(jù)同其它盤不一樣,可以初步判斷這塊盤是熱備盤盤。分析每一塊硬盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個條帶上的數(shù)據(jù)和其他硬盤明顯不一樣,初步判斷此硬盤是先掉線的那塊磁盤。通過RAID校驗程序?qū)@個條帶做校驗,最終確定先掉線的那塊硬盤。分析Oracle數(shù)據(jù)庫頁在每個磁盤中的分布情況,并根據(jù)數(shù)據(jù)分布的情況獲取RAID的條帶大小,磁盤順序及數(shù)據(jù)走向等RAID的重要信息。根據(jù)分析出的RAID信息虛擬重組原始RAID。
4、分析LUN在RAID中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP。將每一個LUN的數(shù)據(jù)塊分布MAP提取出來,北亞企安數(shù)據(jù)恢復工程師編寫程序解析所有LUN的數(shù)據(jù)MAP,然后根據(jù)數(shù)據(jù)MAP導出所有LUN的數(shù)據(jù)。

wKgaomYvE96AZIG_AAGwvCsqmmo184.png

北亞企安數(shù)據(jù)恢復——LVM數(shù)據(jù)恢復



5、分析所有導出的LUN,發(fā)現(xiàn)所有LUN中均包含HP-Unix的LVM信息。嘗試解析每個LUN中的LVM信息,一共發(fā)現(xiàn)三個LVM:一個LVM中劃分了一個LV,里面存放OA服務器端的數(shù)據(jù);一個LVM中劃分了一個LV,里面存放臨時備份數(shù)據(jù);剩余4個LUN組成一個LVM,只劃分了一個LV,里面存放Oracle數(shù)據(jù)庫文件。北亞企安數(shù)據(jù)恢復工程師編寫LVM解釋程序,嘗試將所有LVM中的LV都解釋出來,但發(fā)現(xiàn)解釋過程中程序出錯。
6、分析程序報錯原因,開發(fā)工程師debug程序出錯的位置。文件系統(tǒng)工程師對恢復出來的LUN做檢測后發(fā)現(xiàn)存儲癱瘓導致LVM信息損壞。嘗試人工修復損壞的區(qū)域并同步修改程序,重新解析LVM邏輯卷。
7、搭建HP-Unix環(huán)境,將解釋出來的LV映射到HP-Unix并嘗試Mount文件系統(tǒng),結(jié)果Mount文件系統(tǒng)出錯。嘗試使用“fsck –F vxfs” 命令修復vxfs文件系統(tǒng),修復完成后仍然無法掛載文件系統(tǒng)。懷疑vxfs文件系統(tǒng)的部分元數(shù)據(jù)可能被破壞,需要手工修復。
8、仔細分析解析出來的LV,根據(jù)VXFS文件系統(tǒng)的底層結(jié)構(gòu)校驗此文件系統(tǒng)是否完整。經(jīng)過分析發(fā)現(xiàn)VXFS文件系統(tǒng)果然存在問題,原來存儲癱瘓的時候VXFS文件系統(tǒng)正在執(zhí)行IO操作,導致部分文件系統(tǒng)元文件損壞。手工修復損壞的元文件,直到能夠正常解析VXFS文件系統(tǒng)。再次將修復好的LV掛載到HP-Unix小型機上,嘗試Mount文件系統(tǒng),這回沒有報錯,成功掛載。
9、在HP-Unix小型機上mount文件系統(tǒng)后,將所有用戶數(shù)據(jù)備份至指定磁盤空間。
部分文件目錄截圖:

pYYBAGRI4-eAFRl1AADZ-lwf5uc521.png

北亞企安數(shù)據(jù)恢復——LVM數(shù)據(jù)恢復



10、使用Oracle數(shù)據(jù)庫文件檢測工具“dbv”檢測每個數(shù)據(jù)庫文件的完整性,經(jīng)過檢測沒有發(fā)現(xiàn)問題。再使用北亞企安自主研發(fā)的Oracle數(shù)據(jù)庫檢測工具進行檢測,發(fā)現(xiàn)部分數(shù)據(jù)庫文件和日志文件校驗不一致。由數(shù)據(jù)庫工程師對此類文件進行修復后再次校驗,直到所有數(shù)據(jù)庫文件均通過校驗為止。
11、將恢復出來的Oracle數(shù)據(jù)庫附加到原始生產(chǎn)環(huán)境的HP-Unix小型機中,嘗試啟動Oracle數(shù)據(jù)庫,Oracle數(shù)據(jù)庫啟動成功。

poYBAGRI4-6ANl0NAAKqcAErQBk915.png

北亞企安數(shù)據(jù)恢復——LVM數(shù)據(jù)恢復



12、由用戶方配合,啟動Oracle數(shù)據(jù)庫和OA服務端。通過本地安裝的OA客戶端數(shù)據(jù)記錄進行驗證,并且用戶方安排不同部門人員進行遠程驗證。經(jīng)過仔細驗證,確定恢復出來的數(shù)據(jù)完整可用,認可本次數(shù)據(jù)恢復結(jié)果。本次數(shù)據(jù)恢復工作完成。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    8849

    瀏覽量

    84950
  • 數(shù)據(jù)恢復

    關注

    10

    文章

    526

    瀏覽量

    17312
  • 磁盤
    +關注

    關注

    1

    文章

    356

    瀏覽量

    25138
  • RAID5
    +關注

    關注

    0

    文章

    106

    瀏覽量

    12694
收藏 人收藏

    評論

    相關推薦

    服務器數(shù)據(jù)恢復—雙循環(huán)RAID5陣列崩潰,數(shù)據(jù)如何恢復

    拔掉)。整個RAID5陣列存儲空間劃分了一個LUN服務器存儲故障: 硬盤出現(xiàn)故障
    的頭像 發(fā)表于 09-02 11:35 ?253次閱讀

    服務器數(shù)據(jù)恢復raid5陣列熱備盤未全部成功啟用的數(shù)據(jù)恢復案例

    服務器存儲數(shù)據(jù)恢復環(huán)境: 一臺EMC某型號存儲中有一組RAID5
    的頭像 發(fā)表于 08-14 11:27 ?311次閱讀
    <b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—<b class='flag-5'>raid5</b><b class='flag-5'>陣列</b>熱備盤未全部成功啟用的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例

    服務器數(shù)據(jù)恢復raid5陣列熱備盤同步失敗的數(shù)據(jù)恢復案例

    服務器存儲數(shù)據(jù)恢復環(huán)境: 華為S5300存儲中有一組由16FC硬盤組建的
    的頭像 發(fā)表于 07-15 11:38 ?433次閱讀
    <b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—<b class='flag-5'>raid5</b><b class='flag-5'>陣列</b>熱備盤同步失敗的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例

    服務器數(shù)據(jù)恢復raid5陣列熱備盤未完全激活導致陣列崩潰的數(shù)據(jù)恢復案例

    服務器存儲數(shù)據(jù)恢復環(huán)境: 北京某企業(yè)一臺EMC FCAX-4存儲上搭建一組由12成員盤的
    的頭像 發(fā)表于 07-12 10:58 ?250次閱讀

    服務器數(shù)據(jù)恢復—EMC存儲raid5陣列硬盤離線數(shù)據(jù)恢復案例

    服務器存儲數(shù)據(jù)恢復環(huán)境: 一臺EMC存儲中有一組raid5
    的頭像 發(fā)表于 07-09 11:58 ?165次閱讀

    服務器數(shù)據(jù)恢復raid5陣列硬盤壞道導致raid崩潰的數(shù)據(jù)恢復案例

    raid5陣列有23成員盤)。存儲系統(tǒng)上層一共分了11個卷。 服務器存儲故障:
    的頭像 發(fā)表于 07-05 12:00 ?395次閱讀

    服務器數(shù)據(jù)恢復磁盤不穩(wěn)定被踢導致raid5陣列崩潰的數(shù)據(jù)恢復案例

    服務器存儲數(shù)據(jù)恢復環(huán)境: 某品牌MSA2000服務器存儲中有一組由8
    的頭像 發(fā)表于 06-12 11:30 ?247次閱讀
    <b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—<b class='flag-5'>磁盤</b>不穩(wěn)定被踢<b class='flag-5'>導致</b><b class='flag-5'>raid5</b><b class='flag-5'>陣列</b>崩潰的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例

    服務器數(shù)據(jù)恢復—同友存儲raid5陣列崩潰的數(shù)據(jù)恢復案例

    服務器數(shù)據(jù)恢復環(huán)境: 某市教育局同友存儲,存儲中有一組由數(shù)
    的頭像 發(fā)表于 06-11 11:45 ?396次閱讀
    <b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—同友<b class='flag-5'>存儲</b><b class='flag-5'>raid5</b><b class='flag-5'>陣列</b>崩潰的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例

    服務器數(shù)據(jù)恢復—X3650服務器raid5磁盤陣列數(shù)據(jù)恢復案例

    一臺某品牌X3650M3服務器,服務器中有一組raid5磁盤陣列,上層采用zfs文件系統(tǒng)。 服務器未知原因崩潰,工作人員排查故障后發(fā)現(xiàn)
    的頭像 發(fā)表于 06-04 11:08 ?432次閱讀

    服務器數(shù)據(jù)恢復raid5陣列磁盤掉線導致EVA存儲不可用數(shù)據(jù)恢復案例

    服務器數(shù)據(jù)恢復環(huán)境: 1臺某品牌EVA4400控制+3臺EVA4400擴展柜+28FC硬盤。
    的頭像 發(fā)表于 05-24 11:34 ?480次閱讀
    <b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—<b class='flag-5'>raid5</b><b class='flag-5'>陣列</b><b class='flag-5'>中</b><b class='flag-5'>多</b><b class='flag-5'>塊</b><b class='flag-5'>磁盤</b>掉線<b class='flag-5'>導致</b>EVA<b class='flag-5'>存儲</b><b class='flag-5'>不可用</b>的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例

    服務器數(shù)據(jù)恢復—StorNext文件系統(tǒng)下raid5數(shù)據(jù)恢復案例

    ,劃分2個存儲系統(tǒng)。 服務器故障: 數(shù)據(jù)存儲的1個存儲系統(tǒng)的一組
    的頭像 發(fā)表于 04-22 14:51 ?334次閱讀
    <b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—StorNext文件系統(tǒng)下<b class='flag-5'>raid5</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例

    服務器數(shù)據(jù)恢復RAID5上層SAP+oracle數(shù)據(jù)恢復案例

    服務器存儲數(shù)據(jù)恢復環(huán)境: 某品牌服務器存儲中有一組由6
    的頭像 發(fā)表于 04-15 16:52 ?338次閱讀

    服務器數(shù)據(jù)恢復】DELL EqualLogic存儲raid5磁盤離線數(shù)據(jù)恢復案例

    某公司IT部門一臺某品牌EqualLogic PS6100系列存儲在運行過程突然崩潰。 服務器管理員對故障服務器存儲進行初步檢查,經(jīng)過檢
    的頭像 發(fā)表于 01-24 14:32 ?313次閱讀
    【<b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>】DELL EqualLogic<b class='flag-5'>存儲</b><b class='flag-5'>raid5</b><b class='flag-5'>多</b><b class='flag-5'>塊</b><b class='flag-5'>磁盤</b><b class='flag-5'>離線</b>的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例

    服務器數(shù)據(jù)恢復—華為OceanStor存儲raid5數(shù)據(jù)恢復案例

    服務器數(shù)據(jù)恢復環(huán)境: 華為OceanStor某型號存儲存儲內(nèi)有一組由24硬盤組建的
    的頭像 發(fā)表于 01-18 11:58 ?396次閱讀
    <b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—華為OceanStor<b class='flag-5'>存儲</b><b class='flag-5'>raid5</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例

    服務器數(shù)據(jù)恢復—EMC存儲raid5故障的數(shù)據(jù)恢復案例

    服務器存儲數(shù)據(jù)恢復環(huán)境: EMC某型號存儲,8組建一組r
    的頭像 發(fā)表于 11-30 11:59 ?511次閱讀