0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

當(dāng)數(shù)據(jù)中心遇到中斷如何解決?

jf_78858299 ? 來源:電路之家 ? 作者:電路之家 ? 2023-05-18 10:55 ? 次閱讀

Uptime Institute表示,數(shù)據(jù)中心中斷的修復(fù)成本更高, 但其嚴(yán)重程度正在降低,發(fā)生的頻率也在降低。

數(shù)據(jù)中心中斷的嚴(yán)重程度似乎正在下降,而中斷成本繼續(xù)攀升。電源故障是“導(dǎo)致站點(diǎn)嚴(yán)重中斷的最大原因”。網(wǎng)絡(luò)故障和IT系統(tǒng)故障也會導(dǎo)致數(shù)據(jù)中心癱瘓,而人為錯(cuò)誤往往也是原因之一。

這些是Uptime Institute(正常運(yùn)行時(shí)間研究所)最近的數(shù)據(jù)中心中斷報(bào)告中指出的一些問題,該報(bào)告分析了中斷的類型、頻率以及其在金錢和后果方面的損失。

數(shù)據(jù)不可靠是一個(gè)持續(xù)存在的問題

Uptime警告道,考慮到一些中斷受害者缺乏透明度和報(bào)告機(jī)制的質(zhì)量,應(yīng)以懷疑的態(tài)度對待與中斷有關(guān)的數(shù)據(jù)。

“中斷信息是不透明且不可靠的,”Uptime研究執(zhí)行總監(jiān)Andy Lawrence在介紹Uptime的2023年度中斷分析時(shí)表示。

”雖然航空企業(yè)等一些行業(yè)有強(qiáng)制報(bào)告要求,但其他行業(yè)的報(bào)告有限。所以我們必須依靠自己的手段和方法來獲取數(shù)據(jù)。眾所周知,出于各種原因,并不是每個(gè)人都愿意分享有關(guān)中斷的詳細(xì)信息。有時(shí)會得到非常詳細(xì)的根本原因分析,而有時(shí)什么也得不到。”

Uptime報(bào)告從三個(gè)主要來源挑選數(shù)據(jù):Uptime的異常事件報(bào)告(AIRs)數(shù)據(jù)庫、自己的調(diào)查和公開報(bào)告,包括新聞報(bào)道、社交媒體、中斷跟蹤器和企業(yè)聲明。每種方法的準(zhǔn)確性各不相同。例如,公開報(bào)告可能缺乏細(xì)節(jié),來源可能不可靠。Uptime將自己的調(diào)查評為產(chǎn)生公平/良好數(shù)據(jù),因?yàn)槭茉L者是匿名的,且其工作角色各不相同??諝赓|(zhì)量被認(rèn)為非常好,因?yàn)槠浒瑪?shù)據(jù)中心所有者和運(yùn)營商在同行之間共享的詳細(xì)的設(shè)施級數(shù)據(jù)。

中斷率略有下降

根據(jù)Uptime的說法,有證據(jù)表明近年來中斷率一直在逐漸下降。

這并不意味著中斷總數(shù)正在減少——事實(shí)上,隨著數(shù)據(jù)中心行業(yè)的擴(kuò)張,全球范圍內(nèi)的中斷數(shù)量每年都在增加?!斑@可能給人一種錯(cuò)誤印象,即與IT負(fù)載相關(guān)的中斷率正在增長,而事實(shí)恰恰相反。中斷頻率的增長速度不及IT或全球數(shù)據(jù)中心的擴(kuò)張速度?!盪ptime報(bào)道到。

總體而言,Uptime觀察到每個(gè)站點(diǎn)的中斷率穩(wěn)步下降,這是通過其在2020年至2022年對數(shù)據(jù)中心管理人員和運(yùn)營商進(jìn)行的四項(xiàng)調(diào)查跟蹤得出的。到2022年,60%的調(diào)查受訪者表示其在過去三年,從2021年的69%和2020年的78%下降。

中斷率的情況似乎正在緩緩改善。

中斷嚴(yán)重程度似乎正在降低

雖然60%的數(shù)據(jù)中心站點(diǎn)在過去三年中經(jīng)歷過中斷,但只有一小部分被評為嚴(yán)重或嚴(yán)重。

Uptime以1到5的等級衡量中斷的嚴(yán)重程度,其中5是最嚴(yán)重的。1級中斷可以忽略不計(jì),不會導(dǎo)致服務(wù)中斷。5級關(guān)鍵任務(wù)中斷涉及服務(wù)和運(yùn)營的重大破壞性中斷,通常包括巨額財(cái)務(wù)損失、安全問題、違反合規(guī)規(guī)定、客戶損失以及名譽(yù)損害。

歷史上,5級和4級(嚴(yán)重)中斷占所有中斷的20%左右。到2022年,嚴(yán)重/嚴(yán)重類別的中斷率下降到14%。

Uptime首席技術(shù)官Chris Brown表示,一個(gè)關(guān)鍵原因是數(shù)據(jù)中心運(yùn)營商能夠更好地處理突發(fā)事件。只要在設(shè)計(jì)系統(tǒng)和管理操作方面做得更好,單個(gè)故障或故障不一定會導(dǎo)致嚴(yán)重或嚴(yán)重的中斷。

Brown表示,如今的系統(tǒng)具有冗余性,運(yùn)營商在創(chuàng)建能夠響應(yīng)異常事件和避免中斷的系統(tǒng)方面更加自律。

經(jīng)濟(jì)損失正在上升

當(dāng)服務(wù)中斷確實(shí)發(fā)生時(shí),其成本會越來越高——隨著對數(shù)字服務(wù)的依賴性增加,這種趨勢可能會持續(xù)下去。

回顧Uptime過去四年的調(diào)查數(shù)據(jù),直接和間接成本超過10萬美元的重大中斷所占的比例正在增加。2019年,60%的中斷恢復(fù)成本低于10萬美元。到2022年,只有39%的中斷造成的損失低于10萬美元。

同樣在2022年,25%的受訪者表示,最近一次中斷造成的損失超過100萬美元;45%的受訪者表示,最近一次中斷造成的損失在10萬到100萬美元之間。

Brown表示,通貨膨脹是部分原因;更換設(shè)備和勞動力的成本更高。

更重要的是企業(yè)在多大程度上依賴數(shù)字服務(wù)來開展業(yè)務(wù)。關(guān)鍵IT服務(wù)的損失可能直接導(dǎo)致業(yè)務(wù)中斷和收入損失。Brown表示:“任何這些中斷,尤其是嚴(yán)重和嚴(yán)重的中斷,都有能力影響多個(gè)組織和更大范圍的人群,而且必須緩解這種情況的成本不斷增加?!?/p>

第三方提供商是最引人注目的公共中斷的幕后推手

隨著越來越多的工作負(fù)載外包給外部服務(wù)提供商,第三方數(shù)字基礎(chǔ)設(shè)施企業(yè)的可靠性對企業(yè)客戶越來越重要,而這些提供商往往遭受最多的公共中斷。

Uptime報(bào)告稱,自2016年以來,跟蹤的所有公共中斷事件中,IT和數(shù)據(jù)中心的第三方商業(yè)運(yùn)營商(云提供商、數(shù)字服務(wù)提供商、電信提供商)占了66%。逐年看,這一比例一直在上升。2021年,由云、托管、電信和托管企業(yè)造成的中斷比例為70%,到2022年,這一比例高達(dá)81%。

Brown表示:“企業(yè)越多地將其IT服務(wù)推向其他人的領(lǐng)域,就越不得不進(jìn)行盡職調(diào)查——即使在交易達(dá)成后,也要繼續(xù)做盡職調(diào)查。”

人為錯(cuò)誤是導(dǎo)致中斷的常見原因,也是一個(gè)相對容易解決的因素

根據(jù)Uptime基于25年數(shù)據(jù)的估計(jì),雖然人為錯(cuò)誤很少是中斷的單一或根本原因,但在所有中斷中,人為錯(cuò)誤占了66%至80%。Uptime承認(rèn)分析人為錯(cuò)誤具有挑戰(zhàn)性。例如培訓(xùn)不當(dāng)、操作人員疲勞和缺乏資源等缺點(diǎn)可能難以查明。

Uptime發(fā)現(xiàn),與人為錯(cuò)誤相關(guān)的中斷主要是由于工作人員未能遵守程序(47%的受訪者表示)或程序本身存在問題(40%)造成的。其他常見原因包括服務(wù)中的問題(27%)、安裝問題(20%)、人員不足(14%)、預(yù)防性維護(hù)頻率問題(12%)以及數(shù)據(jù)中心設(shè)計(jì)或遺漏(12%)。

從積極的方面來看,投資于良好的培訓(xùn)和管理流程,可以在不花費(fèi)太多成本的情況下減少中斷。

電力問題繼續(xù)阻礙數(shù)據(jù)中心的可靠性

Uptime表示,其目前的調(diào)查結(jié)果與前幾年一致,并表明現(xiàn)場電力問題仍然是造成現(xiàn)場嚴(yán)重中斷的最大原因。盡管大多數(shù)中斷都有多種原因,而且關(guān)于其報(bào)告質(zhì)量各不相同。

2022年,44%的受訪者表示,電力是其最近發(fā)生有影響的事件或中斷的主要原因。電力也是2021年(43%)和2020年(37%)嚴(yán)重中斷的主要原因

Uptime表示,網(wǎng)絡(luò)問題、IT系統(tǒng)錯(cuò)誤和冷卻故障也是令人不安的原因。

網(wǎng)絡(luò)的復(fù)雜性導(dǎo)致更多的中斷

Uptime使用其2023年的Uptime彈性調(diào)查數(shù)據(jù)來挖掘網(wǎng)絡(luò)中斷趨勢。在調(diào)查受訪者中,44%的表示其組織在過去三年中經(jīng)歷過由網(wǎng)絡(luò)或連接問題引起的重大中斷。另有45%的表示沒有,12%的表示不知道。

導(dǎo)致網(wǎng)絡(luò)和連接相關(guān)中斷的兩個(gè)最常見原因是,配置或變更管理失?。?5%的受訪者提到),和第三方網(wǎng)絡(luò)提供商的失敗(39%)。

Uptime將這一趨勢歸因于當(dāng)今的網(wǎng)絡(luò)復(fù)雜性?!霸诂F(xiàn)代、動態(tài)切換和軟件定義的環(huán)境中,管理和優(yōu)化網(wǎng)絡(luò)的程序會不斷修改或重新配置。錯(cuò)誤變得不可避免,在如此復(fù)雜和高吞吐量的環(huán)境中,頻繁的小錯(cuò)誤可以在網(wǎng)絡(luò)中傳播,導(dǎo)致難以停止、診斷和修復(fù)的級聯(lián)故障,”Uptime報(bào)道。

與網(wǎng)絡(luò)相關(guān)的主要中斷的其他常見原因包括:

硬件故障:37%

線路破損率:27%

固件/軟件錯(cuò)誤:23%

網(wǎng)絡(luò)攻擊:14%

網(wǎng)絡(luò)/擁塞故障:12%

與天氣有關(guān)的事件:7%

防火墻/路由表問題:6%

IT系統(tǒng)和軟件中斷的常見原因

Uptime在其彈性調(diào)查中詢問受訪者,其組織在過去三年中是否經(jīng)歷過由IT系統(tǒng)或軟件故障引起的重大中斷時(shí),36%的表示有,50%的表示沒有,15%的表示不知道。與IT系統(tǒng)和軟件相關(guān)的最常見中斷原因是:

配置/變更管理問題:64%

固件/軟件故障:40%

硬件故障:36%

容量/擁塞問題:22%

數(shù)據(jù)同步/損壞:14%

網(wǎng)絡(luò)攻擊/安全問題:10%

火災(zāi)并不常見,但可能是毀滅性的

公開報(bào)告的中斷,包括媒體報(bào)道的中斷,揭示了廣泛的原因。原因可能與數(shù)據(jù)中心運(yùn)營商和IT團(tuán)隊(duì)報(bào)告的不同,因?yàn)槊襟w來源對中斷的了解和理解取決于其觀點(diǎn)。

火災(zāi)是公開報(bào)告的中斷原因之一,但在IT相關(guān)來源中排名不高。具體來說,Uptime發(fā)現(xiàn)公開報(bào)告的數(shù)據(jù)中心中斷中,有7%是由火災(zāi)引起的。在網(wǎng)絡(luò)簡報(bào)中,Uptime研究人員將數(shù)據(jù)中心火災(zāi)的發(fā)生率與鋰離子電池的使用增加聯(lián)系起來。

與鉛酸電池相比,鋰離子電池占地面積更小、維護(hù)更簡單、且使用壽命更長。然而,鋰離子電池存在更大的火災(zāi)風(fēng)險(xiǎn)。2023年3月28日,法國Maxnod數(shù)據(jù)中心發(fā)生了一場毀滅性的火災(zāi)。認(rèn)為這是由鋰離子電池起火引起的。2022年10月15日,SK集團(tuán)旗下、由其C&C子公司運(yùn)營的韓國托管設(shè)施發(fā)生重大火災(zāi),原因也是鋰離子電池火災(zāi)。

此文內(nèi)容來自千家網(wǎng),如涉及作品內(nèi)容、版權(quán)和其它問題,請于聯(lián)系工作人員,我們將在第一時(shí)間和您對接刪除處理!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 電源
    +關(guān)注

    關(guān)注

    184

    文章

    17400

    瀏覽量

    248764
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4575

    瀏覽量

    71803
  • 網(wǎng)絡(luò)故障
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    8463
收藏 人收藏

    評論

    相關(guān)推薦

    數(shù)據(jù)中心子系統(tǒng)的組成

    本帖最后由 bestups365 于 2011-11-11 10:21 編輯 數(shù)據(jù)中心的主要組成部分共有如下11個(gè)。(1)物理結(jié)構(gòu)數(shù)據(jù)中心的物理結(jié)構(gòu)就是能夠安裝數(shù)據(jù)中心并保護(hù)其免受環(huán)境條件
    發(fā)表于 11-11 10:16

    數(shù)據(jù)中心的健康檢查(電氣篇)

    ,也能從一個(gè)側(cè)面提高數(shù)據(jù)中心整體的運(yùn)營效率。作為數(shù)據(jù)中心的首要目標(biāo)就是數(shù)據(jù)中心的運(yùn)營安全與高可用性。當(dāng)數(shù)據(jù)機(jī)房新建成時(shí),所有的電氣設(shè)備、暖通
    發(fā)表于 03-18 16:47

    走向綠色數(shù)據(jù)中心的7種手段

      云計(jì)算數(shù)據(jù)中心涉及資源空間,電力,不間斷電源等等因素。毫無疑問,數(shù)據(jù)中心對當(dāng)?shù)氐纳鷳B(tài)系統(tǒng)造成巨大的壓力。將數(shù)據(jù)中心變成環(huán)保的數(shù)據(jù)中心不是一個(gè)簡單的任務(wù),就像許多
    發(fā)表于 08-16 15:35

    數(shù)據(jù)中心的建設(shè)也看重風(fēng)水

    相比中國傳統(tǒng)的風(fēng)水理論,數(shù)據(jù)中心所看重的風(fēng)水則更加貼合實(shí)際。以整體架構(gòu)來劃分,目前的主流的數(shù)據(jù)中心已經(jīng)進(jìn)入第三代,并開始向第四代演進(jìn)。第一代和第二代數(shù)據(jù)中心分別誕生于20世紀(jì)40和70年代,當(dāng)時(shí)
    發(fā)表于 08-07 06:22

    數(shù)據(jù)中心光互聯(lián)解決方案

      數(shù)據(jù)中心光互聯(lián)解決方案  隨著數(shù)據(jù)中心在全球的大規(guī)模部署,數(shù)據(jù)中心對于100Gbps模塊的需求時(shí)代已經(jīng)到了,而對于10G/40Gbps模塊的需求依然強(qiáng)勁?! MC針對數(shù)據(jù)中心光模
    發(fā)表于 07-03 10:36

    數(shù)據(jù)中心布線之有源光纜

    本帖最后由 易飛揚(yáng) 于 2020-8-22 15:05 編輯 根據(jù)通信產(chǎn)業(yè)研究機(jī)構(gòu)(CIR)的報(bào)告,2020年用于數(shù)據(jù)中心的有源光纜AOC市場將達(dá)42億美元(約合人民幣266.8億元)。有源
    發(fā)表于 08-22 15:04

    數(shù)據(jù)和物聯(lián)網(wǎng)是如何影響數(shù)據(jù)中心的?

    數(shù)據(jù)和物聯(lián)網(wǎng)是如何影響數(shù)據(jù)中心的?
    發(fā)表于 05-21 06:24

    數(shù)據(jù)中心發(fā)電機(jī)、變壓器和UPS匹配的邏輯探討分析

    最近同幾個(gè)朋友交流時(shí)都談到了數(shù)據(jù)中心柴油發(fā)電機(jī)在啟動的時(shí)候出現(xiàn)了發(fā)電機(jī)停車保護(hù)的現(xiàn)象,我們曾經(jīng)歷過過的幾個(gè)大型數(shù)據(jù)中心驗(yàn)證測試時(shí),也多次遇到過這類的現(xiàn)象。柴油發(fā)電機(jī)是數(shù)據(jù)中心電力保障的
    發(fā)表于 06-30 07:35

    數(shù)據(jù)中心發(fā)電機(jī)、變壓器和UPS匹配的邏輯

    最近同幾個(gè)朋友交流時(shí)都談到了數(shù)據(jù)中心柴油發(fā)電機(jī)在啟動的時(shí)候出現(xiàn)了發(fā)電機(jī)停車保護(hù)的現(xiàn)象,我們曾經(jīng)歷過過的幾個(gè)大型數(shù)據(jù)中心驗(yàn)證測試時(shí),也多次遇到過這類的現(xiàn)象。柴油發(fā)電機(jī)是數(shù)據(jù)中心電力保障的
    發(fā)表于 06-30 07:56

    數(shù)據(jù)中心太耗電怎么辦

    ??????摘要:其實(shí)對于節(jié)能,傳統(tǒng)技術(shù)也是做了“十二分”的努力。但是在技術(shù)不斷演進(jìn)的情況下,傳統(tǒng)節(jié)能技術(shù)還是存在問題,如何破?本文分享自華為云社區(qū)《數(shù)據(jù)中心節(jié)能?來試試華為NAIE數(shù)據(jù)中心節(jié)能技術(shù)
    發(fā)表于 06-30 06:27

    數(shù)據(jù)中心是什么

    數(shù)據(jù)中心是什么:數(shù)據(jù)中心是全球協(xié)作的特定設(shè)備網(wǎng)絡(luò),用來在因特網(wǎng)絡(luò)基礎(chǔ)設(shè)施上傳遞、加速、展示、計(jì)算、存儲數(shù)據(jù)信息。數(shù)據(jù)中心大部分電子元件都是由低直流電源驅(qū)動運(yùn)行的。
    發(fā)表于 07-12 07:10

    PUE指標(biāo)能準(zhǔn)確衡量數(shù)據(jù)中心能效嗎?

    PUE指標(biāo)能準(zhǔn)確衡量數(shù)據(jù)中心能效嗎?孫長青,注冊暖通工程師,高級工程師,規(guī)劃設(shè)計(jì)部總工程師,IDC單位設(shè)計(jì)總監(jiān)等,有多年從事數(shù)據(jù)中心規(guī)劃設(shè)計(jì)、咨詢顧問、甲方自建設(shè)計(jì)部等全過程的實(shí)戰(zhàn)經(jīng)驗(yàn),對數(shù)據(jù)中心
    發(fā)表于 07-12 08:06

    典型的數(shù)據(jù)中心供電系統(tǒng)組成部分

    典型的數(shù)據(jù)中心供電系統(tǒng)由中壓配電、變壓器、低壓配電、不間斷電源、末端配電以及發(fā)電機(jī)組等設(shè)備組成,其中UPS的主要作用是在市電電源中斷、發(fā)電機(jī)啟動之前,確保所帶負(fù)載的持續(xù)供電。1 數(shù)據(jù)中心不間斷電源
    發(fā)表于 09-10 08:20

    什么是數(shù)據(jù)中心

    數(shù)據(jù)中心是企業(yè)用來容納其關(guān)鍵業(yè)務(wù)應(yīng)用程序和信息的物理設(shè)施。隨著它們的發(fā)展,重要的是要長期考慮如何保持它們的可靠性和安全性。什么是數(shù)據(jù)中心?數(shù)據(jù)中心通常被稱為單個(gè)事物,但實(shí)際上它們由許多技...
    發(fā)表于 09-15 06:46

    數(shù)據(jù)中心中斷的原因,如何防止?

    每次數(shù)據(jù)中心中斷都代價(jià)高昂。隨著數(shù)字化步伐的加快,維持正常運(yùn)行時(shí)間的壓力極具挑戰(zhàn)性??紤]到數(shù)據(jù)中心負(fù)載的增加,僅靠人類來處理由于復(fù)雜性的增加而產(chǎn)生的大量問題已經(jīng)不可能了。如今,IT運(yùn)營團(tuán)隊(duì)
    的頭像 發(fā)表于 01-15 10:53 ?812次閱讀