行業(yè)觀察
日前,移動通信網(wǎng)絡(luò)行業(yè)發(fā)生了一起重大事故!
據(jù)外媒報道,歐洲電信運(yùn)營商“巨頭”沃達(dá)豐集團(tuán)表示,其在德國的移動通信網(wǎng)絡(luò)于當(dāng)?shù)貢r間11月23日下午13:50突然出現(xiàn)大面積故障,造成柏林、漢堡、慕尼黑、科隆、法蘭克福和其他城市共計超過10萬手機(jī)用戶無法建立語音連接和數(shù)據(jù)連接(2G、3G、4G的數(shù)據(jù)和語音服務(wù)都受到宕機(jī)影響),直到17:00才恢復(fù)正常。
根據(jù)沃達(dá)豐集團(tuán)最新一期財報,沃達(dá)豐德國子公司約有3000萬移動通信用戶。此次故障中,有多達(dá)超過10萬用戶無法打電話和移動上網(wǎng),所謂“眾口能鑠金”,超過20萬個睜到最大的憤怒圓眼和超過10萬個張到不能再大的嘴巴,以“壞事傳千里”之功力,使得該公司的品牌形象嚴(yán)重受損,一代巨頭瞬間遭受幾乎“香消玉殞”。
在這個移動通信就像是水和電甚至像是空氣一樣的時代,更令上述超過10萬的受影響用戶極其抓狂的是,從13:50到17:00一共長達(dá)190分鐘(11400秒)的時間,業(yè)務(wù)才全部恢復(fù)。
此次嚴(yán)重故障是由什么因素導(dǎo)致的?沃達(dá)豐反饋,網(wǎng)絡(luò)問題是由部署于慕尼黑、法蘭克福、柏林三地的“failure of control equipment”造成的?!癴ailure of control equipment”就是“控制設(shè)備宕機(jī)”。從“控制設(shè)備”一詞,我們可以想到“控制面”,再進(jìn)一步考慮到外媒所報道的此次故障所波及的地域之廣大、所影響的用戶之眾多,可以判斷是核心網(wǎng)控制面出了嚴(yán)重故障。
核心網(wǎng),在2G、3G、4G網(wǎng)絡(luò)中所扮演的角色,就是“大腦”。一個動物要是大腦死亡了,整個身體就都死亡了;同樣類比地,網(wǎng)絡(luò)的“大腦”——核心網(wǎng)掛了,整個網(wǎng)絡(luò)就停擺了,所以造成了上述故障具有兩大鮮明特點:一是波及的地域廣大;二是整個故障存在的時間很長——按照電信業(yè)務(wù)可靠性計算公式以及“99.999%可靠性”這一基本要求,一年中的業(yè)務(wù)中斷的時間加起來不得超過315秒,而這次一次就斷了11400秒!
所以德國沃達(dá)豐這個事件,在5G新基建、5G+千行百業(yè)發(fā)展得如火如荼的當(dāng)下,亟需及時地引起業(yè)界的深刻反思——①是否普遍足夠重視5G核心網(wǎng)的可靠性?②萬一5G核心網(wǎng)一旦出現(xiàn)了重大故障,能否讓行業(yè)客戶的業(yè)務(wù)“零”中斷(比如5G+政務(wù)/制造/交通/金融/電力等要求7×24在線)?若不能,如何及時補(bǔ)救?
敲響了“5G+千行百業(yè)”的巨大警鐘
這一起嚴(yán)重的事故,使得全球其他所有移動通信網(wǎng)絡(luò)運(yùn)營商在為德國沃達(dá)豐感到同情和惋惜的同時,也被嚇出一身的冷汗,尤其是那些正在規(guī)模部署5G網(wǎng)絡(luò)的數(shù)百家運(yùn)營商更是深感“如履薄冰”:
一是由于核心網(wǎng)是移動通信網(wǎng)絡(luò)與IT深度融合的第一站,軟硬件解耦且軟件運(yùn)行于由通用硬件構(gòu)成資源池的虛擬化核心網(wǎng),其可靠性在德國沃達(dá)豐此次發(fā)生的重大事故中表現(xiàn)得甚為脆弱,說明除了硬件,軟件能力更顯重要。德國沃達(dá)豐和其他運(yùn)營商雖然目前比較重視面向ToC領(lǐng)域的5G網(wǎng)絡(luò)的可靠性,但是截至目前在相關(guān)方面的投資趨于謹(jǐn)慎(尤其是在對軟件可靠性的投資方面),一旦某一天萬一發(fā)生上述德國沃達(dá)豐之類的重大事故,這幾年下大力在大眾消費者心中建立起來的5G高端品牌形象很可能頃刻崩塌,極不利于后續(xù)5G ToC發(fā)展。所以,這個事件說明對于5G核心網(wǎng)可靠性的投資絕對不只是單純的硬件投資,而應(yīng)該持續(xù)投資于對軟件可靠能力的增強(qiáng)。
二是更進(jìn)一步地,在5G時代,移動通信網(wǎng)絡(luò)所承載的將更多(公認(rèn)是80%)是面向政企客戶的ToB類業(yè)務(wù),對于ToB領(lǐng)域而言,“保障5G網(wǎng)絡(luò)可靠”是最基本的要求,是5G進(jìn)入千行百業(yè)必須跨越的“門檻”,是“5G+千行百業(yè)”最為關(guān)鍵的前提,一旦5G核心網(wǎng)出現(xiàn)嚴(yán)重故障,帶來的各方面損失都將是上述德國沃達(dá)豐事件的N倍(N→+∞)——5G(含B5G)將來會被用在電力、金融、政務(wù)、工業(yè)4.0(比如智能制造)、(網(wǎng)路輔助的)自動駕駛、遠(yuǎn)程醫(yī)療等關(guān)鍵領(lǐng)域,一旦5G核心網(wǎng)停擺,這些政企業(yè)務(wù)就會瞬間中斷,由此造成的后果將難以想象,會給社會經(jīng)濟(jì)甚至國家安全帶來重大損失。
截至目前,業(yè)界對于5G網(wǎng)絡(luò)的“安全性”以及“安全防護(hù)能力提升”的公開討論有很多,但幾乎沒有對于5G網(wǎng)絡(luò)(尤其是面向ToB領(lǐng)域的5G核心網(wǎng))“可靠性”的公開討論,說明對于5G核心網(wǎng)的可靠性尚未引起普遍化的重視。所以,德國沃達(dá)豐事件對于5G時代所敲響的巨大警鐘就是:對于事關(guān)商業(yè)、經(jīng)濟(jì)、社會和國家安全的5G新型基礎(chǔ)設(shè)施的建設(shè)運(yùn)營,除了要重視做好網(wǎng)絡(luò)安全防護(hù)外,更需加強(qiáng)對于運(yùn)行可靠性的深刻認(rèn)識,全力避免因可靠性問題影響運(yùn)行效率和安全性。所以由此可以說,安全性是建立在可靠性的基礎(chǔ)之上的,不可靠才是最大的不安全!
構(gòu)筑起5G核心網(wǎng)磐石泰山般可靠性
堅者如磐石,穩(wěn)者如泰山。在上述的5G新型基礎(chǔ)設(shè)施可靠性中,5G核心網(wǎng)的可靠性顯得最為重要,因為它就是整個5G網(wǎng)絡(luò)的“大腦”所在——5G網(wǎng)絡(luò)最為核心且對5G確定性能力負(fù)責(zé)的正是5G核心網(wǎng),在5G網(wǎng)絡(luò)端到端的質(zhì)量保障當(dāng)中,5G核心網(wǎng)承擔(dān)了對于全局資源的集中控制、調(diào)度和管理,負(fù)責(zé)管理全局的網(wǎng)絡(luò)拓?fù)?、所有的接?a target="_blank">信息、所有的用戶數(shù)據(jù)以及所有的行業(yè)業(yè)務(wù)需求;所以一旦5G核心網(wǎng)(其控制面集中部署于大區(qū)及省級數(shù)據(jù)中心)出現(xiàn)故障,受到影響的范圍將會極大。
“如何保障5G核心網(wǎng)的絕對可靠”是一個巨大的系統(tǒng)工程問題,但是仍然遵循“可靠性”相關(guān)的基本理論。
可靠性(%)=-t÷(e的MTBF次方)。其中,t為觀測的時間間隔,MTBF為平均故障間隔時間。可見,可靠性僅與MTBF有關(guān),電信級可靠性要達(dá)到99.999%,意味著一年的業(yè)務(wù)中斷時間不超過315 s,落實到系統(tǒng)上即“可用度”。
可用度(%)=MTBF÷(MTBF+MTTR)。其中MTTR為平均故障修復(fù)時間??梢?,提高(5G核心網(wǎng))可用度,就要:①增加MTBF,即提高系統(tǒng)的容錯能力,保障長時間穩(wěn)定運(yùn)行;②減小MTTR,即在一旦突然出現(xiàn)故障之后,能夠快速發(fā)現(xiàn)故障并且瞬間(秒級)排除故障。
綜上,要保障5G核心網(wǎng)的絕對可靠,就要做到:盡量穩(wěn)定運(yùn)行、不出故障,而一旦發(fā)生故障能夠瞬間精準(zhǔn)定位故障并秒級排除故障。
很顯然,這其中,最關(guān)鍵的就在于“能否秒級排除故障”。因為不怕一萬、就怕萬一。萬一5G核心網(wǎng)出現(xiàn)重大故障,能否做到讓用戶/客戶“零”感知?
目前,面向5G核心網(wǎng)可靠性,業(yè)界在網(wǎng)元級容災(zāi)(提升VNF可靠性)、單個數(shù)據(jù)中心(DC)內(nèi)容災(zāi)(比如硬件/資源池/多可用區(qū)/等IT級容災(zāi)以及機(jī)房/機(jī)樓等非IT級容災(zāi))、跨DC容災(zāi)方面均有解決方案。目前看來尚存在兩大較顯著的問題——軟件能力不夠高、跨DC容災(zāi)不夠強(qiáng)。
(1)亟需更強(qiáng)軟件能力
傳統(tǒng)核心網(wǎng)設(shè)備采用先進(jìn)電信計算平臺ATCA硬件,通過硬件傳感器檢測及內(nèi)部的軟硬件耦合通知機(jī)制來保證故障檢測的實時性和準(zhǔn)確性(毫秒級)。在引入NFV對核心網(wǎng)進(jìn)行軟硬件解耦改造后,VNF的可靠性應(yīng)不低于現(xiàn)有傳統(tǒng)物理模塊(功能)的可靠性。采用通用服務(wù)器后,應(yīng)用層(軟件)的可靠性不再依賴于底層構(gòu)筑,VNF只能靠軟件手段去檢測是否出現(xiàn)故障,NFV云化網(wǎng)元通過軟件機(jī)制實現(xiàn)故障檢測為秒級,遠(yuǎn)低于傳統(tǒng)核心網(wǎng)的毫秒級,所以從更好地保證整體網(wǎng)絡(luò)的可靠性的角度,5G核心網(wǎng)亟需更加強(qiáng)大的軟件能力,比如向無狀態(tài)化、更強(qiáng)數(shù)據(jù)庫、微服務(wù)、更魯棒的VNF組網(wǎng)及部署架構(gòu)等方向發(fā)展以便于彈性擴(kuò)縮容并提升電信級服務(wù)可靠性與可用性。
(2)亟需解決跨DC容災(zāi)3大關(guān)鍵薄弱問題
“跨DC容災(zāi)”一直是業(yè)界一大難題。主要表現(xiàn)在以下幾個方面。
● 跨DC的數(shù)據(jù)備份
要實現(xiàn)跨DC容災(zāi),必須要實時進(jìn)行用戶上下文數(shù)據(jù)備份(比如存儲用戶簽約數(shù)據(jù)、注冊信息的UDM等主要數(shù)據(jù)庫)。顯然,這要求進(jìn)行實時備份而且備份的數(shù)據(jù)越多越好以利于業(yè)務(wù)快速恢復(fù)。用戶上下文數(shù)據(jù)變化快,使得備份難度大。業(yè)界目前采取的備份方式下,備份時間長(從而不利于一旦出現(xiàn)故障時備份到更多數(shù)據(jù)即不能保證數(shù)據(jù)備份的時效性與完整性)、數(shù)據(jù)量大(未經(jīng)壓縮)、對DC間鏈路的帶寬要求很高(因為數(shù)據(jù)量大)。從而,現(xiàn)在亟需打造并部署能夠?qū)Υ齻浞輸?shù)據(jù)進(jìn)行壓縮的解決方案,以在大幅降低DC間鏈路傳輸備份數(shù)據(jù)的帶寬需求的同時,保證數(shù)據(jù)備份的時效性與完整性以保障業(yè)務(wù)恢復(fù)的“零”影響。
一旦5G核心網(wǎng)出現(xiàn)故障,就要瞬間運(yùn)用備份到的數(shù)據(jù)去恢復(fù),千萬級甚至億級用戶的電信業(yè)務(wù)恢復(fù),帶來極大考驗。主要體現(xiàn)在以下兩方面。
● 找到備份數(shù)據(jù)
運(yùn)用跨DC備份的數(shù)據(jù)去恢復(fù)用戶的電信業(yè)務(wù),第一步就是要找到用戶的備份數(shù)據(jù)。所以可見,“能否快速找到”是關(guān)鍵之中的關(guān)鍵。
下圖為5G核心網(wǎng)服務(wù)化架構(gòu),筆者在其中用紅色框標(biāo)準(zhǔn)了5G核心網(wǎng)控制面兩個極為重要的網(wǎng)元——控制層的AMF、數(shù)據(jù)層的UDM。
從上圖,我們一眼就可以看出AMF的不可或缺性——是用戶接入5G核心網(wǎng)的首個網(wǎng)元,是分組接入的一級關(guān)口,是提供5G網(wǎng)絡(luò)服務(wù)的前提,在用戶體驗的保證上起著關(guān)鍵作用。從AMF的名稱“接入和移動管理功能”更是能感受到其極端重要。
UDM則是5G SA網(wǎng)絡(luò)用戶的統(tǒng)一數(shù)據(jù)管理平臺,主要用于存儲用戶的簽約數(shù)據(jù)、注冊信息,給AMF下發(fā)簽約數(shù)據(jù),存儲用戶當(dāng)前服務(wù)的AMF地址等,提供用戶簽約數(shù)據(jù)訪問、位置登記等功能。UDM一旦發(fā)生重大事故時,會導(dǎo)致大范圍的業(yè)務(wù)中斷,影響巨大。
在5G核心網(wǎng)出現(xiàn)故障后,當(dāng)用跨DC備份的用戶上下文數(shù)據(jù)去恢復(fù)用戶的電信業(yè)務(wù)時,千萬級乃至億級數(shù)量的用戶(將來“萬物互聯(lián)”后還可能是幾十億級的設(shè)備)同時接入AMF和UDM,勢必有瞬間產(chǎn)生信令風(fēng)暴的可能——如果在故障發(fā)生前備份了所有用戶的上下文數(shù)據(jù),則用戶新接入時不用去UDM取簽約數(shù)據(jù),業(yè)務(wù)恢復(fù)時,信令就主要沖擊在AMF上;否則,在業(yè)務(wù)恢復(fù)時,信令將沖擊到UDM網(wǎng)元——由于UDM主要能力在于數(shù)據(jù)存儲,而信令能力弱,從而很容易引發(fā)過載。
一旦由此出現(xiàn)信令風(fēng)暴,將會導(dǎo)致網(wǎng)絡(luò)癱瘓,從而引發(fā)更多問題,何談“業(yè)務(wù)恢復(fù)”?電信業(yè)務(wù)有狀態(tài)的特點,不同于IT業(yè)務(wù)的數(shù)據(jù)備份,還需要更新上下文相關(guān)的隧道、通道、鏈路層的多層網(wǎng)絡(luò)信息,需要超越標(biāo)準(zhǔn)流程,更新周邊網(wǎng)絡(luò)的信令鏈路、路由通道等。目前,業(yè)界采用的是通用數(shù)據(jù)庫,以海量廣播報文尋找用戶備份數(shù)據(jù),會產(chǎn)生信令風(fēng)暴。從而,現(xiàn)在亟需打造并部署能夠避免路由廣播、不會產(chǎn)生信令風(fēng)暴的可實現(xiàn)“一步到位找到用戶備份數(shù)據(jù)”的解決方案。
● 恢復(fù)數(shù)據(jù)狀態(tài)
找到了用戶的備份數(shù)據(jù),接下來就是恢復(fù)數(shù)據(jù)狀態(tài)從而恢復(fù)用戶的電信業(yè)務(wù)。在這一個非常重要的環(huán)節(jié)中,更是不能出現(xiàn)故障,否則前面的環(huán)節(jié)全都會白做,功虧一簣。目前,業(yè)界的解決方案是從單VNF恢復(fù)數(shù)據(jù),會出現(xiàn)CPU單點過載,容易出現(xiàn)二次故障。從而,現(xiàn)在亟需打造并部署能夠從多個VNF恢復(fù)數(shù)據(jù)的方案——于其中,通過多個VNF的均衡處理來大幅降低單VNF壓力。
深謀遠(yuǎn)慮未雨綢繆力保未來網(wǎng)絡(luò)可靠
在5G時代,2G和3G將逐步減頻退網(wǎng),最終很快形成4G、5G長期共存的格局,共同服務(wù)于“萬物智聯(lián)”(比如基于4G LTE的NB-IoT),所以現(xiàn)在宜未雨綢繆,布局網(wǎng)絡(luò)結(jié)構(gòu)簡化、網(wǎng)絡(luò)資源可靈活動態(tài)共享、軟件平滑演進(jìn)的融合型核心網(wǎng),并布局4G網(wǎng)絡(luò)高可靠容災(zāi)與恢復(fù)方案,同時高度重視軟件能力加固,增加預(yù)算大力持續(xù)投資核心網(wǎng)軟件可靠能力,全力保障未來網(wǎng)絡(luò)的高可靠。
責(zé)任編輯:xj
原文標(biāo)題:反思!通信業(yè)重大事故
文章出處:【微信公眾號:5G】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
通信
+關(guān)注
關(guān)注
18文章
5931瀏覽量
135722 -
沃達(dá)豐
+關(guān)注
關(guān)注
0文章
183瀏覽量
18410 -
5G
+關(guān)注
關(guān)注
1352文章
48268瀏覽量
562623
原文標(biāo)題:反思!通信業(yè)重大事故
文章出處:【微信號:angmobile,微信公眾號:5G】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論