隨著業(yè)務(wù)轉(zhuǎn)型發(fā)展帶來(lái)的信息化系統(tǒng)建設(shè),云應(yīng)用程序正在快速發(fā)展。單體應(yīng)用程序正在讓位于分布式服務(wù),推動(dòng)了數(shù)據(jù)中心基礎(chǔ)設(shè)施網(wǎng)絡(luò)流量的增加,流量的持續(xù)增長(zhǎng)也推動(dòng)著數(shù)據(jù)中心網(wǎng)絡(luò)往更快、更大帶寬和更低延遲的高速網(wǎng)絡(luò)方向發(fā)展。
Spine+Leaf網(wǎng)絡(luò)架構(gòu)
直到幾年前,大多數(shù)的數(shù)據(jù)中心網(wǎng)絡(luò)還都是基于傳統(tǒng)的三層架構(gòu),對(duì)于大多數(shù)具有像園區(qū)網(wǎng)絡(luò)這樣的縱向(North-South)配置的流量模型來(lái)說(shuō)是很實(shí)用的,而且三層網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用廣泛而且技術(shù)成熟穩(wěn)定。一個(gè)標(biāo)準(zhǔn)的傳統(tǒng)三層的網(wǎng)絡(luò)結(jié)構(gòu)如圖1-1所示:
圖1-1 傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu)
但隨著云計(jì)算的發(fā)展,橫向(East-West)流量在數(shù)據(jù)中心占據(jù)主導(dǎo)地位,涵蓋幾乎所有的云計(jì)算,虛擬化以及大數(shù)據(jù)橫向網(wǎng)絡(luò)在縱向設(shè)計(jì)的網(wǎng)絡(luò)拓?fù)渲袀鬏敂?shù)據(jù)會(huì)帶有傳輸?shù)钠款i,因?yàn)閿?shù)據(jù)經(jīng)過(guò)了許多不必要的節(jié)點(diǎn)(如路由和交換機(jī)等設(shè)備)。主機(jī)互訪需要通過(guò)層層的上行口,帶來(lái)明顯的性能衰減,而三層網(wǎng)絡(luò)的原始設(shè)計(jì)更會(huì)加劇這種性能衰減。
由此,就有了IP Fabric概念,IP Fabric指的是在IP網(wǎng)絡(luò)基礎(chǔ)上建立起來(lái)的Overlay/隧道技術(shù)。如圖1-2所示為基于胖樹(shù)的Spine+Leaf拓?fù)浣Y(jié)構(gòu)的IP Fabric組網(wǎng)圖。
圖1-2 IP Fabric網(wǎng)絡(luò)的兩層架構(gòu)
在這種組網(wǎng)方式中,任何兩臺(tái)服務(wù)器間的通信不超過(guò)3臺(tái)設(shè)備,每個(gè)Spine和Leaf節(jié)點(diǎn)全互連,可以方便地通過(guò)擴(kuò)展Spine節(jié)點(diǎn)來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)規(guī)模的彈性擴(kuò)展。只要遍歷一定數(shù)量的交換機(jī),可以在幾乎所有數(shù)據(jù)中心結(jié)構(gòu)體系結(jié)構(gòu)中的服務(wù)器節(jié)點(diǎn)之間傳輸流量。該架構(gòu)由多條高帶寬的直接路徑組成,消除了網(wǎng)絡(luò)瓶頸帶來(lái)的潛在傳輸速度下降,從而實(shí)現(xiàn)極高的效率和低延遲。
圖1-3 Spine-leaf架構(gòu)
用盒式機(jī)代替?zhèn)鹘y(tǒng)框式機(jī)
在設(shè)計(jì)和建設(shè)一個(gè)數(shù)據(jù)中心的網(wǎng)絡(luò)時(shí),我們需要充分考慮到至少未來(lái)5年的技術(shù)、行業(yè)需求發(fā)展和運(yùn)營(yíng)成本開(kāi)支,從而更優(yōu)化地使用現(xiàn)有的數(shù)據(jù)中心資源服務(wù)于企業(yè)核心業(yè)務(wù)。
在網(wǎng)絡(luò)交換機(jī)選型是整個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì)的關(guān)鍵因素之一。傳統(tǒng)的大型網(wǎng)絡(luò)設(shè)計(jì)選擇框式設(shè)備,以提高整個(gè)網(wǎng)絡(luò)系統(tǒng)的容量上限,并提供的有限的可擴(kuò)展性,但是相應(yīng)的,存在如下的限制和風(fēng)險(xiǎn):
框式設(shè)備總體容量有限,已經(jīng)不能滿(mǎn)足數(shù)據(jù)中心不斷增長(zhǎng)的網(wǎng)絡(luò)規(guī)模需求。
核心框式設(shè)備采用雙連接方式部署,故障半徑高達(dá)50%,無(wú)法有效保障業(yè)務(wù)安全。
框式設(shè)備部署實(shí)施復(fù)雜,故障診斷和排除周期長(zhǎng),升級(jí)維護(hù)的業(yè)務(wù)中斷時(shí)間長(zhǎng)。
為保障后期業(yè)務(wù)擴(kuò)容,框式設(shè)備預(yù)留插槽,使得前期的投資成本提升。
所以在網(wǎng)絡(luò)設(shè)備選型方面,我們建議用整網(wǎng)盒式交換機(jī)組網(wǎng),不同層級(jí)的交換機(jī)型號(hào)統(tǒng)一,便于維護(hù)團(tuán)隊(duì)快速熟悉,同時(shí)后期的網(wǎng)絡(luò)架構(gòu)調(diào)整,設(shè)備復(fù)用和維修替換提供可操作的空間。
建設(shè)初期的網(wǎng)絡(luò)投資(擁有成本TCO)也大大縮小的同時(shí),Spine-Leaf(CLOS)架構(gòu)配合盒式交換機(jī)組網(wǎng),提供了可橫向擴(kuò)展的能力。即便spine交換機(jī)故障離線,也僅僅影響小部分網(wǎng)絡(luò)帶寬,業(yè)務(wù)完全無(wú)感知。后續(xù)擴(kuò)展方面,僅需要根據(jù)數(shù)據(jù)中心的規(guī)模需求,添加交換機(jī)數(shù)量和層級(jí),相應(yīng)的擴(kuò)展網(wǎng)絡(luò)的接入容量和骨干網(wǎng)絡(luò)交換容量。整個(gè)網(wǎng)絡(luò)按需采購(gòu)和部署,一切服務(wù)與應(yīng)用和業(yè)務(wù)需求。
Overlay網(wǎng)絡(luò)
Overlay網(wǎng)絡(luò)是建立在已有物理網(wǎng)絡(luò)上的虛擬網(wǎng)絡(luò),具有獨(dú)立的控制和轉(zhuǎn)發(fā)平面,對(duì)于連接到Overlay的終端設(shè)備(例如服務(wù)器)來(lái)說(shuō),物理網(wǎng)絡(luò)是透明的,從而可以實(shí)現(xiàn)承載網(wǎng)絡(luò)和業(yè)務(wù)網(wǎng)絡(luò)的分離,如圖1-4所示:
圖 1-4 Overlay/Underlay網(wǎng)絡(luò)概念圖
Overlay網(wǎng)絡(luò)有著各種網(wǎng)絡(luò)協(xié)議和標(biāo)準(zhǔn),包括VXLAN、NVGRE、SST、GRE、NVO3、EVPN等。
VXLAN
VXLAN(Virtual eXtensible LAN,可擴(kuò)展虛擬局域網(wǎng)絡(luò))是基于IP網(wǎng)絡(luò)、采用“MAC in UDP”封裝形式的二層VPN技術(shù)。VXLAN可以基于已有的服務(wù)提供商或企業(yè)IP網(wǎng)絡(luò),為分散的物理站點(diǎn)提供二層互聯(lián),并能夠?yàn)椴煌淖鈶?hù)提供業(yè)務(wù)隔離。VXLAN 主要應(yīng)用于數(shù)據(jù)中心網(wǎng)絡(luò)和園區(qū)接入網(wǎng)絡(luò)。
圖 1-5 VXLAN模型
初始的IET FVXLAN 標(biāo)準(zhǔn) (RFC 7348) 定義了一個(gè)基于組播、不采用控制平面的“泛洪和學(xué)習(xí)”的VXLAN。它對(duì)遠(yuǎn)程 VXLAN 的VTEP(虛擬隧道末端點(diǎn))發(fā)現(xiàn)和遠(yuǎn)程終端主機(jī)MAC學(xué)習(xí)依靠數(shù)據(jù)驅(qū)動(dòng)式泛洪進(jìn)行。重疊廣播、未知單播和組播流量封裝到組播VXLAN數(shù)據(jù)包并通過(guò)底層組播轉(zhuǎn)發(fā)傳輸?shù)竭h(yuǎn)程VTEP交換機(jī)。此類(lèi)部署中的泛洪可能給解決方案的可擴(kuò)展性帶來(lái)挑戰(zhàn)。在底層網(wǎng)絡(luò)中啟用組播功能的要求也會(huì)帶來(lái)挑戰(zhàn),因?yàn)槟承┙M織不希望在其數(shù)據(jù)中心或廣域網(wǎng)網(wǎng)絡(luò)中啟用組播。
圖 1-6 flood-learn
如圖1-6,假設(shè)最左側(cè)虛機(jī)已經(jīng)知道目的MAC了(VTEP中的L2 Table已經(jīng)老化,虛機(jī)中的ARP cache還沒(méi)老化)。當(dāng)最左側(cè)虛機(jī)想ping最右側(cè)虛機(jī),ping包送到VTEP,因?yàn)樵赩TEP中找不到對(duì)應(yīng)的Remote VTEP,VTEP會(huì)做如下操作:
(1)原始的Ethernet Frame被封裝成VXLAN格式,VXLAN包的外層目的IP地址為組播地址。
(2)VXLAN數(shù)據(jù)包被發(fā)送給組播內(nèi)所有其他VTEP。
VXLAN-EVPN部署彈性網(wǎng)絡(luò)
VXLAN由RFC7348定義,其中只定義了數(shù)據(jù)層的行為,并沒(méi)有指定VXLAN控制層。在VXLAN技術(shù)早期,通過(guò)數(shù)據(jù)層的來(lái)獲取轉(zhuǎn)發(fā)信息,在實(shí)現(xiàn)上較為簡(jiǎn)單,相應(yīng)的技術(shù)門(mén)檻較低,有利于廠商實(shí)現(xiàn)VXLAN。但是隨著網(wǎng)絡(luò)規(guī)模的發(fā)展,完全依賴(lài)數(shù)據(jù)層做控制會(huì)造成網(wǎng)絡(luò)中廣播組播風(fēng)暴,因此VXLAN也需要有一個(gè)控制層。
VXLAN 重疊網(wǎng)絡(luò)在“泛洪和學(xué)習(xí)”模式下運(yùn)行,在此模式下,終端主機(jī)信息學(xué)習(xí)和 VTEP 發(fā)現(xiàn)均由數(shù)據(jù)平面驅(qū)動(dòng),在VTEP之間沒(méi)有控制協(xié)議分發(fā)終端主機(jī)可達(dá)性信息,要克服此局限,可以將多協(xié)議邊界網(wǎng)關(guān)協(xié)議以太網(wǎng)虛擬專(zhuān)用網(wǎng)絡(luò) (MP-BGP EVPN) 用作VXLAN控制平面。
有了控制層數(shù)據(jù),數(shù)據(jù)層就簡(jiǎn)單多了。Server A想訪問(wèn)Server B,通過(guò)查找本地VTEP L2 Table找到VTEP2,再封裝成VXLAN數(shù)據(jù)發(fā)送到VTEP2,VTEP2將VXLAN解封裝,轉(zhuǎn)發(fā)給本地的Server B。所以可以看出,從數(shù)據(jù)層面角度來(lái)看,有沒(méi)有EVPN效果都是一樣的。EVPN只負(fù)責(zé)VXLAN的控制層面,也就是MAC轉(zhuǎn)發(fā)信息的傳輸,對(duì)VXLAN數(shù)據(jù)層面沒(méi)有影響。
圖 1-7 EVPN作為控制平面
VXLAN作為新型的網(wǎng)絡(luò)隔離技術(shù),在RFC 7348定義中有24比特,支持多達(dá)16M(約1600萬(wàn))租戶(hù)隔離,有效地解決了云計(jì)算中海量租戶(hù)隔離的問(wèn)題。在VTEP本地進(jìn)行VLAN 隔離和跨越設(shè)備的VNI隔離(VLAN到VNI的映射),組成結(jié)合物理網(wǎng)絡(luò)隔離和虛擬網(wǎng)絡(luò)的Overlay網(wǎng)絡(luò)。
采用EVPN作為VXLAN的控制平面具有以下優(yōu)勢(shì):
可實(shí)現(xiàn)VTEP自動(dòng)發(fā)現(xiàn)、VXLAN隧道自動(dòng)建立,從而降低網(wǎng)絡(luò)部署、擴(kuò)展的難度。
EVPN可以同時(shí)發(fā)布二層MAC信息和三層路由信息。
可以減少網(wǎng)絡(luò)中的泛洪流量。
我們的方案
在HPC、AI、5G、云計(jì)算場(chǎng)景中的,數(shù)據(jù)中心網(wǎng)絡(luò)需要滿(mǎn)足帶寬、時(shí)延、穩(wěn)定性的高要求,同時(shí)支持網(wǎng)絡(luò)虛擬化。納多德NADDOD與NVIDIA推出支持25/100/200GbE到服務(wù)器、高密度100/200/400GbENvidiaOpen Ethernet Spectrum交換機(jī)和無(wú)控制器網(wǎng)絡(luò)虛擬化的開(kāi)放平臺(tái)??刹渴鹪诘?層和第3層云設(shè)計(jì)中、基于覆蓋的虛擬化網(wǎng)絡(luò)中,或作為高性能、關(guān)鍵任務(wù)以太網(wǎng)存儲(chǔ)結(jié)構(gòu)的一部分??煽绺鞣N應(yīng)用領(lǐng)域(例如云計(jì)算、數(shù)據(jù)存儲(chǔ)、人工智能等)提供行業(yè)領(lǐng)先的性能、可擴(kuò)展性、可靠性和價(jià)值。由此,我們推出了如下兩種方案:
針對(duì)25G接入100G骨干場(chǎng)景:
NVIDIA SN3700C+ SN3420組合方案:
SN3700C是高密度 32x100GbE SPINE Switch
SN3420 是具有原生 25GbE 端口的LEAF Switch,支持 48x25GbE 和 8x100GbE 端口
也可也選擇NVIDIA SN2700(32x100GbE)+ SN2410( 48x25GbE 和 8x100GbE)組合方案,時(shí)延可低至300ns,滿(mǎn)足更低時(shí)延需求。
針對(duì)100G接入400G骨干場(chǎng)景:
NVIDIA SN4700+ SN4410組合方案:
SN4700是高密度 32x400GbE SPINE Switch
SN4410 支持48x100GbE 和 8x400GbE 端口,QSFP28-DD接口可一分二QSFP28,提供100G的接入能力,用于連接主機(jī)100G接口,或者下一級(jí)100G上聯(lián)口。
我們的優(yōu)勢(shì)
高性能100/200/400 GbE數(shù)據(jù)平面
網(wǎng)絡(luò)是數(shù)據(jù)中心服務(wù)器流量的自然匯聚點(diǎn)。不同租戶(hù)流量之間的網(wǎng)絡(luò)性能和“公平性”至關(guān)重要。
NVIDIA Spectrum交換機(jī)具有完全共享的整體式數(shù)據(jù)包緩存架構(gòu),可實(shí)現(xiàn)公平帶寬共享。支持所有數(shù)據(jù)包大小的 100/200/400 GbE 流量的無(wú)阻塞線速L3服務(wù),且SN2000系列在直通模式下支持 300ns 的零抖動(dòng)延遲支持。是高性能低延遲需求的理想選擇。
RoCE over EVPN-VXLAN
數(shù)據(jù)中心網(wǎng)絡(luò)部署方案和產(chǎn)品越來(lái)越成熟和標(biāo)準(zhǔn)化,有效的提升了業(yè)務(wù)部署的速度,并降低運(yùn)維的成本。于此同時(shí),業(yè)務(wù)需求推動(dòng)數(shù)據(jù)中心應(yīng)用也對(duì)基礎(chǔ)設(shè)施提出更高的需求,包含算力,存儲(chǔ)和網(wǎng)絡(luò)資源。為了能匹配上層需求,算力/存儲(chǔ)/網(wǎng)絡(luò)資源的橫向擴(kuò)展,就網(wǎng)絡(luò)設(shè)計(jì)而言,網(wǎng)絡(luò)虛擬化需要在提升規(guī)模的同時(shí),對(duì)于高性能的業(yè)務(wù)提供支持。網(wǎng)絡(luò)虛擬化與RoCE的結(jié)合,使得大型高性能數(shù)據(jù)中心的方案更加完整。
WJH功能快速故障定位,提升運(yùn)維效率
實(shí)時(shí)的網(wǎng)絡(luò)故障可視化監(jiān)控,是運(yùn)維大規(guī)模網(wǎng)絡(luò)比不可少的技術(shù)手段。現(xiàn)代數(shù)據(jù)中心的技術(shù)要求也證明了,簡(jiǎn)化組網(wǎng)協(xié)議,深度實(shí)時(shí)的網(wǎng)絡(luò)可視化能力,是整體技術(shù)發(fā)展的趨勢(shì)。NVIDIA Spectrum 交換機(jī)通過(guò) NVIDIA What Just Happened(故障快照)支持詳細(xì)的上下文遙測(cè)數(shù)據(jù)。故障快照可在問(wèn)題發(fā)生后,以異常事件的形式上送給網(wǎng)管或者第三方監(jiān)控平臺(tái),并提供報(bào)文抓取和芯片級(jí)的問(wèn)題原因。無(wú)論是否為配置問(wèn)題,運(yùn)維人員可以直接看到故障影響的業(yè)務(wù)和原因,進(jìn)而快速的采取措施,排除異常,從而大大縮短了解決問(wèn)題的平均時(shí)間。
總結(jié)和展望
根據(jù)企業(yè)數(shù)據(jù)中心的發(fā)展趨勢(shì)和技術(shù)預(yù)測(cè),數(shù)據(jù)中心將逐步分布式化,多數(shù)據(jù)中心也正逐漸成為數(shù)據(jù)中心發(fā)展的趨勢(shì),網(wǎng)絡(luò)技術(shù)作為數(shù)據(jù)中心基礎(chǔ)設(shè)施的重要一環(huán),也將持續(xù)打造超高速網(wǎng)絡(luò)連接,提升系統(tǒng)訪問(wèn)效率和用戶(hù)服務(wù)體驗(yàn)。
NVIDIA Spectrum 以太網(wǎng)交換機(jī)Cumulus Linux為業(yè)界帶來(lái)了第一個(gè)開(kāi)放且無(wú)控制器VXLAN 解決方案。它將高度可擴(kuò)展的 BGP EVPN與VXLAN 解決方案相結(jié)合,在許多大型數(shù)據(jù)中心通過(guò)Spine-Leaf架構(gòu)在整個(gè)網(wǎng)絡(luò)中提供出色的彈性和低延遲,根據(jù)需要輕松進(jìn)行水平擴(kuò)展,推動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)的高質(zhì)量發(fā)展。
審核編輯:湯梓紅
-
交換機(jī)
+關(guān)注
關(guān)注
20文章
2600瀏覽量
98883 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4577瀏覽量
71806
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論