根據(jù) IDC 的數(shù)據(jù),2022 年,AI 網(wǎng)絡(luò)市場已達(dá)到 20億美元,其中 InfiniBand 貢獻(xiàn)了 75% 的收入。2023 年AI 基礎(chǔ)設(shè)施建設(shè)投資將達(dá)到 1540億美元,到 2026 年將增長到 3000億美元。展望 2027 年,AI 網(wǎng)絡(luò)的收入將飆升至超過 100億美元,其中以太網(wǎng)將超過 60億美元。以太網(wǎng)和 InfiniBand 都將在此期間強(qiáng)勁增長。與此同時(shí),AI 工作負(fù)載的帶寬每年增長將超過 100%,遠(yuǎn)高于數(shù)據(jù)中心每年 30-40% 的帶寬增長。此外,AI 將成為未來十年以太網(wǎng)交換機(jī)市場最重要的增長動(dòng)力。
隨著AI 的持續(xù)火熱,其工作負(fù)載也呈指數(shù)級(jí)增長,網(wǎng)絡(luò)基礎(chǔ)設(shè)施正面臨極限。AI 基礎(chǔ)設(shè)施建設(shè)需要支持運(yùn)行在單個(gè)計(jì)算和存儲(chǔ)節(jié)點(diǎn)上的大型復(fù)雜工作負(fù)載,這些節(jié)點(diǎn)作為邏輯集群一起工作。AI 網(wǎng)絡(luò)通過大容量互聯(lián)結(jié)構(gòu)連接這些大型工作負(fù)載。
01
AI 工作負(fù)載
AI 工作負(fù)載與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)有著根本的不同,雖然超大規(guī)模數(shù)據(jù)中心和 AI /HPC集群之間有很多相似之處,但超大規(guī)模數(shù)據(jù)中心使用的解決方案不足以解決AI /HPC工作負(fù)載帶來的額外復(fù)雜性。AI網(wǎng)絡(luò)有著以下特征:
并行計(jì)算:AI 工作負(fù)載是運(yùn)行相同應(yīng)用程序、相同計(jì)算任務(wù)的多臺(tái)機(jī)器之間統(tǒng)一的基礎(chǔ)設(shè)施;
規(guī)模:此類任務(wù)的規(guī)模可以達(dá)到數(shù)千個(gè)計(jì)算引擎(例如GPU、CPU、FPGA 等);
作業(yè)類型:不同的任務(wù)在大小、運(yùn)行時(shí)間、數(shù)據(jù)集大小和數(shù)量、生成答案的類型、用于編碼應(yīng)用程序的不同語言和運(yùn)行它的硬件類型等方面有所不同,都會(huì)導(dǎo)致為運(yùn)行AI 工作負(fù)載而構(gòu)建的網(wǎng)絡(luò)流量模式不斷變化;
延遲:延遲是影響作業(yè)完成時(shí)間(JCT)的重要因素之一。然而,由于此類并行工作負(fù)載在多臺(tái)機(jī)器上運(yùn)行,因此延遲取決于響應(yīng)最慢的機(jī)器;
無損:遲到的響應(yīng)會(huì)延遲整個(gè)應(yīng)用程序。在傳統(tǒng)數(shù)據(jù)中心中,消息丟失將導(dǎo)致重新傳輸,而在AI 工作負(fù)載中,消息丟失意味著整個(gè)計(jì)算要么錯(cuò)誤,要么卡住。正是由于這個(gè)原因,AI 網(wǎng)絡(luò)需要無損行為;
帶寬:AI 應(yīng)用的數(shù)據(jù)集很大。高帶寬流量需要在服務(wù)器之間運(yùn)行,以便應(yīng)用程序能夠獲取數(shù)據(jù)。在現(xiàn)代部署中,AI /HPC計(jì)算功能的每個(gè)計(jì)算引擎的接口速度都達(dá)到 400Gbps。
02
AI 集群網(wǎng)絡(luò)
AI 集群通常有兩個(gè)不同的網(wǎng)絡(luò)。第一種網(wǎng)絡(luò),也是比較傳統(tǒng)的,是所有服務(wù)器的外部或面向外部的“前端”網(wǎng)絡(luò),當(dāng)它們面向公共互聯(lián)網(wǎng)時(shí),需要基于以太網(wǎng)和IP協(xié)議。AI 的主要區(qū)別在于需要將大量數(shù)據(jù)輸入集群,因此管道比傳統(tǒng)的網(wǎng)絡(luò)服務(wù)器大得多。未來的 AI 設(shè)計(jì)將驅(qū)動(dòng)每臺(tái)服務(wù)器多個(gè) 112G SERDES 通道,表現(xiàn)為 100 G 或 400 G 端口。
第二種是“后端”網(wǎng)絡(luò),這是一個(gè)將AI 集群資源連接在一起的獨(dú)特網(wǎng)絡(luò)。對(duì)于AI 集群來說,跨計(jì)算資源連接到其共享存儲(chǔ)和內(nèi)存,并快速且沒有延遲偏差地執(zhí)行這些任務(wù),對(duì)于最大化集群性能至關(guān)重要。未來這種新網(wǎng)絡(luò)的AI 設(shè)計(jì)將是每個(gè)計(jì)算服務(wù)器有多個(gè) 400 G、800 G 或更高端口。
AI 工作負(fù)載嚴(yán)重依賴于后端網(wǎng)絡(luò)。由于一個(gè)工作負(fù)載在多臺(tái)服務(wù)器上運(yùn)行,因此需要高帶寬、無抖動(dòng)和無數(shù)據(jù)包丟失,以確保最高的 GPI 利用率。網(wǎng)絡(luò)性能的任何下降都會(huì)影響JCT。這就需要一個(gè)可預(yù)測的、無損的后端網(wǎng)絡(luò)解決方案,這對(duì)任何網(wǎng)絡(luò)技術(shù)來說都是一個(gè)重大挑戰(zhàn)。
隨著AI 工作負(fù)載的快速增長,AI 集群結(jié)構(gòu)中使用的網(wǎng)絡(luò)解決方案需要不斷發(fā)展,以最大限度地利用昂貴的AI 資源。
03
AI網(wǎng)絡(luò)行業(yè)解決方案
如何設(shè)計(jì)高效的AI 集群組網(wǎng)方案,滿足低時(shí)延、高吞吐的機(jī)間通信,從而降低多機(jī)多卡間數(shù)據(jù)同步的通信耗時(shí),提升 GPU 有效計(jì)算時(shí)間占比(GPU 計(jì)算時(shí)間/整體訓(xùn)練時(shí)間),對(duì)于 AI 網(wǎng)絡(luò)互聯(lián)至關(guān)重要。下文展示了部分AI高性能網(wǎng)絡(luò)行業(yè)解決方案。
騰訊星脈網(wǎng)絡(luò)
6月,騰訊云首次完整披露自研星脈高性能計(jì)算網(wǎng)絡(luò)。據(jù)稱,星脈網(wǎng)絡(luò)具備3.2T通信帶寬,能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡的超大計(jì)算規(guī)模。
在硬件方面,星脈網(wǎng)絡(luò)基于騰訊的網(wǎng)絡(luò)研發(fā)平臺(tái),采用全自研設(shè)備構(gòu)建互聯(lián)底座,實(shí)現(xiàn)自動(dòng)化部署和配置。在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,采用先進(jìn)的擁塞控制和管理技術(shù),能夠?qū)崟r(shí)監(jiān)測并調(diào)整網(wǎng)絡(luò)擁塞,滿足大量服務(wù)器節(jié)點(diǎn)之間的通信需求,確保數(shù)據(jù)交換流暢、延時(shí)低,使集群通信效率達(dá)90%以上。
華為星河AI網(wǎng)絡(luò)
華為新一代星河AI網(wǎng)絡(luò)解決方案,旨在提供一種高效、可靠、安全的數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,以支持大規(guī)模數(shù)據(jù)中心的數(shù)字化轉(zhuǎn)型。華為星河AI網(wǎng)絡(luò)解決方案整體技術(shù)棧,圍繞超高吞吐、長穩(wěn)可靠和彈性高并發(fā)等核心目標(biāo)來構(gòu)建關(guān)鍵技術(shù):
超高吞吐:基于華為獨(dú)創(chuàng)的全局負(fù)載均衡NSLB算法、自動(dòng)化開局和全??梢曔\(yùn)維技術(shù)實(shí)現(xiàn)算網(wǎng)實(shí)時(shí)協(xié)同調(diào)度,將網(wǎng)絡(luò)有效吞吐從業(yè)界的50%提升到98%,大模型訓(xùn)練效率提升20%。
長穩(wěn)可靠:利用全??梢曔\(yùn)維黑科技,實(shí)現(xiàn)大模型訓(xùn)練網(wǎng)絡(luò)路徑、流負(fù)載實(shí)時(shí)可視;結(jié)合Packet Event數(shù)據(jù)面異常感知技術(shù)和DPFR故障無感自愈技術(shù),實(shí)現(xiàn)亞毫秒級(jí)故障快速收斂。
彈性高并發(fā):基于華為獨(dú)創(chuàng)的多路徑智能調(diào)度、流感知均衡調(diào)優(yōu)和自適應(yīng)抗丟包技術(shù),實(shí)現(xiàn) “T級(jí)數(shù)據(jù)小時(shí)達(dá)”,轉(zhuǎn)發(fā)運(yùn)力提升8倍。
阿里可預(yù)期高性能網(wǎng)絡(luò)
阿里云基礎(chǔ)設(shè)施事業(yè)部推出的可預(yù)期網(wǎng)絡(luò)(Predictable Network)可滿足計(jì)算任務(wù)中的過程數(shù)據(jù)高效交換需求,是大規(guī)模RDMA網(wǎng)絡(luò)部署實(shí)踐中不斷總結(jié)并創(chuàng)新而來的網(wǎng)絡(luò)技術(shù)體系。相比于傳統(tǒng)網(wǎng)絡(luò)的“盡力而為”,可預(yù)期網(wǎng)絡(luò)的概念代表了應(yīng)用場景對(duì)網(wǎng)絡(luò)服務(wù)質(zhì)量更高的要求,讓吞吐率、時(shí)延等關(guān)鍵性能指標(biāo)“可預(yù)期”,具備質(zhì)量保證(QoS)。
阿里云高性能可預(yù)期數(shù)據(jù)中心網(wǎng)絡(luò)的核心技術(shù)包括:
自研High Performance Network(HPN)高性能網(wǎng)絡(luò)架構(gòu);
基于自研交換機(jī)和智能網(wǎng)卡的端網(wǎng)融合核心技術(shù)體系;
統(tǒng)一的高性能網(wǎng)絡(luò)服務(wù)平臺(tái),Network Unified Service Architecture (NUSA)。
阿里云可預(yù)期網(wǎng)絡(luò)技術(shù)體系在架構(gòu)設(shè)計(jì)、傳輸協(xié)議、通信庫、網(wǎng)絡(luò)資源調(diào)度、網(wǎng)絡(luò)容器、服務(wù)化等維度展開,正在通過智能計(jì)算靈駿,為人工智能、大數(shù)據(jù)分析、高性能計(jì)算等高密度計(jì)算場景提供服務(wù)。
百度AIPod高性能網(wǎng)絡(luò)
百度認(rèn)為 AI 高性能網(wǎng)絡(luò)有三大目標(biāo):超大規(guī)模、超高帶寬以及超長穩(wěn)定,基于這樣的目標(biāo),百度有針對(duì)性地設(shè)計(jì)了 AI 大底座里面的 AI 高性能網(wǎng)絡(luò)—— AIPod。
百度AI 高性能網(wǎng)絡(luò) AIPod有約 400 臺(tái)交換機(jī)、3000 張網(wǎng)卡、10000 根線纜和 20000 個(gè)光模塊。其中僅線纜的總長度就相當(dāng)于北京到青島的距離。AIPod 網(wǎng)絡(luò)采用 3 層無收斂的 CLOS 組網(wǎng)結(jié)構(gòu)。
AIPod 高性能網(wǎng)絡(luò)也是百度智能云 AI 大底座中百度百舸的底層關(guān)鍵技術(shù),決定了大模型訓(xùn)練的能力和效率。大規(guī)模、高帶寬、長穩(wěn)定的 AIPod 高性能網(wǎng)絡(luò)能夠幫助用戶更高效率、更低成本的訓(xùn)練自己的大模型。
除此之外,像三大運(yùn)營商、思科、英特爾、博通、谷歌、新華三、中興、銳捷、青云等公司都有針對(duì)AI的不同應(yīng)用場景推出不同的行業(yè)解決方案,感興趣的朋友可以閱讀《盤點(diǎn):AI 大模型背后不同玩家的網(wǎng)絡(luò)支撐》。
審核編輯:劉清
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5317瀏覽量
170462 -
gpu
+關(guān)注
關(guān)注
27文章
4631瀏覽量
128440 -
交換機(jī)
+關(guān)注
關(guān)注
20文章
2598瀏覽量
98866 -
HPC
+關(guān)注
關(guān)注
0文章
304瀏覽量
23607 -
SerDes
+關(guān)注
關(guān)注
6文章
196瀏覽量
34791
原文標(biāo)題:AI網(wǎng)絡(luò),未來十年以太網(wǎng)交換機(jī)市場的增長動(dòng)力
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論