電子發(fā)燒友網報道(文/周凱揚)近日Linux基金會再度牽手主要云服務廠商、半導體廠商以及系統(tǒng)方案供應商,成立了超以太網聯(lián)盟(UEC)。聯(lián)盟成員包括AMD、微軟、博通、思科、HPE以及Meta等廠商,幾乎可以說是HPC與AI領域的半壁江山了,而該聯(lián)盟的存在,很可能會為未來的以太網發(fā)展帶來新的契機。
AI與HPC廠商重新定義以太網下一代標準
那么為何以太網需要UEC這樣一個組織呢?這就不得不提到現(xiàn)在盛行的大規(guī)模AI計算了。隨著訓練AI模型對效率和成本的追求,無論是GPT、PALM這樣的大語言模型,還是DLRM這樣的推介系統(tǒng),都需要在成千上萬塊GPU上進行訓練,其中網絡的重要性愈發(fā)顯著。
UEC聯(lián)盟LOGO / UEC
傳統(tǒng)的以太網在這樣的負載上有諸多優(yōu)勢,比如通用、多供應商的生態(tài)系統(tǒng),包括以太網網關、NIC、線纜、光模塊、管理工具和軟件等等。其次,對于運營以太網而言,已經有了一套成熟的試驗、測量和部署流程,也可以擴展到機架級、機房級或數(shù)據(jù)中心級。
但UEC認為,未來面對AI和HPC的以太網絡還需要一些改進,比如逐包負載均衡、靈活的交付順序、更現(xiàn)代化的擁塞控制機制和端到端遙測等。UEC目前有四個工作組,分別為物理層、鏈路層、傳輸層和軟件層。
其中物理層工作組和鏈路層工作組負責開發(fā)提高以太網性能、延遲和管理的規(guī)范,傳輸層工作組開發(fā)專用于AI/HPC的大吞吐量、低延遲和高擴展性規(guī)范,軟件層工作組則負責開發(fā)不同AI/HPC應用的軟件、API或開源代碼。像博通之類的芯片模組廠商,也都會在未來推出符合UEC規(guī)范的以太網交換機、NIC等。
直接對標英偉達InfiniBand
從聯(lián)盟成員以及該技術的定位我們還能看出一些端倪,比如英偉達、谷歌和亞馬遜這樣的廠商并沒有加入。這是因為這三家更愿意發(fā)展自己的專有優(yōu)勢技術,而非加入聯(lián)盟去做通用標準。比如英偉達的Infiniband在HPC與AI領域已經站穩(wěn)了腳跟,而谷歌的TPUv4則引入了內部自研的光電交換技術OCS,亞馬遜則更傾向于使用自己的Nitro系統(tǒng)來為HPC與ML應用提供支持。
這些自研方案固然可以用于極大提升競爭力,但對于部分大規(guī)模云服務廠商來說,他們很討厭這種綁定單一供應商的做法,而且其協(xié)議也不是最通用的以太網,所以他們這才開始聯(lián)手對以太網進行AI與HPC時代下的改造,以求打破Infiniband可能存在的壟斷優(yōu)勢。
除了亞馬遜和谷歌這些選擇的云服務廠商以外,其他幾家廠商的最大競爭對手自然而然地變成了英偉達,他們在這之前或多或少也有參與過互聯(lián)方案的開發(fā)。比如HPE,他們的CraySlingshot也是HPC系統(tǒng)中常見的互聯(lián)技術之一,同時也是以太網技術的超集變體之一,當下TOP500的不少超級計算機中用的仍是這一系統(tǒng)。而HPE則表示,他們支持UEC的目的是保證CraySlingshot能夠在一個開放的生態(tài)系統(tǒng)中運行,同時符合UEC標準的NIC也能夠享受到Slingshot的部分性能和擴展性優(yōu)勢。
寫在最后
考慮到UEC才成立沒多久,所以相關的標準和技術都處于早期開發(fā)階段,第一版草案很可能會要到明年才能面世,至于第一批符合標準的產品,也需要等待立項開發(fā)以及后續(xù)的市場驗證。不過這也恰好展現(xiàn)AI計算與HPC市場的一個縮影,那就是有的廠商在不斷推進專有化,而有的廠商則一直追求開放標準。
-
以太網
+關注
關注
40文章
5320瀏覽量
170490
發(fā)布評論請先 登錄
相關推薦
評論