0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三種數(shù)據(jù)中心傳輸協(xié)議的聯(lián)系和差異

SDNLAB ? 來(lái)源:SDNLAB ? 2023-11-03 16:41 ? 次閱讀

近日,在OCP 全球峰會(huì)上,谷歌宣布開(kāi)放其Falcon硬件傳輸協(xié)議。有業(yè)內(nèi)人士指出,F(xiàn)alcon似乎與超以太網(wǎng)聯(lián)盟(UEC)和亞馬遜的可擴(kuò)展可靠數(shù)據(jù)報(bào)(SRD)有很多相似之處,在某種程度上,所有這些都是為了解決 RoCEv2 的缺陷。(《ROCEv2 RDMA:TCP的變革者還是取代者?》一文介紹了ROCEv2的部署缺陷以及大廠(chǎng)的解決策略)

超以太網(wǎng)聯(lián)盟主席J Metz 博士表示,F(xiàn)alcon與超以太網(wǎng)聯(lián)盟有著共同的愿景,即推動(dòng)以太網(wǎng)成為人工智能和高性能計(jì)算的最佳數(shù)據(jù)中心結(jié)構(gòu)。本文將深入探討谷歌Falcon,UEC傳輸協(xié)議以及亞馬遜SRD協(xié)議,以便更全面地理解它們之間的聯(lián)系和差異。

谷歌Falcon:一種可靠的低延遲硬件傳輸協(xié)議

Falcon(硬件傳輸,硬件加速傳輸層)被譽(yù)為下一代以太網(wǎng),專(zhuān)為以太網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)中的可靠性、高性能、低延遲連接而設(shè)計(jì)。谷歌認(rèn)為Falcon能夠提高標(biāo)準(zhǔn)網(wǎng)絡(luò)上數(shù)據(jù)傳輸?shù)男阅芎托省?/p>

wKgZomVEsmGANOOJAAMpg3aVAWQ695.png

Falcon涉及以下技術(shù),包括Carousel、Snap、Swift、PLB和CSIG等。

Carousel:一種流量限制機(jī)制(流量整形),允許在各個(gè)主機(jī)的上下文中調(diào)節(jié)數(shù)據(jù)包流的性能和強(qiáng)度。

Snaps:基于微內(nèi)核的網(wǎng)絡(luò)子系統(tǒng),可以通過(guò)模塊進(jìn)行擴(kuò)展,通過(guò)模塊可以添加高級(jí)功能,例如網(wǎng)絡(luò)虛擬化、流量限制和消息傳遞功能。

Swift:數(shù)據(jù)中心級(jí)網(wǎng)絡(luò)的擁塞控制機(jī)制,短 RPC 消息可實(shí)現(xiàn)低于 50 微秒的延遲,同時(shí)在接近 100% 負(fù)載的情況下保持每臺(tái)服務(wù)器 100 Gbps 的吞吐量。

RACK-TLP:一種確定 TCP 數(shù)據(jù)包丟失的算法。

PLB:一種使用擁塞信號(hào)的負(fù)載平衡機(jī)制。

CSIG:一種遙測(cè)交換協(xié)議,用于發(fā)送擁塞和流量控制信號(hào)。

PSP:流量加密協(xié)議。

Falcon 的各層包括它們的相關(guān)功能如下圖所示。Falcon 可以支持 RDMA 和 NVM Express 以及其他上層協(xié)議 (ULP)。

wKgZomVEsmGAXmTNAADgM3PJTQo895.jpg

Falcon使用三個(gè)關(guān)鍵技術(shù)來(lái)在高帶寬但有損的以太網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)中實(shí)現(xiàn)低延遲。

發(fā)送請(qǐng)求和接收響應(yīng)之間的延遲(RTT,往返時(shí)間)的詳細(xì)測(cè)量

硬件實(shí)現(xiàn)針對(duì)各個(gè)流進(jìn)行流量整形

快速準(zhǔn)確的數(shù)據(jù)包重傳

并通過(guò)多路徑同時(shí)訪(fǎng)問(wèn)和支持連接加密的方式補(bǔ)充了這些屬性。

在此基礎(chǔ)之上,F(xiàn)alcon 被重新設(shè)計(jì)為一種多協(xié)議傳輸,能夠支持具有廣泛不同性能要求和應(yīng)用語(yǔ)義的 ULP。ULP 映射層不僅提供與 Infiniband Verbs RDMA 和 NVMe ULP 的即插即用兼容性,還包括對(duì)超大規(guī)模應(yīng)用至關(guān)重要的其他創(chuàng)新,例如靈活的排序語(yǔ)義和錯(cuò)誤處理。

最重要的是,硬件和軟件經(jīng)過(guò)共同設(shè)計(jì),可以協(xié)同工作,幫助實(shí)現(xiàn)高消息速率、低延遲和高帶寬等屬性,同時(shí)保持可編程性和持續(xù)創(chuàng)新的靈活性。

Falcon支持將首次在Intel IPU E2000系列網(wǎng)絡(luò)加速器中提供,該加速器將以太網(wǎng)適配器與可編程處理器相結(jié)合,可處理通常在網(wǎng)絡(luò)堆?;蛳到y(tǒng)側(cè)執(zhí)行的操作,如流量和擁塞管理控制以及高級(jí)協(xié)議分析。

UEC傳輸協(xié)議:比RDMA 更好的以太網(wǎng)傳輸協(xié)議

7 月 19 日,超以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium,UEC) 正式成立,它是一個(gè)由 Linux 基金會(huì)及其聯(lián)合開(kāi)發(fā)基金會(huì)倡議主辦的新組織。UEC 的目標(biāo)是超越現(xiàn)有的以太網(wǎng)功能,例如遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn) ( RDMA ) 和融合以太網(wǎng) RDMA (RoCE),提供針對(duì)高性能計(jì)算和人工智能進(jìn)行優(yōu)化的高性能、分布式和無(wú)損傳輸層,直接將矛頭對(duì)準(zhǔn)競(jìng)爭(zhēng)對(duì)手的傳輸協(xié)議 InfiniBand。

UEC 聯(lián)盟提出的UEC 傳輸協(xié)議正在開(kāi)發(fā)中,旨在提供AI和HPC應(yīng)用程序所需性能的同時(shí)保留以太網(wǎng)/IP的優(yōu)勢(shì)。UEC 傳輸是一種靠近傳輸層的新形式,將提供更靈活的傳輸,不需要無(wú)損網(wǎng)絡(luò),允許many-to-many人工智能工作負(fù)載所需的多路徑和無(wú)序數(shù)據(jù)包傳輸?shù)裙δ堋?/p>

UEC傳輸協(xié)議:

從一開(kāi)始就設(shè)計(jì)為在IP和以太網(wǎng)上運(yùn)行的開(kāi)放協(xié)議規(guī)范

多路徑、包噴灑傳輸,充分利用AI網(wǎng)絡(luò),不會(huì)造成擁塞或隊(duì)頭阻塞,無(wú)需集中式負(fù)載均衡算法和路由控制器

Incast管理機(jī)制,以最小的丟包控制到目標(biāo)主機(jī)的最終鏈接上的扇入

高效的速率控制算法,允許傳輸快速提升至線(xiàn)速,同時(shí)不會(huì)導(dǎo)致競(jìng)爭(zhēng)流的性能損失

用于無(wú)序數(shù)據(jù)包傳送的 API,可選擇按順序完成消息,最大限度地提高網(wǎng)絡(luò)和應(yīng)用程序的并發(fā)性,并最大限度地減少消息延遲

可擴(kuò)展未來(lái)網(wǎng)絡(luò),支持1,000,000個(gè)端點(diǎn)

性能和最佳網(wǎng)絡(luò)利用率,無(wú)需針對(duì)網(wǎng)絡(luò)和工作負(fù)載進(jìn)行特定的擁塞算法參數(shù)調(diào)優(yōu)

旨在在商用硬件上實(shí)現(xiàn) 800G、1.6T 和未來(lái)更快以太網(wǎng)的線(xiàn)速性能

日前,OCP 宣布與UEC聯(lián)盟合作,利用兩家組織的專(zhuān)業(yè)技能來(lái)提高人工智能工作負(fù)載的以太網(wǎng)性能。目前初步確定潛在合作的領(lǐng)域包括 OCP交換機(jī)抽象接口(SAI)、OCP Caliptra Workstream、OCP網(wǎng)絡(luò)項(xiàng)目、OCP網(wǎng)卡Workstream、OCP Time Appliance項(xiàng)目和OCP未來(lái)技術(shù)倡議。(更多內(nèi)容可點(diǎn)擊《劍指InfiniBand,超以太網(wǎng)聯(lián)盟(UEC)正式成立》)

亞馬遜SRD:高吞吐、低延遲的網(wǎng)絡(luò)傳輸協(xié)議

SRD(Scalable Reliable Datagram,可擴(kuò)展的可靠數(shù)據(jù)報(bào)文),是AWS年推出的協(xié)議,旨在解決亞馬遜的云性能挑戰(zhàn)。它是專(zhuān)為AWS數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì)的、基于Nitro芯片、為提高HPC性能實(shí)現(xiàn)的一種高吞吐、低延遲的網(wǎng)絡(luò)傳輸協(xié)議。

SRD 不保留數(shù)據(jù)包順序,而是通過(guò)盡可能多的網(wǎng)絡(luò)路徑發(fā)送數(shù)據(jù)包,同時(shí)避免路徑過(guò)載。為了最大限度地減少抖動(dòng)并確保對(duì)網(wǎng)絡(luò)擁塞波動(dòng)的最快響應(yīng),在 AWS 自研的 Nitro chip 中實(shí)施 SRD。

wKgaomVEsmKAJbIhAAaUCbEN_kE725.png

SRD 的創(chuàng)新在于有意通過(guò)多個(gè)路徑分別發(fā)包,雖然包到達(dá)后通常是亂序的,但AWS實(shí)現(xiàn)了在接收處以極快的速度進(jìn)行重新排序,最終在充分利用網(wǎng)絡(luò)吞吐能力的基礎(chǔ)上,極大地降低了傳輸延遲。(更多內(nèi)容可點(diǎn)擊《當(dāng)網(wǎng)絡(luò)傳輸協(xié)議SRD遇上DPU》)

SRD的主要功能包括:

亂序交付:取消按順序傳遞消息的約束,消除了隊(duì)頭阻塞,AWS在EFA用戶(hù)空間軟件堆棧中實(shí)現(xiàn)了數(shù)據(jù)包重排序處理引擎

等價(jià)多路徑路由(ECMP):兩個(gè)EFA實(shí)例之間可能有數(shù)百條路徑,通過(guò)使用大型多路徑網(wǎng)絡(luò)的一致性流哈希的屬性和SRD對(duì)網(wǎng)絡(luò)狀況的快速反應(yīng)能力,可以找到消息的最有效路徑。數(shù)據(jù)包噴涂(Packet Spraying)可防止出現(xiàn)擁塞熱點(diǎn),并可以從網(wǎng)絡(luò)故障中快速無(wú)感地恢復(fù)

快速的丟包響應(yīng):SRD對(duì)丟包的響應(yīng)比任何高層級(jí)的協(xié)議都快得多。偶爾的丟包,特別是對(duì)于長(zhǎng)時(shí)間運(yùn)行的HPC應(yīng)用程序,是正常網(wǎng)絡(luò)操作的一部分,不是異常情況

可擴(kuò)展的傳輸卸載:使用SRD,與其他可靠協(xié)議(如InfiniBand可靠連接IBRC)不同,一個(gè)進(jìn)程可以創(chuàng)建并使用一個(gè)隊(duì)列對(duì)與任何數(shù)量的對(duì)等方進(jìn)行通信

wKgZomVEsmGAMnlEAAJD23imPG4473.png

隨著人工智能、高性能計(jì)算和大規(guī)模數(shù)據(jù)處理需求的不斷增加,對(duì)于高效、可靠的數(shù)據(jù)傳輸方式的需求也愈發(fā)迫切。在未來(lái),我們可以期待看到這些協(xié)議不斷演進(jìn)和完善,為數(shù)據(jù)中心和網(wǎng)絡(luò)通信領(lǐng)域帶來(lái)更多的創(chuàng)新和進(jìn)步。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6099

    瀏覽量

    104771
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4571

    瀏覽量

    71802
  • 傳輸協(xié)議
    +關(guān)注

    關(guān)注

    0

    文章

    71

    瀏覽量

    11410
  • 亞馬遜
    +關(guān)注

    關(guān)注

    8

    文章

    2612

    瀏覽量

    83022

原文標(biāo)題:谷歌Falcon、UEC協(xié)議、亞馬遜SRD:數(shù)據(jù)中心傳輸協(xié)議的較量

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    數(shù)據(jù)中心布線(xiàn)五大注意要點(diǎn)

      數(shù)據(jù)中心布線(xiàn)經(jīng)過(guò)長(zhǎng)時(shí)間的發(fā)展,很多用戶(hù)都很了解數(shù)據(jù)中心布線(xiàn)。數(shù)據(jù)中心布線(xiàn)系統(tǒng)需要支持有效支持3代有源設(shè)備的更新?lián)Q代?! ?、問(wèn)什么需要支持10G應(yīng)用  數(shù)據(jù)中心需要能夠支持高速率的
    發(fā)表于 07-21 14:19

    數(shù)據(jù)中心布線(xiàn)方案:數(shù)據(jù)中心怎樣選擇光纖布線(xiàn)?

    AOC、QSFP+AOC、SFP28 AOC等等,每一aoc的傳輸長(zhǎng)度都不一樣,所以我們?cè)?b class='flag-5'>數(shù)據(jù)中心選擇光纖布線(xiàn)的時(shí)候,一定要考慮實(shí)際的使用情況。 例如:對(duì)于在交換機(jī)之間使用多模光纖的100GbE
    發(fā)表于 04-20 14:40

    走向綠色數(shù)據(jù)中心的7手段

    隨著云計(jì)算的發(fā)展,數(shù)據(jù)中心的數(shù)量只會(huì)增加。這意味著更多的能量排放。數(shù)據(jù)中心提供商必須降低數(shù)據(jù)中心的碳排放,盡可能地向綠色數(shù)據(jù)中心發(fā)展?! ∽呦蚓G色數(shù)
    發(fā)表于 08-16 15:35

    數(shù)據(jù)中心的建設(shè)也看重風(fēng)水

    相比中國(guó)傳統(tǒng)的風(fēng)水理論,數(shù)據(jù)中心所看重的風(fēng)水則更加貼合實(shí)際。以整體架構(gòu)來(lái)劃分,目前的主流的數(shù)據(jù)中心已經(jīng)進(jìn)入第代,并開(kāi)始向第四代演進(jìn)。第一代和第二代數(shù)據(jù)中心分別誕生于20世紀(jì)40和70
    發(fā)表于 08-07 06:22

    40G數(shù)據(jù)中心之銅纜布線(xiàn)

    網(wǎng)絡(luò)的互連,其中使用較多的是高速線(xiàn)纜(DAC,Direct Attach Copper Cable),尤其是無(wú)源銅纜(PCC)。無(wú)源銅纜因成本低和傳輸速度快的優(yōu)點(diǎn)一直被視為數(shù)據(jù)中心短距離傳輸的最優(yōu)
    發(fā)表于 11-18 15:00

    未來(lái)數(shù)據(jù)中心與光模塊發(fā)展假設(shè)

    的框架下完成的,但這些大型組織需要端到端控制,才能使基于人工智能和機(jī)器學(xué)習(xí)的應(yīng)用程序成為其業(yè)務(wù)差異化因素,唯一有效的方法是呈現(xiàn)在公司數(shù)據(jù)中心,也促使數(shù)據(jù)中心光模塊向更高速率發(fā)展。規(guī)模較小數(shù)據(jù)中
    發(fā)表于 08-07 10:27

    數(shù)據(jù)中心太耗電怎么辦

    ??????摘要:其實(shí)對(duì)于節(jié)能,傳統(tǒng)技術(shù)也是做了“十二分”的努力。但是在技術(shù)不斷演進(jìn)的情況下,傳統(tǒng)節(jié)能技術(shù)還是存在問(wèn)題,如何破?本文分享自華為云社區(qū)《數(shù)據(jù)中心節(jié)能?來(lái)試試華為NAIE數(shù)據(jù)中心節(jié)能技術(shù)
    發(fā)表于 06-30 06:27

    數(shù)據(jù)中心是什么

    數(shù)據(jù)中心是什么:數(shù)據(jù)中心是全球協(xié)作的特定設(shè)備網(wǎng)絡(luò),用來(lái)在因特網(wǎng)絡(luò)基礎(chǔ)設(shè)施上傳遞、加速、展示、計(jì)算、存儲(chǔ)數(shù)據(jù)信息。數(shù)據(jù)中心大部分電子元件都是由低直流電源驅(qū)動(dòng)運(yùn)行的。
    發(fā)表于 07-12 07:10

    什么是數(shù)據(jù)中心

    數(shù)據(jù)中心是企業(yè)用來(lái)容納其關(guān)鍵業(yè)務(wù)應(yīng)用程序和信息的物理設(shè)施。隨著它們的發(fā)展,重要的是要長(zhǎng)期考慮如何保持它們的可靠性和安全性。什么是數(shù)據(jù)中心?數(shù)據(jù)中心通常被稱(chēng)為單個(gè)事物,但實(shí)際上它們由許多技...
    發(fā)表于 09-15 06:46

    STM32的三種Boot模式有何差異

    STM32的三種Boot模式有何差異呢?如何去驗(yàn)證這種差異呢?
    發(fā)表于 11-26 07:15

    STM32的三種Boot模式的差異

    如有錯(cuò)誤,歡迎指正,謝謝!目錄一、STM32的三種Boot模式的差異二、創(chuàng)建基于MDK創(chuàng)建純匯編語(yǔ)言的STM32工程模板、匯編基本語(yǔ)法的學(xué)習(xí)四、編程練習(xí)一、STM32的三種Boot模
    發(fā)表于 12-20 07:54

    Modbus協(xié)議三種數(shù)據(jù)幀的差異

    Modbus協(xié)議無(wú)線(xiàn)通信網(wǎng)關(guān)就是將一Modbus協(xié)議幀轉(zhuǎn)換為其他物聯(lián)網(wǎng)無(wú)線(xiàn)數(shù)傳協(xié)議幀。
    的頭像 發(fā)表于 05-31 13:16 ?2318次閱讀

    探究DPU的緣起,DPU提升數(shù)據(jù)中心算力的三種方式

    DPU的出現(xiàn)不僅僅是為解決CPU的算力瓶頸,而是要通過(guò)先天的網(wǎng)絡(luò)屬性,在數(shù)據(jù)中心整體TCO的維度提升算力。我們把DPU提升數(shù)據(jù)中心算力手段總結(jié)為算力卸載、算力釋放和算力擴(kuò)展三種方式。
    的頭像 發(fā)表于 09-09 15:56 ?1524次閱讀

    數(shù)據(jù)中心備用電源三種配置方案深度解析

    在這里我們將從油機(jī)系統(tǒng)效率、油機(jī)可靠性、油機(jī)配套設(shè)施、油機(jī)配置的總體經(jīng)濟(jì)性等多個(gè)方面進(jìn)行初步分析,分別列出三種油機(jī)配置方式的相關(guān)情況。為我們廣大的數(shù)據(jù)中心用戶(hù)提供設(shè)計(jì)參考,以利于各數(shù)據(jù)中心用戶(hù)選擇最適合項(xiàng)目本身的配置方案。
    的頭像 發(fā)表于 12-09 15:47 ?1953次閱讀

    串行通信的三種數(shù)字編碼方式

    有關(guān)串行通信的知識(shí),介紹了串行通信的幾種數(shù)字編碼方式,共有三種,一是NRZ編碼,二是曼徹斯特(Manchester)編碼,是微分曼徹斯特編碼,一起來(lái)了解下。
    的頭像 發(fā)表于 06-29 16:55 ?3152次閱讀