0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

奇異摩爾賦能萬卡集群互聯(lián)

奇異摩爾 ? 來源:奇異摩爾 ? 2024-09-19 13:03 ? 次閱讀

近日,IntelAMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、Meta和微軟(Microsoft)在內(nèi)的八家公司宣布他們已經(jīng)為人工智能數(shù)據(jù)中心網(wǎng)絡(luò)制定了新的互聯(lián)技術(shù)UALink(Ultra Accelerator Link),以打破英偉達NVLink技術(shù)壟斷的消息受到了廣泛的關(guān)注。

“本期奇說芯語Kiwi Talks 將從萬卡集群大模型算力需求的挑戰(zhàn)說起,來解讀這場軍備賽的背后原理…”

智算網(wǎng)絡(luò)催生萬卡集群

隨著大模型的持續(xù)爆發(fā),其對算力的需求也在迅猛增長,這促使算力集群不斷向萬卡以上的規(guī)模演進。這一趨勢不僅代表著計算能力的飛躍,也對網(wǎng)絡(luò)提出了前所未有的超高要求。

萬卡集群是指由一萬張及以上的加速卡(包括GPU、TPU及其他專用AI加速芯片)組成的高性能計算系統(tǒng),主要用于加速人工智能模型的訓(xùn)練和推理過程。這種集群的構(gòu)建旨在解決大模型訓(xùn)練對算力需求的巨大增長問題,尤其是現(xiàn)在模型參數(shù)量從百億級、千億級邁向萬億級。大模型的訓(xùn)練和推理任務(wù)需要海量的計算資源和高效的網(wǎng)絡(luò)連接。

萬卡級別的算力集群意味著將有數(shù)以萬計的高性能計算節(jié)點協(xié)同工作,它們之間的數(shù)據(jù)傳輸和同步必須達到毫秒級甚至微秒級的延遲,以確保模型訓(xùn)練的高效性和準確性。首先,大模型訓(xùn)練對于GPU之間的互聯(lián)通信要求極高,無論是機內(nèi)GPU的通信還是服務(wù)器之間的GPU通信。特別是在模型并行和數(shù)據(jù)并行等模式下,通信數(shù)據(jù)量更是達到了百GB級別。因此,網(wǎng)絡(luò)必須支持高速互聯(lián)協(xié)議,并且能夠提供足夠的單端口帶寬和總帶寬。

我們知道PCIe(Peripheral Component Interconnect Express):它是一種計算機總線標準,用于在計算機內(nèi)部連接各種設(shè)備和組件(例如顯卡、存儲設(shè)備、擴展卡等)。PCIe接口以串行方式傳輸數(shù)據(jù),具有較高的通信帶寬,適用于連接各種設(shè)備。然而,由于其基于總線結(jié)構(gòu),同時連接多個設(shè)備時可能會受到帶寬的限制受限于帶寬、延遲、數(shù)據(jù)傳輸效率,已成為大規(guī)模計算集群的互聯(lián)瓶頸。

英偉達NVLink的無損網(wǎng)絡(luò)護城河

英偉達的NVLink是其開發(fā)并推出的一種總線及其通信協(xié)議。NVLink采用點對點結(jié)構(gòu)、串列傳輸,用于中央處理器CPU)與圖形處理器(GPU)之間的連接,也可用于多個圖形處理器之間的相互連接。與PCI Express不同,一個設(shè)備可以包含多個NVLink,并且設(shè)備之間采用網(wǎng)格網(wǎng)絡(luò)而非中心集線器方式進行通信。該協(xié)議于2014年3月首次發(fā)布,采用專有的高速信號互連技術(shù)(NVHS)。目前NVLink已經(jīng)升級到5.0版本。第五代 NVLink 大幅提高了大型多 GPU 系統(tǒng)的可擴展性。單個 NVIDIA Blackwell Tensor Core GPU 支持多達 18 個 NVLink 100 GB/s 連接,總帶寬可達 1.8 TB/s,比上一代產(chǎn)品提高了兩倍,是 PCIe 5.0 帶寬的 14 倍之多。

NVLink 就是這種“多節(jié)點無損網(wǎng)絡(luò)”的代表,由一個強大的軟件協(xié)議組成,通常通過印在計算機板上的多對導(dǎo)線實現(xiàn),可以讓處理器以極高的速度收發(fā)共享內(nèi)存池中的數(shù)據(jù)。NVLink 設(shè)計的主要設(shè)計目的,就是突破PCIe的屏障,達成GPU-GPU及CPU-GPU的片間高效數(shù)據(jù)交互。

NVLink雖擁有優(yōu)秀的性能,但私有協(xié)議無法兼容不同來源的產(chǎn)品,這樣的封閉生態(tài)已成為行業(yè)發(fā)展掣肘。受到巨大的需求推動,以及為抵抗這種市場擠壓 ,AMD、谷歌、微軟、英特爾(Intel)、博通(Broadcom)、思科(Cisco)構(gòu)成聯(lián)盟建立一個開放的行業(yè)互聯(lián)標準即UALink。UALink將使系統(tǒng)OEM、IT專業(yè)人員和系統(tǒng)集成商能夠為其人工智能連接數(shù)據(jù)中心創(chuàng)建一條更易于集成、更具靈活性和可擴展性的途徑。

據(jù)官方消息,UALink 1.0規(guī)范支持連接多達1024個AI加速器,并允許在一個計算集群(Pod)內(nèi),讓接入的GPU等加速器附帶的內(nèi)存之間實現(xiàn)直接加載和存儲。

奇異摩爾賦能萬卡集群互聯(lián)

目前包括各大芯片廠商以及生態(tài)內(nèi)的服務(wù)器廠商開始不斷提及甚至對標英偉達NVLink,都想要打破其所造的護城河。整個行業(yè)生態(tài)包括奇異摩爾在內(nèi)的企業(yè)正在積極探索如何解決滿足集群通信間通訊,片間互聯(lián)的高效互聯(lián)的解決方案。

目前,奇異摩爾基于自身的互聯(lián)技術(shù)優(yōu)勢,較早布局IO Die、Base Die等高性能互聯(lián)芯粒,并基于Kiwi-Link統(tǒng)一互聯(lián)架構(gòu),提供涵蓋集群間、片間、Die間的全鏈路高性能互聯(lián)解決方案

GPU片間互聯(lián)

奇異摩爾的高性能網(wǎng)絡(luò)加速芯粒 – Kiwi NDSA,內(nèi)建RoCE V2高性能 RDMA (Remote Direct Memory Access) 和數(shù)十種卸載/加速引擎,可作為獨立芯粒應(yīng)用于GPU的傳輸加速器。奇異摩爾自研的全球首創(chuàng)GPU Link Chiplet “NDSA-G2G”,通過RDMA和D2D技術(shù),在芯片間搭建了高速數(shù)據(jù)交換網(wǎng)絡(luò),可實現(xiàn)近TB/s的超高速數(shù)據(jù)傳輸,其性能達到全球領(lǐng)先水平,滿足AI芯片對于片間交換不斷增長的需求。

集群間通信

奇異摩爾 Kiwi NDSA SNIC是全球首款支持800G帶寬的RDMA NIC產(chǎn)品,具備極高的集群擴展能力,可以大幅提升集群節(jié)點間的交互效率,使得更大規(guī)模的集群設(shè)計成為可能。除帶寬升級到800G之外,延時也降至納秒級,并支持數(shù)十GB的超大規(guī)模數(shù)據(jù)包,性能媲美目前全球標桿ASIC產(chǎn)品。

業(yè)界紛紛提出集群通訊互聯(lián)的重要性

中國移動研究院網(wǎng)絡(luò)與IT技術(shù)研究所主任研究員陳佳媛在近期公開演講中提及必須突破GPU卡間互聯(lián)技術(shù)瓶頸,提高卡間互聯(lián)帶寬,提升端口數(shù)量以滿足集群算力縱向擴展升級需求;低延遲通信,減少GPU通信跳數(shù),優(yōu)化數(shù)據(jù)傳輸路徑。 新華三集團高級副總裁、云與計算存儲產(chǎn)品線總裁徐潤安此前也談到算力互聯(lián)。在他看來,過去,大家的目標可能是做更強算力的單顆芯片,現(xiàn)在會從另一個角度努力,怎樣將芯片做成更大集群,同時使得集群的通信效果更高,集群的處理能力更強;

浪潮信息高級副總裁劉軍發(fā)表的觀點是,實現(xiàn)更大的算力已經(jīng)不在芯片,而是在算法層面做創(chuàng)新,比如怎么把算力分布到系統(tǒng)層面上,怎么解決卡間互聯(lián)問題,怎么讓更多的GPU高效協(xié)同。

寫在最后,數(shù)據(jù)中心和算力集群是AI的核心,網(wǎng)絡(luò)則是它的命脈,它們共同構(gòu)筑了AI大模型底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施,實現(xiàn)了數(shù)據(jù)和智能的無縫傳遞。然而AI芯片性能及軟件生態(tài)存在的差距,萬卡集群建設(shè)存在芯片間、卡之間、集群間的互聯(lián)問題,這些都需要更開放的平臺去持續(xù)地解決。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3675

    瀏覽量

    90473
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    867

    瀏覽量

    14649
  • 奇異摩爾
    +關(guān)注

    關(guān)注

    0

    文章

    39

    瀏覽量

    3297
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2203

    瀏覽量

    2227

原文標題:Kiwi Talks | 智算網(wǎng)絡(luò)催生萬卡集群,all in通信互聯(lián)軍備賽

文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    智原科技與奇異摩爾2.5D封裝平臺量產(chǎn)

    近日,ASIC設(shè)計服務(wù)暨IP研發(fā)銷售廠商智原科技(Faraday Technology Corporation)與AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商奇異摩爾宣布,雙方共同合作的2.5D封裝平臺已成功邁入量產(chǎn)階段。
    的頭像 發(fā)表于 10-14 16:43 ?265次閱讀

    摩爾線程與羽人科技完成大語言模型訓(xùn)練測試

    近日,摩爾線程與羽人科技攜手宣布,雙方已成功實現(xiàn)夸娥(KUAE)千智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配。在本次測試中,羽人科技通過摩爾線程夸娥千
    的頭像 發(fā)表于 08-27 16:19 ?436次閱讀

    奇異摩爾上??偛窟M駐上海浦東科海大樓

    。 三年風(fēng)雨兼程? 三年春華秋實 奇異摩爾于2021年在上海創(chuàng)立,依托于Chiplet和RDMA高性能網(wǎng)絡(luò)互聯(lián)技術(shù),旨在打造了一整套全棧式AI智算集群
    的頭像 發(fā)表于 07-01 18:57 ?1198次閱讀
    <b class='flag-5'>奇異</b><b class='flag-5'>摩爾</b>上海總部進駐上海浦東科海大樓

    集群解決大模型訓(xùn)算力需求,建設(shè)面臨哪些挑戰(zhàn)

    ? 電子發(fā)燒友網(wǎng)報道(文/李彎彎)集群是指由一萬張及以上的加速(包括GPU、TPU及其他專用AI加速芯片)組成的高性能計算系統(tǒng),主要用于加速人工智能模型的訓(xùn)練和推理過程。這種
    的頭像 發(fā)表于 06-02 06:18 ?4414次閱讀
    <b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>解決大模型訓(xùn)算力需求,建設(shè)面臨哪些挑戰(zhàn)

    國產(chǎn)GPU可替代!摩爾線程千集群點亮新成就

    摩爾線程、無問芯穹聯(lián)合宣布,雙方已經(jīng)正式完成MT-infini-3B 3B(30億參數(shù))規(guī)模大模型的實訓(xùn),基于摩爾線程國產(chǎn)全功能GPU MTT S4000組成的千集群,以及無問芯穹的
    的頭像 發(fā)表于 05-29 11:27 ?581次閱讀
    國產(chǎn)GPU可替代!<b class='flag-5'>摩爾</b>線程千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>點亮新成就

    摩爾線程千智算集群與滴普企業(yè)大模型已完成訓(xùn)練及推理適配

    近日,摩爾線程與國內(nèi)領(lǐng)先的數(shù)據(jù)智能服務(wù)商滴普科技共同宣布,摩爾線程夸娥(KUAE)千智算集群與滴普企業(yè)大模型Deepexi已完成訓(xùn)練及推理適配。
    的頭像 發(fā)表于 05-29 10:28 ?380次閱讀
    <b class='flag-5'>摩爾</b>線程千<b class='flag-5'>卡</b>智算<b class='flag-5'>集群</b>與滴普企業(yè)大模型已完成訓(xùn)練及推理適配

    摩爾線程、無問芯穹合作完成國產(chǎn)全功能GPU千集群

    據(jù)介紹,此項訓(xùn)練歷時13.2天,過程穩(wěn)定而有序,集群整體運行穩(wěn)定性達到了100%。相較于單機訓(xùn)練,千集群的擴展效率提升了超過90%。
    的頭像 發(fā)表于 05-27 14:40 ?535次閱讀

    摩爾線程與無問芯穹宣布完成基于GPU千集群的3B規(guī)模大模型實訓(xùn)

    摩爾線程聯(lián)合無問芯穹宣布,雙方已在本周正式完成基于國產(chǎn)全功能GPU千集群的3B規(guī)模大模型實訓(xùn)。
    的頭像 發(fā)表于 05-27 10:44 ?411次閱讀
    <b class='flag-5'>摩爾</b>線程與無問芯穹宣布完成基于GPU千<b class='flag-5'>卡</b><b class='flag-5'>集群</b>的3B規(guī)模大模型實訓(xùn)

    奇異摩爾攜手SEMiBAY Talk 邀您暢談互聯(lián)與計算

    2024年5月25日(本周六)19:30,由深圳市半導(dǎo)體與集成電路產(chǎn)業(yè)聯(lián)盟(SICA)主辦的 SEMiBAY Talk“Chiplet 與先進封裝技術(shù)和市場趨勢”將在線上舉行。奇異摩爾產(chǎn)品及解決方案
    的頭像 發(fā)表于 05-20 18:31 ?896次閱讀
    <b class='flag-5'>奇異</b><b class='flag-5'>摩爾</b>攜手SEMiBAY Talk 邀您暢談<b class='flag-5'>互聯(lián)</b>與計算

    奇異摩爾聚焦高速互聯(lián):Chiplet互聯(lián)架構(gòu)分析及其關(guān)鍵技術(shù)

    日前,由中國計算機互連技術(shù)聯(lián)盟(CCITA聯(lián)盟)、深圳市連接器行業(yè)協(xié)會共同主辦的?“第三屆中國互連技術(shù)與產(chǎn)業(yè)大會”開幕。奇異摩爾聯(lián)合創(chuàng)始人兼產(chǎn)品及解決方案副總裁??|在《Chiplet互聯(lián)架構(gòu)分析
    的頭像 發(fā)表于 12-13 10:39 ?1332次閱讀
    <b class='flag-5'>奇異</b><b class='flag-5'>摩爾</b>聚焦高速<b class='flag-5'>互聯(lián)</b>:Chiplet<b class='flag-5'>互聯(lián)</b>架構(gòu)分析及其關(guān)鍵技術(shù)

    奇異摩爾與潤欣科技加深戰(zhàn)略合作開創(chuàng)Chiplet及互聯(lián)芯粒未來

    2023 年 11 月 23 日,上海潤欣科技股份 (sz300493) 與奇異摩爾(上海)集成電路設(shè)計有限公司達成深度合作。潤欣科技正式注資奇異摩爾,未來,雙方將深化探索 Chipl
    的頭像 發(fā)表于 11-30 11:06 ?3037次閱讀

    奇異摩爾祝俊東:Chiplet和網(wǎng)絡(luò)加速 互聯(lián)時代兩大關(guān)鍵技術(shù)

    為突破算力局限的新生技術(shù),在短短幾年時間內(nèi),迅速成長為全球芯片巨頭的主流方案和行業(yè)公認的“摩爾定律拯救者”,其在商業(yè)領(lǐng)域的廣泛應(yīng)用又引發(fā)了從片內(nèi)、片間到集群間的互聯(lián)技術(shù)變遷。自此,半導(dǎo)體行業(yè)正式走進
    的頭像 發(fā)表于 11-14 09:26 ?1118次閱讀
    <b class='flag-5'>奇異</b><b class='flag-5'>摩爾</b>??|:Chiplet和網(wǎng)絡(luò)加速 <b class='flag-5'>互聯(lián)</b>時代兩大關(guān)鍵技術(shù)

    奇異摩爾與智原科技聯(lián)合發(fā)布 2.5D/3DIC整體解決方案

    作為全球領(lǐng)先的互聯(lián)產(chǎn)品和解決方案公司,奇異摩爾期待以自身 Chiplet 互聯(lián)芯粒、網(wǎng)絡(luò)加速芯粒產(chǎn)品及全鏈路解決方案,結(jié)合智原全面的先進封裝一站式服務(wù),通力協(xié)作,深耕 2.5D int
    的頭像 發(fā)表于 11-12 10:06 ?810次閱讀

    天津市津南區(qū)區(qū)委書記王寶雨一行蒞臨Chiplet廠商奇異摩爾考察交流

    的交流。 寶雨書記一行全面了解了奇異摩爾的發(fā)展歷程、產(chǎn)業(yè)布局、核心技術(shù)與產(chǎn)品情況,并就 Chiplet、互聯(lián)為代表的創(chuàng)新技術(shù)對半導(dǎo)體行業(yè)的影響進行了探討。 奇異
    的頭像 發(fā)表于 11-08 17:34 ?1501次閱讀
    天津市津南區(qū)區(qū)委書記王寶雨一行蒞臨Chiplet廠商<b class='flag-5'>奇異</b><b class='flag-5'>摩爾</b>考察交流

    Chiplet賽道火熱 奇異摩爾完成億元Pre-A輪融資

    ,奇異摩爾宣布完成億元Pre-A輪融資,本輪由中國國有企業(yè)混合所有制改革基金(混改基金)領(lǐng)投,主要投資方包括中關(guān)村發(fā)展啟航投資、歷榮遠昌、大米成長、津南海河智選、君昊虹石等。本輪資金將主要用于下一代高性能互聯(lián)芯粒(Chiplet
    的頭像 發(fā)表于 11-08 17:29 ?1082次閱讀
    Chiplet賽道火熱 <b class='flag-5'>奇異</b><b class='flag-5'>摩爾</b>完成億元Pre-A輪融資