亚洲av无码成人精品区蜜桃,国产成人一区二区三区精品综合

ChatGPT對(duì)技術(shù)的影響引發(fā)了對(duì)人工智能未來的預(yù)測(cè)，尤其是多模態(tài)技術(shù)的關(guān)注。OpenAI推出了具有突破性的多模態(tài)模型GPT-4，使各個(gè)領(lǐng)域取得了顯著的發(fā)展。這些AI進(jìn)步是通過大規(guī)模模型訓(xùn)練實(shí)現(xiàn)的，這需要大量的計(jì)算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。端到端InfiniBand（IB）網(wǎng)絡(luò)作為高性能計(jì)算和AI模型訓(xùn)練的理想選擇，發(fā)揮著重要作用。在本文中，我們將深入探討大型語言模型（LLM）訓(xùn)練的概念，并探索端到端InfiniBand網(wǎng)絡(luò)在解決LLM訓(xùn)練瓶頸方面的必要性。

大型語言模型（LLM）和ChatGPT之間是否存在聯(lián)系

訓(xùn)練大型語言模型（LLM）面臨的瓶頸主要與GPU計(jì)算集群內(nèi)的數(shù)據(jù)傳輸和通信有關(guān)。隨著大型語言模型的增長，對(duì)高速可靠網(wǎng)絡(luò)的需求變得至關(guān)重要。例如，具有1.75萬億參數(shù)的GPT-3的模型無法在單機(jī)上訓(xùn)練，而是嚴(yán)重依賴于GPU集群。主要瓶頸在于在訓(xùn)練集群中高效地在節(jié)點(diǎn)之間傳輸數(shù)據(jù)。

階段1：環(huán)形全約減

一種常用的GPU通信算法是環(huán)形全約減，其中GPU形成一個(gè)環(huán)，使數(shù)據(jù)在環(huán)內(nèi)流動(dòng)。每個(gè)GPU都有一個(gè)左鄰和一個(gè)右鄰，數(shù)據(jù)只向右鄰發(fā)送，從左鄰接收。該算法包括兩個(gè)步驟：散射-約減和全收集。在散射-約減步驟中，GPU交換數(shù)據(jù)以獲得最終結(jié)果的一個(gè)塊。在全收集步驟中，GPU交換這些塊，以確保所有GPU都具有完整的最終結(jié)果。

階段2：雙階段環(huán)形

過去由于帶寬有限且沒有NVLink或RDMA技術(shù)，一個(gè)大型環(huán)對(duì)于單機(jī)和多機(jī)分布已經(jīng)足夠。然而，隨著NVLink在單機(jī)內(nèi)的引入，相同的方法不再適用。網(wǎng)絡(luò)帶寬遠(yuǎn)低于NVLink的帶寬，因此采用一個(gè)大環(huán)將大幅降低NVLink的效率到網(wǎng)絡(luò)的水平。此外，在當(dāng)前的多網(wǎng)卡環(huán)境中，僅利用一個(gè)環(huán)無法充分利用多個(gè)網(wǎng)卡。因此，建議采用雙階段環(huán)方法來解決這些問題。在雙階段環(huán)形場景中，數(shù)據(jù)同步發(fā)生在單臺(tái)機(jī)器內(nèi)的GPU之間，利用了NVLink的高帶寬優(yōu)勢(shì)。隨后，跨多臺(tái)機(jī)器的GPU使用多個(gè)網(wǎng)卡建立多個(gè)環(huán)形，以同步來自不同段的數(shù)據(jù)。最后，單臺(tái)機(jī)器內(nèi)的GPU再次進(jìn)行同步，完成所有GPU之間的數(shù)據(jù)同步。值得注意的是，NVIDIA集體通信庫（NCCL）在這個(gè)過程中發(fā)揮了關(guān)鍵作用。

NVIDIA集體通信庫（NCCL）包括針對(duì)NVIDIA GPU和網(wǎng)絡(luò)進(jìn)行優(yōu)化的多GPU和多節(jié)點(diǎn)通信例程。NCCL為全收集、全約減、廣播、約減、約減散開和點(diǎn)對(duì)點(diǎn)發(fā)送和接收操作提供高效的基本操作。這些例程經(jīng)過優(yōu)化，以實(shí)現(xiàn)高帶寬和低延遲，利用節(jié)點(diǎn)內(nèi)和NVIDIA Mellanox網(wǎng)絡(luò)通過PCIe和NVLink高速互連。

通過解決數(shù)據(jù)傳輸和通信中的瓶頸問題，GPU計(jì)算集群的進(jìn)步以及利用NCCL等工具的使用有助于克服大型語言模型訓(xùn)練中的挑戰(zhàn)，為AI研究和開發(fā)進(jìn)一步的突破鋪平了道路。

端到端InfiniBand網(wǎng)絡(luò)解決方案如何提供幫助

在大型模型訓(xùn)練中，以太網(wǎng)在傳輸速率和延遲方面存在不足。相比之下，端到端InfiniBand網(wǎng)絡(luò)提供了高性能計(jì)算解決方案，能夠提供高達(dá)400 Gbps的傳輸速率和微秒級(jí)的延遲。因此，InfiniBand已成為大規(guī)模模型訓(xùn)練的理想選擇。

數(shù)據(jù)冗余和錯(cuò)誤糾正機(jī)制

端到端InfiniBand網(wǎng)絡(luò)的一個(gè)關(guān)鍵優(yōu)勢(shì)是其對(duì)數(shù)據(jù)冗余和錯(cuò)誤糾正機(jī)制的支持，確保可靠的數(shù)據(jù)傳輸。在大規(guī)模模型訓(xùn)練中，由于處理的數(shù)據(jù)量巨大，傳輸錯(cuò)誤或數(shù)據(jù)丟失會(huì)對(duì)訓(xùn)練過程產(chǎn)生不利影響，這一點(diǎn)尤為重要。通過利用InfiniBand的強(qiáng)大功能，可以較大程度地減少由于數(shù)據(jù)傳輸問題引起的中斷或故障。

本地子網(wǎng)的配置和維護(hù)

在InfiniBand互連協(xié)議中，每個(gè)節(jié)點(diǎn)都配備有一個(gè)主機(jī)通道適配器（HCA），負(fù)責(zé)與主機(jī)設(shè)備建立和維護(hù)鏈接。交換機(jī)具有多個(gè)端口，用于在端口之間進(jìn)行數(shù)據(jù)包轉(zhuǎn)發(fā)，從而實(shí)現(xiàn)子網(wǎng)內(nèi)的高效數(shù)據(jù)傳輸。子網(wǎng)管理器（SM）在配置和維護(hù)本地子網(wǎng)方面發(fā)揮著關(guān)鍵作用，每個(gè)InfiniBand設(shè)備上都有子網(wǎng)管理器數(shù)據(jù)包（SMP）和子網(wǎng)管理器代理（SMA）提供支持。子網(wǎng)管理器（SM）發(fā)現(xiàn)和初始化網(wǎng)絡(luò)，為所有設(shè)備分配唯一標(biāo)識(shí)符，確定最小傳輸單元（MTU），并根據(jù)選擇的路由算法生成交換機(jī)的路由表。它還定期掃描子網(wǎng)，檢測(cè)拓?fù)渥兓?，并相?yīng)調(diào)整網(wǎng)絡(luò)配置。

基于信用的流量控制

與其他網(wǎng)絡(luò)通信協(xié)議相比，InfiniBand網(wǎng)絡(luò)提供更高的帶寬、更低的延遲和更大的可擴(kuò)展性。此外，InfiniBand采用基于信用的流量控制，發(fā)送節(jié)點(diǎn)確保不會(huì)傳輸超過接收緩沖區(qū)中可用信用數(shù)量的數(shù)據(jù)到連接的另一端。這消除類似TCP窗口算法的數(shù)據(jù)包丟失機(jī)制的需求，使InfiniBand網(wǎng)絡(luò)能夠以較低延遲和CPU使用率實(shí)現(xiàn)較高數(shù)據(jù)傳輸速率。

遠(yuǎn)程直接內(nèi)存訪問（RDMA）技術(shù)

InfiniBand利用遠(yuǎn)程直接內(nèi)存訪問（RDMA）技術(shù)，實(shí)現(xiàn)應(yīng)用程序之間在網(wǎng)絡(luò)上直接進(jìn)行數(shù)據(jù)傳輸，無需涉及操作系統(tǒng)。這種零拷貝傳輸方法顯著減少了兩端CPU資源的消耗，使應(yīng)用程序能夠直接從內(nèi)存中讀取消息。降低的CPU開銷提升了網(wǎng)絡(luò)快速傳輸數(shù)據(jù)的能力，并使應(yīng)用程序更高效地接收數(shù)據(jù)。總體而言，端到端InfiniBand網(wǎng)絡(luò)為大型模型訓(xùn)練提供了顯著優(yōu)勢(shì)，包括高帶寬、低延遲、數(shù)據(jù)冗余和錯(cuò)誤糾正機(jī)制。通過利用InfiniBand的能力，研究人員可以克服性能限制，增強(qiáng)系統(tǒng)管理，并加速大規(guī)模語言模型的訓(xùn)練。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

InfiniBand

InfiniBand

+關(guān)注

關(guān)注
1

文章
29

瀏覽量
9167
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
28

文章
1525

瀏覽量
7249
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2207

瀏覽量
2231

原文標(biāo)題：InfiniBand：突破大模型訓(xùn)練性能瓶頸

文章出處：【微信號(hào)：AI_Architect，微信公眾號(hào)：智能計(jì)算芯世界】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

InfiniBand 連接現(xiàn)在和未來

InfiniBand 連接現(xiàn)在和未來InfiniBand是致力于服務(wù)器端的高性能互聯(lián)技術(shù)，它的使命是：使處理器級(jí)的帶寬，從處理器到系統(tǒng)I/O、到

發(fā)表于 11-13 21:57

語音端到端加密方案

本帖最后由藍(lán)是昵稱于 2019-11-7 14:21 編輯提供完整的全數(shù)字語音端到端加密方案:包括硬件、軟件功能：通過通信終端的耳機(jī)接口、藍(lán)牙接口實(shí)現(xiàn)全數(shù)字語音加密通信，可在現(xiàn)有終端

發(fā)表于 11-07 14:08

端到端網(wǎng)絡(luò)流有哪些應(yīng)用實(shí)例？

什么是端到端網(wǎng)絡(luò)流？端到端

發(fā)表于 06-07 06:30

為WiMAX構(gòu)建端到端的網(wǎng)絡(luò)架構(gòu)

本文首先分析了WiMAX技術(shù)的市場驅(qū)動(dòng)力和影響其成功部署的關(guān)鍵因素，隨后介紹了一個(gè)基于WiMAX接入技術(shù)的端到端網(wǎng)絡(luò)架構(gòu)，包括回程、匯聚、接入控制、以及核心

發(fā)表于 06-16 11:34 ?485次閱讀

基于WiMAX接入技術(shù)的端到端網(wǎng)絡(luò)架構(gòu)

基于WiMAX接入技術(shù)的端到端網(wǎng)絡(luò)架構(gòu) 本文首先分析了WiMAX技術(shù)的市場驅(qū)動(dòng)力和影響其成功部署的關(guān)鍵因素，隨后介紹了一個(gè)基于WiMAX接入技術(shù)的

發(fā)表于 10-20 21:03 ?725次閱讀

CMHK宣布完成端到端5G網(wǎng)絡(luò)測(cè)試

中國移動(dòng)香港有限公司（CMHK）宣布，它已成為當(dāng)?shù)氐谝患彝瓿蓮目蛻艚K端到應(yīng)用的端到端5G網(wǎng)絡(luò)測(cè)試的網(wǎng)絡(luò)

發(fā)表于 08-16 15:06 ?4112次閱讀

端到端的自動(dòng)駕駛研發(fā)系統(tǒng)介紹

Nvidia是比較早做端到端控制車輛工作的公司，其方法訓(xùn)練CNN模型完成從單個(gè)前向攝像頭的圖像像素到車輛控制的映射。其系統(tǒng)自動(dòng)學(xué)習(xí)一些處理

發(fā)表于 07-13 09:30 ?4819次閱讀

中興開通歐洲首個(gè)5G端到端網(wǎng)絡(luò)切片商城業(yè)務(wù)，增強(qiáng)端到端的用戶體驗(yàn)

10月23日，中興通訊官方表示，在近日于維也納舉辦的中興通訊2019全球無線用戶大會(huì)暨5G峰會(huì)上，中興通訊聯(lián)合Hutchison Drei Austria成功開通歐洲首個(gè)切片商城業(yè)務(wù)，這也是業(yè)界首個(gè)5G端到端

發(fā)表于 10-26 10:29 ?698次閱讀

我國正式啟動(dòng)了5G網(wǎng)絡(luò)切片端到端總體架構(gòu)標(biāo)準(zhǔn)研制工作

經(jīng)過認(rèn)真熱烈討論，會(huì)議建議“5G網(wǎng)絡(luò)切片端到端總體技術(shù)要求”“5G網(wǎng)絡(luò)切片基于切片分組網(wǎng)絡(luò)（S

發(fā)表于 04-02 09:25 ?1044次閱讀

三大巨頭實(shí)現(xiàn)首個(gè)基于APP應(yīng)用級(jí)的5G SA端到端網(wǎng)絡(luò)切片

近日，中興通訊攜手中國聯(lián)通、騰訊在廣東實(shí)現(xiàn)業(yè)內(nèi)首個(gè)基于APP應(yīng)用級(jí)的5G SA端到端網(wǎng)絡(luò)切片，構(gòu)建包含5G SA網(wǎng)絡(luò)、切片運(yùn)營平臺(tái)、5G終端

發(fā)表于 08-14 16:54 ?876次閱讀

基于深度神經(jīng)網(wǎng)絡(luò)的端到端圖像壓縮方法

人工設(shè)計(jì)的算法分別進(jìn)行優(yōu)化近年來，基于深度神經(jīng)網(wǎng)絡(luò)的端到端圖像壓縮方法在圖像壓縮中取得了豐碩的成果，相比傳統(tǒng)方法，端

發(fā)表于 04-08 09:30 ?16次下載

如何實(shí)現(xiàn)端到端網(wǎng)絡(luò)切片？

3GPP將網(wǎng)絡(luò)切片定義為5G 網(wǎng)絡(luò)的主要功能之一，網(wǎng)絡(luò)切片可看作是動(dòng)態(tài)創(chuàng)建的邏輯端到端

發(fā)表于 06-15 17:56 ?1536次閱讀

英偉達(dá)三大AI法寶：CUDA、Nvlink、InfiniBand

以太網(wǎng)是一種廣泛使用的網(wǎng)絡(luò)協(xié)議，但其傳輸速率和延遲無法滿足大型模型訓(xùn)練的需求。相比之下，端到端IB（In

發(fā)表于 12-05 11:02 ?4400次閱讀

理想汽車自動(dòng)駕駛端到端模型實(shí)現(xiàn)

理想汽車在感知、跟蹤、預(yù)測(cè)、決策和規(guī)劃等方面都進(jìn)行了模型化，最終實(shí)現(xiàn)了端到端的模型。這種模型不僅完全模型化，還能夠虛擬化，即在模擬環(huán)境中進(jìn)行訓(xùn)練和測(cè)試。

發(fā)表于 04-12 12:17 ?371次閱讀

端到端測(cè)試用例怎么寫

編寫端到端測(cè)試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關(guān)鍵步驟。以下是一個(gè)詳細(xì)的指南，介紹如何編寫端到端

發(fā)表于 09-20 10:29 ?229次閱讀