一路向北,茄子视频懂你更多app,尹人香蕉久久99天天拍久女久

上線僅2個月，OpenAI的最新一代產(chǎn)品-AI聊天機(jī)器人ChatGPT月活用戶接近1億。

作為自然語言處理（NLP）領(lǐng)域的前沿研究成果之一，ChatGPT已成為AIGC里程碑式的產(chǎn)品。

這周我們也與ChatGPT聊了聊他/她對大規(guī)模預(yù)訓(xùn)練背后所需資源的看法。

讓我們一起來看看ChatGPT的回答是否能讓你滿意呢？

強(qiáng)大的語言生成能力現(xiàn)在引起更多討論的是規(guī)模預(yù)訓(xùn)練。在過去的很長一段時間里，許多的AI廠商都是通過本地設(shè)備來進(jìn)行訓(xùn)練的。

GPT-3所訓(xùn)練的參數(shù)約為1750億個，這部分需要大量的算力，而目前我們已知ChatGPT導(dǎo)入了至少1萬顆英偉達(dá)高端GPU來訓(xùn)練模型。

業(yè)界部分專家認(rèn)為GPT-4訓(xùn)練參數(shù)可能會達(dá)到100萬億個參數(shù)，如此大規(guī)模、長時間的GPU集群訓(xùn)練任務(wù)，也對網(wǎng)絡(luò)互聯(lián)底座的性能、可靠性、成本等各方面都提出了極致的要求。

面對千億、萬億參數(shù)規(guī)模的大模型訓(xùn)練，僅僅是單次計(jì)算迭代內(nèi)梯度同步需要的通信量就高達(dá)TB量級。此外還有各種并行模式、加速框架引入的通信需求，使得傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐GPU集群的高效計(jì)算，甚至成為了其中關(guān)鍵的瓶頸。

因此要充分發(fā)揮GPU計(jì)算資源的強(qiáng)大算力，必須構(gòu)建一個全新的高性能網(wǎng)絡(luò)底座，用高速網(wǎng)絡(luò)的大帶寬來助推整個集群計(jì)算的高效率。

以CPU+GPU的異構(gòu)計(jì)算模型已經(jīng)成為高性能計(jì)算領(lǐng)域中的主流計(jì)算架構(gòu)。而高吞吐、低延時是高性能計(jì)算場景中最為迫切的應(yīng)用需求。

我們可以知道，GPUDirect RDMA是RDMA在異構(gòu)計(jì)算場景中的應(yīng)用延伸，使得GPU之間的通信不在依賴CPU轉(zhuǎn)發(fā)，從而進(jìn)一步提升高性能計(jì)算場景中整體算力。

從DPU芯片的實(shí)現(xiàn)角度看，不同DPU廠商的核心競爭壁壘在于專用加速引擎的硬件實(shí)現(xiàn)上。由于DPU是數(shù)據(jù)中心中所有服務(wù)器的流量入口，并以處理報(bào)文的方式處理數(shù)據(jù)，在網(wǎng)絡(luò)芯片領(lǐng)域積累更多的廠商將更有優(yōu)勢。

傳統(tǒng)的GPU在訪問存儲時，需要將數(shù)據(jù)先搬移到系統(tǒng)內(nèi)存，再由系統(tǒng)內(nèi)存搬移到目標(biāo)設(shè)備。而采用DPU介入后可以繞過CPU，直接通過PCIe訪問遠(yuǎn)端的NVMe設(shè)備，加速AI訓(xùn)練，大大降低CPU的開銷。

在AI/ML領(lǐng)域的工作負(fù)載對于存儲系統(tǒng)的要求十分苛刻，目前此類應(yīng)用已主要采用全閃存存儲，其中NVMe全閃存逐漸成為主流趨勢。同時存儲與前端應(yīng)用主機(jī)的網(wǎng)絡(luò)存儲協(xié)議開始采用NVMe over Fabrics(NVMe-oF)。

NVMe-oF是一種存儲網(wǎng)絡(luò)協(xié)議，通過網(wǎng)絡(luò)將NVMe命令傳送到遠(yuǎn)程N(yùn)VMe子系統(tǒng)，以利用NVMe 全閃存的并行訪問和低延遲，該規(guī)范定義了一個協(xié)議接口，旨在與高性能fabric技術(shù)配合使用，包括通過實(shí)現(xiàn)RDMA技術(shù)的InfiniBand、RoCE v2、iWARP或TCP。

NVMe-oF是一種使用NVMe協(xié)議將訪問擴(kuò)展到遠(yuǎn)程存儲系統(tǒng)的非易失性存儲器（NVM）設(shè)備的方法。這使得前端接口能夠連接到存儲系統(tǒng)中，擴(kuò)展到大量NVMe設(shè)備，并延長數(shù)據(jù)中心內(nèi)可以訪問NVMe子系統(tǒng)的距離。NVMe-oF的目標(biāo)是顯著改善數(shù)據(jù)中心網(wǎng)絡(luò)延遲，并為遠(yuǎn)程N(yùn)VMe設(shè)備提供近似于本地訪問的延遲，目標(biāo)為10us。

我們知道AI對計(jì)算的需求非常大，目前主流的AI加速還是以GPU、FPGA和一些專門的AI芯片等為主。在GPU、AI芯片用于AI計(jì)算之前都是CPU承擔(dān)計(jì)算的任務(wù)，CPU的效率難以滿足需求，從而產(chǎn)生CPU+GPU+ASIC的異構(gòu)計(jì)算。隨著DPU的出現(xiàn)，這種異構(gòu)計(jì)算的發(fā)展更加徹底，可以更大提供并行處理能力，適合大規(guī)模計(jì)算的發(fā)展。

支持Chiplet技術(shù)的超異構(gòu)算力芯片，伴隨著AI/ML的發(fā)展將會得到更好的應(yīng)用，而支持Die-To-Die互聯(lián)技術(shù)將能夠提供互聯(lián)其他AI芯片和算力單元的巨大能力，擺脫一直以來PCIe發(fā)展的限制。 ??拿芯啟源自身舉例，以支持高級AI為主要目標(biāo)之一的芯啟源最新的DPU芯片，其架構(gòu)中就應(yīng)用Chiplet技術(shù)。不僅提升了自有智能網(wǎng)卡的性能，通過支持與第三方芯片的Die-To-Die互聯(lián)，還可以集成更多的特定專業(yè)領(lǐng)域的芯片，比如AI訓(xùn)練中的GPU芯片。

雖然PCIe非常的標(biāo)準(zhǔn)，但是帶寬非常有限的，PCIe Gen3的理論帶寬是32GB/s，PCIe Gen4的理論帶寬是64GB/s，而實(shí)測帶寬大概分別是24GB/s和48GB/s。

在AI訓(xùn)練中，每完成一輪計(jì)算，都要同步更新一次參數(shù)，也就是權(quán)系數(shù)。模型規(guī)模越大，參數(shù)規(guī)模一般也會更大，這樣算力芯片的效率會收到PCIe架構(gòu)的限制，支持更高能力層次的互聯(lián)技術(shù)講徹底解決帶寬限制和瓶頸，極大提升單節(jié)點(diǎn)計(jì)算效率。

和ChatGPT聊了那么多，最后再讓我們來看看他/她對于DPU應(yīng)用了解多少呢？

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
29438

瀏覽量
267768
DPU

DPU

+關(guān)注

關(guān)注
0

文章
353

瀏覽量
24080
chiplet

chiplet

+關(guān)注

關(guān)注
6

文章
414

瀏覽量
12529

原文標(biāo)題：爆紅智能AI如何看待DPU ChatGPT這樣說

文章出處：【微信號：corigine，微信公眾號：芯啟源】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

很幸運(yùn)社區(qū)給我一個閱讀此書的機(jī)會，感謝平臺。《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分，為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和

發(fā)表于 10-14 09:21

《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

非常高興本周末收到一本新書，也非常感謝平臺提供閱讀機(jī)會。這是一本挺好的書，包裝精美，內(nèi)容詳實(shí)，干活滿滿。關(guān)于《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第二章“AI

發(fā)表于 10-14 09:16

人工智能ai4s試讀申請

目前人工智能在繪畫對話等大模型領(lǐng)域應(yīng)用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題，本書對ai4s基本原理和原則，方法進(jìn)行描訴，有利于總結(jié)經(jīng)驗(yàn)，擬

發(fā)表于 09-09 15:36

IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

DPU 是當(dāng)下算力基礎(chǔ)設(shè)施的核心創(chuàng)新之一。如果把 CPU 比做大腦，那么 GPU 就好比是肌肉，而 DPU 就是神經(jīng)中樞。CPU 承載了應(yīng)用生態(tài)，提供了通用型算力；GPU 提供了高密度各類精度的算

發(fā)表于 07-24 15:32

紅魔9S Pro系列AI游戲手機(jī)正式發(fā)布

在萬眾矚目中，紅魔電競宇宙今日迎來了激動人心的時刻——全新紅魔9S Pro+與紅魔9S Pro兩款AI游戲手機(jī)正式揭開神秘面紗，以顛覆性的姿態(tài)引領(lǐng)游戲手機(jī)市場邁入“游戲

發(fā)表于 07-04 15:15 ?642次閱讀

DPU技術(shù)賦能下一代AI算力基礎(chǔ)設(shè)施

4月19日，在以“重構(gòu)世界奔赴未來”為主題的2024中國生成式AI大會上，中科馭數(shù)作為DPU新型算力基礎(chǔ)設(shè)施代表，受邀出席了中國智算中心創(chuàng)新論壇，發(fā)表了題為《以網(wǎng)絡(luò)為中心的AI算力底座構(gòu)建之路》主題演講，勾勒出在通往AGI之路

發(fā)表于 04-20 11:31 ?754次閱讀

明天線上見！DPU構(gòu)建高性能云算力底座——DPU技術(shù)開放日最新議程公布！

算力，是數(shù)字經(jīng)濟(jì)時代的新質(zhì)生產(chǎn)力。隨著人工智能、智算中心建設(shè)等需求不斷拓展，DPU在各行各業(yè)數(shù)據(jù)中心的應(yīng)用逐步深入。異構(gòu)算力代表DPU在新質(zhì)生產(chǎn)力建設(shè)中，能否給出別開生面的答案，應(yīng)戰(zhàn)算力難題？

發(fā)表于 04-03 18:12 ?944次閱讀

《數(shù)據(jù)處理器：DPU編程入門》DPU計(jì)算入門書籍測評

一、DPU計(jì)算框架通過一周多的時間翻閱這本書，基本上這本書是一本比較全面的，面向架構(gòu)的新手指導(dǎo)數(shù)據(jù)。它在書中詳盡介紹了關(guān)于DPU在計(jì)算機(jī)架構(gòu)中的應(yīng)用。對于DPU來說，是一種平行于CPU和GPU

發(fā)表于 12-24 10:54

《數(shù)據(jù)處理器：DPU編程入門》讀書筆記

AI、機(jī)器學(xué)習(xí)、安全、電信和存儲等應(yīng)用，并提升性能，減輕虛擬化Hypervisor的工作負(fù)載。同時，它還具備開放性集成功能，未來支持更多功能集成。NVIDIA的DPU還提供統(tǒng)一的面向各種應(yīng)用的編程接口

發(fā)表于 12-21 10:47

淺談DPU和CPU、GPU的關(guān)系

把CPU的一大部分算力卸載給GPU之后，人們發(fā)現(xiàn)可以把很多其他功能也外包出去，于是又有了智能網(wǎng)卡，或者叫做DPU。

發(fā)表于 12-14 11:44 ?768次閱讀

《數(shù)據(jù)處理器：DPU編程入門》+初步熟悉這本書的結(jié)構(gòu)和主要內(nèi)容

成本和提高性能。 2.人工智能和機(jī)器學(xué)習(xí)：DPU可以在人工智能和機(jī)器學(xué)習(xí)應(yīng)用中發(fā)揮重要作用。它可以加速模型訓(xùn)練和推理過程，提高算法的執(zhí)行效率和響應(yīng)速度。這對于需要實(shí)時決策和處理大量數(shù)據(jù)的應(yīng)用非常關(guān)鍵，如

發(fā)表于 12-08 18:03

國際大學(xué)生日：探索 DPU 編程，創(chuàng)造 AI 的未來（互動有禮）

今天是國際大學(xué)生日，NVIDIA 為懷揣 AI 夢想的學(xué)子們打開了一扇通往開發(fā)世界的大門。不久前 NVIDIA 推出了備受業(yè)界好評的首部 DPU 處理器編程入門書籍 ——《數(shù)據(jù)處理器：DPU 編程

發(fā)表于 11-17 21:30 ?594次閱讀

如何看待AI PC短線發(fā)展？

AI PC，即人工智能個人電腦，是將AI技術(shù)與PC深度融合，這類PC將搭載更高計(jì)算能力的處理器，同時融合多模態(tài)算法以重塑PC體驗(yàn)。

發(fā)表于 11-10 10:27 ?653次閱讀

什么是DPU？

，能以線速或網(wǎng)絡(luò)中的可用速度解析、處理數(shù)據(jù)，并高效地將數(shù)據(jù)傳輸?shù)紾PU和CPU。各種靈活和可編程的加速引擎，可以卸載AI、機(jī)器學(xué)習(xí)、安全、電信和存儲等應(yīng)用，并提升性能。所有這些DPU功能對于實(shí)現(xiàn)

發(fā)表于 11-03 10:55

解碼 DPU 編程，投稿贏取好禮！

NVIDIA 發(fā)布首部 DPU 和 DOCA 編程入門書籍前不久 NVIDIA 推出了備受業(yè)界好評的首部 DPU 處理器編程入門書籍 —— 《數(shù)據(jù)處理器：DPU 編程入門》，許多讀者紛紛留言

發(fā)表于 11-01 20:25 ?381次閱讀