天天影视色香欲综合久久,福利国产微拍广场一区视频在线

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）人工智能在進(jìn)化的過程中，最不可或缺的便是模型和算力。訓(xùn)練出來的通用大模型省去了重復(fù)的開發(fā)工作，目前不少大模型都為學(xué)術(shù)研究和AI開發(fā)提供了方便，比如華為的盤古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。

那么訓(xùn)練出這樣一個(gè)大模型需要怎樣的硬件前提？如何以較低的成本完成自己模型訓(xùn)練工作？這些都是不少AI初創(chuàng)企業(yè)需要考慮的問題，那么如今市面上有哪些訓(xùn)練芯片是經(jīng)得起考驗(yàn)的呢？我們先從國外的幾款產(chǎn)品開始看起。

英偉達(dá)A100

英偉達(dá)的A100可以說是目前AI訓(xùn)練界的明星產(chǎn)品，A100剛面世之際可以說是世界上最快的深度學(xué)習(xí)GPU。盡管近來有無數(shù)的GPU或其他AI加速器試圖在性能上撼動它的地位，但綜合實(shí)力來看，A100依然穩(wěn)坐頭把交椅。

A100 GPU / 英偉達(dá)A100可是英偉達(dá)特推出的首個(gè)7nm GPU，在826mm2的芯片大小上鋪滿了542億個(gè)晶體管。要知道，其消費(fèi)級GPU雖然同樣采用安培架構(gòu)，但仍在使用三星的8nm制程。至于算力什么的，GPU在單個(gè)或多個(gè)處理器配置上都有著不俗的優(yōu)勢，甚至還能憑借英偉達(dá)自己的互聯(lián)技術(shù)實(shí)現(xiàn)更高的帶寬。具體的算力數(shù)據(jù)我們也已提過多次，我們這次講的是AI訓(xùn)練，自然是要比訓(xùn)練上的表現(xiàn)，這里先留個(gè)懸念。性能雖高，但使用A100的成本可并不便宜。今年10月，微軟和英偉達(dá)推出了迄今為止訓(xùn)練最強(qiáng)大的生成語言模型Megatron-Turing Natural Language Generation（MT-NLG），擁有5300億個(gè)參數(shù)。如此強(qiáng)大的模型究竟是如何訓(xùn)練出來的呢？答案是560個(gè)英偉達(dá)DGX A100服務(wù)器，每個(gè)服務(wù)器都內(nèi)置了8 x A100 80GB GPU，訓(xùn)練出這個(gè)模型的造價(jià)最低也要在百萬美元以上。如此看來，難不成這些模型只能靠購置昂貴的GPU，或是靠花錢如流水一般的GPU服務(wù)器來訓(xùn)練了？并非如此。

英特爾Gaudi和Ponte Vecchio

19年12月，英特爾收購了以色列的Habana Labs，將其旗下的AI加速器產(chǎn)品線納入囊中。Habana Labs目前推出了用于推理的Goya處理器和用于訓(xùn)練的Gaudi處理器。盡管Habana Labs已經(jīng)隸屬英特爾，但現(xiàn)有的產(chǎn)品仍然基于臺積電的16nm制程，傳言稱其正在開發(fā)的Gaudi2將用上臺積電的7nm制程。目前Gaudi已經(jīng)用于亞馬遜云服務(wù)AWS的EC2 DL1訓(xùn)練實(shí)例中，該實(shí)例選用了AWS定制的英特爾第二代Xeon可擴(kuò)展處理器，最多可配置8個(gè)Gaudi處理器，每個(gè)處理器配有32GB的HBM內(nèi)存，400Gbps的網(wǎng)絡(luò)架構(gòu)加上100Gbps的互聯(lián)帶寬，并支持4TB的NVMe存儲。

Gaudi與A100在ResNet-50和BERT訓(xùn)練成本上的對比 / Habana Labs Habana Labs和AWS共同宣稱，Gaudi的方案可以提供云端深度學(xué)習(xí)模型訓(xùn)練的最佳性價(jià)比，與最新的GPU實(shí)例相比性價(jià)比高出40%。Habana Labs給出了直接的價(jià)格對比，在對比AWS EC2 P4d實(shí)例（8個(gè)英偉達(dá)A100 GPU）時(shí)，8個(gè)Gaudi處理器的每小時(shí)價(jià)格為13.11美元，比前者低了60%。針對特定的模型，Habana Labs也對A100和V100方案進(jìn)行了對比，比如利用Tensorflow實(shí)現(xiàn)ResNet50圖像處理（BF16/FP16）時(shí)，Gaudi處理每張圖片的成本要比A100低46%，更是比V100低了61%。 Habana Labs為Gaudi定義的用例主要在物體識別/分割、圖像分類和自然語言處理器方面的深度學(xué)習(xí)模型訓(xùn)練。比如生產(chǎn)中的故障檢測、醫(yī)療中的2D/3D掃描和醫(yī)學(xué)成像、自動駕駛中的物體分割以及文本情感分析等等。我們都知道在超算領(lǐng)域中，英特爾在主要處理器上的份額與出場率都比較高，加速器上則依舊是英偉達(dá)和AMD的GPU占優(yōu)，不過Habana Labs的Gaudi其實(shí)已經(jīng)開始發(fā)力，比如圣地亞哥超級計(jì)算中心（SDSC）打造的AI超算Voyager。這里的Voyager可不是TOP500新晉第十名的Voyager-EUS2，而是SDSC打造的一款試驗(yàn)性超算，專注于高性能高效率的AI運(yùn)算，該超算集成了336個(gè)Gaudi訓(xùn)練處理器和16個(gè)Goya推理處理器。

A100與Ponte Vecchio在ResNet-50 v1.5上的訓(xùn)練表現(xiàn)對比 / 英特爾不過英特爾似乎也不打算放棄GPU這條路，甚至打算走的更遠(yuǎn)一點(diǎn)。今年的架構(gòu)日上，英特爾為其Ponte Vecchio Xe HPC GPU透露了更多的細(xì)節(jié)。英特爾拿出了ResNet-50單個(gè)GPU處理圖像的訓(xùn)練結(jié)果對比，Ponte Vecchio獲得了超過3400張圖片每秒的成績，而英偉達(dá)單張A100 GPU的成績?yōu)?963張圖片每秒。根據(jù)Habana Labs于19年六月公布的數(shù)據(jù)，單個(gè)Gaudi處理器的成績?yōu)?650張圖片每秒。單從結(jié)果來看，英特爾和英偉達(dá)兩者打造的旗艦GPU在模型訓(xùn)練上還是很有優(yōu)勢的，而且還能承擔(dān)推理工作負(fù)載，Gaudi的性能確實(shí)更適合高性價(jià)比的專用訓(xùn)練場景。依小編的觀點(diǎn)來看，Ponte Vecchio更像是英特爾為HPC+AI準(zhǔn)備的一張GPU，明年開始出貨后我們說不定會在超算上看到更多應(yīng)用。而Gaudi更像是為云服務(wù)和數(shù)據(jù)中心準(zhǔn)備的訓(xùn)練處理器，讓開發(fā)者在可負(fù)擔(dān)的價(jià)格下享受到優(yōu)秀的性能。更不用說英特爾也開始為FPGA（Stratix 10 NX）在相同的方向上鋪路，英特爾可以說是為AI開發(fā)者提供了多個(gè)選擇。

亞馬遜Trainium

最后我們以亞馬遜的訓(xùn)練芯片收尾，亞馬遜提供的服務(wù)器實(shí)例可以說是最多樣化的，也包含了以上提到的A100和Gaudi。亞馬遜作為云服務(wù)巨頭，早已開始部署自己的服務(wù)器芯片生態(tài)，不僅在今年推出了第三代Graviton服務(wù)器處理器，也正式發(fā)布了去年公開的訓(xùn)練芯片Trainium，并推出了基于該芯片的Trn1實(shí)例。

Trn1實(shí)例的參數(shù) / 亞馬遜 Trn1的計(jì)算引擎頻率達(dá)到了3GHz，峰值內(nèi)存帶寬為13.1TB/s，F(xiàn)P32的算力為840TFLOPS，最出色的數(shù)據(jù)還是800Gbps的網(wǎng)絡(luò)帶寬，亞馬遜甚至還提供了一個(gè)1.6TB。再次重申，這些都只是紙面參數(shù)而已，實(shí)際表現(xiàn)才是最重要的。

亞馬遜訓(xùn)練實(shí)例對比 / 亞馬遜據(jù)亞馬遜發(fā)布的數(shù)據(jù)，同樣是在兩周內(nèi)完成GPT-3模型的訓(xùn)練，需要600個(gè)8 x V100 GPU的實(shí)例，或是128個(gè)8xA100 GPU的實(shí)例，但若用上16 x Trainium的實(shí)例，則只要96個(gè)。亞馬遜稱Trn1為云端成本效率最高的實(shí)例，這一點(diǎn)還真沒說錯(cuò)。

小結(jié)

GPU一時(shí)半會不會跌落AI訓(xùn)練的神壇，但其他訓(xùn)練芯片的推陳出新證明了他們面對A100和Ponte Vecchio這種大規(guī)模芯片同樣不懼，甚至還有自己獨(dú)到的優(yōu)勢。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
27

文章
4635

瀏覽量
128454
AI

AI

+關(guān)注

關(guān)注
87

文章
29401

瀏覽量
267701

為什么ai模型訓(xùn)練要用gpu

GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng)，已成為AI模型訓(xùn)練不可或缺的重要工具。

發(fā)表于 10-24 09:39 ?61次閱讀

AI大模型的訓(xùn)練數(shù)據(jù)來源分析

AI大模型的訓(xùn)練數(shù)據(jù)來源廣泛且多元化，這些數(shù)據(jù)源對于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對AI大模型訓(xùn)練數(shù)據(jù)來源的分析：一、公開數(shù)據(jù)集公開

發(fā)表于 10-23 15:32 ?135次閱讀

如何訓(xùn)練自己的AI大模型

訓(xùn)練自己的AI大模型是一個(gè)復(fù)雜且耗時(shí)的過程，涉及多個(gè)關(guān)鍵步驟。以下是一個(gè)詳細(xì)的訓(xùn)練流程：一、明確需求和目標(biāo) 首先，需要明確自己的需求和目標(biāo)。不同的任務(wù)和應(yīng)用領(lǐng)域需要不同類型的AI模型

發(fā)表于 10-23 15:07 ?114次閱讀

GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢具體體現(xiàn)在哪些方面？

GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢主要體現(xiàn)在以下幾個(gè)方面： 1、并行處理能力：GPU服務(wù)器擁有大量的并行處理核心，這使得它們能夠同時(shí)處理成千上萬個(gè)計(jì)算任務(wù)，極大地加速

發(fā)表于 09-11 13:24 ?260次閱讀

馬斯克官宣超級AI訓(xùn)練集群Colossus上線

特斯拉CEO埃隆·馬斯克引領(lǐng)的科技巨浪再添新章，其傾力打造的超級AI訓(xùn)練集群Colossus已正式投入運(yùn)營。該集群自7月初步建成以來，已展現(xiàn)出驚人的10萬張H100 GPU算力。而今

發(fā)表于 09-04 16:13 ?297次閱讀

蘋果AI模型訓(xùn)練新動向：攜手谷歌，未選英偉達(dá)

近日，蘋果公司發(fā)布的最新研究報(bào)告揭示了其在人工智能領(lǐng)域的又一重要戰(zhàn)略選擇——采用谷歌設(shè)計(jì)的芯片來訓(xùn)練其AI模型，而非行業(yè)巨頭英偉達(dá)的產(chǎn)品。這一決定在業(yè)界引起了廣泛關(guān)注，尤其是在當(dāng)前英偉達(dá)GPU

發(fā)表于 08-01 18:11 ?862次閱讀

蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

蘋果公司最近在一篇技術(shù)論文中披露，其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型，是在谷歌設(shè)計(jì)的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI訓(xùn)練領(lǐng)域

發(fā)表于 07-30 17:03 ?631次閱讀

AI訓(xùn)練的基本步驟

AI（人工智能）訓(xùn)練是一個(gè)復(fù)雜且系統(tǒng)的過程，它涵蓋了從數(shù)據(jù)收集到模型部署的多個(gè)關(guān)鍵步驟。以下是對AI訓(xùn)練過程的詳細(xì)闡述，包括每個(gè)步驟的具體內(nèi)容，并附有相關(guān)代碼示例（以Python和sc

發(fā)表于 07-17 16:57 ?1276次閱讀

AI初出企業(yè)Cerebras已申請IPO！稱發(fā)布的AI芯片比GPU更適合大模型訓(xùn)練

美國加州，專注于研發(fā)比GPU更適用于訓(xùn)練AI模型的晶圓級芯片，為復(fù)雜的AI應(yīng)用構(gòu)建計(jì)算機(jī)系統(tǒng)，并與阿布扎比科技集團(tuán)G42等機(jī)構(gòu)合作構(gòu)建超級計(jì)算機(jī)?；谄渥钚缕炫炐酒瑯?gòu)建的服務(wù)器可輕松高

發(fā)表于 06-26 00:09 ?2832次閱讀

摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓(xùn)練測試

近日，國內(nèi)知名的GPU制造商摩爾線程與全學(xué)科教育AI大模型“師者AI”聯(lián)合宣布，雙方已成功完成了一項(xiàng)重要的大模型訓(xùn)練測試。此次測試依托摩爾線程夸娥（KUAE）千卡智算集群，充分展現(xiàn)

發(fā)表于 06-14 16:31 ?500次閱讀

AI訓(xùn)練，為什么需要GPU？

隨著由ChatGPT引發(fā)的人工智能熱潮，GPU成為了AI大模型訓(xùn)練平臺的基石，甚至是決定性的算力底座。為什么GPU能力壓CPU，成為炙手可熱的主角呢？要回答這個(gè)問題，首先需要了解當(dāng)前人

發(fā)表于 04-24 08:05 ?1075次閱讀

科技驅(qū)動未來，提升AI算力，GPU擴(kuò)展正當(dāng)時(shí)

GPU可以大幅縮短AI算法的訓(xùn)練和推斷時(shí)間，從而節(jié)省時(shí)間和成本

發(fā)表于 04-16 18:22 ?902次閱讀

國產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用案例一覽

不斷推出新品，產(chǎn)品也逐漸在各個(gè)領(lǐng)域取得應(yīng)用，而且在大模型的訓(xùn)練和推理方面，也有所建樹。 ? 國產(chǎn)GPU在大模型上的應(yīng)用進(jìn)展 ? 電子發(fā)燒友此前就統(tǒng)計(jì)過目前國內(nèi)主要的GPU廠商，也介紹了

發(fā)表于 04-01 09:28 ?3564次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

對神經(jīng)網(wǎng)絡(luò)進(jìn)行任何更改，也不需要學(xué)習(xí)任何新工具。不過你可以保留你的 GPU 用于訓(xùn)練?！?Zebra 提供了將深度學(xué)習(xí)代碼轉(zhuǎn)換為 FPGA 硬件指令的抽象層 AI 硬件前景

發(fā)表于 03-21 15:19

FPGA和CPU、GPU有什么區(qū)別？為什么越來越重要？

，在數(shù)據(jù)中心高性能計(jì)算及 AI 訓(xùn)練中，CPU 這一“主角”的重要性下降，而以往的“配角們”，即 GPU、FPGA、TPU、DPU 等的加速器的重要性在上升。圖3：MLP網(wǎng)絡(luò)本質(zhì)是并行的乘法和累加

發(fā)表于 11-09 14:09

搜索歷史

AI訓(xùn)練勢起，GPU要讓位了？

英偉達(dá)A100

英特爾Gaudi和Ponte Vecchio

亞馬遜Trainium

小結(jié)

評論

為什么ai模型訓(xùn)練要用gpu

AI大模型的訓(xùn)練數(shù)據(jù)來源分析

如何訓(xùn)練自己的AI大模型

GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢具體體現(xiàn)在哪些方面？

馬斯克官宣超級AI訓(xùn)練集群Colossus上線

蘋果AI模型訓(xùn)練新動向：攜手谷歌，未選英偉達(dá)

蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

AI訓(xùn)練的基本步驟

AI初出企業(yè)Cerebras已申請IPO！稱發(fā)布的AI芯片比GPU更適合大模型訓(xùn)練

摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓(xùn)練測試

AI訓(xùn)練，為什么需要GPU？

科技驅(qū)動未來，提升AI算力，GPU擴(kuò)展正當(dāng)時(shí)

國產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用案例一覽

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

FPGA和CPU、GPU有什么區(qū)別？為什么越來越重要？

搜索歷史

AI訓(xùn)練勢起，GPU要讓位了？

英偉達(dá)A100

英特爾Gaudi和Ponte Vecchio

亞馬遜Trainium

小結(jié)

評論

AI訓(xùn)練勢起，GPU要讓位了？