0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU、FPGA和ASIC鏖戰(zhàn)AI推理

E4Life ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2022-03-15 07:39 ? 次閱讀

深度學(xué)習(xí)的概念中,通??梢院?jiǎn)化為兩大工作流,一是訓(xùn)練,二是推理。兩者完美融合才是一個(gè)現(xiàn)代化的完整深度學(xué)習(xí)網(wǎng)絡(luò),缺一不可。訓(xùn)練用于調(diào)整神經(jīng)網(wǎng)絡(luò)模型的參數(shù),從而在給定的數(shù)據(jù)上實(shí)現(xiàn)良好的表現(xiàn);推理則用于執(zhí)行訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)模型,以在新數(shù)據(jù)上獲得輸出。

為了讓一個(gè)模型用于特定的用例,比如圖像識(shí)別、語(yǔ)音識(shí)別等,開發(fā)者必須要先訓(xùn)練這個(gè)模型。一旦模型訓(xùn)練完成后,就可以投入使用(用于推理)。這兩大工作流有著類似的特點(diǎn),但對(duì)硬件資源的要求卻存在一定的差距。

以訓(xùn)練來(lái)說(shuō),硬件需要的是大帶寬大容量的內(nèi)存,所以芯片之間的互聯(lián)相當(dāng)重要,當(dāng)然了這些需求會(huì)極大地增加BOM和功耗。而推理則常用于自然語(yǔ)言處理、推薦系統(tǒng)和語(yǔ)音識(shí)別這樣的實(shí)時(shí)應(yīng)用中,因此必須做到低延遲、高吞吐量,再者由于更加貼近應(yīng)用端,所以低功耗和低成本也是這類AI推理硬件的首選特性。

而這幾年間,不少半導(dǎo)體公司、云服務(wù)廠商和初創(chuàng)AI芯片公司都在AI推理上頻頻布局,甚至收購(gòu)了不少企業(yè)來(lái)放大優(yōu)勢(shì)或補(bǔ)全短板,尤其是“御三家”英偉達(dá)、英特爾AMD。筆者這里特地選擇了三家的代表性產(chǎn)品,以及他們走的不同技術(shù)路線。

市場(chǎng)與生態(tài)的寵兒——GPU王牌部隊(duì)

自英偉達(dá)從2010年推出M2050專業(yè)GPU,并大肆推行GPGPU在AI推理上的應(yīng)用后,英偉達(dá)DGX產(chǎn)品線在AI推理算力上的占比就在一路走高。2020年阿里云、AWS和騰訊云等公有云平臺(tái)中,英偉達(dá)GPU AI推理算力超過(guò)了100 exaflops,也首次奪下了云端CPU統(tǒng)治多年的推理算力寶座,這其中的旗艦就是A100 GPU。

A100 SXM / 英偉達(dá)


我們以旗艦型號(hào)A100 80GB SXM為例,318 TFLOPS的TF32算力,1248 TOPS的INT8算力,80GB的GPU內(nèi)存帶寬達(dá)到了2039GB/s。不僅支持NVLink600GB/s的互聯(lián),也支持64GB/s的PCIe4.0互聯(lián)。A100還可以被分為7個(gè)獨(dú)立的GPU實(shí)例,無(wú)論是端到端AI還是數(shù)據(jù)中心的HPC平臺(tái),都適合該GPU大顯身手。

但A100的缺點(diǎn)也相當(dāng)明顯,第一就是功耗,高達(dá)400W的功耗讓這張卡成了很多AI推理加速器競(jìng)相對(duì)比能效比的對(duì)象。其次就是價(jià)格,高達(dá)一萬(wàn)美元以上的單價(jià)讓不少人望而卻步,至少個(gè)人開發(fā)者使用GPU或基于該GPU的云服務(wù)器的話,不免會(huì)肉疼好一陣了。

靈活的代表——FPGA抵抗軍

對(duì)于AMD來(lái)說(shuō),過(guò)去主要是與英偉達(dá)、英特爾在一些通用計(jì)算領(lǐng)域進(jìn)行交鋒,而在AI訓(xùn)練和推理上,AMD其實(shí)并沒(méi)有推出太多針對(duì)這類應(yīng)用的方案,直到對(duì)Xilinx的收購(gòu)。不可置否的是,AMD在數(shù)據(jù)中心和HPC已經(jīng)嶄露頭角,甚至開始拔尖,但AI推理可以說(shuō)一直是AMD的弱勢(shì)所在。

其實(shí)收購(gòu)的部分原因,也要?dú)w功于Xilinx在AI市場(chǎng)上得天獨(dú)厚的優(yōu)勢(shì),而這種優(yōu)勢(shì)在兩家聯(lián)手之下更加明顯,這一點(diǎn)早在過(guò)去的合作中就可以看出來(lái)。2018年的Xilinx開發(fā)者論壇上,AMD的EPYC CPU和Xilinx的AlveoU250在GoogLeNet CNN框架上實(shí)現(xiàn)了3萬(wàn)張圖片每秒的世界記錄級(jí)吞吐量。目前不少公有云廠商也在用Xilinx的FPGA方案,比如阿里云就有基于XilinxVU9P的方案。

VCK5000 / Xilinx

Xilinx最近也推出了全新的VCK5000AI加速器,該卡基于Xilinx7nm的VersalACAP架構(gòu),專為高吞吐量的AI推理打造。從紙面參數(shù)上看,這張卡好像性能不算強(qiáng)大,在ResNet-50的吞吐量上只能算優(yōu)于英偉達(dá)的T4顯卡,但VCK5000還準(zhǔn)備了一些奇招。

電路中有個(gè)叫做暗硅(DarkSilicon)的概念,指的就是在功耗限制下,處理器電路上常常出現(xiàn)“一方有難,多方看戲”的情況,所以實(shí)際的效能根本達(dá)不到紙面參數(shù)。而Xilinx稱VCK5000將實(shí)際效率推至90%,相較英偉達(dá)GPU普遍低于50%的效率可謂秒殺了,甚至高過(guò)A100。成本上,VCK5000的單價(jià)也做到了2745美元,從性價(jià)比和TCO來(lái)說(shuō),F(xiàn)PGA方案可以說(shuō)是真香了。

初創(chuàng)公司首選——ASIC異軍突起

作為英特爾在2019年收購(gòu)的一家以色列人工智能公司,Habana倒是很少出現(xiàn)在人們的視線中,遠(yuǎn)不如同被英特爾收購(gòu)的以色列自動(dòng)駕駛芯片公司Mobileye或是晶圓代工廠TowerSemiconductor那般高調(diào),但他們給英特爾帶來(lái)的AI方案還是有點(diǎn)東西的。

HL-100 / Habana


Habana擁有兩大產(chǎn)品線,一是主打訓(xùn)練的Gaudi系列,二是主打推理的Goya系列。雖然兩者采用了不同的芯片設(shè)計(jì),但仍基于相同的基本架構(gòu)(TPC),只不過(guò)是針對(duì)兩種工作負(fù)載做了優(yōu)化而已。同樣以ResNet50的吞吐量作為比較,在Batch大小為10時(shí),基于Goya的HL-100加速卡可以做到15488張圖片每秒的吞吐量,更吃驚的是其延遲可以做到0.8ms。對(duì)于延遲敏感型應(yīng)用來(lái)說(shuō),Goya很可能就是最佳的選擇。

不過(guò)HL-100的TPC還只是基于臺(tái)積電的16nm工藝而已,而基于更先進(jìn)的工藝的TPC和HL-200系列遲遲沒(méi)有消息公布。不知是不是Habana打算在新產(chǎn)品上直接用上英特爾的工藝。

孰優(yōu)孰劣?還是取決于生態(tài)和市場(chǎng)選擇

要想對(duì)比這三家AI推理加速器的性能著實(shí)有些困難,且不說(shuō)三者在規(guī)模和功耗上的不同,所用系統(tǒng)、軟件、模型、數(shù)據(jù)集和測(cè)試環(huán)境也都是各不一樣。那么對(duì)于AI開發(fā)者來(lái)說(shuō),應(yīng)該如何選擇呢?我們不妨從市場(chǎng)和生態(tài)的角度來(lái)看。

首先是市場(chǎng)的主流選擇,無(wú)疑目前市面應(yīng)用占比最多的還是英偉達(dá)旗下的加速器,這在數(shù)據(jù)中心和超算等場(chǎng)景中都能看出來(lái),無(wú)論是訓(xùn)練還是推理,云服務(wù)廠商推出最多的旗艦實(shí)例基本都是基于英偉達(dá)的A100、A30等GPU,在其TensorRT推理框架的大力推動(dòng)下,英偉達(dá)占據(jù)了絕對(duì)的主導(dǎo)位置。然而作為通用方案,英偉達(dá)的A100在總體性能上雖然不錯(cuò),但泛用性還是無(wú)法覆蓋到一些特定的應(yīng)用。比如主打超低延遲或超高吞吐量的場(chǎng)景,可能還是不如FPGA或推理專用ASIC給到的吸引力高,更不用說(shuō)這些方案在成本上的優(yōu)勢(shì)了。

反觀Xilinx的VCK5000,單純比算力的話,F(xiàn)PGA與GPU、ASIC相比優(yōu)勢(shì)不大,倒是FPGA的可編程靈活性為開發(fā)帶來(lái)了不少便利,可隨時(shí)更新和優(yōu)化硬件加速而無(wú)需重新設(shè)計(jì)硬件。但不少AI開發(fā)者可能看到Xilinx這個(gè)大名就望而生畏,紛紛表示自己一個(gè)深度學(xué)習(xí)“煉丹師”,可不想學(xué)Verilog之類的RTL編程設(shè)計(jì)。這也是為何英特爾和Xilinx等FPGA廠商近年來(lái)開始在軟件上發(fā)力的原因,像Xilinx Vitis這樣的統(tǒng)一軟件,可以說(shuō)給了一個(gè)面向全平臺(tái)開發(fā)者的方案,直接支持到Pytorch和TensorFlow這些主流的框架和模型。

至于Habana的Goya這種產(chǎn)品形式,其實(shí)是目前不少初創(chuàng)公司走的路線。與以上GPU和FPGA方案相比,他們?cè)谲浖_發(fā)上要花費(fèi)更多的心力,所以不少初創(chuàng)企業(yè)的AI加速器支持的框架和模型都不是太多,支持的程度也尚未完善。至于市場(chǎng)反響來(lái)看,Goya也不比Habana的Gaudi訓(xùn)練加速器,后者已經(jīng)有了基于該硬件的AWS實(shí)例,而Goya目前已知的應(yīng)用還是超算。未來(lái)Goya面向的,可能還是比較“?!钡膱?chǎng)景。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1624

    文章

    21573

    瀏覽量

    600704
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4640

    瀏覽量

    128480
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29438

    瀏覽量

    267755
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FPGAASIC的優(yōu)缺點(diǎn)比較

    FPGA(現(xiàn)場(chǎng)可編程門陣列)與ASIC(專用集成電路)是兩種不同的硬件實(shí)現(xiàn)方式,各自具有獨(dú)特的優(yōu)缺點(diǎn)。以下是對(duì)兩者優(yōu)缺點(diǎn)的比較: FPGA的優(yōu)點(diǎn) 可編程性強(qiáng) :FPGA具有高度的可編程
    的頭像 發(fā)表于 10-25 09:24 ?66次閱讀

    什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢(shì)是什么?

    AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合來(lái)滿足高吞吐量互聯(lián)的需求,為自然語(yǔ)言處
    的頭像 發(fā)表于 09-21 11:43 ?369次閱讀

    自動(dòng)駕駛?cè)笾髁餍酒軜?gòu)分析

    當(dāng)前主流的AI芯片主要分為三類,GPU、FPGAASIC。GPU、FPGA均是前期較為成熟的芯
    的頭像 發(fā)表于 08-19 17:11 ?1285次閱讀
    自動(dòng)駕駛?cè)笾髁餍酒軜?gòu)分析

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于 GPU 上進(jìn)行
    的頭像 發(fā)表于 04-20 09:39 ?582次閱讀

    到底什么是ASICFPGA?

    上一篇文章,小棗君給大家介紹了CPU和GPU。今天,我繼續(xù)介紹計(jì)算芯片領(lǐng)域的另外兩位主角——ASICFPGA。█ASIC(專用集成電路)上篇提到,
    的頭像 發(fā)表于 04-16 08:05 ?210次閱讀
    到底什么是<b class='flag-5'>ASIC</b>和<b class='flag-5'>FPGA</b>?

    AI服務(wù)器異構(gòu)計(jì)算深度解讀

    AI服務(wù)器按芯片類型可分為CPU+GPU、CPU+FPGA、CPU+ASIC等組合形式,CPU+GPU是目前國(guó)內(nèi)的主要選擇(占比91.9%)
    發(fā)表于 04-12 12:27 ?517次閱讀
    <b class='flag-5'>AI</b>服務(wù)器異構(gòu)計(jì)算深度解讀

    fpgaasic的區(qū)別

    FPGA(現(xiàn)場(chǎng)可編程門陣列)和ASIC(專用集成電路)是兩種不同類型的集成電路,它們?cè)谠O(shè)計(jì)靈活性、制造成本、應(yīng)用領(lǐng)域等方面有著顯著的區(qū)別。
    的頭像 發(fā)表于 03-26 15:29 ?1567次閱讀

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行任何更改,也不需要學(xué)習(xí)任何新工具。不過(guò)你可以保留你的 GPU 用于訓(xùn)練?!?Zebra 提供了將深度學(xué)習(xí)代碼轉(zhuǎn)換為 FPGA 硬件指令的抽象層 AI 硬件前景
    發(fā)表于 03-21 15:19

    汽車通信芯片匯總梳理

    一、CPU/GPU/FPGA/ASIC芯片CPU/GPU/FPGA/ASIC芯片是智能汽車的“大
    的頭像 發(fā)表于 02-20 16:44 ?1456次閱讀
    汽車通信芯片匯總梳理

    到底什么是ASICFPGA?

    用在ADAS(高級(jí)駕駛輔助系統(tǒng))和伺服電機(jī)驅(qū)動(dòng)上。 消費(fèi)電子用FPGA,是因?yàn)楫a(chǎn)品迭代太快。ASIC的開發(fā)周期太長(zhǎng)了,等做出東西來(lái),黃花菜都涼了。 FPGA、ASIC、
    發(fā)表于 01-23 19:08

    FPGA、ASIC、GPU誰(shuí)是最合適的AI芯片?

    CPU、GPU遵循的是馮·諾依曼體系結(jié)構(gòu),指令要經(jīng)過(guò)存儲(chǔ)、譯碼、執(zhí)行等步驟,共享內(nèi)存在使用時(shí),要經(jīng)歷仲裁和緩存。 而FPGAASIC并不是馮·諾依曼架構(gòu)(是哈佛架構(gòu))。以FPGA
    發(fā)表于 01-06 11:20 ?1264次閱讀
    <b class='flag-5'>FPGA</b>、<b class='flag-5'>ASIC</b>、<b class='flag-5'>GPU</b>誰(shuí)是最合適的<b class='flag-5'>AI</b>芯片?

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    場(chǎng)景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)在圖像分類、目標(biāo)識(shí)別、人臉識(shí)別、文字識(shí)別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    ASICGPU,誰(shuí)才是AI計(jì)算的最優(yōu)解?

    電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))隨著AI計(jì)算開始有著風(fēng)頭蓋過(guò)通用計(jì)算開始,不少芯片廠商都將其視為下一輪技術(shù)革新。CPU、GPU、FPGAASIC紛紛投入到這輪
    的頭像 發(fā)表于 12-03 08:31 ?1961次閱讀
    <b class='flag-5'>ASIC</b>和<b class='flag-5'>GPU</b>,誰(shuí)才是<b class='flag-5'>AI</b>計(jì)算的最優(yōu)解?

    瞬變對(duì)AI加速卡供電的影響

    圖形處理單元(GPU)、張量處理單元(TPU)和其他類型的專用集成電路(ASIC)通過(guò)提供并行處理能力來(lái)實(shí)現(xiàn)高性能計(jì)算,以滿足加速人工智能(AI)訓(xùn)練和推理工作負(fù)載的需求。
    的頭像 發(fā)表于 11-16 17:23 ?871次閱讀
    瞬變對(duì)<b class='flag-5'>AI</b>加速卡供電的影響

    FPGA和CPU、GPU有什么區(qū)別?為什么越來(lái)越重要?

    ) 的,可以根據(jù)數(shù)據(jù)特點(diǎn)確定處理方式,不需要像 GPU 一樣將輸入的數(shù)據(jù)劃分成 Batch,因此可以做到最低的 時(shí)延,使得 FPGA 在進(jìn)行 AI 推理時(shí)具有非常大的優(yōu)勢(shì)。
    發(fā)表于 11-09 14:09