0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI優(yōu)化的FPGA和GPU的芯片級(jí)對(duì)比

FPGA之家 ? 來(lái)源:FPGA之家 ? 作者:FPGA之家 ? 2021-03-29 14:15 ? 次閱讀

本部分,我們就跟隨作者一起看看Intel Stratix10 NX和Nvidia在這個(gè)領(lǐng)域的利器T4以及V100之間的對(duì)比,過(guò)程分為芯片級(jí)對(duì)比以及系統(tǒng)級(jí)對(duì)比。

本部分一起先來(lái)看看芯片級(jí)對(duì)比

首先來(lái)看下我們的GPU對(duì)手——Nvidia T4和V100分別有320個(gè)和640個(gè)張量核(專門(mén)用于AI工作負(fù)載的矩陣乘法引擎)

Nvidia Tesla T4

Nvidia Tesla V100

下面表格總結(jié)了與Stratix10 NX和這些同代工藝GPU的關(guān)鍵指標(biāo)對(duì)比。 就die尺寸來(lái)說(shuō),V100是Nvidia最大的12nm GPU,幾乎比T4大50%,而Stratix10 NX比兩種GPU都小。

36bc17bc-8ecc-11eb-8b86-12bb97331649.png

首先,文章使用GPU最擅長(zhǎng)處理的工作負(fù)載:通用矩陣乘(GEMM)來(lái)跑GPU的benchmark(什么是GEMM請(qǐng)移步https://spatial-lang.org/gemm),為了測(cè)量最佳的GPU性能,對(duì)每個(gè)器件使用最新的library,這些庫(kù)不會(huì)出錯(cuò),并且分別在使用和不使用張量核的情況下測(cè)試性能。對(duì)于fp32和fp16實(shí)驗(yàn),分別使用CUDA10.0和10.2的CuBLAS庫(kù)進(jìn)行V100和T4。對(duì)于int8,我們使用CUDA10.2中的cuBLASLt庫(kù),這樣可以比cuBLAS庫(kù)獲得更高的int8性能。文章使用Nvidia的官方(高度優(yōu)化)的cuDNN kernel來(lái)處理DL工作負(fù)載,并且分別對(duì)V100和T4使用了從cuDNN7.6.2和7.6.5。 (cuBLAS API,從cuda6.0開(kāi)始;cuBLASLt API,從cuda10.1開(kāi)始)

cuDNN庫(kù)不支持int8計(jì)算kernel,但它們支持將所有模型權(quán)重保存在片上內(nèi)存中。對(duì)于每個(gè)工作負(fù)載、問(wèn)題大小和序列長(zhǎng)度,文章在兩種GPU上運(yùn)行了所有可能的配置組合,如精度{fp32、fp16、int8}、計(jì)算樣式{persistent、non-persistent}、張量核心設(shè)置{enable、disable}。然后,選擇最佳的性能,來(lái)和Stratix10 NX的NPU進(jìn)行比較。 這里因?yàn)槭切酒?jí)對(duì)比,所以只考慮了芯核的計(jì)算效率,不包括任何初始化、芯核啟動(dòng)或主機(jī)-GPU數(shù)據(jù)傳輸開(kāi)銷。

下圖給出了T4和V100 GPU上fp32、fp16和int8精度的GEMM benchmark測(cè)試結(jié)果。結(jié)果表明,相對(duì)于張量核禁用情況(藍(lán)線),啟用張量核(紅線) 可以顯著提高GPU在GEMM上的性能。

3735e1d2-8ecc-11eb-8b86-12bb97331649.png

然而,一個(gè)普遍的趨勢(shì)是,張量核雖然是為GEMM設(shè)計(jì)的,但在矩陣大小為2048或以下情況時(shí)的利用效率明顯不如峰值情況(紅色虛線)。因此要實(shí)現(xiàn)高利用率,除非工作負(fù)載中的矩陣大小非常大,而這在實(shí)際DL工作負(fù)載中并不常見(jiàn)。T4和V100上的張量核都不支持fp32的精度,而是在執(zhí)行乘法運(yùn)算之前,將fp32數(shù)據(jù)轉(zhuǎn)換為fp16。相對(duì)于純fp16 GEMM,這種數(shù)據(jù)轉(zhuǎn)換開(kāi)銷降低了張量核性能。另一個(gè)有趣的情況是,當(dāng)T4張量核在int8模式下工作時(shí),它們需要將輸入矩陣從標(biāo)準(zhǔn)的行/列主要格式轉(zhuǎn)換為特定于張量核的布局。因此,即使在處理非常大的8192×8192矩陣時(shí),在張量核(沒(méi)有標(biāo)記的紅線)上實(shí)現(xiàn)的int8性能還不到峰值性能的45%。

為了更好地理解這種數(shù)據(jù)轉(zhuǎn)換的開(kāi)銷,文章還進(jìn)行了一個(gè)額外的實(shí)驗(yàn),在這個(gè)實(shí)驗(yàn)中,對(duì)張量核進(jìn)行了特殊布局(帶有標(biāo)記的紅線)。即使不算矩陣布局變化的開(kāi)銷,對(duì)于4096×4096及以下的矩陣大小,張量核利用率也小于40%,在6144×6144矩陣中利用率達(dá)到最高為72%。

下面來(lái)看看FPGA上的情況,上圖(Fig.6)的右上角那張圖比較了Stratix10 NX上的NPU性能與具有int8張量核的T4 GPU的性能。為了公平地比較,文章禁用了NPU兩個(gè)輸入矩陣其中一個(gè)的矩陣布局變換,只保留了對(duì)另一個(gè)輸入以及輸出矩陣的布局變換(因?yàn)镹PU以標(biāo)準(zhǔn)格式使用和生成這些矩陣)。

雖然NPU是為矩陣向量運(yùn)算而設(shè)計(jì)的,但它在GEMM工作負(fù)載上仍然實(shí)現(xiàn)了與T4相似的性能,其矩陣大小從512到3072不等(最大的矩陣可以fit進(jìn)片上BRAM)。

最后,一起看看頂級(jí)FPGA和GPU的PK結(jié)果。下圖(Fig.7)將文章在Stratix10 NX上增強(qiáng)型NPU的性能與T4和V100的最佳性能進(jìn)行比較。對(duì)于比較小的batch-3和batch-6情況,F(xiàn)PGA性能總是顯著高于兩個(gè)GPU。FPGA在batch-6(其設(shè)計(jì)為:雙核batch-3)中表現(xiàn)最好,平均性能分別是T4和V100的24.2x和11.7x。

與batch-6相比,F(xiàn)PGA在batch-3上的性能較低,因?yàn)閮蓚€(gè)核中的一個(gè)完全空閑。然而,它仍然比T4和V100分別平均快了22.3x和9.3x。在batch size高于6時(shí),如果batch size不能被6整除,則NPU可能不能被充分利用。例如,在batch size為8、32和256的情況下,NPU最多可以達(dá)到其batch-6性能的67%、89%和99%,而batch size為12、36和258(上圖中的虛線所示)可以達(dá)到100%的效率。在32輸入的中等batch size情況下,NX仍然比T4具有更好的性能,并且與V100性能相當(dāng)。

即使在比較大的batch size情況下,NX的性能也比T4高58%,只比die size更大(大將近一倍)的V100低30%。這些結(jié)果表明,人工智能優(yōu)化的FPGA在低batch實(shí)時(shí)推理中不僅可以實(shí)現(xiàn)比GPU好一個(gè)數(shù)量級(jí)的性能,而且可以在放寬延遲約束下的高batch推理中和GPU匹敵。上圖(Fig.7)中的右下角圖總結(jié)了不同batch size情況下NX相對(duì)于CPU的平均加速情況。

上圖(Fig.7)中的右上角圖顯示了與不同batch大小下的兩個(gè)GPU相比,NX的平均利用率。NX在batch-6中的平均利用率為37.1%,而T4和V100分別僅為1.5%和3%。GPU張量核并非直接互連,它們只能接收來(lái)自本地核內(nèi)寄存器文件的輸入。因此,每個(gè)GPU張量核都必須發(fā)送它的partial result到全局內(nèi)存中,并與其他張量核同步,以結(jié)合這些partial result。然后GPU從全局內(nèi)存中讀取組合好的矢量來(lái)執(zhí)行進(jìn)一步的操作,如激活函數(shù)(activation functions)。

較高的batch size可以攤銷這種同步延遲,但即使在batch-256情況下,T4和V100的利用率分別只有13.3%和17.8%。 另一方面,F(xiàn)PGA在架構(gòu)上也更具優(yōu)勢(shì),其在張量塊之間有專用的用來(lái)做減法的互連, FPGA的可編程布線資源還允許將MVU tile和矢量單元級(jí)引擎級(jí)聯(lián)起來(lái)進(jìn)行直接通信,減少了像GPU中那樣必須通過(guò)內(nèi)存通信的情況。

綜上可以看到,F(xiàn)PGA依靠架構(gòu)優(yōu)勢(shì)和超高的資源利用率,在AI性能PK上對(duì)GPU形成了強(qiáng)勁挑戰(zhàn)。下一篇,我們?cè)賮?lái)一起看看從系統(tǒng)角度,F(xiàn)PGA和GPU的對(duì)比情況以及功耗方面的分析。

原文標(biāo)題:讀《超越巔峰性能:AI優(yōu)化的FPGA和GPU真實(shí)性能對(duì)比》:芯對(duì)芯

文章出處:【微信公眾號(hào):FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1624

    文章

    21539

    瀏覽量

    600518
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29383

    瀏覽量

    267670

原文標(biāo)題:讀<超越巔峰性能:AI優(yōu)化的FPGA和GPU真實(shí)性能對(duì)比>:芯對(duì)芯

文章出處:【微信號(hào):zhuyandz,微信公眾號(hào):FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    實(shí)現(xiàn)芯片級(jí)封裝的最佳熱性能

    電子發(fā)燒友網(wǎng)站提供《實(shí)現(xiàn)芯片級(jí)封裝的最佳熱性能.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 10:22 ?0次下載
    實(shí)現(xiàn)<b class='flag-5'>芯片級(jí)</b>封裝的最佳熱性能

    解決芯片級(jí)功率MOSFET的組裝問(wèn)題

    電子發(fā)燒友網(wǎng)站提供《解決芯片級(jí)功率MOSFET的組裝問(wèn)題.pdf》資料免費(fèi)下載
    發(fā)表于 08-27 11:17 ?0次下載
    解決<b class='flag-5'>芯片級(jí)</b>功率MOSFET的組裝問(wèn)題

    自動(dòng)駕駛?cè)笾髁?b class='flag-5'>芯片架構(gòu)分析

    當(dāng)前主流的AI芯片主要分為三類,GPU、FPGA、ASIC。GPU、FPGA均是前期較為成熟的
    的頭像 發(fā)表于 08-19 17:11 ?1262次閱讀
    自動(dòng)駕駛?cè)笾髁?b class='flag-5'>芯片</b>架構(gòu)分析

    概倫電子宣布正式推出芯片級(jí)HBM靜電防護(hù)分析平臺(tái)ESDi

    近日,概倫電子宣布正式推出芯片級(jí)HBM靜電防護(hù)分析平臺(tái)ESDi和功率器件及電源芯片設(shè)計(jì)分析驗(yàn)證工具PTM,并開(kāi)始在國(guó)內(nèi)外市場(chǎng)廣泛推廣。
    的頭像 發(fā)表于 05-28 10:09 ?464次閱讀

    采用芯片級(jí)封裝的TPS61256xC 3.5 MHz高效升壓轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《采用芯片級(jí)封裝的TPS61256xC 3.5 MHz高效升壓轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 04-18 09:50 ?0次下載
    采用<b class='flag-5'>芯片級(jí)</b>封裝的TPS61256xC 3.5 MHz高效升壓轉(zhuǎn)換器數(shù)據(jù)表

    FPGA芯片你了解多少?

    的缺點(diǎn)。 FPGA和CPU、GPU、ASIC的芯片等核心區(qū)別是其底層邏輯運(yùn)算單元的連線及邏輯布局未固化,用戶可通過(guò) EDA 軟件對(duì)邏輯單元和開(kāi)關(guān)陣列編程,進(jìn)行功能配置,從而去實(shí)現(xiàn)特定功能的集成電路
    發(fā)表于 04-17 11:13

    芯片級(jí)封裝中的3.5MHz高效升壓轉(zhuǎn)換器TPS6125x數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《芯片級(jí)封裝中的3.5MHz高效升壓轉(zhuǎn)換器TPS6125x數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 04-11 15:14 ?0次下載
    <b class='flag-5'>芯片級(jí)</b>封裝中的3.5MHz高效升壓轉(zhuǎn)換器TPS6125x數(shù)據(jù)表

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行任何更改,也不需要學(xué)習(xí)任何新工具。不過(guò)你可以保留你的 GPU 用于訓(xùn)練。” Zebra 提供了將深度學(xué)習(xí)代碼轉(zhuǎn)換為 FPGA 硬件指令的抽象層 AI 硬件前景
    發(fā)表于 03-21 15:19

    fpga芯片和人工智能芯片的區(qū)別

    FPGA芯片和人工智能芯片AI芯片)在設(shè)計(jì)和應(yīng)用上存在一些關(guān)鍵的區(qū)別,這些區(qū)別主要體現(xiàn)在它們的功能、優(yōu)
    的頭像 發(fā)表于 03-14 17:26 ?1053次閱讀

    芯片級(jí)的薄膜電阻和板級(jí)的厚膜電阻都是如何進(jìn)行修調(diào)呢?

    在MEMS某些器件設(shè)計(jì)中,常常需要用到可調(diào)電阻,在板級(jí)電路上可以通過(guò)電位器對(duì)貼片電阻進(jìn)行調(diào)阻,但在芯片級(jí)的薄膜電阻和板級(jí)的厚膜電阻都是如何進(jìn)行修調(diào)呢?
    的頭像 發(fā)表于 02-29 10:44 ?779次閱讀
    在<b class='flag-5'>芯片級(jí)</b>的薄膜電阻和板<b class='flag-5'>級(jí)</b>的厚膜電阻都是如何進(jìn)行修調(diào)呢?

    全球首款芯片級(jí)智能頭盔解決方案

    搭載展銳芯片級(jí)解決方案的智能頭盔可實(shí)現(xiàn): 1. 高標(biāo)準(zhǔn)、高質(zhì)量、高可靠 安全無(wú)小事,智能頭盔的使用環(huán)境復(fù)雜多樣,這要求從硬核內(nèi)芯到硬件模塊都必須高標(biāo)準(zhǔn)、高質(zhì)量、高可靠。紫光展銳的智能頭盔解決方案
    的頭像 發(fā)表于 02-27 13:04 ?315次閱讀
    全球首款<b class='flag-5'>芯片級(jí)</b>智能頭盔解決方案

    Vision Pro芯片級(jí)內(nèi)部拆解分析

    近日國(guó)外知名拆解機(jī)構(gòu)iFixit對(duì)Vision Pro進(jìn)行了芯片級(jí)拆解,結(jié)果顯示該設(shè)備內(nèi)含大量德州儀器(TI)芯片,還有一顆國(guó)產(chǎn)芯片——兆易創(chuàng)新GD25Q80E 1 MB 串行 NOR 閃存。
    的頭像 發(fā)表于 02-21 10:11 ?1148次閱讀
    Vision Pro<b class='flag-5'>芯片級(jí)</b>內(nèi)部拆解分析

    FPGA、ASIC、GPU誰(shuí)是最合適的AI芯片?

    CPU、GPU遵循的是馮·諾依曼體系結(jié)構(gòu),指令要經(jīng)過(guò)存儲(chǔ)、譯碼、執(zhí)行等步驟,共享內(nèi)存在使用時(shí),要經(jīng)歷仲裁和緩存。 而FPGA和ASIC并不是馮·諾依曼架構(gòu)(是哈佛架構(gòu))。以FPGA為例,它本質(zhì)上是無(wú)指令、無(wú)需共享內(nèi)存的體系結(jié)
    發(fā)表于 01-06 11:20 ?1238次閱讀
    <b class='flag-5'>FPGA</b>、ASIC、<b class='flag-5'>GPU</b>誰(shuí)是最合適的<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>?

    IEC61967-2芯片級(jí)RE測(cè)試應(yīng)用筆記

    電子發(fā)燒友網(wǎng)站提供《IEC61967-2芯片級(jí)RE測(cè)試應(yīng)用筆記.pdf》資料免費(fèi)下載
    發(fā)表于 12-14 10:03 ?1次下載
    IEC61967-2<b class='flag-5'>芯片級(jí)</b>RE測(cè)試應(yīng)用筆記

    FPGA和CPU、GPU有什么區(qū)別?為什么越來(lái)越重要?

    ,在數(shù)據(jù)中心高性能計(jì)算及 AI 訓(xùn)練中,CPU 這一“主角”的重要性下降,而以往的“配角們”,即 GPU、FPGA、TPU、DPU 等的加速器的重要性在上升。 圖3:MLP網(wǎng)絡(luò)本質(zhì)是并行的乘法和累加
    發(fā)表于 11-09 14:09