0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Tensor Core深度學(xué)習(xí)核心解析及跑分測試

dKBf_eetop_1 ? 來源:未知 ? 作者:李倩 ? 2018-09-22 08:12 ? 次閱讀

核心解析

不久前,NVIDIA在SIGGRAPH 2018上正式發(fā)布了新一代GPU架構(gòu)——Turing(圖靈),黃仁勛稱Turing架構(gòu)是自2006年CUDA GPU發(fā)明以來最大的飛躍。

Turing架構(gòu)的兩大重要特性便是集成了用于光線追蹤的RT Core以及用于AI計算的Tensor Core,使其成為了全球首款支持實時光線追蹤的GPU。

不過說到AI計算,NVIDIA GPU成為最好的加速器早已是公認(rèn)的事實,但將Tensor Core印上GPU名片的并不是這次的Turing,而是他的上任前輩——Volta。

基于Volta架構(gòu)的Titan V是NVIDIA在計算領(lǐng)域成就的集大成者。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已成為NVIDIA GPU的背后驅(qū)動力,作為最先進(jìn)的計算加速器,它集成了用于機(jī)器學(xué)習(xí)操作的內(nèi)置硬件和軟件加速,深度學(xué)習(xí)能力完全可以被當(dāng)做Titan V和Volta的名片。

Titan V與初代基于開普勒的GeForce GTX Titan已經(jīng)相去甚遠(yuǎn),初代Titan的定位是一款萬能顯卡,既可作為游戲發(fā)燒友的旗艦游戲顯卡,也為專業(yè)消費(fèi)者提供全雙精度浮點(FP64)計算能力。

在Titan V誕生之前,Titan產(chǎn)品線幾乎都是基于這種設(shè)計方法,一顆巨大的GPU核心是NVIDIA“高大全”設(shè)計思路的最好代表。

而在Titan V上,NVIDIA再次擴(kuò)展了大核心的上限。Volta最引人注目的則是其全新的專用處理模塊——Tensor Core(張量計算核心),它與Volta的其他微架構(gòu)改進(jìn),以及支持深度學(xué)習(xí)和高性能計算(HPC)的軟件/框架集成在一起。

憑借面積達(dá)815mm?的巨大GV100核心,Titan這一產(chǎn)品線變得比以往任何時候都更接近工作站級,Titan V在擁有世界最強(qiáng)圖形渲染性能的同時,深度學(xué)習(xí)和高性能計算方面的性能都有了極大的提升,當(dāng)然它的價格也達(dá)到了工作站級的3000美元。

強(qiáng)化算力,重造Titan

除了深度學(xué)習(xí)和通用計算之外,Titan品牌的這次迭代還涉及到其他一些因素。 NVIDIA其實已經(jīng)不太需要通過Titan系列為自己樹立形象,最初的GTX Titan已經(jīng)通過NVIDIA K20Xs為Oak Ridge國家實驗室的Titan超級計算機(jī)提供計算力。況且,Titan系列在產(chǎn)品價格和性能方面也沒有任何特別的競爭壓力。

盡管Titan V的非ECC HBM2顯存和GeForce驅(qū)動程序堆棧都更加面向消費(fèi)者,但該卡仍可直接受益于框架和API的軟件支持,這是NVIDIA深度學(xué)習(xí)開發(fā)整體工作的一部分。

鑒于單路Titan V并不會對服務(wù)器計算卡Quadro GV100產(chǎn)生什么影響,NVIDIA在Titan V上只砍掉了針對服務(wù)器多路互聯(lián)設(shè)計的NVLink高速總線,而主要的計算能力(FP64/FP16/Tensor Core)都被完整保留。

與Pascal及更早期的產(chǎn)品均使用面向PC設(shè)計的GPU以及常規(guī)GDDR5(x)顯存不同,NVIDIA這次選擇了一顆規(guī)模巨大、產(chǎn)量和良品率都不高的服務(wù)器級芯片,有大量的晶體管被花費(fèi)在了非圖形功能上(即Tensor Core),這是NVIDIA在計算領(lǐng)域押下的賭注,NVIDIA已經(jīng)不滿足于只在傳統(tǒng)圖形計算卡和通用計算方面處于領(lǐng)先地位。

由于是首次分析GPU的深度學(xué)習(xí)性能,所以目前市面上還沒有確定一套標(biāo)準(zhǔn)的基準(zhǔn)測試,特別是對于Volta獨特的張量內(nèi)核和混合精度功能。對于Titan V,我們將使用百度DeepBench、NVIDIA的Caffe2 Docker、Stanford DAWNBench和HPE深度學(xué)習(xí)基準(zhǔn)套件(DLBS)來測試。

但是在深入研究這些測試數(shù)據(jù)之前,雷鋒網(wǎng)首先會就深度學(xué)習(xí)、GPU、Volta微架構(gòu)以及深度學(xué)習(xí)性能基準(zhǔn)進(jìn)行一些背景介紹。

GPU與深度學(xué)習(xí)

首先要說明的是,雖然“機(jī)器學(xué)習(xí)”或更通用的“AI”有時可互換用于“深度學(xué)習(xí)”,但從技術(shù)上講,它們各自指的是不同的東西,機(jī)器學(xué)習(xí)是AI的子集,深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)的子集。

深度學(xué)習(xí)是因“深度神經(jīng)網(wǎng)絡(luò)”(Deep Neural Networks)而得名,其最終被設(shè)計為識別數(shù)據(jù)中的模式,產(chǎn)生相關(guān)預(yù)測,接收關(guān)于預(yù)測準(zhǔn)確度的反饋,然后基于反饋進(jìn)行自我調(diào)整。計算發(fā)生在“節(jié)點”上,“節(jié)點”被組織成“層”:原始輸入數(shù)據(jù)首先由“輸入層”處理,“輸出層”推出代表模型預(yù)測的數(shù)據(jù)。兩者之間的任何一層都被稱為“隱藏層”,而“deep”則代表著深度神經(jīng)網(wǎng)絡(luò)有許多隱藏層。

這些隱藏層可以在不斷增加的抽象層次上運(yùn)行,使得它們甚至可以從復(fù)雜的輸入數(shù)據(jù)中提取和區(qū)分非線性特征。一個標(biāo)準(zhǔn)的例子是圖像識別,其中初始層尋找某些邊緣或形狀,這通知后面的層尋找鼻子和眼睛,之后的層可能尋找面部。最后的圖層組合了所有這些數(shù)據(jù)以進(jìn)行分類。

隨著輸入數(shù)據(jù)在模型中向前推進(jìn),計算包括特殊的內(nèi)部參數(shù)(權(quán)重),最后會產(chǎn)生一個表示模型預(yù)測與正確值之間誤差的損失函數(shù)。然后使用此錯誤信息反向運(yùn)行模型以計算將改善模型預(yù)測的權(quán)重調(diào)整,該前向和后向傳遞(或反向傳播)序列包括單個訓(xùn)練迭代。

為了進(jìn)行推斷,這個過程自然地排除了逆向傳遞,最終需要的計算強(qiáng)度比訓(xùn)練模型更小。從這個意義上說,推斷也不太需要像FP32這樣高的精度,并且可以對模型進(jìn)行適當(dāng)?shù)男藜艉蛢?yōu)化,以便在特定的設(shè)備上部署。然而推斷設(shè)備對延遲、成本和功耗變得更加敏感,尤其是在邊緣計算的場景下。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是深度神經(jīng)網(wǎng)絡(luò)的兩個重要子類型。卷積本身是一種操作,將輸入數(shù)據(jù)和卷積核結(jié)合起來形成某種特征映射,轉(zhuǎn)換或過濾原始數(shù)據(jù)以提取特征。

CNN通常是“前饋”的,因為數(shù)據(jù)在沒有循環(huán)的情況下流過各層。而對于RNN(以及像LSTM和GRU這樣的變體)來講,每次計算后都會有一個單獨的權(quán)重循環(huán)回自身,給網(wǎng)絡(luò)一種“記憶”感,這讓網(wǎng)絡(luò)能夠做出有時間意識的預(yù)測,在文本分析等場景中很有用。

由于深度學(xué)習(xí)數(shù)學(xué)可以歸結(jié)為線性代數(shù),因此某些操作可以重寫為對GPU更友好的矩陣間乘法。當(dāng)NVIDIA首次開發(fā)并公布cuDNN時,其中一個重要實現(xiàn)就是將算法降級為矩陣乘法以加速卷積。多年來cuDNN的發(fā)展包括“預(yù)先計算的隱式GEMM”卷積算法,它恰好是觸發(fā)Tensor Core卷積加速的唯一算法。

NVIDIA GPU的優(yōu)勢

對于深度學(xué)習(xí)訓(xùn)練來說,GPU已經(jīng)成為加速器的最佳選擇。大多數(shù)計算本質(zhì)上是并行的浮點計算,即大量的矩陣乘法,其最佳性能需要大量的內(nèi)存帶寬和大小,這些需求與HPC的需求非常一致,GPU正好可以提供高精度浮點計算、大量VRAM和并行計算能力,NVIDIA的CUDA可謂恰逢其時。

CUDA和NVIDIA的計算業(yè)務(wù)的發(fā)展與機(jī)器學(xué)習(xí)的研究進(jìn)展相吻合,機(jī)器學(xué)習(xí)在2006年左右才重新成為“深度學(xué)習(xí)”。GPU加速神經(jīng)網(wǎng)絡(luò)模型相比CPU可提供數(shù)量級的加速,反過來又將深度學(xué)習(xí)重新推廣到如今的流行詞匯。與此同時,NVIDIA的圖形競爭對手ATI在2006年被AMD收購;OpenCL 1.0在2009年才發(fā)布,同年AMD剝離了他們的GlobalFoundries晶圓廠。

隨著DL的研究人員和學(xué)者們成功地使用CUDA來更快地訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,NVIDIA才發(fā)布了他們的cuDNN庫的優(yōu)化深度學(xué)習(xí)原語,其中有很多以HPC為中心的BLAS(基本線性代數(shù)子例程)和相應(yīng)的cuBLAS先例,cuDNN將研究人員創(chuàng)建和優(yōu)化CUDA代碼以提高DL性能的需求抽象出來。至于AMD的同類產(chǎn)品MIOpen,去年才在ROCm保護(hù)傘下發(fā)布,目前也只在Caffe公開發(fā)布。

所以從這個意義上講,盡管NVIDIA和AMD的底層硬件都適合DL加速,但NVIDIA GPU最終成為了深度學(xué)習(xí)的參考實現(xiàn)。

剖析Tensor Core

在關(guān)于Volta混合精度Tensor Core的幾個謎團(tuán)中,一個比較煩人的問題是4 x 4矩陣乘法的能力。Tensor Core是一種新型處理核心,它執(zhí)行一種專門的矩陣數(shù)學(xué)運(yùn)算,適用于深度學(xué)習(xí)和某些類型的HPC。Tensor Core執(zhí)行融合乘法加法,其中兩個4*4 FP16矩陣相乘,然后將結(jié)果添加到4*4 FP16或FP32矩陣中,最終輸出新的4*4 FP16或FP32矩陣。

NVIDIA將Tensor Core進(jìn)行的這種運(yùn)算稱為混合精度數(shù)學(xué),因為輸入矩陣的精度為半精度,但乘積可以達(dá)到完全精度。碰巧的是,Tensor Core所做的這種運(yùn)算在深度學(xué)習(xí)訓(xùn)練和推理中很常見。

Tensor Core雖然在GPU里是全新的運(yùn)算單元,但其實它與標(biāo)準(zhǔn)的ALU流水線并沒有太大差別,只不過Tensor Core處理的是大型矩陣運(yùn)算,而不是簡單地單指令流多數(shù)據(jù)流標(biāo)量運(yùn)算。Tensor Core是靈活性和吞吐量權(quán)衡的選擇,它在執(zhí)行標(biāo)量運(yùn)算時的表現(xiàn)很糟糕,但它可以將更多的操作打包到同一個芯片區(qū)域。

Tensor Core雖然有一定的可編程性,但仍然停留在4*4矩陣乘法累加層面上,并且不清楚累積步驟是如何以及何時發(fā)生的。盡管被描述為進(jìn)行4*4矩陣數(shù)學(xué)運(yùn)算,但實際上Tensor Core運(yùn)算似乎總是使用16*16矩陣,并且操作一次跨兩個Tensor Core進(jìn)行處理。這似乎與Volta架構(gòu)中的其他變化有關(guān),更具體地說,與這些Tensor Core是如何集成進(jìn)SM中有關(guān)。

對于Volta架構(gòu),SM被劃分為四個處理塊或子核。對于每個子核,調(diào)度器每個時鐘向本地分支單元(BRU)、Tensor Core陣列、數(shù)學(xué)分派單元或共享MIO單元發(fā)出一個warp指令,這就首先阻止了Tensor運(yùn)算和其他數(shù)學(xué)運(yùn)算同時進(jìn)行。在利用兩個Tensor Core時,warp調(diào)度器直接發(fā)出矩陣乘法運(yùn)算,并且在從寄存器接收輸入矩陣之后,執(zhí)行4*4*4矩陣乘法。待完成矩陣乘法后,Tensor Core再將得到的矩陣寫回寄存器。

在Tensor Core執(zhí)行實際指令時,即使在使用NVVM IR(LLVM)的編譯器級別上,也僅存在用于warp級矩陣操作的本征,對于CUDA++和PTX ISA,warp級別仍然是唯一級別。加載輸入矩陣的形式是每個扭曲線程持有一個片段,其分布和身份均未指定。從廣義上講,它遵循標(biāo)準(zhǔn)CUDA核心的基于線程級別拼接的GEMM計算的相同模式。

一般而言,給定A*B+C Tensor Core操作,片段由A的8個FP16*2元素(即16個FP16元素)和B的另外8個FP16*2元素,以及FP16累加器的4個FP16*2元素或 FP32累加器的8個FP32元素組成。

在矩陣乘法累加運(yùn)算之后,計算結(jié)果會分散在每個線程的目標(biāo)寄存器片段中,需要在整個范圍內(nèi)統(tǒng)一,如果其中一個warp線程退出,這些低級操作基本上就會失敗。

Citadel LLC團(tuán)隊的低級微基準(zhǔn)測試揭示了許多Volta微體系結(jié)構(gòu)細(xì)節(jié),包括Tensor Core操作和相關(guān)的片段,與輸入矩陣相比,它們都位于寄存器和標(biāo)識中。他們觀察到,子核核心以特定的拼接模式計算矩陣乘法,其中所有32個warp線程都在運(yùn)行。

從概念上講,Tensor Core在4*4子矩陣上運(yùn)行,以計算更大的16*16矩陣。warp線程被分成8組,每組4個線程,每個線程組連續(xù)計算一個8*4塊,總共要經(jīng)過4組的過程,每一個線程組都處理了目標(biāo)矩陣的1/8。

在一個集合中,可以并行完成四個HMMA步驟,每個步驟適用于4*2子塊。這四個線程直接鏈接到寄存器中的那些矩陣值,因此線程組可以處理單個Step 0 HMMA指令,從而一次性計算子塊。

由于矩陣乘法在數(shù)學(xué)上需要對某些行列進(jìn)行復(fù)用,以允許跨所有8*4塊并行執(zhí)行,每個4*4矩陣被映射到兩個線程的寄存器。在計算16*16父矩陣的4*4次子矩陣運(yùn)算中,這將包括將連續(xù)計算的集合相加,形成16*16矩陣中4*8個元素的相應(yīng)塊。盡管Citadel沒有對FP16進(jìn)行測試,但它們發(fā)現(xiàn)FP16 HMMA指令只產(chǎn)生2個步驟,而不是4個步驟,這或許與FP16只占用的較小的寄存器空間有關(guān)。

通過獨立的線程調(diào)度和執(zhí)行,以及warp同步和warp-wide結(jié)果分配,基本的4*4*4 Tensor Core操作轉(zhuǎn)換為半可編程16*16*16混合精度矩陣乘法累加。雖然CUDA 9.1支持32*8*16 and 8*32*16矩陣,但相乘的矩陣都需要相應(yīng)的列和行為16,最終矩陣為32*8或8*32。

Tensor Core的運(yùn)行方式似乎是NVIDIA GEMM計算層次結(jié)構(gòu)的一個硬件實現(xiàn)的步驟,如CUTLASS(用于GEMM操作的CUDA C ++模板庫)中所示。對于傳統(tǒng)的CUDA核心,最后一步需要將warp tile結(jié)構(gòu)分解為由各個線程擁有的標(biāo)量和向量元素。使用WMMA API(現(xiàn)在表示張量核),所有這些都被抽象掉了,只剩下了需要處理的合作矩陣片段加載/存儲和多重積累。積累發(fā)生在一個FMA類型的操作中。

在寄存器級別上,NVIDIA在他們的Hot Chips 2017論文中提到“使用三個相對較小的乘法和累加器數(shù)據(jù)的4*4矩陣,可以執(zhí)行64次乘加運(yùn)算?!倍鰪?qiáng)的Volta SIMT模型的每線程程序計數(shù)器(能夠支持張量核)通常需要每個線程2個寄存器槽。HMMA指令本身會盡可能多復(fù)用寄存器,所以我無法想象寄存器在大多數(shù)情況下不會出現(xiàn)瓶頸。

對于獨立的4*4矩陣乘法累加,Tensor Core陣列在寄存器、數(shù)據(jù)路徑和調(diào)度方面很有核能并沒有物理設(shè)計,它只能用于特定的子矩陣乘法。

無論如何,從NVIDIA的角度來看,Volta不是一顆深度學(xué)習(xí)的專用ASIC,它仍然覆蓋GPGPU的領(lǐng)域,因此保持CUDA可編程Tensor Core適用于GEMM / cuBLAS和HPC是合乎邏輯的。對于CUDA c++的CUTLASS來說,情況更是如此,因為它的WMMA API支持旨在為廣泛的應(yīng)用程序啟用Tensor CoreGEMM操作。從根本上說,NVIDIA深度學(xué)習(xí)硬件加速的發(fā)展與cuDNN(以及cuBLAS)的發(fā)展有很大關(guān)系。

讓FP16適用于深度學(xué)習(xí)

Volta的深度學(xué)習(xí)能力是建立在利用半精度浮點(IEEE-754 FP16)而非單精度浮點(FP32)進(jìn)行深度學(xué)習(xí)訓(xùn)練的基礎(chǔ)之上。

該能力首先由cuDNN 3支持并在Tegra X1的Maxwell架構(gòu)中實現(xiàn),隨后原生半精度計算被引入Pascal架構(gòu)并被稱為“偽FP16”,即使用FP32 ALUs處理成對的FP16指令,理論上可以使每個時鐘的FP16吞吐量增加一倍。這一特性實際上已經(jīng)在Tensor Core處理寄存器中矩陣片段的過程中得到體現(xiàn),其兩個FP16輸入矩陣被收集在8個FP16*2或16個FP16元素中。

就FP32與FP16而言,由于單精度浮點所包含的數(shù)據(jù)多于半精度浮點,因此計算量更大,需要更多的內(nèi)存容量和帶寬來容納和傳輸數(shù)據(jù),并帶來更大的功耗。因此,在計算中成功使用低精度數(shù)據(jù)一直是窮人的圣杯,而目標(biāo)則是那些不需要高精度數(shù)據(jù)的應(yīng)用程序。

除了API/編譯器/框架的支持之外,深度學(xué)習(xí)一直都有在使用FP16數(shù)據(jù)類型時損失精度的問題,這會讓訓(xùn)練過程不夠準(zhǔn)確,模型無法收斂。

據(jù)雷鋒網(wǎng)了解,NVIDIA以前也曾在類似的情況下推出過“混合精度”這一概念,在Pascal的快速FP16(針對GP100)和DP4A/DP2A的整數(shù)點積操作(針對GP102、GP104和GP106 GPU)中,就曾提出過類似的說法。

當(dāng)時人們關(guān)注的是推理能力,就像Titan V的“深度學(xué)習(xí)TFLOPS”一樣,Titan X(Pascal)推出了“44 TOPS(新型深度學(xué)習(xí)推斷指令)”。新的指令對4元8位向量或2元8位/16位向量執(zhí)行整數(shù)點積,從而得到一個32位整數(shù)積,可以與其他32位整數(shù)一起累積。

對于Volta的混合精度而言,重要的精度敏感數(shù)據(jù)(如主權(quán)重)仍然會存儲為FP32;而Tensor Core的混合精度訓(xùn)練則會將兩個半精度輸入矩陣相乘得到一個精度乘積,然后累積成一個精度和。NVIDIA表示,在將結(jié)果寫入內(nèi)存之前,Tensor Core會將結(jié)果轉(zhuǎn)換回半精度,這樣當(dāng)使用半精度格式時,寄存器和存儲器中需要的數(shù)據(jù)更少,這有助于處理超大矩陣中的數(shù)據(jù)。

FP16與FP32所包含的數(shù)據(jù)空間并不相同,歸一化方法可以解決FP32格式數(shù)據(jù)超出FP16可表示范圍的問題。舉個例子,許多激活梯度的值都落在FP16的范圍之外,但由于這些值聚集在一起,因此將損耗乘以縮放因子便可以移動FP16范圍內(nèi)的大部分值。在完成最終的權(quán)重更新之前,將梯度重新縮放到原始范圍,便可以維持其原始的精度。

不過,并非所有的數(shù)學(xué)、神經(jīng)網(wǎng)絡(luò)和層都適用于FP16,通常FP16和Tensor Core的混合精度最適合卷積和RNN重圖像處理等,而對于不適合的神經(jīng)網(wǎng)絡(luò)框架或類型,F(xiàn)P16將默認(rèn)禁用或不推薦使用。

內(nèi)存改進(jìn),SM變化

使用Tensor Core處理混合精度數(shù)據(jù)似乎可以減輕內(nèi)存帶寬問題,但事實證明,盡管Volta在幾乎所有方面都得到了內(nèi)存子系統(tǒng)的增強(qiáng),但幅度并不明顯。

首先,Volta有一個12 KB的L0指令緩存,雖然Pascal及其他之前的GPU核心也有指令緩存,但Volta更高效的L0是子核心SM分區(qū)私有的,因此它對warp調(diào)度器來說也是私有的,這對Volta架構(gòu)更大的指令大小是一種補(bǔ)償,并有可能為支持Tensor Core通道的框架做出貢獻(xiàn)。同時Volta指令延遲也要低于Pascal,特別是核心FMAs從6個周期減少到了4個周期。

隨著每個SM中調(diào)度器比例的增加,砍掉第二個調(diào)度端口似乎是對具有獨立數(shù)據(jù)路徑和數(shù)學(xué)調(diào)度單元的子核心的權(quán)衡。而具備FP32/INT32執(zhí)行能力,也為其他低精度/混合精度模型打開了大門。這些子核方面的增強(qiáng),都是為了優(yōu)化Tensor Core陣列。

另一個重大變化是合并L1緩存和共享內(nèi)存。在同一個塊中,共享內(nèi)存可配置為每SM 最高96 KB。HBM2控制器也進(jìn)行了更新,其效率提高了10~15%。

深度學(xué)習(xí)基準(zhǔn)測試

深度學(xué)習(xí)從框架到模型,再到API和庫,AI硬件的許多部分都是高度定制化的,這樣的新領(lǐng)域有時會讓人非常難以理解。

俗話說“光說不練假把式”,實踐永遠(yuǎn)是檢驗真理的唯一標(biāo)準(zhǔn)。對計算機(jī)來說,介紹的再詳細(xì)也不如真刀真槍跑一下測試,沒有什么比benchmark更能提現(xiàn)硬件的實際表現(xiàn)了。

隨著ImageNet和一些衍生模型(AlexNet、VGGNet、Inception、Resnet等)的影響,ILSVRC2012(ImageNet大規(guī)模視覺識別挑戰(zhàn))中的圖像數(shù)據(jù)集訓(xùn)練逐漸被行業(yè)所認(rèn)可。

現(xiàn)在基本上所有深度學(xué)習(xí)框架都支持CUDA和cuDNN,對于Volta而言,支持FP16存儲的框架也都支持Tensor Core加速,啟用FP16存儲后Tensor Core加速會自動啟用。

在隨后的下篇文章里,我們將通過多項測試來考驗Volta架構(gòu),利用各種深度學(xué)習(xí)框架來了解Tensor Core的性能。

測試篇

本篇將通過多項測試來考驗Volta架構(gòu),利用各種深度學(xué)習(xí)框架來了解Tensor Core的性能。

深度學(xué)習(xí)的基準(zhǔn)測試

很多時候,深度學(xué)習(xí)這樣的新領(lǐng)域會讓人難以理解。從框架到模型,再到API和庫,AI硬件的許多部分都是高度定制化的,因而被行業(yè)接受的公開基準(zhǔn)測試工具很少也就不足為奇。

隨著ImageNet和一些衍生模型(AlexNet、VGGNet、Inception、Resnet等)的影響,ILSVRC2012(ImageNet大規(guī)模視覺識別挑戰(zhàn))中的圖像數(shù)據(jù)集訓(xùn)練逐漸被行業(yè)所認(rèn)可。

基本上所有現(xiàn)代深度學(xué)習(xí)框架都支持CUDA和cuDNN,對于Volta而言,所有支持FP16存儲的框架也都支持Tensor Core加速,啟用FP16存儲后Tensor Core加速會自動啟用,因此我們可以利用這些框架來了解Tensor Core的性能。

在常見的第三方深度學(xué)習(xí)基準(zhǔn)套件中,F(xiàn)athom和TBD是更傳統(tǒng)的基準(zhǔn)測試套件,其測試針對特定框架和模型進(jìn)行了配置,涵蓋了許多不同的機(jī)器學(xué)習(xí)應(yīng)用程序。 同時,最近的深度學(xué)習(xí)框架側(cè)重于比較給定模型和跨框架的數(shù)據(jù)集的性能。

而DeepBench本身并不使用框架,而是使用低級庫來評估不同設(shè)備的機(jī)器學(xué)習(xí)性能。就其本身而言,雖然它并不直接將框架/模型/應(yīng)用程序性能與其他測試聯(lián)系在一起,但它提供了代表供應(yīng)商優(yōu)化的數(shù)學(xué)操作和硬件性能的指標(biāo),每個產(chǎn)品的二進(jìn)制文件都使用硬件供應(yīng)商提供的庫進(jìn)行編譯。

DAWNBench則更加與眾不同,與其說它是一個基準(zhǔn)測試套件,不如說是對三個數(shù)據(jù)集(ImageNet、CIFAR10和SQuAD)的訓(xùn)練和推斷結(jié)果進(jìn)行類似于競賽的報告,重點考量端對端的計算精確度和成本。

至于HPE DLBS,作為HPE深度學(xué)習(xí)指南的一部分,它主要以GPU為中心,堅持使用TensorFlow、MXNet、PyTorch和Caffe類型框架,還包括TensorRT測試。雖然其具有良好的多測試批處理、日志記錄、監(jiān)控和報告功能,但它只輸出純粹的性能和時間指標(biāo),不涉及端對端的時間精度或成本。

從這些基準(zhǔn)測試軟件中可以看出,深度學(xué)習(xí)框架之間的差異很容易使測試結(jié)果變得毫無意義,從而影響我們對這些框架的研究。convnet-benchmark和PyTorch的創(chuàng)始人Soumith Chintala指出,如果沒有機(jī)器學(xué)習(xí)的背景,很難獨立地驗證深度學(xué)習(xí)基準(zhǔn)測試的準(zhǔn)確性和范圍,不過MLPerf測試項目似乎試圖解決這個問題。

MLPerf是由DAWNBench等測試軟件的設(shè)計者和工程師聯(lián)合打造的全新高端基準(zhǔn)測試套件,希望囊括Fathom的跨域測試方法以及DAWNBench對超過閾值精度模型的端對端計算時間考察。不過它目前正在處于alpha階段,開發(fā)團(tuán)隊表示其尚不適合進(jìn)行精確的硬件對比。

綜合考慮之下,本次測試將不包含MLPerf項目,而是使用DeepBench、Caffe2 Docke、Stanford DAWN和HPE DLBS來進(jìn)行。

DeepBench訓(xùn)練測試之GEMM和RNN

首先進(jìn)行的是GEMM測試,利用某些深度學(xué)習(xí)應(yīng)用程序(DeepSpeech、Speaker ID和Language Modeling)中的內(nèi)核進(jìn)行GEMM操作,測出的性能比在cuBLAS中運(yùn)行純矩陣-矩陣乘法更有代表性。

測試的結(jié)果在意料之內(nèi),啟用Tensor Core可以大幅提升性能。深入研究細(xì)節(jié)可以發(fā)現(xiàn),Tensor Core對于特定類型的矩陣-矩陣乘法會有特別的影響。

通過深度學(xué)習(xí)應(yīng)用程序拆分GEMM測試,我們可以了解Tensor Core在理想和非理想情況下的表現(xiàn)。

Speaker ID GEMM工作負(fù)載實際上只包含兩個內(nèi)核,其中10微秒的時間差意味著大約1 TFLOPS的算力差異。

通過對語言模型內(nèi)核的研究,可以了解Tensor Core在非理想情況下的性能。這些核矩陣的大小是m=512或1024,n=8或16,k=500000,雖然每個數(shù)在技術(shù)上都可以被8整除——這是滿足張量核加速度的基本要求之一——但這些矩陣的形狀與Tensor Core支持的16*16*16、32*8*16和8*32*16等基本W(wǎng)MMA形狀不太匹配。假如Tensor Core真正在獨立的8x8x8級別上運(yùn)行,那么運(yùn)算8*8*8矩陣的性能也不會很好。

因此,Tensor Core無法高效的將這些非常不平衡的矩陣分解為n=8或16。而且,Tensor Core在DeepSpeech內(nèi)核上的性能也出現(xiàn)異常:

從所有子項的平均成績來看,這個浮點運(yùn)算性能令人印象深刻。當(dāng)矩陣適合于Tensor Core時,性能可以超過90TFLOPS;相反如果二者無法契合,并正確的換位沒有發(fā)揮作用,性能會低至<1TFLOPS的水平。

對于DeepBench RNN內(nèi)核的測試,RNN類型之間沒有明顯的差異,但是在每種RNN類型中,如果將不同內(nèi)核挨個進(jìn)行對比判斷,也可以看到與GEMM中相同的趨勢。

比較有趣的是,Titan Xp與Titan V在未使用Tensor Core加速時的表現(xiàn)有很接近,Titan Xp的高頻率為其性能起到了一定的幫助。

DeepBench訓(xùn)練測試之Convolutions

在卷積訓(xùn)練工作負(fù)載測試中,Tensor Core再次顯著提高了性能。鑒于卷積層是圖像識別和分類的基礎(chǔ),因而卷積運(yùn)算是Tensor Core加速的最大潛在受益者之一。

從所有測試項的平均成績可以看出,Volta在啟用了Tensor Core的FP16混合精度運(yùn)算能力后性能再次取得了領(lǐng)先。不過與GEMM不同,在FP32卷積上啟用Tensor Core會導(dǎo)致明顯的性能損失。

當(dāng)計算涉及不匹配的張量尺寸時,標(biāo)準(zhǔn)精度模式遵循cuDNN指定的最快前向算法(如Winograd),而混合精度模式必須對所有內(nèi)核使用隱式預(yù)計算GEMM,這會造成兩種混合精度模式的性能會出現(xiàn)下滑。

要符合Tensor Core加速的要求,輸入和輸出通道尺寸必須是8的倍數(shù),輸入、過濾和輸出數(shù)據(jù)的類型必須是半精度。使用Tensor Core實現(xiàn)卷積加速要求張量采用NHWC格式,但大多數(shù)框架都希望采用NCHW格式的張量。在這種情況下,輸入通道不是8的倍數(shù),但測試程序會自動填充以解決此問題。

需要注意的是,所有這些NCHW內(nèi)核都需要轉(zhuǎn)換為NHWC。想要從Tensor Core中受益,需要正確的調(diào)整卷積格式,本次測試使用的是NVIDIA提供的標(biāo)準(zhǔn)庫和makefile。NVIDIA指出,一旦進(jìn)行加速卷積,它會消耗掉相當(dāng)多的運(yùn)行時間,這將會對FP32和FP16混合精度模式造成影響。

DeepBench推理測試之GEMM

數(shù)據(jù)精度方面,百度將DeepBench GEMM和卷積定義支持32bit累加的INT8格式,以支持Volta和Pascal上的INT8計算。

Titan V和Titan Xp均擁有4倍于INT32的INT8性能,DeepBench的INT8推理測試正中Pascal引入的DP4A矢量點積能力之下懷。Volta同樣擁有這一能力,在指令集中二者均顯示為IDP和IDP4A。

對IGEMM來說,正如CUTLASS所示,DP4A是一項定制操作。因此除語言建模之外,INT8的性能都非常之高。當(dāng)然,與硬件不匹配的張量尺寸不適合Tensor Core加速,這一點與之前完全一樣。

在完全連接(仿射)層中,每個節(jié)點都與前一層中的各節(jié)點相連接。對于一個典型的CNN來說,完全連接的層意味著可以結(jié)合所有提取的特征做出最終預(yù)測并對圖像進(jìn)行分類。這些測試結(jié)果數(shù)據(jù)也意味著大型且規(guī)則的矩陣可以在Tensor Core加速中獲得更大的收益。

DeepBench推理測試之Convolutions

再次來到卷積測試環(huán)節(jié),8位乘法/32位累加再次出現(xiàn)在INT8推理中。

測試中最引人注目的是Titan Xp,在Resnet、Speaker ID和Vision項目中,Titan Xp表現(xiàn)出了強(qiáng)勁的INT8吞吐量。

從內(nèi)核方面來看,并沒有發(fā)現(xiàn)這一現(xiàn)象的根源所在,猜測可能是由于Pascal的DP4A庫好驅(qū)動程序比Volta更為成熟所致,亦或許是Volta通過單獨的INT單元處理這些運(yùn)算。

DeepBench推理測試之RNN和Sparse GEMM

DeepBench的最后一項推理測試是RNN和Sparse GEMM,雖然測試中可以選擇FP16,但實際上它們都只支持FP32運(yùn)算。

雖然RNN可能會有加速,但DeepBench和NVIDIA目前僅支持單精度RNN推理。

NVIDIA Caffe2測試之ResNet50和ImageNet

雖然內(nèi)核和深度學(xué)習(xí)數(shù)學(xué)運(yùn)算可能很有用,但實際應(yīng)用中是使用真實數(shù)據(jù)集進(jìn)行訓(xùn)練的。使用標(biāo)準(zhǔn)的ILSVRC 2012圖片集,在ImageNet上通過ResNet50模型來訓(xùn)練和推斷,可以展示更具參考的性能數(shù)據(jù)。

雖然FP16和Tensor Core有單獨的開關(guān),但Titan V在啟用和禁用Tensor Core的情況下運(yùn)行FP16的性能是完全一樣的。

只看原始吞吐量性能的話,Titan V在所有批尺寸下都處于領(lǐng)先地位。憑借Tensor Core,Titan V可處理的批尺寸達(dá)到甚至超過了64,而其他顯卡即便有12 GB顯存也無法與之相比。

不過只看原始吞吐量性能的問題在于,深度學(xué)習(xí)的實際性能從來沒有這么簡單。首先,許多模型可能會犧牲精度和訓(xùn)練時間以換取針對吞吐量的優(yōu)化,如果模型需要較長的時間來收斂,那么每秒訓(xùn)練的峰值性能就沒有參考意義了。

這些問題與使用FP16存儲和Tensor Core的Volta尤為相關(guān),如果在實際應(yīng)用中使用了有損縮放或單精度批量歸一化,這在吞吐量性能中都是無法體現(xiàn)的。

HPE DLBS Caffe2測試之ResNet50和ImageNet

接下來,我們看一下深度學(xué)習(xí)指南中的HPE DLBS。與通常的深度學(xué)習(xí)測試不同,HPE DLBS基本上只輸出吞吐量和時間指標(biāo)。

HPE DLBS的一大特色是支持NVIDIA Caffe2測試使用的數(shù)據(jù)集,我們同樣可以在ImageNet上使用ResNet50模型來訓(xùn)練和推斷。但是由于二者的模型和實現(xiàn)不同,測出的吞吐量性能無法與NVIDIA Caffe2直接進(jìn)行比較。

在測試中,Titan V無法支持某些特定的批尺寸,但總體趨勢和之前的測試基本相同,F(xiàn)P16和Tensor Core提供了更高的吞吐量。不過遺憾的是,HPE DLBS Caffe2測試似乎不支持INT8推理。

HPE DLBS TensorRT測試之ResNet50和ImageNet

HPE DLBS的另一大特色是支持TensorRT(NVIDIA推理優(yōu)化引擎)的基準(zhǔn)測試功能, NVIDIA近年來已將TensorRT與新的深度學(xué)習(xí)功能(如INT8/DP4A和Tensor Core的16位累加器模式)相結(jié)合以進(jìn)行推理。

使用Caffe模型,TensorRT可以根據(jù)需要調(diào)整模型,以便在給定的精度下進(jìn)行推理。我們在Titan X(Maxwell)和Titan Xp(Pascal)上運(yùn)行了64、512和1024的批尺寸,在Titan V運(yùn)行了128、256和640的批尺寸。

Titan Xp的高INT8性能在一定程度上印證了GEMM/卷積性能,這兩個工作負(fù)載似乎都在使用DP4A。不過雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))并未了解到DP4A如何在Titan V上實現(xiàn),只知道它由Volta指令集提供支持,且Volta確實擁有獨立的INT32單元。

DAWNBench測試之CIFAR10圖像分類

就實際應(yīng)用的性能而言,深度學(xué)習(xí)訓(xùn)練更適合用時間/準(zhǔn)確性和成本來描述,而這兩點分別對應(yīng)DAWNBench的兩項子測試。對于使用CIFAR10的圖像分類來說,這兩項子測試為:

時間/準(zhǔn)確性:訓(xùn)練CIFAR10數(shù)據(jù)集的圖像分類模型,報告訓(xùn)練所需的時間,且要求測試集準(zhǔn)確性至少為94%。

成本:在公共云基礎(chǔ)架構(gòu)上,計算達(dá)到94%或更高的測試集準(zhǔn)確性所需的總時間,將所花費(fèi)的時間(以小時為單位)乘以每小時實例的成本,以獲得訓(xùn)練模型的總成本。

測試選用PyTorch的CIFAR10訓(xùn)練實現(xiàn)中最快的兩個,其中一個基于ResNet34,是為了在NVIDIA GeForce GTX 1080 Ti上運(yùn)行,而第二個基于ResNet18,是為了在單個Tesla V100上運(yùn)行。這些都是DAWNBench中最近的熱門測試,可以認(rèn)為它們是相當(dāng)符合現(xiàn)代的項目,同時CIFAR10也不是一個非常密集的數(shù)據(jù)集。

CIFAR10的小型圖像數(shù)據(jù)集運(yùn)行良好,第一個訓(xùn)練實現(xiàn)是在單個GTX 1080 Ti上運(yùn)行,需要35分37秒才能訓(xùn)練到94%的準(zhǔn)確性,而在第二個訓(xùn)練實現(xiàn)中,Titan V只用了5分41秒就完成了94%的目標(biāo)。

順帶一提,雖然Titan V在第一個訓(xùn)練實現(xiàn)中不會使用Tensor Core,但憑借相對于Pascal的一般改進(jìn),Titan V在這個測試中的速度依然比Titan Xp快20%左右,同時系統(tǒng)峰值功耗也下降了大約80W。

結(jié)語

Tensor Core是Titan V的重要組成部分,本文的目的也是盡可能的了解Volta,所以測試著重考察了Tensor Core加速。

本次測試還有許多沒有涉及到的各種其他測試和套件,它們普遍在設(shè)計上有太多欠缺。事實證明,無論從整體還是局部來看,都不可能找到一個負(fù)載貼合當(dāng)下實際、提供端到端指標(biāo)、覆蓋多個機(jī)器學(xué)習(xí)域、支持Tensor Core和混合精度,最重要的是易于非專業(yè)開發(fā)者使用的深度學(xué)習(xí)套件。

即便是參考價值較大的DAWNBench,設(shè)計本意也并非提供一個通用的基準(zhǔn),而是為方便研究者和開發(fā)者創(chuàng)建他們自己的實現(xiàn)。DAWNBench的深度學(xué)習(xí)框架仍然需要修改以作為一款有效的基準(zhǔn)測試使用,但重新配置一個與Volta兼容的混合精度模型就不是一件可以輕松完成的事情。

這實際上與Titan V自身相關(guān),Tensor Core和混合精度需要專門的開發(fā)來適配支持,只能在特定情況下明顯提升性能,而且即便用戶的代碼和數(shù)據(jù)集可以與Tensor Core良好的匹配,到頭來神經(jīng)網(wǎng)絡(luò)處理也會受到來自傳統(tǒng)ALU的限制。

而對于主流消費(fèi)者群體來說,Tensor Core的發(fā)展對他們意味著什么?

最新的Turing架構(gòu)證明,Tensor Core在游戲卡領(lǐng)域同樣可以有所應(yīng)用。RTX光線追蹤技術(shù)就是使用Tensor Core對圖像進(jìn)行降噪以彌補(bǔ)光線數(shù)量的限制。NVIDIA唯一需要考慮的問題是,這些玩家是否樂意為這些Tensor Core買單。

對于任何考慮購買Titan V以滿足計算需求的人來說,投資Titan V就意味著投資混合精度深度學(xué)習(xí)模型和基于WMMA的HPC GEMM加速。在cuDNN、cuBLAS以及早期DP4A和FP16*2混合精度計算的背景下,Tensor Core是試圖用可編程硬件來實現(xiàn)深度學(xué)習(xí)加速的一種自然進(jìn)化。

可以肯定的是,Titan V絕對代表了NVIDIA對未來GPGPU的愿望。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4726

    瀏覽量

    100311
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4632

    瀏覽量

    128442
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5436

    瀏覽量

    120790

原文標(biāo)題:干貨!NVIDIA Tensor Core深度學(xué)習(xí)核心解析及跑分測試

文章出處:【微信號:eetop-1,微信公眾號:EETOP】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    總結(jié)深度學(xué)習(xí),GPU推理性能提升的三大因素

    2017年,英偉達(dá)推出了適用于深度學(xué)習(xí)的Volta架構(gòu),它的設(shè)計重點之一是可以更好地分?jǐn)傊噶铋_銷。Volta架構(gòu)中引入了Tensor Core,用于
    發(fā)表于 09-21 10:35 ?3272次閱讀

    NVIDIA火熱招聘深度學(xué)習(xí)/高性能計算解決方案架構(gòu)師

    目前NVIDIA在中國熱招解決方案架構(gòu)師, 該崗位致力于協(xié)同客戶經(jīng)理將NVIDIA最新的深度學(xué)習(xí)/高性能計算解決方案與技術(shù)帶給我們的客戶, 幫助客戶通過實施
    發(fā)表于 08-25 17:02

    NVIDIA火熱招聘深度學(xué)習(xí) (Deep Learning) 達(dá)人

    在此附上NVIDIA深度學(xué)習(xí)亞太區(qū)相關(guān)職位的招聘信息,有意向或想查看詳細(xì)工作說明的朋友歡迎發(fā)送英文簡歷或來信至 allelin@nvidia.com Wechat :hrallenli
    發(fā)表于 08-25 17:04

    NVIDIA 招聘 軟件測試篇(深圳、上海)

    NVIDIA企業(yè)級產(chǎn)品的驗證,測試2.輔助NVIDIA測試框架的設(shè)計,實現(xiàn)3.精通Linux系統(tǒng)及相關(guān)指令4.熟悉python,能用python寫自動化
    發(fā)表于 03-21 16:09

    Windows 2016核心是否支持Nvidia?

    你好,我們目前在我們的DC中運(yùn)行4個Nvidia M60刀片。我們的正常設(shè)置是Server 2016核心版。這是否支持Nvidia?謝謝。克。馬克斯以上來自于谷歌翻譯以下為原文Hello,We
    發(fā)表于 09-28 16:36

    NVIDIA深度學(xué)習(xí)平臺

    為幫助數(shù)據(jù)科學(xué)家和開發(fā)人員充分利用深度學(xué)習(xí)領(lǐng)域中的機(jī)遇,NVIDIA為其深度學(xué)習(xí)軟件平臺發(fā)布了三項重大更新,它們分別是
    發(fā)表于 08-06 15:00 ?1917次閱讀

    NVIDIA Volta GPU中內(nèi)置的Tensor Core GPU架構(gòu)是NVIDIA深度學(xué)習(xí)平臺的巨大進(jìn)步

    Tensor Core所運(yùn)行的張量應(yīng)位于存儲器的channel-interleaved型數(shù)據(jù)布局(數(shù)量-高度-寬度-通道數(shù),通常稱為NHWC),以實現(xiàn)最佳性能。訓(xùn)練框架預(yù)期的內(nèi)存布局是通道主序的數(shù)據(jù)
    的頭像 發(fā)表于 05-21 17:35 ?9151次閱讀
    <b class='flag-5'>NVIDIA</b> Volta GPU中內(nèi)置的<b class='flag-5'>Tensor</b> <b class='flag-5'>Core</b> GPU架構(gòu)是<b class='flag-5'>NVIDIA</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>平臺的巨大進(jìn)步

    浪潮AI超級服務(wù)器AGX-5專為AI深度學(xué)習(xí)和高性能計算性能擴(kuò)展設(shè)計

    AGX-5專為解決當(dāng)前AI深度學(xué)習(xí)和高性能計算的性能擴(kuò)展難題而設(shè)計,單機(jī)在8U空間配置16顆目前性能最強(qiáng)的NVIDIA Tesla V100 Tensor
    發(fā)表于 11-18 10:30 ?2254次閱讀

    AWS近日宣布將采用NVIDIA T4 Tensor Core GPU,計劃將于未來幾周內(nèi)推出。

    全新實例搭配AWS Marketplace上的NVIDIA CUDA-X AI 加速軟件,適用于經(jīng)濟(jì)高效的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和圖形處理。
    的頭像 發(fā)表于 04-03 09:01 ?2815次閱讀

    騰訊云正式發(fā)布了基于NVIDIA T4的虛擬GPU計算產(chǎn)品

    基于多精度支持,NVIDIA T4擁有可加速深度學(xué)習(xí)訓(xùn)練和推理、機(jī)器學(xué)習(xí)以及數(shù)據(jù)科學(xué)工作負(fù)載的 Tensor
    的頭像 發(fā)表于 12-13 10:37 ?4129次閱讀

    NVIDIA安培大核心GPU已集合多個國內(nèi)廠商技術(shù)

    NVIDIA今天在GTC大會上宣布,多家中國頂級云服務(wù)提供商、系統(tǒng)制造商都部署了NVIDIA A100 Tensor Core GPU、NVIDIA
    的頭像 發(fā)表于 12-16 10:21 ?3114次閱讀

    阿里云震旦異構(gòu)計算加速平臺基于NVIDIA Tensor Core GPU

    阿里云震旦異構(gòu)計算加速平臺基于NVIDIA Tensor Core GPU,通過機(jī)器學(xué)習(xí)模型的自動優(yōu)化技術(shù),大幅提升了算子的執(zhí)行效率,刷新了NVID
    的頭像 發(fā)表于 08-13 10:17 ?3553次閱讀

    通過深度學(xué)習(xí)模型預(yù)測轉(zhuǎn)移性癌癥風(fēng)險

      實驗在 UT 西南醫(yī)學(xué)中心生物高性能混凝土集群上進(jìn)行,并使用CUDA – 加速 NVIDIA V100 Tensor Core GPU。他們在 170 萬個細(xì)胞圖像上訓(xùn)練了多種深度
    的頭像 發(fā)表于 04-08 09:39 ?5765次閱讀

    火山引擎機(jī)器學(xué)習(xí)平臺與NVIDIA加深合作

    隨著 AI 在醫(yī)療健康和生命科學(xué)領(lǐng)域應(yīng)用的不斷增加,GPU 算力的需求迅猛增長?;鹕揭鏅C(jī)器學(xué)習(xí)平臺在 NVIDIA A100 Tensor Core GPU 的硬件基礎(chǔ)架構(gòu)之上,基于
    的頭像 發(fā)表于 07-05 08:59 ?913次閱讀

    NVIDIA MLPerf Training v2.0性能提供動力的全堆棧優(yōu)化

      NVIDIA MLPerf v2.0 提交基于經(jīng)驗證的 A100 Tensor Core GPU 、 NVIDIA DGX A100 系統(tǒng) 以及
    的頭像 發(fā)表于 08-15 16:43 ?1243次閱讀
    為<b class='flag-5'>NVIDIA</b> MLPerf Training v2.0性能提供動力的全堆棧優(yōu)化