春药刺激国产老富婆露脸,亚洲一级A婬片AAA毛片

你還在頭疼于經(jīng)典模型的復(fù)現(xiàn)嗎？不知何處可以得到全面可參照的 Benchmark？

為了讓飛槳開發(fā)者可以快速復(fù)現(xiàn)頂尖的精度和超高的性能，NVIDIA 與飛槳團(tuán)隊(duì)合作開發(fā)了基于 ResNet50 的模型示例，并將持續(xù)開發(fā)更多的基于 NLP 和 CV 等領(lǐng)域的經(jīng)典模型，后續(xù)陸續(xù)發(fā)布的模型有 BERT、PP-OCR、PP-YOLO 等，歡迎持續(xù)關(guān)注。

深度學(xué)習(xí)模型是什么？

深度學(xué)習(xí)包括訓(xùn)練和推理兩個環(huán)節(jié)。訓(xùn)練是指通過大數(shù)據(jù)訓(xùn)練出一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，即用大量標(biāo)記過的數(shù)據(jù)來“訓(xùn)練”相應(yīng)的系統(tǒng)，使之可以適應(yīng)特定的功能。推理是指利用訓(xùn)練好的模型，使用新數(shù)據(jù)推理出各種結(jié)論。深度學(xué)習(xí)模型是在訓(xùn)練工作過程中生成，并將其保存，用于推理當(dāng)中。

深度學(xué)習(xí)訓(xùn)練推理示意圖

NVIDIA Deep Learning Examples

全新上線飛槳 ResNet50

NVIDIA Deep Learning Examples 倉庫上線了基于飛槳實(shí)現(xiàn)的 ResNet50 模型的性能優(yōu)化結(jié)果，該示例全面適配各類 NVIDIA GPU 和各種硬件拓?fù)洌▎螜C(jī)單卡，單機(jī)多卡），極致優(yōu)化性能。值得一提的是，Deep Learning Examples 中飛槳 ResNet50 模型訓(xùn)練速度已超過對應(yīng)的 PyTorch 版 ResNet50。

NVIDIA Deep Learning Examples 倉庫中基于飛槳與 PyTorch 的 ResNet50 模型在同等 GPU 配置下的訓(xùn)練性能比較，GPU 配置為 NVIDIA DGX A100（8x A100 80GB）。

*數(shù)據(jù)來源：［1］［2］

NVIDIA Deep Learning Examples 倉庫中飛槳 ResNet50 有哪些優(yōu)勢？

優(yōu)勢一：通過使用 DALI 等工具，加速 GPU 數(shù)據(jù)預(yù)處理性能

NVIDIA Data Loading Library（ DALI ）專注于使用 GPU 加速深度學(xué)習(xí)應(yīng)用中的數(shù)據(jù)加載和預(yù)處理。深度學(xué)習(xí)數(shù)據(jù)預(yù)處理涉及到復(fù)雜的、多個階段的處理過程，如 ResNet50 模型訓(xùn)練過程中，在 CPU 上處理圖片的加載、解碼、裁剪、翻轉(zhuǎn)、縮放和其他數(shù)據(jù)增強(qiáng)等操作會成為瓶頸，限制訓(xùn)練和推理的性能和可擴(kuò)展性。DALI 將這些操作轉(zhuǎn)移到 GPU 上，最大限度地提高輸入流水線的吞吐量，并且其中數(shù)據(jù)預(yù)取，并行執(zhí)行和批處理的操作對用戶是透明的。

優(yōu)勢二：通過使用 AMP，ASP 等工具，提高推理性能

飛槳內(nèi)置支持 AMP（自動混合精度）及 ASP（自動稀疏化）模塊，AMP 模塊可在模型訓(xùn)練過程中，自動為算子選擇合適的計算精度（FP32/FP16），充分利用 Tensor Cores 的性能，在不影響模型精度的前提下，大幅加速模型訓(xùn)練。

ASP 模塊實(shí)現(xiàn)了一個工作流將深度學(xué)習(xí)模型從稠密修剪為 2：4 的稀疏模式，經(jīng)過重訓(xùn)練之后，可恢復(fù)到與稠密模型相當(dāng)?shù)木?。稀疏模型可以充分利?A100 Tensor Core GPU 的加速特性，被修剪的權(quán)重矩陣參數(shù)存儲量減半，并且可以獲得理論上 2 倍的計算加速，從而大幅提高推理性能。

優(yōu)勢三：通過集成 TensorRT，優(yōu)化推理模型

飛槳推理集成了 TensorRT，稱為 Paddle-TRT。它可以把部分模型子圖交給 TensorRT 加速，而其他部分仍然用飛槳執(zhí)行，從而達(dá)到最佳的推理性能。

優(yōu)勢四：豐富的 Benchmark

NVIDIA Deep Learning Examples 倉庫中

有哪些 Benchmark？

NVIDIA Deep Learning Examples 倉庫中的 Benchmark 主要包含訓(xùn)練精度結(jié)果、訓(xùn)練性能結(jié)果、推理性能結(jié)果、Paddle-TRT 性能結(jié)果幾個方面。

1、訓(xùn)練精度結(jié)果

訓(xùn)練精度： NVIDIA DGX A100 （8x A100 80GB）

*數(shù)據(jù)來源：［1］

集成 ASP 的提高精度： NVIDIA DGX A100 （8x A100 80GB）

*數(shù)據(jù)來源：［1］

2、訓(xùn)練性能結(jié)果

訓(xùn)練性能： NVIDIA DGX A100 （8x A100 80GB）

*數(shù)據(jù)來源：［1］

集成 ASP 的訓(xùn)練性能： NVIDIA DGX A100 （8x A100 80GB）

*數(shù)據(jù)來源：［1］

3、推理性能結(jié)果

推理性能： NVIDIA DGX A100 （1x A100 80GB）

*數(shù)據(jù)來源：［1］

4、Paddle-TRT 性能結(jié)果

Paddle-TRT 性能結(jié)果： NVIDIA DGX A100 （1x A100 80GB）

*數(shù)據(jù)來源：［1］

Paddle-TRT 性能結(jié)果： NVIDIA A30 （1x A30 24GB）

*數(shù)據(jù)來源：［1］

Paddle-TRT 性能結(jié)果： NVIDIA A10 （1x A10 24GB）

*數(shù)據(jù)來源：［1］

如何下載 NVIDIA Deep Learning Examples 中的飛槳 ResNet50？

登錄 GitHub NVIDIA Deep Learning Examples 倉庫，找到 PaddlePaddle/Classification/RN50/1.5，下載模型源代碼即可。

NVIDIA Deep Learning Examples 飛槳 ResNet50 下載頁面

飛槳容器如何安裝？

容器包含了深度學(xué)習(xí)框架在運(yùn)行時所需的所有部件（包括驅(qū)動，工具包等），它具有輕量化與可復(fù)制性、打包和執(zhí)行環(huán)境合二為一以及簡化應(yīng)用程序部署等優(yōu)勢，因此，被認(rèn)為是在同一環(huán)境中實(shí)現(xiàn)“構(gòu)建、測試、部署”的最佳平臺。容器允許我們創(chuàng)建標(biāo)準(zhǔn)化可復(fù)制的輕量級開發(fā)環(huán)境，擺脫來自 Hypervisor 所帶來運(yùn)行開銷。應(yīng)用程序可以基于 Container Runtime 運(yùn)行在“任意”系統(tǒng)中。

NVIDIA 與百度飛槳聯(lián)合開發(fā)了 NGC 飛槳容器，將最新版本的飛槳與最新的 NVIDIA 的軟件棧進(jìn)行了無縫的集成與性能優(yōu)化，最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計算能力。這樣，用戶不僅可以快速開啟 AI 應(yīng)用，專注于創(chuàng)新和應(yīng)用本身，還能夠在 AI 訓(xùn)練和推理任務(wù)上獲得飛槳+NVIDIA 帶來的飛速體驗(yàn)。

NGC 飛槳容器已經(jīng)集成入飛槳官網(wǎng)主頁。你可以選擇 “飛槳版本”+“Linux”+“Docker”+“CUDA 11.7”找到對應(yīng)的 Container 下載指令。

并參考《NGC 飛槳容器安裝指南》下載安裝：https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

運(yùn)行結(jié)果如下：

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4818

瀏覽量
102645
模型

模型

+關(guān)注

關(guān)注
1

文章
3073

瀏覽量
48582
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8838

瀏覽量
137141
飛槳

飛槳

+關(guān)注

關(guān)注
0

文章
32

瀏覽量
2272

原文標(biāo)題：NVIDIA Deep Learning Examples飛槳ResNet50模型上線訓(xùn)練速度超PyTorch ResNet50

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

NVIDIA擬與印度合作開發(fā)AI芯片

近日，據(jù)媒體報道，全球領(lǐng)先的圖形處理器制造商NVIDIA提出了與印度合作開發(fā)人工智能芯片的計劃。此舉旨在充分利用印度豐富的半導(dǎo)體設(shè)計人才資源，并深入拓展當(dāng)?shù)厝找嬖鲩L的市場。 NVIDIA的這一

發(fā)表于 10-24 11:17 ?262次閱讀

NVIDIA Modulus助力風(fēng)阻預(yù)測模型實(shí)現(xiàn)

NVIDIA 與百度飛槳雙方技術(shù)團(tuán)隊(duì)通過在數(shù)據(jù)、算法、模型等多個方面的合作，共同打造了一款適用于

發(fā)表于 08-23 17:10 ?783次閱讀

TI (德州儀器) 團(tuán)隊(duì)到訪飛凌嵌入式總部，深化交流與合作

7月10日，TI (德州儀器) Sitara MPU業(yè)務(wù)負(fù)責(zé)人及TI中國區(qū)技術(shù)業(yè)務(wù)團(tuán)隊(duì)一行來到飛凌嵌入式保定總部進(jìn)行交流，與飛凌嵌入式的企業(yè)負(fù)責(zé)人以及技術(shù)和產(chǎn)品團(tuán)隊(duì)進(jìn)行了會談。雙方就產(chǎn)

發(fā)表于 07-12 15:29 ?857次閱讀

NVIDIA與百度飛槳攜手革新汽車風(fēng)阻預(yù)測:DNNFluid-Car模型的崛起

在追求更高效、更環(huán)保的汽車設(shè)計浪潮中，NVIDIA與百度飛槳攜手突破傳統(tǒng)界限，共同研發(fā)了一款革命性的3D高精度汽車風(fēng)阻預(yù)測模型——DNNFluid-Car。這款

發(fā)表于 07-09 14:56 ?1454次閱讀

百度發(fā)布文心大模型4.0 Turbo與飛槳框架3.0,引領(lǐng)AI技術(shù)新篇章

SUMMIT深度學(xué)習(xí)開發(fā)者大會2024上，向世界展示了百度在AI領(lǐng)域的最新成果——文心大模型4.0 Turbo和飛槳框架3.0，并詳細(xì)披露了飛

發(fā)表于 06-29 16:03 ?543次閱讀

NVIDIA與Google DeepMind合作推動大語言模型創(chuàng)新

支持 NVIDIA NIM 推理微服務(wù)的谷歌最新開源模型 PaliGemma 首次亮相。

發(fā)表于 05-16 09:44 ?406次閱讀

科大訊飛與華中師范大學(xué)合作大模型賦能教育

科大訊飛與華中師范大學(xué)合作大模型賦能教育日前華中師范大學(xué)與科大訊飛股份有限公司簽署戰(zhàn)略合作協(xié)議；雙方將圍繞大

發(fā)表于 04-15 15:12 ?754次閱讀

技術(shù)團(tuán)隊(duì)們合作開發(fā)低溫電路

富士通（Fujitsu）與 QuTech 合作開發(fā)了被稱作 "世界首創(chuàng)"的低溫電子電路，用于控制基于金剛石的量子比特。這項(xiàng)新技術(shù)在保持高質(zhì)量性能的同時，解決了量子比特冷卻過程中的 "線路瓶頸

發(fā)表于 03-13 12:36 ?305次閱讀

NVIDIA 第九屆 Sky Hackathon 優(yōu)秀作品展示 | 靜語畫韻：藝術(shù)中的無聲詩篇

使用 NVIDIA Jetson 平臺，親身體驗(yàn)了大模型在圖像識別和生成式模型調(diào)用方面的應(yīng)用。從 Resnet50 模型的優(yōu)化到 Tenso

發(fā)表于 12-21 19:35 ?796次閱讀

不要錯過！NVIDIA “大模型沒那么泛！”主題活動

2024 新年首發(fā)！ NVIDIA 大模型日系列活動將于 2024 年 1 月正式啟動，由 NVIDIA 和業(yè)界專家攜手分享大模型應(yīng)用開發(fā)

發(fā)表于 12-20 19:35 ?597次閱讀

紫光展銳T820與百度飛槳完成I級兼容性測試助推端側(cè)AI融合創(chuàng)新

的階段性成果。本次I級兼容性測試完成了計算機(jī)視覺技術(shù)領(lǐng)域3個模型的驗(yàn)證，經(jīng)過雙方聯(lián)合嚴(yán)格測試，紫光展銳T820在MobileNet-V1、ResNet50、SSD-MobileNet-V1模型上的精度、速度等各方面表現(xiàn)滿足要求

發(fā)表于 12-14 16:35 ?343次閱讀

NVIDIA 為部分大型亞馬遜 Titan 基礎(chǔ)模型提供訓(xùn)練支持

本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU 以及亞馬遜云科技的 EFA 來訓(xùn)練其最大的新一代大語言模型（LLM）。大語言模型的一切都很龐大——巨型模型是在數(shù)千顆

發(fā)表于 11-29 21:15 ?484次閱讀

LabVIEW關(guān)于USRPRIO的示例代碼

?Examples的選板這是LabVIEW的一個功能介紹，更多的使用方法與開發(fā)案例，歡迎登錄官網(wǎng)，了解更多信息。有需要LabVIEW項(xiàng)目合作開發(fā)，請與我們聯(lián)系。

發(fā)表于 11-16 20:22

NVIDIA 校招 | 芯片架構(gòu)團(tuán)隊(duì)正在熱招！

認(rèn)識我們在 NVIDIA, 我們有這樣一個團(tuán)隊(duì) —— TPC Arch ( GPU 核心 TPC 架構(gòu) ) 團(tuán)隊(duì)，各路大神在這里集結(jié)，他們深度剖析 GPU 的性能瓶頸，潛心研究下一代新的算法架構(gòu)

發(fā)表于 11-01 20:25 ?352次閱讀

現(xiàn)已公開發(fā)布！歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型（Large Language Mode

發(fā)表于 10-27 20:05 ?895次閱讀