自拍偷自拍亚洲精品被多人伦好爽,熟妇一区,67194熟妇在线播放直接进入

MLPerf是一套衡量機(jī)器學(xué)習(xí)系統(tǒng)性能的權(quán)威標(biāo)準(zhǔn)，于2018年由谷歌、哈佛、斯坦福、百度等機(jī)構(gòu)聯(lián)合發(fā)起成立，每年定期公布榜單成績，它將在標(biāo)準(zhǔn)目標(biāo)下訓(xùn)練或推理機(jī)器學(xué)習(xí)模型的時(shí)間，作為一套系統(tǒng)性能的測量標(biāo)準(zhǔn)。MLPerf訓(xùn)練任務(wù)包括圖像分類（ResNet50）、目標(biāo)物體檢測（SSD）、目標(biāo)物體檢測（Mask R-CNN）、智能推薦（DLRM）、自然語言處理（BERT）以及強(qiáng)化機(jī)器學(xué)習(xí)（Minigo）等。最新的1.0版本增加了兩項(xiàng)新的測試項(xiàng)目：語音識別（RNN-T）和醫(yī)學(xué)影像分割（U-Net3D）。

本文將著重討論其中的圖像分類模型Resnet50。

ResNet是殘差網(wǎng)絡(luò)，該系列網(wǎng)絡(luò)被廣泛用于目標(biāo)分類等領(lǐng)域，并作為計(jì)算機(jī)視覺任務(wù)主干經(jīng)典神經(jīng)網(wǎng)絡(luò)的一部分，是一個(gè)典型的卷積網(wǎng)絡(luò)。ResNet50網(wǎng)絡(luò)結(jié)構(gòu)如下圖，首先對輸入做卷積操作，之后經(jīng)過4個(gè)殘差模塊，最后進(jìn)行一個(gè)全連接操作用于分類任務(wù)，ResNet50包含50個(gè)卷積操作。

圖1 ResNet網(wǎng)絡(luò)結(jié)構(gòu)▲

圖2 ResNet34網(wǎng)絡(luò)結(jié)構(gòu)▲

來源:Deep Residual Learning for Image Recognition

作者:何愷明等

在MLPerf最早版本V0.5中，就包含Resnet50訓(xùn)練任務(wù)。下圖是歷次MLPerf 訓(xùn)練競賽Resnet50的單機(jī)最優(yōu)性能。在MLPerf V0.7訓(xùn)練基準(zhǔn)測試中，浪潮AI服務(wù)器NF5488A5在33.37分鐘內(nèi)完成ResNet50訓(xùn)練，在所有提交的單服務(wù)器性能成績中名列榜首，比同類配置服務(wù)器快16.1%。而在最新的MLPerf 訓(xùn)練V1.0榜單中，浪潮AI服務(wù)器NF5688M6進(jìn)一步將Resnet50單機(jī)訓(xùn)練提速到27.38分鐘，耗時(shí)較V0.7縮短了17.95%。

圖3 歷次MLPerf訓(xùn)練測試Resnet50單機(jī)最優(yōu)性能▲

性能的一次次突破，得益于硬件的發(fā)展和軟件的更新及優(yōu)化。本文將深度解析取得這一成績背后的原因，談?wù)凴esnet50對計(jì)算平臺(tái)的需求以及如何提升訓(xùn)練速度。

ResNet50訓(xùn)練流程簡介

在MLPerf訓(xùn)練V1.0測試中，Resnet50使用的數(shù)據(jù)集是包含128萬圖片的ImageNet2012（注：數(shù)據(jù)下載需要注冊），訓(xùn)練的目標(biāo)精度是75.9%，共需運(yùn)行5次。廠商提交的成績是訓(xùn)練模型達(dá)到目標(biāo)精度所花費(fèi)的時(shí)間（以分鐘為單位），值越小則表示性能越好。去掉一個(gè)最差性能和一個(gè)最優(yōu)性能，其余3次的平均值為最終成績。

我們來看看Resnet50模型訓(xùn)練的流程。首先，需要從硬盤上讀取訓(xùn)練集，進(jìn)行解碼，然后對圖像進(jìn)行預(yù)處理，處理后的數(shù)據(jù)送入訓(xùn)練框架進(jìn)行訓(xùn)練，經(jīng)過若干個(gè)epoch后得到滿足精度要求的模型。

圖4 Resnet50模型訓(xùn)練流程▲

硬件平臺(tái)選取

在Resnet50訓(xùn)練中，硬件及設(shè)備平臺(tái)的選取至關(guān)重要。其中磁盤讀取性能、CPU運(yùn)算性能、內(nèi)存到顯存的傳輸性能以及GPU運(yùn)算性能對訓(xùn)練速度的影響都比較大：磁盤讀取性能直接決定訓(xùn)練數(shù)據(jù)供給的速度；在引入DALI后，CPU的性能、CPU到GPU的傳輸帶寬以及GPU的性能共同決定了數(shù)據(jù)前處理的速度；而訓(xùn)練中的前向推理和反向傳播由GPU的性能及GPU之間的數(shù)據(jù)傳輸帶寬決定。上述幾個(gè)硬件就如同工廠流水線上的幾名工人，任何一名工人的處理速度跟不上就會(huì)導(dǎo)致堆積，成為性能瓶頸，影響最終結(jié)果。因此這幾個(gè)重要部分不能有明顯的短板。

此次MLPerf評測浪潮選取了NF5688M6和NF5488A5服務(wù)器作為Resnet50的訓(xùn)練平臺(tái)，不僅保證上述關(guān)鍵部件性能十分強(qiáng)勁，而且把它們很好地整合在一起，能更好地發(fā)揮它們的性能，滿足了模型訓(xùn)練對硬件的性能要求，從而能快速地完成訓(xùn)練任務(wù)。

NF5688M6在6U空間內(nèi)支持2顆Intel最新的Ice Lake CPU和8顆NVIDIA最新的NVSwitch全互聯(lián)GPU。支持PCIe Gen4.0高速互聯(lián)，實(shí)現(xiàn)CPU和GPU之間數(shù)據(jù)高速傳輸。同時(shí)采用完全風(fēng)道獨(dú)立，有效避免回流產(chǎn)生，實(shí)現(xiàn)風(fēng)冷支持8顆 GPU高環(huán)溫下穩(wěn)定工作。在本次MLPerf V1.0訓(xùn)練測試中，NF5688M6獲得了ResNet50、DLRM和SSD三項(xiàng)任務(wù)的單機(jī)訓(xùn)練性能第一。

NF5488A5在4U空間內(nèi)實(shí)現(xiàn)8顆高性能NVIDIA GPU液冷散熱，搭載2顆支持PCIe4.0的AMD EPYC 7742 處理器，能夠?yàn)锳I 用戶提供超強(qiáng)單機(jī)訓(xùn)練性能和超高數(shù)據(jù)吞吐。NF5488A5在MLPerf V0.7基準(zhǔn)測試中創(chuàng)下Resnet50訓(xùn)練任務(wù)最佳單服務(wù)器性能成績，在MLPerf V1.0榜單中獲得了BERT任務(wù)的單機(jī)訓(xùn)練性能第一。

訓(xùn)練調(diào)優(yōu)方法

Resnet50模型的訓(xùn)練時(shí)長主要受兩大因素的影響：一是訓(xùn)練模型到目標(biāo)精度的步數(shù)，也就是需要多少輪可以達(dá)到目標(biāo)精度，在其它性能相同的情況下步數(shù)越短則訓(xùn)練時(shí)間越短，這部分需要找出一組超參數(shù)讓步數(shù)足夠少；二是圖4所示的數(shù)據(jù)讀取、數(shù)據(jù)預(yù)處理、訓(xùn)練等各個(gè)步驟的處理速度。Resnet50的訓(xùn)練數(shù)據(jù)為128萬張ImageNet2012圖片數(shù)據(jù)集，訓(xùn)練過程對傳輸帶寬和計(jì)算能力的要求都很高。正如木桶理論所說，模型訓(xùn)練速度是由流水線上最慢的部分決定，因此需要對流水線上的每一個(gè)步驟做分析，特別是著重分析整個(gè)流水線上的瓶頸，有針對性地去做優(yōu)化。

從這兩大因素入手，浪潮主要采用了以下調(diào)優(yōu)方法：

對學(xué)習(xí)率、batch size、優(yōu)化器等超參數(shù)進(jìn)行調(diào)試，將ResNet50模型收斂的步數(shù)從41降為35，帶來了15%左右的性能提升；

通過優(yōu)化DALI，使用GPU資源加速解碼和數(shù)據(jù)處理環(huán)節(jié)，實(shí)現(xiàn)了1%左右的性能提升；

使用NCCL提升多GPU卡之間通信效率，加速訓(xùn)練環(huán)節(jié)，性能提升0.1%左右。

下面分別按照訓(xùn)練流程進(jìn)行詳述。

| 訓(xùn)練集讀取

訓(xùn)練集是官方指定的。需要注意是讀取圖像帶來的開銷，如前所述，這個(gè)取決于磁盤讀取的速度和傳輸帶寬。好的磁盤自然能帶來更快的速度，另外通過組Raid 0 磁盤陣列也能帶來讀取速度的提升。我們曾在兩種不同的磁盤上使用同樣的Raid 0磁盤陣列，測試結(jié)果的訓(xùn)練時(shí)長差異達(dá)到5‰左右，所以磁盤的選擇是很重要的。

| 解碼和數(shù)據(jù)處理

讀取數(shù)據(jù)后便是解碼和數(shù)據(jù)處理，通常它們是一起進(jìn)行的。圖像解碼會(huì)比較耗時(shí)，常常會(huì)成為性能瓶頸，一般的處理方式只能利用CPU資源來進(jìn)行圖像解碼，性能會(huì)受到極大的制約，我們選擇的是DALI(NVIDIA Data Loading Library)框架，這是一款高度優(yōu)化用來加速計(jì)算機(jī)視覺深度學(xué)習(xí)應(yīng)用的執(zhí)行引擎，可以利用GPU的資源來做圖像解碼和預(yù)處理，號稱可以比原框架帶來4倍的性能提升。使用DALI來做預(yù)處理處理是個(gè)不錯(cuò)的選擇，大家可以試試。

選定預(yù)處理的方法后，需要對其做優(yōu)化，充分利用它的優(yōu)勢，使之適用于我們的系統(tǒng)和數(shù)據(jù)。首先，我們先找出預(yù)處理數(shù)據(jù)的極限，通過設(shè)置訓(xùn)練數(shù)據(jù)為模擬的擬合數(shù)據(jù)，這樣可以拋開數(shù)據(jù)讀取以及預(yù)處理的開銷，評測只有訓(xùn)練開銷時(shí)的吞吐率，后面要做的就是調(diào)整DALI參數(shù)，讓真實(shí)數(shù)據(jù)的吞吐率接近擬合數(shù)據(jù)的吞吐率。

我們可以從以下幾個(gè)方面入手：

1. DALI的計(jì)算分配：DALI可以把預(yù)處理的計(jì)算按指定的比例分配到CPU和GPU上，如果分配給GPU的比例小了則不能充分利用GPU的性能，如果大了則會(huì)擠占后面的訓(xùn)練資源；

2. DALI的處理線程：這個(gè)值大了，會(huì)占用資源，并讓一些線程處于等待狀態(tài)，這個(gè)值小了，不能充分利用資源；

3. ALI的數(shù)據(jù)預(yù)取量：值過小會(huì)讓后面的處理等待，值過大會(huì)占用過多顯存存儲(chǔ)和計(jì)算資源，甚至?xí)谋M顯存；

4. 使用融合函數(shù)：采用ImageDecoderRandomCrop函數(shù)，把解碼和隨機(jī)裁剪放在一起做，通常會(huì)比分開做性能提升不少。

前3個(gè)參數(shù)值的選取需要針對不同硬件設(shè)備和模型進(jìn)行測試，找出一個(gè)最優(yōu)組合，通過這個(gè)部分的優(yōu)化，可以帶來大概7‰左右的性能提升。而采用融合函數(shù)通常能帶來1%左右的性能提升。

上述DALI代碼關(guān)鍵就是實(shí)現(xiàn)一個(gè)自己的Pipeline類，ResNet50的數(shù)據(jù)前處理關(guān)鍵代碼參考如下：

圖6 ResNet50數(shù)據(jù)前處理關(guān)鍵代碼▲

| 訓(xùn)練框架選取

目前訓(xùn)練框架有很多，如tensorflow、pytorch、mxnet等。不同的模型在不同的框架下有不一樣的性能表現(xiàn)，通過比較，我們發(fā)現(xiàn)mxnet框架在處理resnet50模型的訓(xùn)練上有較大的優(yōu)勢。

另外，使用多塊GPU進(jìn)行訓(xùn)練時(shí)，各卡之間有大量的數(shù)據(jù)傳輸，各個(gè)框架會(huì)采用horovod或者直接采用NCCL來進(jìn)行分布式的訓(xùn)練，而horovod本質(zhì)上也是調(diào)用NCCL進(jìn)行的數(shù)據(jù)傳輸。在MLPerf的示例代碼中有的框架會(huì)提供默認(rèn)的NCCL參數(shù)選擇，這在不同的硬件設(shè)備中可能會(huì)有所不同，例如在最新的NVSWITCH架構(gòu)中MAXCHANNEL數(shù)為32，而在之前的NVLINK架構(gòu)中默認(rèn)值為16最佳。在大部分的情況下，NCCL內(nèi)部的默認(rèn)值即可滿足其要求，但仍要注意其傳入?yún)?shù)對傳輸速度的影響。另外經(jīng)測試最新的NCCL版本，對于不同的硬件設(shè)備可能不是速度最快的版本，可通過NCCL_TEST進(jìn)行測試選擇，這里不再展開說明。

| 超參數(shù)調(diào)優(yōu)

訓(xùn)練中的一個(gè)關(guān)鍵因素就是超參數(shù)的調(diào)試，一組好的超參數(shù)能讓模型經(jīng)過更少的epoch就收斂，自然會(huì)讓性能提升。試想一下如果兩個(gè)廠商的訓(xùn)練吞吐率一樣，但其中一家的模型要10個(gè)epoch才能收斂到目標(biāo)精度，而另一家的模型可以8個(gè)epoch就收斂，相當(dāng)于2位選手以同樣的速度下山，其中一位選手找到的路需要走10公里，另一位找到的路只需要走8公里，那毫無疑問走8公里路的占有明顯優(yōu)勢，能更快到達(dá)終點(diǎn)。所以挑選一組合適的超參數(shù)能事半功倍。實(shí)際上，MLPerf Training為了避免走“錯(cuò)路”帶來的不公平，特意制定了超參數(shù)借用規(guī)則，讓大家借一條“路”再跑一次，在同一個(gè)賽道下的結(jié)果才公平。

當(dāng)然，要找這樣一條“路”是不容易的，下面給出一些超參數(shù)調(diào)試的小技巧：

學(xué)習(xí)率（learning rate）：學(xué)習(xí)率對收斂速度和精度都有影響。而調(diào)整學(xué)習(xí)率也是讓人抓狂的事情，經(jīng)常出現(xiàn)梯度不收斂。一般對于學(xué)習(xí)率等超參數(shù)采用先粗調(diào)、再微調(diào)的策略。其中在粗調(diào)過程中學(xué)習(xí)率先以10的倍數(shù)進(jìn)行調(diào)整，如選取0.01、0.1、1等值進(jìn)行嘗試，等學(xué)習(xí)率基本固定后，再進(jìn)行精調(diào)，可以在基準(zhǔn)值上每次以10%的變化量進(jìn)行調(diào)整。

batch size：一般來講增大batch size可以提高訓(xùn)練速度，同時(shí)也可以提高AI加速器的利用率，但稍有不慎來個(gè)out of memory就可以終止你增大該值的念想，另外過大的batch size也會(huì)帶來精度的下降。那么選一個(gè)小batch size是否就可以了呢？經(jīng)實(shí)驗(yàn)驗(yàn)證，過小的batch size也會(huì)導(dǎo)致精度下降，所以該值的選取，也需要調(diào)試。此外，batch size和learning rate也會(huì)相互影響，一般操作是，在增大batch size的同時(shí)，也應(yīng)對應(yīng)的增大learning rate。

優(yōu)化器：一般在分類模型中，最常用的優(yōu)化器為隨機(jī)梯度下降SGD。雖然adam等優(yōu)化器可以獲取到更快的速度，但是經(jīng)常會(huì)出現(xiàn)精度下降的問題。除此之外還有LARS（Layer-wise Adaptive Rate Scaling：https://arxiv.org/abs/1708.03888）優(yōu)化器，這是MLPerf中各個(gè)參賽廠家普遍使用的優(yōu)化器。LARS的優(yōu)化器的公式如下：

LARS是SGD 的有動(dòng)量擴(kuò)展，可以適應(yīng)每層的學(xué)習(xí)率，核心是讓網(wǎng)絡(luò)的每個(gè)層根據(jù)自己的情況動(dòng)態(tài)的調(diào)整學(xué)習(xí)率，作用是可以有效緩解在較大batch size訓(xùn)練的前期由于學(xué)習(xí)率太大導(dǎo)致的不穩(wěn)定問題。

按照上述的方法調(diào)試超參數(shù)，最終我們將ResNet50模型收斂的epoch次數(shù)從41降為35，帶來了15%左右的性能提升，看來正確的“路”效果很明顯，超參數(shù)帶來的性能提升不容小覷。

總之，影響訓(xùn)練性能的因素有很多。本文主要從硬件平臺(tái)和軟件優(yōu)化的角度，以MLPerf訓(xùn)練V1.0榜單中的ResNet50模型為例，從數(shù)據(jù)處理、訓(xùn)練框架、超參數(shù)等方面來提升訓(xùn)練速度，取得了不錯(cuò)的效果。浪潮優(yōu)化代碼已共享至Github（附1）。如果各位有興趣可以試一試，希望能幫助你提升模型訓(xùn)練速度。

展望

MLPerf競賽經(jīng)過3年多時(shí)間的發(fā)展，已經(jīng)逐漸進(jìn)入成熟期，其模型的選取也緊跟時(shí)代潮流，為評估各類AI計(jì)算平臺(tái)在實(shí)際應(yīng)用場景中的性能提供了權(quán)威有效的基準(zhǔn)。MLPerf是一個(gè)開放社區(qū)，很多廠商將優(yōu)化方法回饋至社區(qū)，推動(dòng)AI技術(shù)的共同進(jìn)步。如浪潮已將在MLPerf V0.7中用到的ResNet收斂性優(yōu)化方案共享給社區(qū)成員，得到廣泛采納并應(yīng)用到本次V1.0測試中?？梢灶A(yù)見，隨著谷歌、英偉達(dá)、英特爾、浪潮、戴爾等眾多主流芯片及系統(tǒng)廠商持續(xù)參與MLPerf，并貢獻(xiàn)軟硬件系統(tǒng)優(yōu)化方法，未來AI計(jì)算平臺(tái)的性能將會(huì)得到進(jìn)一步提升，為AI技術(shù)在更多應(yīng)用場景的落地打下堅(jiān)實(shí)的基礎(chǔ)。

* 附：

1.浪潮代碼：

https://github.com/mlcommons/training_results_v1.0/tree/master/Inspur/benchmarks/resnet/implementations/mxnet

按照下面的步驟來搭建環(huán)境：

a. 下載以上代碼

b. 按照代碼中README.MD中的描述下載所需數(shù)據(jù)，并參考附2里的方法對數(shù)據(jù)進(jìn)行預(yù)處理，生成Mxnet格式的數(shù)據(jù)集

c. 進(jìn)入mxnet目錄，通過docker構(gòu)建所需的image，可參考以下代碼：

cd ./benchmarks/resnet/implementations/mxnet/docker build --pull -t image_name:image_version .

d. Image構(gòu)建完成后，修改設(shè)置參數(shù)的配置文件config_NF5688M6.sh，修改參數(shù)為適合你的系統(tǒng)的值（填入按照后面的調(diào)優(yōu)方法去找出優(yōu)化后的值）

e. 至此軟件環(huán)境構(gòu)建完成，可以開始執(zhí)行訓(xùn)練，比如我們使用的系統(tǒng)是“NF5688M6”：

source config_5688M6.sh

DGXSYSTEM="NF5688M6"

CONT=image_name:image_version

DATADIR=/path/to/preprocessed/data

LOGDIR=/path/to/logfile ./run_with_docker.sh

接下來等著訓(xùn)練結(jié)束，通過查找日志里的“run_stop”和“run_start”記錄的時(shí)間點(diǎn)就可以計(jì)算出整個(gè)訓(xùn)練時(shí)間（單位是秒）。

2.數(shù)據(jù)預(yù)處理：

https://github.com/NVIDIA/DeepLearningExamples/blob/master/MxNet/Classification/RN50v1.5/README.md#prepare-dataset

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
8873

瀏覽量
84968
浪潮

浪潮

+關(guān)注

關(guān)注
1

文章
444

瀏覽量
23763
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8325

瀏覽量
132194
MLPerf

MLPerf

+關(guān)注

關(guān)注
0

文章
33

瀏覽量
620

原文標(biāo)題：深度解析MLPerf競賽Resnet50訓(xùn)練單機(jī)最佳性能

文章出處：【微信號：浪潮AIHPC，微信公眾號：浪潮AIHPC】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

深度學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分享：CNN經(jīng)典網(wǎng)絡(luò)之-ResNet

深度學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分享：CNN 經(jīng)典網(wǎng)絡(luò)之-ResNet resnet 又叫深度殘差網(wǎng)絡(luò) 圖像識別準(zhǔn)確率很高，主要作者是國人哦深度網(wǎng)

發(fā)表于 10-12 09:54 ?967次閱讀

<b class='flag-5'>深度</b>學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分享：CNN經(jīng)典網(wǎng)絡(luò)之-<b class='flag-5'>ResNet</b>

Arm Neoverse V1的AWS Graviton3在深度學(xué)習(xí)推理工作負(fù)載方面的作用

實(shí)現(xiàn)的 BERT-Large 實(shí)時(shí)推理性能。越高越好。結(jié)論我們的 MLPerf BERT-large 和 Resnet50-v1.5 基準(zhǔn)分析表明，Amazon EC2 c7g實(shí)例（使用 Arm

發(fā)表于 08-31 15:03

YOLOv6中的用Channel-wise Distillation進(jìn)行的量化感知訓(xùn)練

中將 RetinaNet 檢測器（ResNet50 主干）提高了 3.4%，在 Cityscapes 數(shù)據(jù)集上的 mIoU 中將PSPNet（ResNet18 主干）提高了 5.81%。原作者：ChaucerG

發(fā)表于 10-09 16:25

【CANN訓(xùn)練營第三季】基于Caffe ResNet-50網(wǎng)絡(luò)實(shí)現(xiàn)圖片分類

【CANN訓(xùn)練營第三季】基于Caffe ResNet-50網(wǎng)絡(luò)實(shí)現(xiàn)圖片分類

發(fā)表于 12-19 22:34

【KV260視覺入門套件試用體驗(yàn)】四、學(xué)習(xí)過程梳理&DPU鏡像&Resnet50

=xilinx-kv260-dpu-v2022.2-v3.0.0.img.gz 鏡像下載 Vitis AI Library 用戶指南鏡像安裝教程，軟件開發(fā)教程。五、DPU-ResNet50 實(shí)驗(yàn) ResNet50模型以其深度

發(fā)表于 09-26 15:21

【KV260視覺入門套件試用體驗(yàn)】KV260系列之Petalinux鏡像+Resnet 50探索

進(jìn)入resnet50文件夾，并運(yùn)行resnet50示例程序： cd ~/Vitis-AI/examples/vai_runtime/resnet50 ./resnet50 /usr/s

發(fā)表于 10-16 04:22

索尼發(fā)布新的方法，在ImageNet數(shù)據(jù)集上224秒內(nèi)成功訓(xùn)練了ResNet-50

近年來，許多研究人員提出了多種方案來解決這兩個(gè)問題（見原文參考文獻(xiàn)）。這些工作利用ImageNet/ResNet-50訓(xùn)練來衡量訓(xùn)練效果。ImageNet/ResNet-50分別是最流

發(fā)表于 11-16 10:01 ?9768次閱讀

百度大腦EdgeBoard計(jì)算卡基于Resnet50/Mobile-SSD模型的性能評測

作者:Litchll ResNet模型前言我們自己訓(xùn)練一個(gè)ResNet模型,并在以下三個(gè)環(huán)境中進(jìn)行性能的對比。 AIStudio CPU: 2 Cores 8GB Memory A

發(fā)表于 10-30 07:32 ?941次閱讀

浪潮發(fā)布AI服務(wù)器NF5488A5，計(jì)算性能提升234%

NF5488A5僅用時(shí)33.37分鐘，就在包含128萬張圖片的ImageNet數(shù)據(jù)集上完成Resnet50模型的訓(xùn)練，相當(dāng)于每秒訓(xùn)練23000多張圖片，單機(jī)計(jì)算

發(fā)表于 08-19 17:06 ?2304次閱讀

浪潮信息MLPerf單機(jī)系統(tǒng)測試：7項(xiàng)性能第一

日前,國際權(quán)威AI基準(zhǔn)測試MLPerf公布了最新一期訓(xùn)練(Training)榜單V1.1,浪潮信息憑借旗下AI服務(wù)器NF5688M6和NF5688M6的出色表現(xiàn),在單機(jī)系統(tǒng)測試的全部8項(xiàng)固定任務(wù)中

發(fā)表于 12-08 10:35 ?792次閱讀

MLPerf訓(xùn)練性能測試榜單發(fā)布，浪潮信息刷新多項(xiàng)紀(jì)錄

日前,由谷歌、微軟云、英偉達(dá)、浪潮信息、百度、戴爾、聯(lián)想等14家公司及科研機(jī)構(gòu)參與的MLPerf 訓(xùn)練性能測試正式發(fā)布榜單成績。浪潮信息憑借兩款A(yù)I服務(wù)器的出色表現(xiàn)攬獲全部8項(xiàng)訓(xùn)練任務(wù)

發(fā)表于 12-14 10:25 ?2163次閱讀

【R329開發(fā)板評測】實(shí)機(jī)測試Resnet50

在經(jīng)過仿真測試拿到開發(fā)板后，參考官方的實(shí)機(jī)測試教程，對仿真測試模型進(jìn)行了實(shí)機(jī)運(yùn)行和測試，這里主要是對resnet50進(jìn)行了實(shí)時(shí)運(yùn)行。

發(fā)表于 01-25 16:55 ?3次下載

如何使用框架訓(xùn)練網(wǎng)絡(luò)加速深度學(xué)習(xí)推理

在這篇文章中，我們解釋了如何使用 TensorFlow-to-ONNX-to-TensorRT 工作流來部署深度學(xué)習(xí)應(yīng)用程序，并給出了幾個(gè)示例。第一個(gè)例子是 ResNet-50 上的 ONNX-

發(fā)表于 04-01 15:45 ?2763次閱讀

NVIDIA 與飛槳團(tuán)隊(duì)合作開發(fā)基于 ResNet50 的模型示例

為了讓飛槳開發(fā)者可以快速復(fù)現(xiàn)頂尖的精度和超高的性能，NVIDIA 與飛槳團(tuán)隊(duì)合作開發(fā)了基于 ResNet50 的模型示例，并將持續(xù)開發(fā)更多的基于 NLP 和 CV 等領(lǐng)域的經(jīng)典模型，后續(xù)陸續(xù)發(fā)布的模型有 BERT、PP-OCR、PP-YOLO 等，歡迎持續(xù)關(guān)注。

發(fā)表于 10-18 10:03 ?1122次閱讀

MLPerf世界紀(jì)錄技術(shù)分享：優(yōu)化卷積合并算法提升Resnet50推理性能

MLPerf是一套衡量機(jī)器學(xué)習(xí)系統(tǒng)性能的權(quán)威標(biāo)準(zhǔn)，將在標(biāo)準(zhǔn)目標(biāo)下訓(xùn)練或推理機(jī)器學(xué)習(xí)模型的時(shí)間，作為一套系統(tǒng)性能的測量標(biāo)準(zhǔn)。MLPerf推理任

發(fā)表于 11-10 14:43 ?1660次閱讀