0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習性能誰來評判?

璟琰乀 ? 來源:FPGA開發(fā)圈 ? 作者:FPGA開發(fā)圈 ? 2020-11-05 09:46 ? 次閱讀

本期導讀

MLPerf 組織最近發(fā)布了最新一輪機器學習性能測試結果,首次直接參加此次測試的“新力量” 賽靈思(Xilinx), 在最新 MLPerf 推斷基準測試中取得了“圖像分類”最高的性能/峰值(Perf divided by peak TOPS)成績。TOPS(每秒萬億次運算) 是一個衡量性能效率的指標,意味著在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。機器學習(ML)是支撐當今人工智能AI)技術發(fā)展的核心算法,性能效率關乎各種 AI 應用的實現(xiàn)和落地。然而,玩家們你方唱罷我登場的機器學習性能之爭,紙上公開的數據是否可信,效率高低誰來評判、如何評判?

帶著這些問題,Aspencore 首席分析師邵樂峰先生連線賽靈思人工智能高級總監(jiān)姚頌及人工智能高級經理羅霖先生,希望通過更深度地了解賽靈思此次參加測試的過程及結果,探索衡量機器學習芯片性能的基準及自適應計算平臺的前景。

1

機器學習性能誰來評判?

當今 AI 芯片的評測標準,主流的有國際上的 MLPerf,國內有人工智能產業(yè)發(fā)展聯(lián)盟的 AIIA DNN benchmark(人工智能端側芯片基準測試評估方案)。

MLPerf 是用于測試機器學習(ML)硬件、軟件以及服務的訓練和推斷性能的一套公開、標準化基準,該行業(yè)基準測試組織自 2018 年 5 月成立以來,得到了亞馬遜、百度、Facebook、谷歌、哈佛大學、英特爾、微軟和斯坦福大學等支持,旨在提供一個共同認可的過程,來衡量不同類型的加速器和系統(tǒng)如何快速有效地執(zhí)行訓練過的神經網絡。

作為 AI 芯片領域一個重要的基準測試,MLPerf 主要包括訓練和推斷兩方面的性能測試,并正在迅速成為業(yè)界衡量 ML 性能的事實標準。盡管目前看仍偏重于訓練端,但賽靈思軟件和人工智能高級經理羅霖認為未來推斷側性能測試的比例將會不斷增加,尤其是 MLPerf 今年在測試中增加了新模式和手機/筆記本電腦這兩種新類別。今年的 MLPerf Inference 基準測試(v0.7)的第二個版本,吸引了全球 1,200 多位同行進行評審。

2

從參測過程看 MLPerf 測試有何基準

此次賽靈思與 Mipsology 合作,參加了嚴格的“封閉”基準測試。該測試向廠商提供預訓練網絡和預訓練權重,是一個真正的“Close Deviation”同類測評。羅霖解釋說,同類測評就像是跳水比賽中和自選動作對應的標準動作,是實打實的基于同樣預訓練權重模型的對比。

測試系統(tǒng)使用賽靈思 Alveo U250 加速器卡,該卡以 Mipsology 優(yōu)化的領域專用架構(DSA)為基礎?;鶞?a href="http://srfitnesspt.com/soft/data/50-103/" target="_blank">測試測量了基于 Alveo 的定制 DSA 在離線模式下以 5,011 圖像/秒的速度執(zhí)行基于 ResNet-50 基準的圖像分類任務的效率。ResNet-50 以圖像/秒為單位測量圖像分類性能。結果,賽靈思實現(xiàn)了最高的性能/峰值(TOPS,每秒萬億次運算)。這是一個衡量性能效率的指標,因此也就意味著,在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。

此外,值得一提的是,MLPerf 的結果還顯示,賽靈思與其在數據手冊中公布的性能相比,實現(xiàn)了 100% 的可用 TOPS。而市場上的大多數廠商只能提供其峰值 TOPS 的一小部分,效率最高通常不超過 40%。這一令人印象深刻的結果表明,并非所有數據手冊,或者說紙面上的原始峰值 TOPS,都能準確代表實際性能。

從測試看, 還有一個重要的因素值得關注, ML 應用涉及的不僅僅是 AI 處理。它們通常需要 ML 預處理功能和后處理功能,這兩者會競爭系統(tǒng)帶寬,導致系統(tǒng)級瓶頸。而賽靈思自適應平臺的強大之處就在于,它可以通過加速關鍵型非 AI 功能同時構建應用級數據流流水線,來避免系統(tǒng)瓶頸,從而加速整體應用。同時,賽靈思在 TensorFlow 和 Pytorch 框架的支持上也做了很多工作,使 Tensorflow 和 Pytorch 模型的硬件加速變得更容易。

3

Xilinx 首次直接參測意味著什么?

賽靈思首次直接參與 MLPerf 測試,意味著以 FPGA 為基礎的 AI 解決方案已經日趨成熟,在推斷應用中達到了業(yè)界領先的水平,日漸成為 AI 應用的主流玩家。在本次數據中心類別的封閉分區(qū)(Closed Division)參賽廠商中,除了 Nvidia 和 Intel 之外,賽靈思是唯一提交結果的芯片公司。

羅霖表示:AI 推斷是一個快速增長的市場,例如自動駕駛和基于人工智能的視頻監(jiān)控,需要計算機視覺任務,如圖像分類和目標檢測。這些復雜的計算工作負載需要不同級別的吞吐量、延遲和功率才能高效運行,這就是賽靈思和自適應計算產品的亮點所在。

由于時間的原因,賽靈思在本次 MLPerf 測試中只提交了 3 項測試結果,除了上文提到的使用 U250 加速卡進行“圖像分類”外,還使用 Alveo U280 加速卡進行“目標檢測”,以及使用 Versal ACAP 平臺進行“圖像分類”。 羅霖說,U250 參加的測試是在封閉分區(qū)所有參賽者采用一樣的神經網絡模型,一樣的預訓練權重,一樣的預處理和后處理,就像體操比賽里面“標準動作”。相比之下,在開放分區(qū)(Open Division)類別中廠商允許使用自定義的方法對模型進行優(yōu)化,包括重新訓練,屬于“百花齊放”類型。

但實際上,MLPerf Inference 0.7 版的 8 項測試內容賽靈思平臺其實都能支持,在公司內部運行的一些非圖像類模型,例如語音識別、自然語言處理等測試中,都有不錯的表現(xiàn)。相信今后公司會參加更多類別的測試。

法國初創(chuàng)公司 Mipsology 是賽靈思此次測試的合作伙伴,在利用 FPGA 實現(xiàn)神經網絡加速方面頗有建樹。羅霖表示,F(xiàn)PGA 是一個開放的、靈活的計算加速平臺,各種各樣和 Mipsology 一樣有能力的合作伙伴,都可以基于賽靈思相關硬件和工具鏈產品,開發(fā)出極具市場競爭力的產品。

4

TOPS 是衡量機器學習性能的唯一指標?

姚頌表示:機器學習(ML)應用程序不僅僅是 AI 處理,還需要 ML 前后的處理函數,因為這些函數會競爭系統(tǒng)帶寬并導致系統(tǒng)級瓶頸。因此,最優(yōu)秀的 AI 應用實現(xiàn)方案未必是速度最快的,它需要的是在效率最高的同時保持靈活性,必須是量身定制的,能夠按需交付性能,不多不少。

眾所周知,神經網絡中的前一個計算結果通常都作為后一個計算的輸入,AI 推斷效率發(fā)揮不出來的主要原因是要花很多時間去內存中讀取數據。

姚頌列舉了兩種常見的提升效率模式的做法:

一是通過將計算結果快速存儲下來,避免對內存的反復讀取和寫入;

另一種是對神經網絡進行分割處理,只調用與特定區(qū)塊處理相關的數據,以流水線的方式掩蓋掉內存讀取的延時。

而具體到賽靈思的做法,羅霖更強調“端到端的優(yōu)化”對高計算效率的影響。也就是說,首先要關注底層神經網絡處理單元微架構的設計,包括計算乘加、數據存儲/搬運、流水線調度等等;其次是中間層的工具鏈,例如在編譯的時候是否對模型進行了優(yōu)化,是否將與模型相關的計算和對存儲的操作有效映射到微架構上;最后,再對上層應用進行優(yōu)化。這一系列操作并非簡單的硬件堆砌就能達到,而是要在性能、成本、功耗等多因素之間找到微妙的平衡,不能像孩子們玩的蹺蹺板,一邊的升起,往往意味著另一邊的下墜。

羅霖進一步解釋說,一些解決方案非常適合 AI 推斷,但并不適合整體應用處理。GPUASIC 往往能提供在紙面上看上去很高的 TOPS,但是 AI 推斷性能通常需要與系統(tǒng) I/O、預處理性能和后處理性能相匹配。如果非 AI 組件不能高效地在單芯片上實現(xiàn),就需要多芯片解決方案。多芯片方案需要在器件之間傳遞數據,會降低系統(tǒng)性能并提高功耗。因此,一個能夠高效實現(xiàn)整體應用的單器件在實際 AI 推斷部署中擁有顯著優(yōu)勢。

5

自適應計算平臺有哪些典型應用?

賽靈思 Versal ACAP 自適應計算平臺構建于能在制造后依然可以動態(tài)重配置的硬件上,包括 FPGA 等經過長期檢驗的技術,以及賽靈思 AI 引擎等最近的創(chuàng)新。其強大之處在于,不僅可以加速關鍵的人工智能和非人工智能功能,而且還可以構建應用程序級流媒體管道,以避免系統(tǒng)瓶頸,從而實現(xiàn)整個應用程序的加速。

為了能夠更好地理解上述理論,羅霖和姚頌為我們列舉了一些典型的應用場景:

自動駕駛

自動駕駛對超低延時是相當看重的,通常要求每一幀的延時不能超過 33 毫秒,這意味著真正能留給感知和識別的時間只有不到 10 毫秒,F(xiàn)PGA 可以做到幾毫秒之內的延時,相比之下,GPU 就很難做到。

智能視頻分析

“數據路徑越復雜對 FPGA 越有利”,羅霖說,在智能視頻分析中,不光有 CNN 推斷,還包括檢測、解碼、圖像預處理和后處理等許多工作,F(xiàn)PGA 器件能夠做很多優(yōu)化的、定制化的硬件加速。如果換成 GPU,盡管在處理 YOLOV3 模型時效果不錯,但添加上其他任務后,就會明顯感到“力不從心”,類似現(xiàn)象在語音類、推薦類應用中也很常見。

ResNet-50 Vs YOLOv3

YOLOv3 是用于各類目標檢測與識別的神經網絡模型,準確率高。支持者認為,ResNet-50 使用的 224×224 基準圖像像素現(xiàn)在“幾乎無人使用”,而 YOLOv3 使用 608×608,甚至 1440×1440 像素,屬于高清處理,這對自動駕駛、機器人、銀行安全及零售分析領域的客戶來說十分重要。

姚頌不否認 YOLOv3 是在準確率和計算性能上取得不錯平衡的模型,但他不認為這樣就可以取代 ResNet-50 標準,例如在醫(yī)療影像、工業(yè)圖像檢測等領域就使用了包括 SSB 在內的其它模型。更重要的是,ResNet-50 的整體架構非常高效,很多互聯(lián)網企業(yè)的神經網絡都基于 ResNet-50 模塊搭建。所以,“我們不應該只把眼光聚焦在 YOLOv3 模型上,一顆 AI 芯片,至少應該把 CNN 推斷或者類似的神經網絡架構都支持起來,否則人家會認為你只支持 YOLOv3 模型?!彼f。

作者:邵樂峰

ASPENCORE 中國區(qū)首席分析師

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    452

    文章

    49985

    瀏覽量

    419657
  • AI
    AI
    +關注

    關注

    87

    文章

    29382

    瀏覽量

    267664
  • 人工智能
    +關注

    關注

    1789

    文章

    46348

    瀏覽量

    236506
  • 機器學習
    +關注

    關注

    66

    文章

    8323

    瀏覽量

    132165
收藏 人收藏

    評論

    相關推薦

    如何評判電子煙PCBA方案優(yōu)劣

    如何評判電子煙方案優(yōu)劣
    的頭像 發(fā)表于 10-16 16:21 ?242次閱讀
    如何<b class='flag-5'>評判</b>電子煙PCBA方案優(yōu)劣

    AI引擎機器學習陣列指南

    云端動態(tài)工作負載以及超高帶寬網絡,同時還可提供高級安全性功能。AI 和數據科學家以及軟硬件開發(fā)者均可充分利用高計算密度的優(yōu)勢來加速提升任何應用的性能。AI 引擎機器學習擁有先進的張量計算能力,非常適合用于高度優(yōu)化的 AI 和 M
    的頭像 發(fā)表于 09-18 09:16 ?238次閱讀
    AI引擎<b class='flag-5'>機器</b><b class='flag-5'>學習</b>陣列指南

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    提高機器學習模型效果與性能的過程。 而我對特征工程的理解就是從一堆數據里找出能表示這堆數據的最小數據集,而這個找出特征數據的過程就是信息提取。 隨后給出了一系列定義,包括特征的最小最大縮放、特征的標準化
    發(fā)表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示了機器學習如何在這一領域發(fā)揮巨
    發(fā)表于 08-12 11:21

    對于一個放大電路如何評判它的指標性能好壞?

    對于一個放大電路如何評判它的指標性能好壞?比如說利用信噪比、共模抑制比、失調電壓、頻帶等指標如何去評判一個放大電路的性能好壞呢?是達到datesheet上的指標就可以了嗎?另外,信噪比
    發(fā)表于 08-01 06:09

    機器學習中的數據分割方法

    機器學習中,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數據分
    的頭像 發(fā)表于 07-10 16:10 ?896次閱讀

    如何理解機器學習中的訓練集、驗證集和測試集

    理解機器學習中的訓練集、驗證集和測試集,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習與評估的基礎框架,還直接關系到模型
    的頭像 發(fā)表于 07-10 15:45 ?2293次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器
    的頭像 發(fā)表于 07-02 11:25 ?540次閱讀

    深度學習與傳統(tǒng)機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發(fā)表于 07-01 11:40 ?944次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統(tǒng)計學習機器學習領域都經常被
    的頭像 發(fā)表于 06-27 08:27 ?1496次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典算法與應用

    機器學習8大調參技巧

    今天給大家一篇關于機器學習調參技巧的文章。超參數調優(yōu)是機器學習例程中的基本步驟之一。該方法也稱為超參數優(yōu)化,需要搜索超參數的最佳配置以實現(xiàn)最佳性能
    的頭像 發(fā)表于 03-23 08:26 ?519次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>8大調參技巧

    怎樣評判連接器的防水性能?LP系列工業(yè)級連接器IP68防水真硬核

    水分有多種形態(tài),氣態(tài)、液態(tài)的水都會對工業(yè)級連接器的運行構成挑釁。因而工業(yè)級連接器為保障在涉水與潮濕環(huán)境下能可靠與安全地運行,多會從結構與制造工藝等方面去實現(xiàn)更高的防水性能。那么怎么去評判一款連接器
    的頭像 發(fā)表于 03-08 08:12 ?531次閱讀
    怎樣<b class='flag-5'>評判</b>連接器的防水<b class='flag-5'>性能</b>?LP系列工業(yè)級連接器IP68防水真硬核

    微軟推出ONNX Runtime Web,利用WebGPU優(yōu)化瀏覽器機器學習性能

    作為微軟的 JavaScript 庫,ONNX Runtime Web 使得網絡開發(fā)者能在瀏覽器環(huán)境下部署機器學習模型,并提供多種硬件加速的后端支持。
    的頭像 發(fā)表于 03-05 14:23 ?889次閱讀

    如何使用TensorFlow構建機器學習模型

    在這篇文章中,我將逐步講解如何使用 TensorFlow 創(chuàng)建一個簡單的機器學習模型。
    的頭像 發(fā)表于 01-08 09:25 ?870次閱讀
    如何使用TensorFlow構建<b class='flag-5'>機器</b><b class='flag-5'>學習</b>模型

    淺析機器學習的基本步驟

    機器學習中,機器學習的效率在很大程度上取決于它所提供的數據集,數據集的大小和豐富程度也決定了最終預測的結果質量。目前在算力方面,量子計算能超越傳統(tǒng)二進制的編碼系統(tǒng),利用量子的糾纏與疊
    發(fā)表于 10-30 11:13 ?352次閱讀
    淺析<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的基本步驟