0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

采用阿里云倚天實例g8y對深度學習推理性能進行測試和比較

jf_9aVl32Dp ? 來源:阿里云開發(fā)者社區(qū) ? 作者:彈性計算-百曉生 ? 2022-11-25 10:33 ? 次閱讀

簡介:本次實測涵蓋圖像分類識別、圖像目標檢測、自然語言處理以及搜索推薦等四種常見的深度學習推理場景

近幾年,深度學習在視覺、自然語言處理、搜索廣告推薦等工業(yè)界的各個領域廣泛落地。深度學習模型參數(shù)量的指數(shù)級上升、以及新的業(yè)務對復雜模型的需求,都要求云廠商的彈性計算能夠降低算力成本、提高計算效率,尤其是深度學習的推理,將會成為優(yōu)化的重點。在此因素影響下,阿里云平頭哥團隊推出了全球首個5nm 制程的 ARM Server 芯片倚天710。該芯片基于 ARM Neoverse N2 架構(gòu),支持最新的 ARMv9 指令集,其中包括 i8mm,bf16等擴展指令集,能在科學/AI計算領域獲得性能優(yōu)勢。

在本文中,我們聚焦于采用倚天710芯片的 ECS倚天實例g8y,對深度學習推理任務的性能進行了測試和比較。

01 Workloads

本次分析,我們選擇了四種常見的深度學習推理場景,涵蓋圖像分類識別、圖像目標檢測、自然語言處理以及搜索推薦領域。所使用的代表性模型如下:

Area Task Model
Vision Image Classification Resnet50-v1.5 and VGG19
Vision Object Detection SSD-Resnet34
Language Natural Language Processing BERT-Large
Recommendation Click-Through Rate Prediction DIN

02 Platforms

實例類型

我們在阿里云兩種實例類型上進行測試,分別是ECS g8y(倚天710) 和 ECS g7(Ice Lake),實例均為 8-vCPU

Deep Learning Framework

在所有平臺,我們使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 設備上,TensorFlow 支持兩種后端,我們使用 OneDNN 后端。OneDNN 是一個開源的跨平臺深度學習庫,并且能夠集成 Arm Compute Library(Arm設備的機器學習計算庫)。在 Arm 設備上使用該后端能夠取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是實驗版本,因此在 PyTorch 框架上使用默認的 OpenBLAS 后端。

BFloat16

BFloat16 (BF16) 是一種浮點數(shù)表示形式,其指數(shù)位與單精度浮點數(shù)(IEEE FP32)保持一致,但是小數(shù)位只有 7 位,因此 BF16 的表示范圍與 FP32 幾乎一致,但是精度較低。BF16 非常適合深度學習,因為通常精度下降并不會顯著降低模型的預測精度,但是16位的數(shù)據(jù)格式卻能夠節(jié)省空間、加速計算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令,大幅提升了深度學習模型的推理性能,在多個場景下跑出了比 g7 更優(yōu)秀的數(shù)據(jù)。此外,倚天 710 作為自研芯片,相比 g7 最大有 30% 的價格優(yōu)勢。

下面四幅圖分別是 Resnet50,SSD,BERT 和 DIN 模型下的對比結(jié)果,其中,Resnet,SSD 和 BERT 都來自 MLPerf Inference Benchmark 項目,DIN 是 alibaba 提出的點擊率預測模型。藍色柱狀條是直接性能對比,橙色柱狀條是考慮了單位價格的性能對比,例如在 Resnet50 上,g8y 的性能是 g7 的 1.43倍,單位價格的性能是 g7 的 2.05 倍。

b3637baa-6c03-11ed-8abf-dac502259ad0.png

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能對比圖

說明:此處設置 Batch Size = 32,測試圖像尺寸為 224 * 224

b3a2567c-6c03-11ed-8abf-dac502259ad0.png

Figure 2: SSD 性能對比圖

說明:此處 Batch Size = 1,測試圖像尺寸為1200 * 1200

b3bdb886-6c03-11ed-8abf-dac502259ad0.png

Figure 3: BERT 性能對比圖

b3dae80c-6c03-11ed-8abf-dac502259ad0.png

Figure 4: DIN 性能對比圖

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是實驗性質(zhì),因此本次實驗采用默認的 OpenBLAS 后端。OpenBLAS 是一個開源的線性代數(shù)庫,我們?yōu)槠涮砑恿酸槍?Arm Neoverse N2 的 BFloat16 矩陣乘法計算的優(yōu)化實現(xiàn)。

OpenBLAS BFloat16 矩陣乘法優(yōu)化

矩陣乘法和深度學習存在非常緊密的關(guān)系,例如深度學習中常見的 Fully Connected Layer,Convolutional Layer等,最終是被轉(zhuǎn)換成矩陣乘法實現(xiàn)的。因此,加速矩陣乘法最終能加速模型的計算。

OpenBLAS 是一個廣泛使用的計算庫,默認作為 Numpy,PyTorch 等庫的后端,我們在調(diào)研中發(fā)現(xiàn)該庫不支持倚天 710 的 bf16 指令擴展,在和社區(qū)交流后,我們決定利用倚天 710 支持的 BFMMLA 等向量指令實現(xiàn)支持 bf16 數(shù)據(jù)格式的矩陣乘法,實現(xiàn)后性能的到大幅提升,性能對比如圖 5 所示。該實現(xiàn)目前已經(jīng)貢獻給開源社區(qū),OpenBLAS 的最新版本 0.3.21 也已經(jīng)合入。

b3fcf8c0-6c03-11ed-8abf-dac502259ad0.png

Figure5: OpenBLAS 矩陣乘法性能對比

說明:參與運算的矩陣的行數(shù)和列數(shù)均為 1000。

PyTorch CNN Performance

OpenBLAS 作為 PyTorch 的默認后端,在矩陣乘法上的優(yōu)化可以體現(xiàn)在 PyTorch 實現(xiàn)的深度學習模型中,我們以卷積計算占比較高的模型 VGG19 為例,該模型推理時,所有的卷積算子會被轉(zhuǎn)換為矩陣乘法,并調(diào)用 OpenBLAS 完成計算。下圖是 VGG 19 的性能對比:

b41e7e28-6c03-11ed-8abf-dac502259ad0.png

Figure 6: VGG19性能對比圖

05 結(jié)論

本文的分析顯示,在阿里云倚天實例g8y上,多個深度學習模型的推理性能高于同規(guī)格 g7,這主要得益于 Arm Neoverse N2 的新指令以及不斷更新的軟件支持(OneDNN、ACL 和 OpenBLAS)。在這個過程中,阿里云編譯器團隊貢獻了一部分軟件優(yōu)化,后續(xù)我們將繼續(xù)關(guān)注該領域的軟硬件優(yōu)化,提高 Arm 系列實例在 ML/AI 方面的競爭力。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    452

    文章

    50014

    瀏覽量

    419737
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9009

    瀏覽量

    366106
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5440

    瀏覽量

    120798

原文標題:性能最高提升50%,ECS倚天實例深度學習推理性能實測

文章出處:【微信號:Arm軟件開發(fā)者,微信公眾號:Arm軟件開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術(shù)標準化研究院組織的人工智能服務器系統(tǒng)性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試
    的頭像 發(fā)表于 09-06 15:33 ?227次閱讀
    開箱即用,AISBench<b class='flag-5'>測試</b>展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    TensorFlow與PyTorch深度學習框架的比較與選擇

    學習框架,它們各自擁有獨特的特點和優(yōu)勢。本文將從背景介紹、核心特性、操作步驟、性能對比以及選擇指南等方面對TensorFlow和PyTorch進行詳細比較,以幫助讀者了解這兩個框架的優(yōu)
    的頭像 發(fā)表于 07-02 14:04 ?765次閱讀

    學習筆記|如何移植NCNN

    隊的步伐,揭秘他們?nèi)绾?b class='flag-5'>進行NCNN的交叉編譯,并在ELF1開發(fā)板上演繹實踐,以此驗證模型推理性能。1、從GitHub下載NCNN源碼:https://github.c
    的頭像 發(fā)表于 05-29 10:06 ?963次閱讀
    <b class='flag-5'>學習</b>筆記|如何移植NCNN

    飛天技術(shù)沙龍回顧:業(yè)務創(chuàng)新新選擇,倚天Arm架構(gòu)深入探討

    日前,飛天技術(shù)沙龍《業(yè)務創(chuàng)新新選擇,倚天Arm架構(gòu)深入探索》在上海成功舉行。來自阿里、平頭哥及Arm的專家為現(xiàn)場觀眾深入解讀了Arm架構(gòu)的核心優(yōu)勢,并重點分享了基于倚天710的計算
    的頭像 發(fā)表于 05-21 16:48 ?496次閱讀
    飛天技術(shù)沙龍回顧:業(yè)務創(chuàng)新新選擇,<b class='flag-5'>倚天</b>Arm架構(gòu)深入探討

    阿里倚天710服務器處理器速度超至強

    4 月 30 日資訊,電氣和電子工程師協(xié)會(IEEE)發(fā)布的《Transactions on Cloud Computing》雜志顯示,阿里倚天 710 處理器在 2021 年度被評為處理超級規(guī)模
    的頭像 發(fā)表于 04-30 16:22 ?558次閱讀

    自然語言處理應用LLM推理優(yōu)化綜述

    當前,業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發(fā),通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進一步提升推理性能。
    發(fā)表于 04-10 11:48 ?509次閱讀
    自然語言處理應用LLM<b class='flag-5'>推理</b>優(yōu)化綜述

    UL Procyon AI 發(fā)布圖像生成基準測試,基于Stable Diffusion

    UL去年發(fā)布的首個Windows版Procyon AI推理基準測試,以計算機視覺工作負載評估AI推理性能。新推出的圖像生成測試將提供統(tǒng)一、精確且易于理解的工作負載,用以保證各支持硬件間
    的頭像 發(fā)表于 03-25 16:16 ?791次閱讀

    阿里第八代企業(yè)級實例g8i搭載第五代英特爾至強可擴展處理器

    +CIPU」架構(gòu)體系,ECS g8i 實例的整機性能最高提升 85%*,AI 推理性能最高提升 7 倍*,可支撐高達 72B 參數(shù)的大語言模型,幫助中小規(guī)模模型起建成本降低 50%*。
    的頭像 發(fā)表于 01-15 11:28 ?834次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>第八代企業(yè)級<b class='flag-5'>實例</b><b class='flag-5'>g8</b>i搭載第五代英特爾至強可擴展處理器

    Torch TensorRT是一個優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個端到端的機器學習框架。而TensorRT則是NVIDIA的高性能深度學習
    的頭像 發(fā)表于 01-09 16:41 ?1286次閱讀
    Torch TensorRT是一個優(yōu)化PyTorch模型<b class='flag-5'>推理性能</b>的工具

    HarmonyOS應用性能與功耗測試

    。 說明 每天只能進行 100 次性能測試任務,請合理安排測試任務。 選擇測試設備,性能
    發(fā)表于 12-26 16:39

    用上這個工具包,大模型推理性能加速達40倍

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU上實現(xiàn)出色的LLM推理性能。 英特爾 ?Extension for Transformer 創(chuàng)新
    的頭像 發(fā)表于 12-01 20:40 ?1053次閱讀
    用上這個工具包,大模型<b class='flag-5'>推理性能</b>加速達40倍

    深度學習在人工智能中的 8 種常見應用

    深度學習簡介深度學習是人工智能(AI)的一個分支,它教神經(jīng)網(wǎng)絡學習推理。近年來,它解決復雜問題
    的頭像 發(fā)表于 12-01 08:27 ?3112次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>在人工智能中的 <b class='flag-5'>8</b> 種常見應用

    Google的第五代TPU,推理性能提升2.5倍

     Gridspace 機器學習主管Wonkyum Lee表示:“我們的速度基準測試表明,在 Google Cloud TPU v5e 上訓練和運行時,AI 模型的速度提高了 5 倍。我們還看到推理
    發(fā)表于 11-24 10:27 ?521次閱讀
    Google的第五代TPU,<b class='flag-5'>推理性能</b>提升2.5倍

    基于深度學習的3D點實例分割方法

    3D實例分割(3DIS)是3D領域深度學習的核心問題。給定由點云表示的 3D 場景,我們尋求為每個點分配語義類和唯一的實例標簽。 3DIS 是一項重要的 3D 感知任務,在自動駕駛、增
    發(fā)表于 11-13 10:34 ?1949次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的3D點<b class='flag-5'>云</b><b class='flag-5'>實例</b>分割方法

    阿里倚天實例已為數(shù)千家企業(yè)提供算力,性價比提升超30%

    在2023云棲大會上,阿里宣布倚天ECS實例已服務數(shù)千家企業(yè),覆蓋電商、生命科學、交通物流及游戲等領域,整體算力性價比提升超30%。 2022年,平頭哥自研云原生CPU
    的頭像 發(fā)表于 11-03 11:25 ?780次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b><b class='flag-5'>倚天</b><b class='flag-5'>實例</b>已為數(shù)千家企業(yè)提供算力,性價比提升超30%