0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用Design Gateway的IP Core加速Xilinx VCK190評(píng)估套件上的AI應(yīng)用

jf_pJlTbmA9 ? 來(lái)源:jf_pJlTbmA9 ? 作者:jf_pJlTbmA9 ? 2023-07-07 14:15 ? 次閱讀

Xilinx的Versal AI Core系列器件旨在解決有關(guān) AI 推理的最大而獨(dú)特的難題,該系列使用具有高計(jì)算效率的 ASIC 級(jí)人工智能計(jì)算引擎以及靈活的可編程結(jié)構(gòu),來(lái)構(gòu)建具有加速器的 AI 應(yīng)用,以使任何給定的工作負(fù)載都能夠在實(shí)現(xiàn)低功耗、低延遲的同時(shí)達(dá)到最大效率。

Versal AI Core 系列VCK190 評(píng)估套件采用了該系列內(nèi) AI 性能最優(yōu)的VC1902 器件。該套件旨在用于需要高吞吐量 AI 推理和信號(hào)處理計(jì)算性能的設(shè)計(jì)。VCK190 套件提供比當(dāng)前服務(wù)器級(jí) CPU 高 100 倍的計(jì)算能力并提供各種連接選項(xiàng),因而是適用于從云到邊緣計(jì)算等眾多應(yīng)用的、理想的評(píng)估和原型開(kāi)發(fā)平臺(tái)。

1671762462342510.png

圖 1:Xilinx Versal AI Core 系列 VCK190 評(píng)估套件。(圖片來(lái)源:AMD, Inc)

VCK190 評(píng)估套件的主要特點(diǎn)

板載 Versal AI Core 系列器件

配備 Versal ACAP XCVC1902 生產(chǎn)芯片

AI 和 DSP 引擎擁有比當(dāng)今服務(wù)器級(jí) CPU 高 100 倍的計(jì)算能力

預(yù)先構(gòu)建的合作伙伴參考設(shè)計(jì)用于快速原型設(shè)計(jì)

用于前沿應(yīng)用開(kāi)發(fā)的最新連接技術(shù)

內(nèi)置第 4 代 PCIe? 硬 IP,用于高性能設(shè)備接口,如 NVMe SSD 和主機(jī)處理器

內(nèi)置 100G EMAC 硬 IP,用于高速 100G 網(wǎng)絡(luò)接口

DDR4 和 LPDDR4 存儲(chǔ)器接口

協(xié)同優(yōu)化型工具和調(diào)試方法

Vivado? ML、Vitis? 統(tǒng)一軟件平臺(tái)、Vitis AI、AI 引擎工具,用于 AI 推理應(yīng)用的開(kāi)發(fā)

利用 Xilinx 的 Versal AI Core 系列器件進(jìn)行 AI 接口加速

1671762481452484.png

圖 2:Xilinx 的 Versal AI Core VC1902 ACAP 器件的框圖(圖片來(lái)源:AMD, Inc)

Versal? AI Core 自適應(yīng)計(jì)算加速平臺(tái) (ACAP) 是一個(gè)高度集成的多核異構(gòu)器件,可以在硬件和軟件層面動(dòng)態(tài)地適應(yīng)各種 AI 工作負(fù)載,使其成為 AI 邊緣計(jì)算應(yīng)用或云加速卡的理想選擇。該平臺(tái)集成了用于嵌入式計(jì)算的下一代 Scalar 引擎、用于提高硬件靈活性的自適應(yīng)引擎以及由 DSP 引擎和用于推理和信號(hào)處理的革命性 AI 引擎組成的智能引擎。如此集成便形成了一款自適應(yīng)性強(qiáng)的加速器,在 AI/ML 工作負(fù)荷方面超過(guò)了傳統(tǒng) FPGAGPU 的性能、延遲和功率效率。

Versal ACAP 平臺(tái)的亮點(diǎn)

自適應(yīng)性引擎:

自定義存儲(chǔ)器層次結(jié)構(gòu)優(yōu)化了加速器內(nèi)核的數(shù)據(jù)移動(dòng)和管理

預(yù)處理和后處理功能包括神經(jīng)網(wǎng)絡(luò) RT 壓縮和圖像縮放

AI 引擎 (DPU)

矢量處理器的平鋪陣列,通過(guò) XCVC1902 器件達(dá)到 133 INT8 TOPS 性能,稱為深度學(xué)習(xí)處理單元或 DPU

非常適用于 CNN、RNN 和 MLP 等神經(jīng)網(wǎng)絡(luò);為了適應(yīng)不斷發(fā)展的算法,可對(duì)硬件進(jìn)行優(yōu)化

標(biāo)量引擎

四核 ARM 處理子系統(tǒng),用于安全、電源和比特流管理的平臺(tái)管理控制器

VCK190 AI 推理性能

相比目前的服務(wù)器級(jí) CPU,VCK190 具有超過(guò)其 100 倍的計(jì)算性能。以下是一個(gè)基于 C32B6 DPU 內(nèi)核(批處理 = 6)實(shí)現(xiàn)的 AI 引擎性能例子。請(qǐng)參考下表,了解 VCK190 上各種神經(jīng)網(wǎng)絡(luò)樣品的吞吐性能(以幀/秒或 fps 為單位),DPU 工作頻率 1250MHz。

1671762498520329.jpg

表1:VCK190 AI 推理性能示例。

更多關(guān)于 VCK190 AI 性能的詳細(xì)內(nèi)容,請(qǐng)參見(jiàn)《Vitis AI Library User Guide (UG1354), r2.5.0》,網(wǎng)址:https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board。

Design Gateway 的 IP 內(nèi)核如何加速 AI 應(yīng)用的性能?

Design GatewayIP 內(nèi)核用來(lái)處理網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議,且不需要 CPU 干預(yù)。這使得該器件成為 CPU 系統(tǒng)完全擺脫復(fù)雜的協(xié)議處理的理想之選,使得這些系統(tǒng)能夠?qū)⒋蟛糠钟?jì)算能力用于人工智能應(yīng)用,包括人工智能推理、前后數(shù)據(jù)處理、用戶接口、網(wǎng)絡(luò)通信和數(shù)據(jù)存儲(chǔ)訪問(wèn),從而獲得最佳性能。

1671762511219745.png

圖 3:使用 Design Gateway IP Core 的 AI 應(yīng)用實(shí)例框圖(圖片來(lái)源:Design Gateway)

Design Gateway 的 TCP 卸載引擎 IP(TOExxG-IP)性能

用傳統(tǒng) CPU 系統(tǒng)處理 10GbE 或 25GbE 的高速、高吞吐量 TCP 數(shù)據(jù)流需要占用 50% 以上的 CPU 時(shí)間,這會(huì)降低 AI 應(yīng)用的整體性能。根據(jù)在 Xilinx MPSoC Linux 系統(tǒng)上進(jìn)行的 10G TCP 性能測(cè)試,在 10GbE TCP 傳輸過(guò)程中 CPU 的使用率超過(guò) 50%,TCP 發(fā)送和接收數(shù)據(jù)的傳輸速度可以達(dá)到 10GbE 速度的 40% 到 60% 左右,即 400 MB/s 到 600 MB/s。

通過(guò)實(shí)施 Design Gateway 的TOExxG-IP Core,在 10GbE 和 25GbE 上進(jìn)行 TCP 傳輸?shù)?CPU 使用率可以降低到幾乎 0%,而以太網(wǎng)帶寬的利用率可接近100%。這允許通過(guò)純硬件邏輯直接在 TCP 網(wǎng)絡(luò)上發(fā)送和接收數(shù)據(jù),并以最低的 CPU 占用率和最低的延遲被送入 Versal AI 引擎。下方圖 4 顯示了 TOExxG-IP 和 MPSoC Linux 系統(tǒng)的 CPU 使用率和 TCP 傳輸速度對(duì)比。

1671762525903408.png

圖 4:MPSoC Linux 系統(tǒng)和 Design Gateway 的 TOExxG-IP Core 的 10G/25G TCP 傳輸?shù)男阅鼙容^。(圖片來(lái)源:Design Gateway)

Design Gateway 的 TOExxG-IP 用于 Versal 器件

1671762537321667.png

圖 5:TOExxG-IP 系統(tǒng)概覽。(圖片來(lái)源:Design Gateway)

TOExxG-IP 內(nèi)核實(shí)現(xiàn)了 TCP/IP 協(xié)議棧(在硬線邏輯中)并與 Xilinx 的 EMAC 硬 IP 和以太網(wǎng)子系統(tǒng)模塊連接,以實(shí)現(xiàn) 10G/25G/100G 以太網(wǎng)速度的底層硬件接口。TOExxG-IP 的用戶接口包括一個(gè)用于控制信號(hào)的寄存器接口和一個(gè)用于數(shù)據(jù)信號(hào)的 FIFO 接口。TOExxG-IP 專用于通過(guò) AXI4-ST 接口與 Xilinx 的以太網(wǎng)子系統(tǒng)連接。用戶接口的時(shí)鐘頻率取決于以太網(wǎng)接口的速度(例如 156.625 MHz 或 322.266 MHz)。

TOExxG-IP 的特點(diǎn)

完整的 TCP/IP 協(xié)議棧實(shí)施,不需要 CPU

支持與 TOExxG-IP 的一對(duì)一會(huì)話

多會(huì)話可以通過(guò)使用多個(gè) TOExxG-IP 實(shí)例來(lái)實(shí)現(xiàn)

支持服務(wù)器和客戶端模式(被動(dòng)/主動(dòng)打開(kāi)和關(guān)閉)

支持 Jumbo 框架

通過(guò)標(biāo)準(zhǔn) FIFO 接口提供簡(jiǎn)單的數(shù)據(jù)接口

通過(guò)單端口 RAM 接口進(jìn)行簡(jiǎn)單的接口控制

XCVC1902-VSVA2197-2MP-ES FPGA 器件上的 FPGA 資源使用情況如下表 2 所列。

1671762550801224.jpg

表 2:Versal 器件的實(shí)施統(tǒng)計(jì)示例。

有關(guān) TOExxG-IP 的更多詳情,請(qǐng)參閱其規(guī)格書(shū)??蓮?Design Gateway 網(wǎng)站下載規(guī)格書(shū):

TOE10G-IP Core Xilinx 規(guī)格書(shū)

TOE25G-IP Core Xilinx 規(guī)格書(shū)

TOE100G-IP Core Xilinx 規(guī)格書(shū)

Design Gateway 的 NVMe 主機(jī)控制器 IP 性能

具有 PCIe Gen3 x4 或 PCIe Gen4 x4 的 NVMe 存儲(chǔ)器接口速度的數(shù)據(jù)速率分別高達(dá) 32Gbps 和 64Gbps。這比 10GbE 的以太網(wǎng)速度高三到六倍。CPU 處理復(fù)雜的 NVMe 存儲(chǔ)協(xié)議以達(dá)到最高的磁盤(pán)訪問(wèn)速度;相比 10Gbe 以太網(wǎng)的 TCP 協(xié)議,這需要更多的 CPU 時(shí)間。

Design Gateway 通過(guò)開(kāi)發(fā) NVMe IP 內(nèi)核解決了該問(wèn)題,該 IP 內(nèi)核能夠作為獨(dú)立的 NVMe 主機(jī)控制器運(yùn)行,能夠在沒(méi)有 CPU 參與的情況下直接與 NVMe SSD 通信。這使得 NVMe PCIe Gen3 和 Gen4 固態(tài)硬盤(pán)的訪問(wèn)效率高、性能好,從而能夠簡(jiǎn)化用戶接口和標(biāo)準(zhǔn)功能,實(shí)現(xiàn)了使用簡(jiǎn)單,而不需要 NVMe 協(xié)議的知識(shí)。如圖 6 所示,NVMe PCIe Gen4 固態(tài)硬盤(pán)的性能可以通過(guò) NVMe IP 實(shí)現(xiàn)高達(dá) 6GB/s 的傳輸速度。

1671762566345251.png

圖 6:NVMe PCIe Gen3 和 Gen4 SSD 與 Design Gateway 的 NVMe-IP Core 的性能比較。(圖片來(lái)源:Design Gateway)

用于 Versal 器件的 Design Gateway NVMe-IP

1671762577694555.png

圖 7:NVMe-IP 系統(tǒng)概覽圖。(圖片來(lái)源:Design Gateway)

NVMe-IP 的特點(diǎn)

能夠?qū)崿F(xiàn)應(yīng)用層、事務(wù)層、數(shù)據(jù)鏈路層和物理層的某些部分在沒(méi)有 CPU 或外部 DDR 存儲(chǔ)器的情況下訪問(wèn) NVMe SSD

與 Xilinx PCIe Gen3 和 Gen4 Hard IP 一起使用

能夠利用 BRAM 和 URAM 作為數(shù)據(jù)緩沖器,而不需要外部存儲(chǔ)器接口

支持六條指令:識(shí)別、關(guān)斷、寫(xiě)入、讀取、SMART 和刷新(可選擇支持其他命令)

XCVC1902-VSVA2197-2MP-E-S FPGA 器件的 FPGA 資源使用情況,如表 2 所示。

1671762590124691.jpg

表 3:Versal 器件的實(shí)施統(tǒng)計(jì)示例。

有關(guān) Versal 器件的 TOExxG-IP 的更多詳情,請(qǐng)參閱其規(guī)格書(shū)。可從 Design Gateway 網(wǎng)站下其載規(guī)格書(shū):

Gen4 Xilinx 的 NVMe IP Core 規(guī)格書(shū)

結(jié)語(yǔ)

TOExxG-IP 和 NVMe-IP Core 通過(guò)使 CPU 系統(tǒng)完全擺脫計(jì)算和內(nèi)存密集型協(xié)議(如 TCP 和 NVMe 存儲(chǔ)協(xié)議),來(lái)幫助加速人工智能應(yīng)用的性能,這對(duì)實(shí)時(shí)人工智能應(yīng)用至關(guān)重要。這使得 Xilinx 的 Versal AI Core 系列器件能夠執(zhí)行 AI 推理和高性能計(jì)算應(yīng)用,而不會(huì)出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議處理的瓶頸或延誤。

VCK190 評(píng)估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ) IP 解決方案能夠在 Xilinx 的 Versal AI Core 器件上以最低的 FPGA 資源占用率、極高的功率效率實(shí)現(xiàn) AI 應(yīng)用的最佳性能。


審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1176

    瀏覽量

    120140
  • 接口
    +關(guān)注

    關(guān)注

    33

    文章

    8360

    瀏覽量

    150522
  • Xilinx
    +關(guān)注

    關(guān)注

    71

    文章

    2140

    瀏覽量

    120698
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29381

    瀏覽量

    267663
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    詳解基于賽靈思的Versal? ACAP設(shè)計(jì)創(chuàng)建步驟

    Versal ACAP(自適應(yīng)計(jì)算加速平臺(tái))是高度集成化的多核計(jì)算平臺(tái),可通過(guò)靈活的自適應(yīng)能力來(lái)滿足不斷變化的動(dòng)態(tài)算法的需求。VCK190 是賽靈思最早發(fā)布的 Versal AI Core
    的頭像 發(fā)表于 09-28 10:57 ?5900次閱讀
    詳解基于賽靈思的Versal? ACAP設(shè)計(jì)創(chuàng)建步驟

    如何在Linux平臺(tái)上進(jìn)行Linux程序開(kāi)發(fā)

    最近陸陸續(xù)續(xù)有工程師拿到了VCK190單板。 VCK190集成了Xilinx的7nm AIE,有很強(qiáng)的處理能力。 本文介紹怎么運(yùn)行Xilinx AIE的例程,熟悉AIE開(kāi)發(fā)流程。
    發(fā)表于 08-02 08:03 ?3100次閱讀
    如何在Linux平臺(tái)上進(jìn)行Linux程序開(kāi)發(fā)

    利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件加速人工智能應(yīng)用

    應(yīng)用程序,最大限度地提高任何給定的效率工作負(fù)載,同時(shí)提供低功耗和低延遲。 Versal AI Core 系列VCK190 評(píng)估套件采用VC
    的頭像 發(fā)表于 11-25 16:27 ?1619次閱讀

    下載Xilinx IP Core

    除了在Xilinx官網(wǎng)上在哪里能下載到Xilinx IP Core 及l(fā)icense? 如FFTFIRCORDIC核等!
    發(fā)表于 06-20 23:51

    Xilinx ZCU102評(píng)估套件啟用NVMe SSD接口

    ZCU102的NVMe SSD讀/寫(xiě)性能。(圖片來(lái)源:Design Gateway)結(jié)論NVMeG3-IP Core提供了一種在ZCU10
    發(fā)表于 09-03 16:07

    利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件加速人工智能應(yīng)用

    出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議處理的瓶頸或延遲。VCK190 評(píng)估套件Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ)
    發(fā)表于 11-25 16:29

    賽靈思Versal評(píng)估套件助力開(kāi)發(fā)者邁入解鎖ACAP功能的高速路

    裝備業(yè)界首個(gè)自適應(yīng)計(jì)算加速平臺(tái)(ACAP)的賽靈思 Versal AI Core 系列 VCK190評(píng)估
    的頭像 發(fā)表于 01-14 09:30 ?2183次閱讀

    賽靈思宣布兩款Versal ACAP評(píng)估套件現(xiàn)已上市

    日前,賽靈思宣布兩款 Versal ACAP 評(píng)估套件現(xiàn)已上市,分別為?Versal AI Core 系列 VCK190
    的頭像 發(fā)表于 03-12 15:14 ?3119次閱讀

    Vitis AI 1.4賦予 AI 產(chǎn)品化更多可能性

    的解決方案堆棧,首次實(shí)現(xiàn)了對(duì)最新 7nm Versal ACAP 平臺(tái)和16nm Kria SOM的支持。 VCK190 套件是首款 Versal AI Core 系列
    的頭像 發(fā)表于 08-09 10:54 ?1647次閱讀

    VCK190板子使用DDR4-DIMM的ECC

    在Vivado 2021.2的VCK190 boardfile里DDR4-DIMM的DQ width被限制為64bit,不能使能ECC功能。如果需要在VCK190板子使用DDR4-DIMM的ECC,可以手動(dòng)修改board fi
    的頭像 發(fā)表于 08-17 09:12 ?1229次閱讀

    如何更改VCK190單板啟動(dòng)模式

    辦公室有VCK190單板,運(yùn)行在SD啟動(dòng)模式下,能進(jìn)入Linux。但是現(xiàn)在在家辦公,不能更改VCK190單板啟動(dòng)模式。
    的頭像 發(fā)表于 08-26 11:05 ?1165次閱讀

    利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件加速人工智能應(yīng)用

    。 VCK190 評(píng)估套件Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ) IP 解決方案可在
    的頭像 發(fā)表于 11-29 18:36 ?923次閱讀
    <b class='flag-5'>利用</b>設(shè)計(jì)網(wǎng)關(guān)的 <b class='flag-5'>IP</b> 內(nèi)核在 <b class='flag-5'>Xilinx</b> <b class='flag-5'>VCK190</b> <b class='flag-5'>評(píng)估</b><b class='flag-5'>套件</b><b class='flag-5'>上</b><b class='flag-5'>加速</b>人工智能應(yīng)用

    【產(chǎn)品測(cè)試】利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件加速人工智能應(yīng)用

    系列器件能夠執(zhí)行 AI 推理和高性能計(jì)算應(yīng)用,而不會(huì)出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議處理的瓶頸或延遲。 VCK190 評(píng)估套件Design
    的頭像 發(fā)表于 11-29 18:36 ?2575次閱讀

    在Versal VCK190評(píng)估套件使用器件固件升級(jí)(DFU)執(zhí)行USB輔助啟動(dòng)模式測(cè)試

    本文將演示如何在 Versal AI Core 系列 VCK190 評(píng)估套件從 USB 輔助啟
    的頭像 發(fā)表于 07-10 17:09 ?865次閱讀
    在Versal <b class='flag-5'>VCK190</b><b class='flag-5'>評(píng)估</b><b class='flag-5'>套件</b><b class='flag-5'>上</b>使用器件固件升級(jí)(DFU)執(zhí)行USB輔助啟動(dòng)模式測(cè)試

    VCK190評(píng)估板用戶指南

    電子發(fā)燒友網(wǎng)站提供《VCK190評(píng)估板用戶指南.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 14:40 ?0次下載
    <b class='flag-5'>VCK190</b><b class='flag-5'>評(píng)估</b>板用戶指南