Xilinx 的 Versal AI Core 系列器件旨在通過使用高計算效率的 ASIC 級 AI 計算引擎和靈活的可編程結構來解決 AI 推理的獨特和最困難的問題,以構建具有加速器的 AI 應用程序,最大限度地提高任何給定的效率工作負載,同時提供低功耗和低延遲。
Versal AI Core 系列VCK190 評估套件采用VC1902 器件,該器件在產(chǎn)品組合中具有最佳的 AI 性能。該套件適用于需要高吞吐量 AI 推理和信號處理計算性能的設計。提供比當前服務器級 CPU 高 100 倍的計算能力并具有多種連接選項,使 VCK190 套件成為從云端到邊緣的各種應用程序的理想評估和原型設計平臺。
圖 1:Xilinx Versal AI Core 系列 VCK190 評估套件。(圖片來源:AMD 公司)
VCK190 評估套件的主要特性
板載 Versal AI 核心系列設備
配備 Versal ACAP XCVC1902 量產(chǎn)芯片
AI 和 DSP 引擎提供比當今服務器級 CPU 高 100 倍的計算性能
用于快速原型制作的預建合作伙伴參考設計
用于前沿應用程序開發(fā)的最新連接技術
內置 PCIe? Gen4 Hard IP,用于 NVMe SSD 和主機處理器等高性能設備接口
內置 100G EMAC Hard IP,用于高速 100G 網(wǎng)絡接口
DDR4 和 LPDDR4 內存接口
共同優(yōu)化的工具和調試方法
Vivado? ML、Vitis? 統(tǒng)一軟件平臺、Vitis AI、用于 AI 推理應用程序開發(fā)的 AI Engine 工具
使用 Xilinx 的 Versal AI Core 系列器件實現(xiàn) AI 接口加速
圖 2:Xilinx Versal AI Core VC1902 ACAP 器件框圖。(圖片來源:AMD 公司)
Versal? AI Core 自適應計算加速平臺 (ACAP) 是一款高度集成的多核異構設備,可在硬件和軟件層面動態(tài)適應各種 AI 工作負載,是 AI 邊緣計算應用或云加速器的理想選擇牌。該平臺集成了用于嵌入式計算的下一代標量引擎、用于硬件靈活性的自適應引擎,以及由 DSP 引擎和用于推理和信號處理的革命性 AI 引擎組成的智能引擎。其結果是一個適應性強的加速器,在 AI/ML 工作負載方面超越了傳統(tǒng) FPGA 和 GPU 的性能、延遲和能效。
Versal ACAP 平臺亮點
自適應引擎:
自定義內存層次結構優(yōu)化加速器內核的數(shù)據(jù)移動和管理
預處理和后處理功能,包括神經(jīng)網(wǎng)絡 RT 壓縮和圖像縮放
人工智能引擎 (DPU)
向量處理器的平鋪陣列,XCVC1902 設備的性能高達 133 INT8 TOPS,稱為深度學習處理單元或 DPU
適用于 CNN、RNN 和 MLP 等神經(jīng)網(wǎng)絡;硬件適用于優(yōu)化不斷發(fā)展的算法
標量引擎
四核 ARM 處理子系統(tǒng),用于安全、電源和比特流管理的平臺管理控制器
VCK190 AI推理性能
與當前服務器級 CPU 相比,VCK190 能夠提供超過 100 倍的計算性能。下面是基于 C32B6 DPU Core 的 AI Engine 實現(xiàn)的性能示例,batch = 6。請參閱下表了解 VCK190 上各種神經(jīng)網(wǎng)絡樣本的吞吐量性能(以幀/秒或 fps 為單位),DPU 在 1250 下運行兆赫茲。
表 1:VCK190 AI 推理性能示例。
查看 Vitis AI 庫用戶指南 (UG1354) r2.5.0 中的 VCK190 AI 性能的更多詳細信息,網(wǎng)址為https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board
Design Gateway 的 IP 核如何加速 AI 應用性能?
Design Gateway 的 IP 核旨在處理網(wǎng)絡和數(shù)據(jù)存儲協(xié)議,無需 CPU 干預。這使得完全卸載 CPU 系統(tǒng)的復雜協(xié)議處理成為理想之選,并使它們能夠將大部分計算能力用于 AI 應用程序,包括 AI 推理、前后數(shù)據(jù)處理、用戶界面、網(wǎng)絡通信和數(shù)據(jù)存儲訪問,以實現(xiàn)最佳性能表現(xiàn)。
圖 3:具有 Design Gateway 的 IP 核的 AI 應用示例框圖。(圖片來源:Design Gateway)
Design Gateway 的 TCP 卸載引擎 IP (TOExxG-IP) 性能
傳統(tǒng) CPU 系統(tǒng)處理超過 10GbE 或 25GbE 的高速、高吞吐量 TCP 數(shù)據(jù)流需要超過 50% 的 CPU 時間,這降低了 AI 應用程序的整體性能。根據(jù) Xilinx 的 MPSoC Linux 系統(tǒng)上的 10G TCP 性能測試,10GbE TCP 傳輸期間的 CPU 使用率超過 50%,TCP 發(fā)送和接收數(shù)據(jù)傳輸速度可以達到 10GbE 速度的 40% 到 60% 或 400 MB/s 到600 兆字節(jié)/秒。
通過實施 Design Gateway 的TOExxG-IP 內核,通過 10GbE 和 25GbE 進行 TCP 傳輸?shù)?CPU 使用率可以降低到幾乎 0%,而以太網(wǎng)帶寬利用率可以達到接近 100%。這允許通過純硬件邏輯直接通過 TCP 網(wǎng)絡發(fā)送和接收數(shù)據(jù),并以最少的 CPU 使用率和盡可能低的延遲將數(shù)據(jù)饋送到 Versal AI 引擎。下面的圖 4 顯示了 TOExxG-IP 和 MPSoC Linux 系統(tǒng)之間的 CPU 使用率和 TCP 傳輸速度比較。
圖 4:MPSoC Linux 系統(tǒng)和 Design Gateway 的 TOExxG-IP 內核的 10G/25G TCP 傳輸性能比較。(圖片來源:Design Gateway)
Design Gateway 用于 Versal 器件的 TOExxG-IP
圖 5:TOExxG-IP 系統(tǒng)概覽。(圖片來源:Design Gateway)
TOExxG-IP 內核實現(xiàn)了 TCP/IP 堆棧(在硬線邏輯中),并與 Xilinx 的 EMAC Hard IP 和以太網(wǎng)子系統(tǒng)模塊連接,用于具有 10G/25G/100G 以太網(wǎng)速度的下層硬件接口。TOExxG-IP 的用戶接口包括一個用于控制信號的寄存器接口和一個用于數(shù)據(jù)信號的 FIFO 接口。TOExxG-IP 旨在通過 AXI4-ST 接口與 Xilinx 的以太網(wǎng)子系統(tǒng)連接。用戶界面的時鐘頻率取決于以太網(wǎng)接口速度(例如,156.625 MHz 或 322.266 MHz)。
TOExxG-IP 的特點
無需 CPU 即可實現(xiàn)完整的 TCP/IP 堆棧
支持一個會話與一個 TOExxG-IP
可以通過使用多個 TOExxG-IP 實例來實現(xiàn)多會話
支持服務器和客戶端模式(被動/主動打開和關閉)
支持巨型幀
通過標準 FIFO 接口的簡單數(shù)據(jù)接口
XCVC1902-VSVA2197-2MP-ES FPGA 設備上的 FPGA 資源使用情況如下表 2 所示。
表 2:Versal 設備的實施統(tǒng)計示例。
TOExxG-IP 的更多詳細信息在其數(shù)據(jù)表中進行了描述,該數(shù)據(jù)表可通過以下鏈接從 Design Gateway 網(wǎng)站下載:
TOE10G-IP 內核 Xilinx 數(shù)據(jù)表
TOE25G-IP 內核 Xilinx 數(shù)據(jù)表
TOE100G-IP 內核 Xilinx 數(shù)據(jù)表
Design Gateway 的 NVMe 主機控制器 IP 性能
NVMe 存儲接口速度與 PCIe Gen3 x4 或 PCIe Gen4 x4 的數(shù)據(jù)速率高達 32 Gbps 和 64 Gbps。這比 10GbE 以太網(wǎng)速度高三到六倍。CPU 處理復雜的 NVMe 存儲協(xié)議以達到盡可能高的磁盤訪問速度需要比 10GbE 以上的 TCP 協(xié)議更多的 CPU 時間。
Design Gateway 通過開發(fā)能夠作為獨立 NVMe 主機控制器運行的 NVMe IP 核解決了這個問題,能夠在沒有 CPU 的情況下直接與 NVMe SSD 通信。這實現(xiàn)了 NVMe PCIe Gen3 和 Gen4 SSD 訪問的高效率和性能,從而簡化了用戶界面和標準功能,以便在無需了解 NVMe 協(xié)議的情況下易于使用。NVMe PCIe Gen4 SSD 性能可通過 NVMe IP 實現(xiàn)高達 6 GB/s 的傳輸速度,如圖 6 所示。
圖 6:NVMe PCIe Gen3 和 Gen4 SSD 與 Design Gateway 的 NVMe-IP Core 的性能比較。(圖片來源:Design Gateway)
Design Gateway 的 NVMe-IP 用于 Versal 設備
圖 7:NVMe-IP 系統(tǒng)概覽。(圖片來源:Design Gateway)
NVMe-IP的特點
能夠實現(xiàn)應用層、事務層、數(shù)據(jù)鏈路層和部分物理層訪問NVMe SSD,無需CPU或外部DDR內存
與 Xilinx PCIe Gen3 和 Gen4 Hard IP 一起運行
無需外部存儲器接口即可利用 BRAM 和 URAM 作為數(shù)據(jù)緩沖器的能力
支持六個命令:Identify、Shutdown、Write、Read、SMART 和 Flush(可選的附加命令支持)
XCVC1902-VSVA2197-2MP-ES FPGA 設備上的 FPGA 資源使用情況如表 2 所示。
表 3:Versal 設備的實施統(tǒng)計示例。
用于 Versal 設備的 NVMe-IP 的更多詳細信息在其數(shù)據(jù)表中進行了描述
適用于 Gen4 Xilinx 數(shù)據(jù)表的 NVMe IP 核
結論
TOExxG-IP 和 NVMe-IP 內核都可以通過完全卸載 CPU 系統(tǒng)從計算和內存密集型協(xié)議(例如 TCP 和 NVMe 存儲協(xié)議)中卸載對實時 AI 應用程序至關重要的協(xié)議來幫助加速 AI 應用程序性能。這使得 Xilinx 的 Versal AI Core 系列器件能夠執(zhí)行 AI 推理和高性能計算應用,而不會出現(xiàn)網(wǎng)絡和數(shù)據(jù)存儲協(xié)議處理的瓶頸或延遲。
VCK190 評估套件和 Design Gateway 的網(wǎng)絡和存儲 IP 解決方案可在賽靈思 Versal AI Core 設備上以盡可能低的 FPGA 資源使用率和極高的能效在 AI 應用中實現(xiàn)最佳性能。
審核編輯 黃昊宇
-
Xilinx
+關注
關注
71文章
2140瀏覽量
120698 -
IP
+關注
關注
5文章
1579瀏覽量
149144 -
AI
+關注
關注
87文章
29382瀏覽量
267664 -
人工智能
+關注
關注
1789文章
46348瀏覽量
236506
發(fā)布評論請先 登錄
相關推薦
評論