電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>基于Versal的圖像恢復(fù)管道

基于Versal的圖像恢復(fù)管道

2416061 2023-06-14 | zip | 0.00 MB | 次下載 | 免費(fèi)

資料介紹

描述

背景

由于我有移動(dòng)地圖方面的背景，我決定構(gòu)建一個(gè)圖像恢復(fù)管道，以改進(jìn)來(lái)自汽車(chē)和無(wú)人機(jī)等移動(dòng)地圖系統(tǒng)的圖像（來(lái)源）。移動(dòng)地圖系統(tǒng)通常用于從道路、城市和基礎(chǔ)設(shè)施中獲取 3D 數(shù)據(jù)。大多數(shù)移動(dòng)系統(tǒng)使用相機(jī)和激光掃描儀來(lái)捕獲 3D 數(shù)據(jù)。由于映射系統(tǒng)僅從一個(gè)場(chǎng)景中獲取一張圖像，因此圖像質(zhì)量非常重要。因此，這個(gè)想法應(yīng)運(yùn)而生，旨在構(gòu)建一個(gè)提高圖像質(zhì)量的處理管道。由于移動(dòng)地圖的需求非常特殊，我決定構(gòu)建一個(gè)更通用的解決方案，可以適應(yīng)移動(dòng)地圖問(wèn)題。

移動(dòng)地圖應(yīng)用程序的另一個(gè)要求是能源效率。大多數(shù)系統(tǒng)的能源資源有限，尤其是無(wú)人機(jī)。因此，我決定密切關(guān)注系統(tǒng)的能耗。我認(rèn)為這不僅對(duì)移動(dòng)地圖應(yīng)用很重要，因?yàn)榈?2030 年，云系統(tǒng)的電力消耗幾乎呈指數(shù)級(jí)增長(zhǎng)（來(lái)源）

由于 VCK5000 卡通常用于數(shù)據(jù)中心應(yīng)用，而不是移動(dòng)測(cè)繪汽車(chē)，因此決定將我的項(xiàng)目命名為“綠色計(jì)算：基于 Versal 的圖像恢復(fù)管道”

介紹

本項(xiàng)目介紹了基于 UNet 卷積網(wǎng)絡(luò)的圖像恢復(fù)處理流水線。圖像管道專為 Versal VCK5000 卡設(shè)計(jì)，并使用中型SIDD數(shù)據(jù)集進(jìn)行訓(xùn)練。與基于 GPU 的推理相比，整個(gè)處理管道經(jīng)過(guò)優(yōu)化，可在以每秒幀數(shù) (fps) 衡量的性能和準(zhǔn)確性方面高效運(yùn)行。除了流水線開(kāi)發(fā)之外，還對(duì) Versal 和 GPU 系統(tǒng)之間的功耗進(jìn)行了詳細(xì)研究。該項(xiàng)目的重點(diǎn)是涵蓋三個(gè)不同的要求：

圖像恢復(fù)管道的能耗
以特定的模型精度每秒處理特定數(shù)量的幀
可靠的推理時(shí)間和可擴(kuò)展性

訓(xùn)練圖像恢復(fù)處理以去除圖像的噪聲，如下例所示。圖像管道針對(duì)智能手機(jī)相機(jī)圖像進(jìn)行了優(yōu)化。一個(gè)可能的應(yīng)用可能是基于云的圖像增強(qiáng)服務(wù)。

圖像噪聲恢復(fù)示例

該項(xiàng)目開(kāi)發(fā)的 VCK5000 圖像恢復(fù)管道在性能 (fps) 和功耗方面均優(yōu)于最先進(jìn)的 GPU。除了性能分析之外，詳細(xì)的分析還顯示了不同的訓(xùn)練和量化步驟如何影響卷積網(wǎng)絡(luò)的準(zhǔn)確性。分析并不固定于特定的模型或網(wǎng)絡(luò)，所需的步驟可以很容易地適應(yīng)自定義應(yīng)用程序。由 Versal VCK5000 處理的最終網(wǎng)絡(luò)在論文和代碼（2022 年 3 月 30 日）上排名前 15 位“SIDD 上的圖像去噪”網(wǎng)絡(luò)。

網(wǎng)絡(luò)優(yōu)化后，對(duì) Versal 系統(tǒng)進(jìn)行詳細(xì)的功率分析。Versal 系統(tǒng)的功耗與基于 GPU 的推理進(jìn)行了比較。

限制：除了推理任務(wù)外，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)處理對(duì)能量的要求也很高。這項(xiàng)工作的重點(diǎn)是運(yùn)行時(shí)功耗和推理性能。訓(xùn)練和預(yù)處理的分析主要取決于訓(xùn)練數(shù)據(jù)集的大?。ㄗ髡叩囊庖?jiàn)），不屬于本項(xiàng)目的一部分。

項(xiàng)目概況

代碼結(jié)構(gòu)的靈感來(lái)自 Xilinx/AMD Vitis-ai 教程。所有需要的步驟都被分成不同的 python 或 shell 腳本。腳本 run_all.sh 處理所有步驟以獲取整個(gè)處理管道。

網(wǎng)絡(luò)

用于管道的 UNet 網(wǎng)絡(luò)最初是由弗萊堡大學(xué)開(kāi)發(fā)的。該網(wǎng)絡(luò)最初是為生物醫(yī)學(xué)圖像分割任務(wù)而設(shè)計(jì)的。除了分割任務(wù)外，UNet 結(jié)構(gòu)還可用于圖像恢復(fù)。本文提出了一種基于 UNet 的圖像恢復(fù)網(wǎng)絡(luò)，該網(wǎng)絡(luò)在圖像恢復(fù)任務(wù)中優(yōu)于當(dāng)前網(wǎng)絡(luò)。

UNet架構(gòu)

資料來(lái)源：弗萊堡大學(xué)

該網(wǎng)絡(luò)是完全卷積的，呈 u 形。“U”的左側(cè)是收縮路徑，右側(cè)是擴(kuò)張路徑。UNet 的一個(gè)重要特點(diǎn)是上采樣部分有大量的特征通道，這使得網(wǎng)絡(luò)可以將上下文信息傳播到更高分辨率的層。

SIDD-數(shù)據(jù)集

SIDD 是“智能手機(jī)圖像去噪數(shù)據(jù)集”的簡(jiǎn)稱。數(shù)據(jù)集包含使用智能手機(jī)相機(jī)獲得的原始（嘈雜）和處理（真實(shí)）圖像，并提供三種不同尺寸（小、中、全）。該項(xiàng)目使用大約 20 GB 的中等大小，包含 96.000 張用于訓(xùn)練的圖像和 1280 張用于驗(yàn)證的圖像。

SIDD 真實(shí)圖像

SIDD 輸入圖像

PSNR/SSIM

用人眼比較圖像是很困難的，尤其是在差異很小的時(shí)候。在這項(xiàng)工作中，PSNR/SSIM 度量用于比較圖像。

峰值信噪比 (PSNR) 用作原始圖像和壓縮圖像之間的質(zhì)量度量，其單位是分貝 (dB)。由于 PSNR 用于比較 UNet 輸出與 ground-truth 圖像，因此他的值是比較不同量化方法的一個(gè)很好的指標(biāo)。（來(lái)源）。對(duì)于訓(xùn)練，我們將來(lái)自 UNet 輸出的 PSNR 值與相應(yīng)的真實(shí)圖像進(jìn)行比較。

結(jié)構(gòu)相似度指數(shù) (SSIM) 度量用于測(cè)量?jī)蓚€(gè)給定圖像之間的相似度。兩個(gè)圖像之間的比較是在三個(gè)基本特征上進(jìn)行的：亮度、對(duì)比度和結(jié)構(gòu)。分別比較這三個(gè)特征并進(jìn)行相等加權(quán)以獲得比較圖像的每個(gè)像素的 SSIM 值。( Source ) SSIM 輸出范圍是從 0 到 1。SSIM 為 1 表示兩個(gè)圖像相同。相反，SSIM 度量為 0 意味著兩個(gè)圖像完全不同。對(duì)于訓(xùn)練，我們將來(lái)自 UNet 輸出的 SSIM 值與相應(yīng)的真實(shí)圖像進(jìn)行比較。

個(gè)人電腦系統(tǒng)

PC 系統(tǒng)必須能夠運(yùn)行 RTX3090 和 VCK5000 卡。VCK5000 需要 Ubuntu 18.04（內(nèi)核 5.8）才能啟動(dòng)和運(yùn)行。內(nèi)核版本是使卡運(yùn)行所必需的。見(jiàn)黑客郵報(bào)。為確保功耗相當(dāng)，兩張卡的測(cè)量必須使用相同的設(shè)置。PC系統(tǒng)的詳細(xì)配置如下：

AMD 銳龍 ThreadRipper PRO 3955WX
華碩 WRX80 Pro WS Sage SE Wifi（BIOS：PCIe 通道為 3.0）
64 GB DDR4 內(nèi)存
華碩 RTX3090 TUF
適用于 AMD Ryzen ThreadRipper PRO 的 Ubuntu 18.04（內(nèi)核 5.8）補(bǔ)丁
Vitis-AI 1.4.1
1200 瓦鉑金 PSU

功率計(jì)

為了在推斷時(shí)測(cè)量系統(tǒng)的功耗，使用了hama功率計(jì)。該功率計(jì)用于連續(xù)功率測(cè)量。功率計(jì)可以記錄特定時(shí)間內(nèi)的能源消耗并總結(jié)能源需求。所有設(shè)置的典型測(cè)量周期為 1、5 小時(shí)。為避免測(cè)量中出現(xiàn)初始功率峰值，推理任務(wù)運(yùn)行 2、5 小時(shí)。30 分鐘后開(kāi)始功率測(cè)量。

FPGA 上的 AI 推理

本章簡(jiǎn)要介紹了 AI 推理，本文更深入，并提供了有關(guān) FPGA 及其用例的更多詳細(xì)信息。由于神經(jīng)網(wǎng)絡(luò)主要使用浮點(diǎn)數(shù)，F(xiàn)PGA 無(wú)法直接運(yùn)行神經(jīng)網(wǎng)絡(luò)推理。浮點(diǎn)處理引擎的時(shí)鐘速度較慢，并且在 FPGA 設(shè)備上的可用性較低。這就是為什么必須對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行量化以進(jìn)行 FPGA 推理的原因之一。

UNet培訓(xùn)

在用 250 個(gè) Epoch 訓(xùn)練 UNet 網(wǎng)絡(luò)之后，使用 SIDD Medium 數(shù)據(jù)集訓(xùn)練 UNet 網(wǎng)絡(luò)。最佳 PSNR 值為39，epoch 228 為 5937 dB。最佳模型權(quán)重的 SSIM 為 0，968954。如果網(wǎng)絡(luò)在 GPU 上以浮點(diǎn)模式處理，這是我們可以獲得的最佳輸出結(jié)果。訓(xùn)練 UNet 網(wǎng)絡(luò)是 run_all.sh 中的第一步

訓(xùn)練量化后的 UNet

量化是指以低于浮點(diǎn)精度的位寬執(zhí)行計(jì)算和存儲(chǔ)張量的技術(shù)。量化模型使用整數(shù)而不是浮點(diǎn)值對(duì)張量執(zhí)行部分或全部操作。網(wǎng)絡(luò)參數(shù)的量化通常在訓(xùn)練之后進(jìn)行，通常會(huì)導(dǎo)致精度損失。運(yùn)行正常量化，UNet PSNR 降低到 27，761646 dB SSIM 為 0，836058。UNet 網(wǎng)絡(luò)的量化是 run_all.sh 中的第二步

量化后的PNSR

量化后的 SSIM

UNet 量化快速微調(diào)

正如我們所看到的，量化導(dǎo)致了 12 dB 的精度損失，那么我們需要改進(jìn)量化結(jié)果。Vitis-Ai 提供“快速微調(diào)”以提高準(zhǔn)確性：基于AdaQuant算法的過(guò)程。那么網(wǎng)絡(luò)輸出結(jié)果稍微好一點(diǎn)（PSNR: 28, 352730 ; SSIM: 0, 838978）。UNet網(wǎng)絡(luò)的這個(gè)Fastfine-tune是run_all.sh中的第三步

快速微調(diào)后的 PNSR

?

快速微調(diào)后的 SSIM

?

UNet 量化感知訓(xùn)練

之前的兩種方法都是使用最終訓(xùn)練的浮點(diǎn)網(wǎng)絡(luò)作為輸入來(lái)描述的。本節(jié)中描述的第三種方法是從頭開(kāi)始訓(xùn)練網(wǎng)絡(luò)。量化感知訓(xùn)練（qat）的機(jī)制很簡(jiǎn)單：它在浮點(diǎn)模型到量化整數(shù)模型轉(zhuǎn)換過(guò)程中發(fā)生量化的地方放置量化模塊，即量化和反量化模塊，以模擬整數(shù)值。假量化模塊還將監(jiān)控權(quán)重和激活的比例和零點(diǎn)。一旦量化感知訓(xùn)練完成，浮點(diǎn)模型可以立即使用存儲(chǔ)在假量化模塊中的信息轉(zhuǎn)換為量化整數(shù)??模型。與其他量化技術(shù)相比，qat 從下往上訓(xùn)練網(wǎng)絡(luò)。

要使用 qat，我們必須修改網(wǎng)絡(luò)結(jié)構(gòu)以啟用 Xilinx QatProcessor。QatProcessor 自動(dòng)插入所有假層并將浮點(diǎn)數(shù)轉(zhuǎn)換為整數(shù)。(來(lái)源) 我們對(duì)模型進(jìn)行了兩個(gè)主要的修改：

所有可量化的操作都必須是 torch.nn.Module 的實(shí)例
所有圖層必須具有唯一的名稱

此時(shí)，重要的是在準(zhǔn)備 qat 時(shí)仔細(xì)檢查浮點(diǎn)模型的性能，以確保模型以正確的方式工作。模型源代碼可以在項(xiàng)目的 GitHub 存儲(chǔ)庫(kù)中找到。我用正常的浮點(diǎn)訓(xùn)練重新訓(xùn)練了 qat 模型，并仔細(xì)檢查了輸出性能。對(duì)于 UNet 圖像，Restauration 管道量化感知訓(xùn)練將模型輸出提高到 PSNR：33、6874 dB 和 SSIM：0、925673。要為 UNet 運(yùn)行 qat，請(qǐng)?jiān)?run_all.sh 中使用 qat.py

與浮點(diǎn)模型相比，使用 qat 進(jìn)行模型訓(xùn)練的準(zhǔn)確性更高。正常量化和 fast_finetune 沒(méi)有得到模型參數(shù)來(lái)生成浮點(diǎn)精度。但是使用 qat，我們可以更接近完美的模型輸出。Vitis-Ai 模型 Zoo 也使用 qat 進(jìn)行訓(xùn)練，因此賽靈思為您完成了 qat 訓(xùn)練工作。

qat 后的 PSNR

qat 之后的 SSIM

UNet 量化感知訓(xùn)練 4Bit

qat 量化位寬為八位。但是如果我們想要更多的吞吐量來(lái)處理更多的幀，我們可以拖尾到四位。減少位寬會(huì)導(dǎo)致模型不太準(zhǔn)確。但是將模型參數(shù)減少到四位會(huì)導(dǎo)致更快的執(zhí)行時(shí)間。這一步是可選的，因?yàn)槲覀冎辉?VCK5000 卡上測(cè)試 8 位的 qat 輸出性能。更改 qat bit_width 是對(duì) QatProcessor (Source) 的輸入?yún)?shù)的簡(jiǎn)單修改，必須更改。具有四位的 Qat 給出 PSNR：20、8743 dB 和 SSIM：0、728075

qat-4Bit 后的 PSNR

qat-4Bit 之后的 SSIM

?

推理性能 VCK5000 與 RTX3090 GPU

將 GPU 性能與 FPGA 進(jìn)行比較并不像聽(tīng)起來(lái)那么簡(jiǎn)單。GPU 的推理任務(wù)不同。GPU 任務(wù)由軟件 (CUDA) 安排，因?yàn)槲覀兪褂玫氖?Nvidia RTX3090 GPU。底層調(diào)度程序?qū)⑷蝿?wù)添加到張量或 CUDA 核心。調(diào)度器還嘗試優(yōu)化從主 GPU 內(nèi)存到本地核心內(nèi)存的數(shù)據(jù)復(fù)制過(guò)程，以最大限度地提高核心效率，但這是一個(gè)完全不同的問(wèn)題。（來(lái)源，來(lái)源）

一般來(lái)說(shuō)，數(shù)據(jù)復(fù)制對(duì)于 GPU 或 FPGA 來(lái)說(shuō)是一項(xiàng)耗時(shí)的任務(wù)，尤其是從主機(jī)內(nèi)存復(fù)制數(shù)據(jù)到設(shè)備內(nèi)存，而在嵌入式設(shè)備上這種行為是不同的。RTX3090 GPU 使用 PCIe 4.0 x16，而 VCK5000 使用 PCIe 3.0 x16。為了平衡從主機(jī)內(nèi)存到 PCIe 設(shè)備的數(shù)據(jù)速率，所有 PCIe 通道都通過(guò) BIOS 配置為 PCIe 3.0。PC 系統(tǒng)在沒(méi)有顯示器的情況下運(yùn)行以減少外部 GPU 負(fù)載。

但最終，人工智能推理任務(wù)的典型應(yīng)用需求可以是：

能源消耗
以特定的模型精度每秒處理特定數(shù)量的幀
可靠的推理時(shí)間和可擴(kuò)展性

測(cè)試設(shè)置

VCK5000在主板上測(cè)量PCIe Slot

?

推理能耗 VCK5000 vs. RTX3090 GPU

重要提示：VCK5000 正在處理量化的 UNet 網(wǎng)絡(luò)，而 GPU 正在處理浮點(diǎn) UNet 網(wǎng)絡(luò)。

為了在推斷時(shí)測(cè)量能耗，使用了 hama 功率計(jì)。推理在 2000 個(gè)輸入圖像的循環(huán)中運(yùn)行。輸出圖像保存在內(nèi)部 SSD 上。GPU 處理訓(xùn)練好的浮點(diǎn)模型，CUDA 支持批量大小 1。VCK5000 在 Gen3x16 模式下以 8PE@350 MHz 處理批量大小 1 的 qat 模型。得到的性能不是原始的理論吞吐量，因?yàn)榫W(wǎng)絡(luò)輸出被檢查并保存在系統(tǒng) SSD 上。

僅在一個(gè)設(shè)備（GPU 或 FPGA）運(yùn)行時(shí)測(cè)量功耗。最大限度地減少冷卻（源）的強(qiáng)大影響，每個(gè)設(shè)備都在同一個(gè) PCIe 插槽中進(jìn)行測(cè)量，以使兩個(gè)設(shè)備具有相同的環(huán)境條件。室溫由記錄儀測(cè)量，大致恒定在 19、5 攝氏度。所有值 Power, FPS 每 20 分鐘手動(dòng)捕獲一次。

功耗 Versal 與 GPU

該圖顯示 Versal 系統(tǒng)比 GPU 更節(jié)能。平均功耗比 GPU 低 80 瓦。

推理 FPS VCK5000 與 RTX3090 GPU

除了功耗之外，還測(cè)量了處理能力。該圖顯示 GPU 以接近 18 FPS 的速度運(yùn)行，但存在抖動(dòng)。VCK5000 每秒處理近 40 張圖像。每秒處理幀數(shù)的標(biāo)準(zhǔn)差：

GPU: 1, 134 FPS
Versal: 0, 2344 FPS

推理 FPS 圖

未來(lái)的工作

該項(xiàng)目只是優(yōu)化 UNet 管道以提高準(zhǔn)確性和功率效率的開(kāi)始。以下主題可以作為后續(xù)改進(jìn)處理管道：

圖像預(yù)處理

目前，輸入圖像由 CPU 預(yù)處理以適合作為網(wǎng)絡(luò)輸入。此任務(wù)可以在 Versal VCK5000 上輕松實(shí)現(xiàn)。

直接 Versal 存儲(chǔ)

通過(guò) PCIe DMA 傳輸將輸入圖像直接加載到 VCK5000 內(nèi)存，減少 CPU 讀取和寫(xiě)入圖像的負(fù)載。可以添加直接存儲(chǔ)作為圖像預(yù)處理的頂部，從而消除 AI 處理任務(wù)完成的 CPU 負(fù)載。微軟為 GPU 實(shí)現(xiàn)了直接存儲(chǔ)（來(lái)源）。

批處理和流水線

VCK5000 的內(nèi)部數(shù)據(jù)流可以通過(guò)流水線圖像加載、預(yù)處理、人工智能推理和圖像存儲(chǔ)進(jìn)行優(yōu)化。在理想情況下，在 VCK5000 上同時(shí)在不同階段處理四個(gè)圖像。

結(jié)論

該項(xiàng)目的第一部分是最先進(jìn)的圖像恢復(fù)管道。流水線可由 VCK5000 Versal 加速卡處理。與其他最先進(jìn)的網(wǎng)絡(luò)相比，PSNR 為 33, 6874 和 SSIM 為 0, 925673 的管道在 TOP 15（來(lái)源，來(lái)源）中的兩個(gè)指標(biāo)均排名（日期：03/30/2022 ) 處理 SSID 數(shù)據(jù)集的網(wǎng)絡(luò)。

另一方面，開(kāi)發(fā)人員、系統(tǒng)架構(gòu)師和所有對(duì) FPGA 推理感興趣的人都可以使用這個(gè)項(xiàng)目作為起點(diǎn)來(lái)檢查他們的推理需求。該項(xiàng)目有助于更好地了解如何滿足以下要求：

能源消耗
以特定的模型精度每秒處理特定數(shù)量的幀
可靠的推理時(shí)間和可擴(kuò)展性

該項(xiàng)目的第一部分是以簡(jiǎn)單的方式分析量化的 PyTorch UNet 網(wǎng)絡(luò)。這是通過(guò)三種不同的方法完成的（量化、快速微調(diào)量化、量化感知訓(xùn)練）。量化感知訓(xùn)練為 UNet 模型生成最佳輸出精度，PSNR 為 33，6874 dB。與浮點(diǎn)模型相比，PSNR 低 6 dB。

在項(xiàng)目的第二部分中，將 Versal 卡的模型計(jì)算的功耗與 GPU 進(jìn)行了比較。功耗通常比 GPU 所需的低 80 瓦。假設(shè) 24/7 工作負(fù)載，Versal VCK5000 可以在 24 小時(shí)內(nèi)節(jié)?。?、92 千瓦、13、44 千瓦一周和 683 千瓦一年。

節(jié)能 Versal

該項(xiàng)目的第三部分比較了 Versal 和 GPU 之間的處理性能。在 FPGA 上處理二進(jìn)制網(wǎng)絡(luò)可以提高 100% 的 fps。除了處理更多幀的效果外，Versal 管道在每秒幀數(shù)方面具有更恒定的處理流程。三小時(shí)推理的標(biāo)準(zhǔn)差為：0, 2344 FPS

從一開(kāi)始就結(jié)束循環(huán)，人工智能模型有助于解決農(nóng)作物歉收、食物浪費(fèi)、交通轉(zhuǎn)向等基本問(wèn)題，這些問(wèn)題可以通過(guò) FPGA 進(jìn)行計(jì)算。基于 FPGA 加速器的人工智能推理非常有效，因此 FPGA 可以幫助減少計(jì)算系統(tǒng)的全球能源需求并節(jié)省大量資源。