0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

圖像修復面臨兩個關鍵問題

OpenCV學堂 ? 來源:機器之心 ? 作者:機器之心 ? 2022-08-02 10:06 ? 次閱讀

來自羅徹斯特大學和 Adobe Research 的研究者提出了一種新的生成網(wǎng)絡 CM-GAN,很好地合成了整體結(jié)構(gòu)和局部細節(jié),在定量和定性評估方面都顯著優(yōu)于現(xiàn)有 SOTA 方法,如 CoModGAN 和 LaMa。

圖像修復是指對圖像缺失區(qū)域進行補全,是計算機視覺的基本任務之一。該方向有許多實際應用,例如物體移除、圖像重定向、圖像合成等。

早期的修復方法基于圖像塊合成或顏色擴散來填充圖像缺失部分。為了完成更復雜的圖像結(jié)構(gòu),研究人員開始轉(zhuǎn)向數(shù)據(jù)驅(qū)動的方案,他們利用深度生成網(wǎng)絡來預測視覺內(nèi)容和外觀。通過在大量圖像上進行訓練,并借助重建和對抗損失,生成式修復模型已被證明可以在包括自然圖像和人臉在內(nèi)的各種類型輸入數(shù)據(jù)上產(chǎn)生更具視覺吸引力的結(jié)果。

然而,現(xiàn)有工作只能在完成簡單的圖像結(jié)構(gòu)方面顯示出良好的結(jié)果,生成整體結(jié)構(gòu)復雜和細節(jié)高保真的圖像內(nèi)容仍然是一個巨大的挑戰(zhàn),特別是當圖像空洞(hole)很大的時候。

從本質(zhì)上講,圖像修復面臨兩個關鍵問題:一個是如何將全局上下文準確地傳播到不完整區(qū)域,另一個是合成與全局線索一致的真實局部細節(jié)。為了解決全局上下文傳播問題,現(xiàn)有網(wǎng)絡利用編碼器 - 解碼器結(jié)構(gòu)、空洞卷積、上下文注意力或傅里葉卷積來整合長程特征依賴,擴大有效感受野。此外,兩階段方法和迭代空洞填充依靠預測粗略結(jié)果來增強全局結(jié)構(gòu)。然而,這些模型缺乏一種機制來捕獲未掩碼區(qū)域的高級語義,并有效地將它們傳播到空洞中以合成一個整體的全局結(jié)構(gòu)。

基于此,來自羅徹斯特大學和 Adobe Research 的研究者提出了一種新的生成網(wǎng)絡:CM-GAN(cascaded modulation GAN),該網(wǎng)絡可以更好地合成整體結(jié)構(gòu)和局部細節(jié)。CM-GAN 中包括一個帶有傅里葉卷積塊的編碼器,用于從帶有空洞的輸入圖像中提取多尺度特征表征。CM-GAN 中還有一個雙流解碼器,該解碼器在每個尺度層都設置一個新型級聯(lián)的全局空間調(diào)制塊。

在每個解碼器塊中,研究者首先應用全局調(diào)制來執(zhí)行粗略和語義感知的結(jié)構(gòu)合成,然后進行空間調(diào)制來進一步以空間自適應方式調(diào)整特征圖。此外,該研究設計了一種物體感知訓練方案,以防止空洞內(nèi)產(chǎn)生偽影,從而滿足現(xiàn)實場景中物體移除任務的需求。該研究進行了廣泛的實驗表明,CM-GAN 在定量和定性評估方面都顯著優(yōu)于現(xiàn)有方法。

eb4e7464-11a6-11ed-ba43-dac502259ad0.png

我們先來看下圖像修復效果,與其他方法相比,CM-GAN 可以重建更好的紋理:

CM-GAN 可以合成更好的全局結(jié)構(gòu):

CM-GAN 具有更好的物體邊界:

下面我們來看下該研究的方法和實驗結(jié)果。

方法

級聯(lián)調(diào)制 GAN

為了更好地建模圖像補全的全局上下文,該研究提出一種將全局碼調(diào)制與空間碼調(diào)制級聯(lián)的新機制。該機制有助于處理部分無效的特征,同時更好地將全局上下文注入空間域內(nèi)。新架構(gòu) CM-GAN 可以很好地綜合整體結(jié)構(gòu)和局部細節(jié),如下圖 1 所示。

ec6f0872-11a6-11ed-ba43-dac502259ad0.png

如下圖 2(左) 所示,CM-GAN 基于一個編碼器分支和兩個并行級聯(lián)解碼器分支來生成視覺輸出。編碼器以部分圖像和掩碼為輸入,生成多尺度特征圖ec9f7962-11a6-11ed-ba43-dac502259ad0.png。

與大多數(shù)編碼器 - 解碼器方法不同,為了完成整體結(jié)構(gòu),該研究從全連接層的最高級別特征ecaec566-11a6-11ed-ba43-dac502259ad0.png中提取全局樣式代碼 s,然后進行ecc36192-11a6-11ed-ba43-dac502259ad0.png歸一化。此外,基于 MLP 的映射網(wǎng)絡從噪聲中生成樣式代碼 w,以模擬圖像生成的隨機性。代碼 w 與 s 結(jié)合產(chǎn)生一個全局代碼 g = [s; w],用于之后的解碼步驟。

全局空間級聯(lián)調(diào)制。為了在解碼階段更好地連接全局上下文,該研究提出了全局空間級聯(lián)調(diào)制 (CM,cascaded modulation)。如圖 2(右)所示,解碼階段基于全局調(diào)制塊(GB)和空間調(diào)制塊(SB)兩個分支,并行上采樣全局特征 F_g 和局部特征 F_s。

ecd1ec94-11a6-11ed-ba43-dac502259ad0.png

與現(xiàn)有方法不同,CM-GAN 引入了一種將全局上下文注入空洞區(qū)域的新方法。在概念層面上,它由每個尺度的特征之間的級聯(lián)全局和空間調(diào)制組成,并且自然地集成了全局上下文建模的三種補償機制:1)特征上采樣;2) 全局調(diào)制;3)空間調(diào)制。

ecf79534-11a6-11ed-ba43-dac502259ad0.png

物體感知訓練

為訓練生成掩碼的算法至關重要。本質(zhì)上,采樣的掩碼應該類似于在實際用例中繪制的掩碼,并且掩碼應避免覆蓋整個物體或任何新物體的大部分。過度簡化的掩碼方案可能會導致偽影。

為了更好地支持真實的物體移除用例,同時防止模型在空洞內(nèi)合成新物體,該研究提出了一種物體感知訓練方案,在訓練期間生成了更真實的掩碼,如下圖 4 所示。

ed1dd5c8-11a6-11ed-ba43-dac502259ad0.png

具體來說,該研究首先將訓練圖像傳遞給 全景分割網(wǎng)絡 PanopticFCN 以生成高度準確的實例級分割注釋,然后對自由空洞和物體空洞的混合進行采樣作為初始掩碼,最后計算空洞和圖像中每個實例之間的重疊率。如果重疊率大于閾值,該方法將前景實例從空洞中排除;否則,空洞不變并模擬物體完成,其中閾值設為 0.5。該研究隨機擴展和平移物體掩碼以避免過度擬合。此外,該研究還擴大了實例分割邊界上的空洞,以避免將空洞附近的背景像素泄漏到修復區(qū)域中。

訓練目標與 Masked-R_1 正則化

該模型結(jié)合對抗性損失和基于分割的感知損失進行訓練。實驗表明,該方法在純粹使用對抗性損失時也能取得很好的效果,但加入感知損失可以進一步提高性能。

此外,該研究還提出了一種專門用于穩(wěn)定修復任務的對抗性訓練的 masked-R_1 正則化,其中利用掩碼 m 來避免計算掩碼外的梯度懲罰。

實驗

該研究在 Places2 數(shù)據(jù)集上以 512 × 512 分辨率進行了圖像修復實驗,并給出了模型的定量和定性評估結(jié)果。

定量評估:下表 1 為 CM-GAN 與其他掩碼方法的比較。結(jié)果表明,CM-GAN 在 FID、LPIPS、U-IDS 和 P-IDS 方面明顯優(yōu)于其他方法。在感知損失的幫助下,LaMa、CM-GAN 比 CoModGAN 和其他方法獲得了明顯更好的 LPIPS 分數(shù),這歸功于預訓練感知模型提供的額外語義指導。與 LaMa/CoModGAN 相比,CM-GAN 將 FID 從 3.864/3.724 降低到 1.628。

ed4300a0-11a6-11ed-ba43-dac502259ad0.png

如下表 3 所示,在有無微調(diào)的情況下,CM-GAN 在 LaMa 和 CoModGAN 掩碼上都取得了明顯優(yōu)于 LaMa 和 CoModGAN 的性能增益,表明該模型具有泛化能力。值得注意的是,在 CoModGAN 掩碼,物體感知掩碼上訓練的 CM-GAN 性能依然優(yōu)于 CoModGAN 掩碼,證實了 CM-GAN 具有更好的生成能力。

ed64a85e-11a6-11ed-ba43-dac502259ad0.png

定性評估:圖 5、圖 6、圖 8 展示了 CM-GAN 與 SOTA 方法在合成掩碼方面的可視化比較結(jié)果。ProFill 能夠生成不連貫的全局結(jié)構(gòu),CoModGAN 產(chǎn)生結(jié)構(gòu)偽影和顏色斑點,LaMa 在自然場景上容易產(chǎn)生較大的圖像模糊。相比之下,CM-GAN 方法產(chǎn)生了更連貫的語義結(jié)構(gòu)、紋理更清晰,可適用于不同場景。

ed84b0d6-11a6-11ed-ba43-dac502259ad0.png

edc1fa9a-11a6-11ed-ba43-dac502259ad0.png

ede8ae1a-11a6-11ed-ba43-dac502259ad0.jpg

為了驗證模型中每個組件的重要性,該研究進行了一組消融實驗,所有模型都在 Places2 數(shù)據(jù)集上進行訓練和評估。消融實驗結(jié)果如下表 2 和圖 7 所示。

edf9a03a-11a6-11ed-ba43-dac502259ad0.png

該研究還進行了用戶研究,以更好地評估 CM-GAN 方法的視覺生成質(zhì)量,結(jié)果如下表 5 所示。此外,附錄提供了更多的視覺比較和實驗分析以供讀者參閱。

ee4b8bde-11a6-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:圖像大面積缺失,也能逼真修復,新模型CM-GAN兼顧全局結(jié)構(gòu)和紋理細節(jié)

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    單相電機兩個繞組都在定子上嗎

    單相電機的兩個繞組,即起動線圈(或稱為輔助繞組、副繞組)和運行線圈(或稱為主繞組),都位于定子上 。這兩個繞組在電機中起著關鍵作用,共同協(xié)作以產(chǎn)生旋轉(zhuǎn)磁場,從而使電機能夠運轉(zhuǎn)。 單相電機通常由一
    的頭像 發(fā)表于 09-03 15:10 ?338次閱讀

    觸發(fā)器的兩個穩(wěn)定狀態(tài)分別是什么

    觸發(fā)器作為數(shù)字電路中的基本邏輯單元,具有兩個穩(wěn)定狀態(tài),這兩個狀態(tài)通常用于表示二進制數(shù)碼中的0和1。
    的頭像 發(fā)表于 08-12 11:01 ?312次閱讀

    雙穩(wěn)態(tài)電路的兩個穩(wěn)定狀態(tài)是什么

    雙穩(wěn)態(tài)電路是一種具有兩個穩(wěn)定狀態(tài)的電子電路,廣泛應用于數(shù)字電路、通信系統(tǒng)、存儲器等領域。 雙穩(wěn)態(tài)電路的基本概念 雙穩(wěn)態(tài)電路是一種具有兩個穩(wěn)定狀態(tài)的電路,即在沒有外部輸入信號的情況下,電路可以保持在
    的頭像 發(fā)表于 08-11 15:00 ?613次閱讀

    雙穩(wěn)態(tài)觸發(fā)器的兩個基本性質(zhì)是什么

    雙穩(wěn)態(tài)觸發(fā)器(Bistable Trigger)是一種具有兩個穩(wěn)定狀態(tài)的邏輯電路,廣泛應用于數(shù)字電路設計中。它具有兩個基本性質(zhì):記憶性和切換性。 一、雙穩(wěn)態(tài)觸發(fā)器的基本概念 1.1 雙穩(wěn)態(tài)觸發(fā)器
    的頭像 發(fā)表于 08-11 10:08 ?443次閱讀

    兩個銅片可以形成原電池嗎

    兩個銅片本身不能形成原電池,因為原電池的工作原理依賴于兩個不同電位的電極材料之間的氧化還原反應。
    的頭像 發(fā)表于 05-21 16:23 ?667次閱讀

    請問CX3是否可以實現(xiàn)兩個camera的圖像拼接?

    CX3 是否可以實現(xiàn)兩個camera的圖像拼接?
    發(fā)表于 02-29 08:20

    arcgis中如何關聯(lián)兩個屬性表

    在ArcGIS中,關聯(lián)兩個屬性表是一重要的操作,可以通過此操作將兩個表中的數(shù)據(jù)關聯(lián)起來,以便進行分析和查詢。下面是詳細介紹如何在ArcGIS中實現(xiàn)屬性表的關聯(lián)。 首先,我們需要明確兩個
    的頭像 發(fā)表于 02-25 11:01 ?3639次閱讀

    兩個電位器地控制一變頻器,如何接線?

    兩個電位器地控制一變頻器,如何接線? 接線方式如下: 1. 首先,明確需要使用的電器設備。在這個場景中,我們需要兩個電位器(即可變電阻器)和一
    的頭像 發(fā)表于 02-05 10:13 ?4414次閱讀

    如何給C語言中的函數(shù)定義兩個不同的名字?

    最近有位哥問我,如何給C語言中的函數(shù)定義兩個不同的名字?就是這兩個名字都是指向同一函數(shù),同一地址,而且兩個名字都可以當做函數(shù)來用的那種。
    的頭像 發(fā)表于 12-19 16:21 ?641次閱讀

    電子設計中的兩個不同概念:pcb與pcb封裝

    電子設計中的兩個不同概念:pcb與pcb封裝
    的頭像 發(fā)表于 12-11 15:49 ?710次閱讀

    零歐姆電阻器額定功率如何計算?注意,這兩個參數(shù)很關鍵!

    零歐姆電阻器額定功率如何計算?注意,這兩個參數(shù)很關鍵!
    的頭像 發(fā)表于 12-05 17:29 ?702次閱讀
    零歐姆電阻器額定功率如何計算?注意,這<b class='flag-5'>兩個</b>參數(shù)很<b class='flag-5'>關鍵</b>!

    兩個硬盤2系統(tǒng)開機切換

    切換兩個硬盤上的系統(tǒng)是一種常見的行為,可以讓用戶在不同的操作系統(tǒng)之間進行切換,以滿足不同的需求。在本文中,我們將詳細介紹如何配置和使用兩個硬盤上的系統(tǒng)進行切換。本文將分為以下幾個部分進行討論:硬件
    的頭像 發(fā)表于 11-28 15:08 ?6750次閱讀

    MMU包含兩個模塊是什么

    的物理地址也有部分:PFN和offset,PFN( Physical frame number)是物理頁框number,offset和上面虛擬地址的offset相同,是頁內(nèi)偏移。 2-MMU包含兩個
    的頭像 發(fā)表于 11-26 15:40 ?554次閱讀
    MMU包含<b class='flag-5'>兩個</b>模塊是什么

    LED燈具散熱建模仿真關鍵問題研究(一)

    電子發(fā)燒友網(wǎng)站提供《LED燈具散熱建模仿真關鍵問題研究(一).doc》資料免費下載
    發(fā)表于 11-01 11:34 ?0次下載
    LED燈具散熱建模仿真<b class='flag-5'>關鍵問題</b>研究(一)

    LED燈具散熱建模仿真關鍵問題研究(二)

    電子發(fā)燒友網(wǎng)站提供《LED燈具散熱建模仿真關鍵問題研究(二).doc》資料免費下載
    發(fā)表于 11-01 09:33 ?0次下載
    LED燈具散熱建模仿真<b class='flag-5'>關鍵問題</b>研究(二)