英偉達(dá)的研究人員發(fā)布了一種可以編輯圖像或重建已損壞圖像的深度學(xué)習(xí)方法,實(shí)現(xiàn)了一鍵P圖,而且“毫無ps痕跡”。通過使用“部分卷積”層,該方法優(yōu)于其他方法。
在計(jì)算機(jī)視覺研究領(lǐng)域,NVIDIA常常讓人眼前一亮。
比如“用Progressive Growing的方式訓(xùn)練 GAN,生成超逼真高清圖像”,“用條件 GAN 進(jìn)行 2048x1024 分辨率的圖像合成和處理”的pix2pixHD項(xiàng)目,或者腦洞大開的讓晴天下大雨、小貓變獅子、黑夜轉(zhuǎn)白天的“無監(jiān)督圖像翻譯網(wǎng)絡(luò)”(Unsupervised Image-to-Image Translation Networks)。
近日,NVIDIA在arXiv放出一篇今年ICLR的論文,同樣很厲害。論文題為“Image Inpainting for Irregular Holes Using Partial Convolutions”,即使用“Partial Convolutions”進(jìn)行圖像修復(fù)。
在視頻中左側(cè)的操作界面,只需用工具將圖像中不需要的內(nèi)容簡單涂抹掉,哪怕形狀很不規(guī)則,NVIDIA的模型能夠?qū)D像“復(fù)原”,用非常逼真的畫面填補(bǔ)被涂抹的空白??芍^是一鍵P圖,而且“毫無ps痕跡”。
該研究來自Nvidia的Guilin Liu等人的團(tuán)隊(duì),他們發(fā)布了一種可以編輯圖像或重建已損壞圖像的深度學(xué)習(xí)方法,即使圖像穿了個(gè)洞或丟失了像素。這是目前state-of-the-art的方法。
該方法還可以通過移除圖像中的某些內(nèi)容,并填補(bǔ)移除內(nèi)容后造成的空白,從而實(shí)現(xiàn)編輯圖像。
這個(gè)過程叫做“image inpainting”,可以在圖片編輯軟件中實(shí)現(xiàn)去除不需要的內(nèi)容,同時(shí)用計(jì)算機(jī)生成的逼真的替代方式填補(bǔ)空白。
圖:被遮蓋的圖像,及使用基于部分卷積的網(wǎng)絡(luò)得到的修復(fù)結(jié)果
“我們的模型可以很好地處理任何形狀、大小、位置或距離圖像邊界任何距離的空白。以前的深度學(xué)習(xí)方法主要集中在位于圖像中心附近的矩形區(qū)域,并且通常需要依賴成本很高的后期處理?!坝ミ_(dá)的研究人員在他們的研究報(bào)告中寫道,“此外,我們的模型能夠很好地處理越來越大的空白區(qū)域?!?/p>
為了訓(xùn)練神經(jīng)網(wǎng)絡(luò),研究團(tuán)隊(duì)首先生成了55116個(gè)隨機(jī)色條、形狀和大小任意的masks,用于訓(xùn)練。他們還生成了25000個(gè)圖像用于測試。為了提高重建圖像的精度,研究人員根據(jù)相對于輸入圖像的大小,將這些訓(xùn)練圖像進(jìn)一步分為6類。
圖:一些用于測試的masks
使用NVIDIATeslaV100GPU和cuDNN加速的PyTorch深度學(xué)習(xí)框架,該團(tuán)隊(duì)通過將生成的mask應(yīng)用在ImageNet數(shù)據(jù)集Places2和CelebA-HQ兩個(gè)數(shù)據(jù)集的圖像,訓(xùn)練其神經(jīng)網(wǎng)絡(luò)。
圖:ImageNet上的測試結(jié)果對比
圖:Place2數(shù)據(jù)集上的測試結(jié)果對比
在訓(xùn)練階段,將空白或缺失的部分引入上述數(shù)據(jù)集的完整訓(xùn)練圖像中,以使網(wǎng)絡(luò)能夠?qū)W習(xí)重建缺失的像素。
在測試階段,另一批沒有在訓(xùn)練期間使用的空白或缺失部分被引入數(shù)據(jù)集里的測試圖像,以對重建的圖像的精度進(jìn)行無偏驗(yàn)證。
圖:基于典型卷積層的結(jié)果(Conv)和“部分卷積”層的結(jié)果(PConv)對比
研究人員表示,現(xiàn)有的基于深度學(xué)習(xí)的圖像修復(fù)方法不夠好,因?yàn)閬G失像素的輸出必然取決于輸入的值,而這些輸入必須提供給神經(jīng)網(wǎng)絡(luò),以找出丟失的像素。這就導(dǎo)致圖像中出現(xiàn)諸如顏色差異或模糊之類的artifacts。
為了解決這個(gè)問題,NVIDIA團(tuán)隊(duì)開發(fā)了一種方法,確保丟失像素的輸出不依賴于為這些像素提供的輸入的值。這種方法使用一個(gè)“部分卷積”層,根據(jù)其對相應(yīng)的接受域(receptivefield)的有效性,對每個(gè)輸出進(jìn)行重新歸一化(renormalization)。這種重新歸一化可以確保輸出值與每個(gè)接受域中缺失像素的值無關(guān)。
該模型是利用這些部分卷積實(shí)現(xiàn)的UNet架構(gòu)構(gòu)建的。使用一組損失函數(shù),匹配VGG模型的特征損失以及風(fēng)格損失,進(jìn)而訓(xùn)練模型以產(chǎn)生逼真的輸出。
表:各種不同方法的結(jié)果對比
研究團(tuán)隊(duì)稱,該模型優(yōu)于以前的方法。
“據(jù)我們所知,我們是第一個(gè)在不規(guī)則形狀的孔洞上展示深度學(xué)習(xí)圖像修復(fù)模型效果的人,”NVIDIA的研究人員說。
研究人員還在論文中提及,相同的框架也可以用來處理圖像超分辨率任務(wù)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4722瀏覽量
100307 -
圖像
+關(guān)注
關(guān)注
2文章
1078瀏覽量
40345 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5431瀏覽量
120789
原文標(biāo)題:震撼!英偉達(dá)用深度學(xué)習(xí)做圖像修復(fù),毫無ps痕跡
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論