0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

東京大學(xué)團(tuán)隊(duì)開源了一款名為「neural collage」的圖像編輯工具

5RJg_mcuworld ? 來源:lq ? 2019-04-23 16:32 ? 次閱讀

教新手畫畫?字體風(fēng)格遷移?換明星“假臉”?毫無疑問,在圖像生成中 GAN 以其生成以假亂真的圖像“發(fā)揮”出了巨大的潛力。

日前,來自日本東京大學(xué)和 Preferred Networks 公司的團(tuán)隊(duì)開源了一款名為「neural collage」的圖像編輯工具,允許用戶在圖像的制定位置更改圖像的語義信息,以達(dá)到圖像拼貼的效果。

例如,將一只面露兇光的哈士奇的圖片換臉成為可愛的博美。

而更值得一提的是,整個過程的中間操作非常簡單。

如何使用和安裝?

首先保證 Python 3.6 以上的語言環(huán)境,并安裝所需的 Python 庫:pip install -r requirements.txt

如果想要使用預(yù)訓(xùn)練模型生成圖像,項(xiàng)目作者該提供了鏈接以下載模型。需要注意的是,將 snapshot 參數(shù)設(shè)置為下載的預(yù)訓(xùn)練模型文件(.npz)的路徑。

相關(guān)鏈接:

https://drive.google.com/drive/u/0/folders/1SFmq9LjEkIXXAKo6p-Wdlfu0BUFSyLJi

https://drive.google.com/drive/folders/1qPP2RxMNnPSbacotnG7_H5dZrQpOmI3D

作者表示,基于 GAN 模型采用了兩種新策略:sCBN 和 特征混合,并在“Spatially Controllable Image Synthesis with Internal Representation Collaging”論文中詳述了該方法原理及實(shí)現(xiàn)效果。

鏈接:

https://arxiv.org/abs/1811.10153

以下為論文解讀:

摘要

本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的圖像編輯策略,這種新穎的方法通過對 GAN模型生成的圖像進(jìn)行特征空間表征,從而改變圖像任意區(qū)域的語義信息。

該策略能夠與任何帶條件正則化層 (conditional normalization layers) 的 GAN模型相結(jié)合,用于圖像對人工圖像和真實(shí)圖像的編輯任務(wù),它有如下兩種變體:

(1) sCBN (spatial conditional batch normalization),這是一種基于用戶指定空間權(quán)重映射的條件批正則化方法;

(2) 特征混合(feature-blending),即一種直接修改中間特征圖的方法。此外,通過在不同數(shù)據(jù)集上、與不同 GAN 模型結(jié)合實(shí)驗(yàn),進(jìn)一步驗(yàn)證了本文所提出方法的有效性及強(qiáng)大性能。

簡介

深度生成模型,如生成對抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAE)是很有潛力的無監(jiān)督學(xué)習(xí)技術(shù),具有強(qiáng)大的語義信息表征能力。

其中以 GAN 在圖像任務(wù)方面尤為成功,如圖像著色、圖像修復(fù)、領(lǐng)域轉(zhuǎn)換、風(fēng)格遷移、目標(biāo)形變等應(yīng)用。

隨著穩(wěn)定 GAN 模型訓(xùn)練的方法的相繼提出,這類模型在圖像生成方面也得到廣泛的應(yīng)用。

然而,如何根據(jù)用戶的意愿正則化 GAN 模型,得到想要的輸出,這仍是當(dāng)前相關(guān)領(lǐng)域的一大問題。

先前的研究,諸如條件生成對抗網(wǎng)絡(luò)(CGAN)、InfoGAN、風(fēng)格生成對抗網(wǎng)絡(luò)(StyleGAN)等都在探索如何讓生成對抗網(wǎng)絡(luò)有指向性地生成所需要的圖像。

而最近提出的 GAN dissection 研究深入探索了模型輸出與中間特征語義信息之間的關(guān)系,并通過推理關(guān)系 (relation) 成功實(shí)現(xiàn)逼真圖像的生成。

受此啟發(fā),本文提出一種新穎的圖像變換方法,即 sCBN 和特征混合策略,通過處理生成網(wǎng)絡(luò)圖像的中間特征來編輯圖像,并允許用戶對圖像語義信息進(jìn)行復(fù)制、粘貼等編輯操作。

其中, sCBN 基于用戶所指定的混合系數(shù) (標(biāo)簽拼貼(label collaging)) 的空間映射圖,允許用戶融合多標(biāo)簽的語義信息。

如此,不僅可以從一個標(biāo)簽映射圖中生成圖像,還能夠通過局部的圖像語義改變圖像。

如下圖1a,該方法能夠?qū)⒁恢还科娴难劬ψ優(yōu)椴┟廊难劬Α?/p>

特征混合能夠在中間特征空間直接融合多張圖像,還能將復(fù)雜特征進(jìn)行局部混合;圖 1b 中,通過特征混合將一只動物的姿態(tài)變?yōu)槟P退x的姿勢。

圖1 通過 sCBN 方法 (a) 和特征混合方法 (b) 得到的特征拼貼樣本。

總的來說,該方法的一大優(yōu)勢在于只需要訓(xùn)練 AdaIN 或 CBN 結(jié)構(gòu)的 GAN 模型就能實(shí)現(xiàn),無需額外訓(xùn)練其他模型。

它能夠用于 GAN 模型所生成的任意圖像,適用于廣泛的圖像語義操作。此外,通過與流形投射 (Manifold projection) 結(jié)合,該方法能夠?qū)φ鎸?shí)圖像的局部語義信息進(jìn)行編輯處理,并大量實(shí)驗(yàn)中展現(xiàn)了強(qiáng)大的性能。

方法

sCBN

sCBN 是一種特殊形式的條件批正則化方法 (CBN),作為批正則化方法 (BN) 的變體,它能夠?qū)?BN 中的參數(shù)按類語義信息進(jìn)行編碼。對于圖像的局部類標(biāo)簽,它通過空間變換來改變條件批正則化參數(shù),如下圖2所示。

圖2 CBN 方法和 sCBN 方法中層結(jié)構(gòu)對比圖。左邊是 CBN 方法,它通過空間一致長度,逐層向生成的圖像添加類別特征。

右圖是 sCBN 方法,該方法的每一層將用戶指定的混合密度與類特征混合到生成的圖像中。

基于單一類別的圖像樣本,CBN 方法通過特定類的放縮比例 (class-specific scale) 和偏差參數(shù) (bias parameters) 來正則化中間特征集合。

而 sCBN 則是將 CBN 方法中的放縮比例項(xiàng)替換為一種加權(quán)和的形式,該權(quán)重系數(shù)是由混合系數(shù)的非負(fù)張量映射組成,這是由用戶所決定的。

如此,用戶可以通過所選取的權(quán)重系數(shù)來決定某個類別 c 在任意區(qū)域的特征密度,達(dá)到控制生成輸出的目的。

此外,通過所選用的權(quán)重值控制圖像不同區(qū)域不同類別的特征密度,用戶可以將圖像多個不相交部分進(jìn)行分類。

空間特征混合

空間特征混合 (spatial feature blending)是一種可以提取圖像特定區(qū)域特征并將其與其他特征混合的方法。

與 sCBN 方法中的權(quán)重系數(shù)類似,用戶同樣可以通過選擇特征混合參數(shù) M 來控制所混合的效果。

此外,通過流形投射變換,該方法還能用于真實(shí)圖像的編輯處理,如下圖3所示,通過特征混合處理,將圖像 G(z2) 和 G(z1) 的嘴巴特征混合。用戶只需要通過選擇選擇嘴巴特定區(qū)域的混合系數(shù) M,就能夠?qū)崿F(xiàn)這種效果。

圖3 空間特征混合方法,通過不斷地迭代過程,在生成網(wǎng)絡(luò)的特征空間,將不同隱變量生成的圖像混合到目標(biāo)圖像中去。

真實(shí)圖像應(yīng)用

通過尋找一個流形投射方法,使得隱變量 z 滿足 G(z) 與 x 大致相等,實(shí)現(xiàn)真實(shí)圖像的語義信息進(jìn)行編輯。

在獲得 x 的倒數(shù)后,可以通過應(yīng)用相同的流程來更改 x 的部分標(biāo)簽信息或?qū)⑵渌麍D像特征混合到 x 中。

實(shí)際的圖像編輯流程如下圖4所示,在圖像變換的最后一步,這里采用一個泊松混合(Poisson blending)的后處理步驟。

這主要是因?yàn)?GAN 模型沒有解耦圖像背景信息的能力,而通過泊松混合操作能夠去除感興趣區(qū)域的一些偽像。

圖4 將特征空間拼貼算法應(yīng)用于真實(shí)圖像的流程:用戶需要指定混合映射圖,選擇特征空間拼貼方法,并在后處理時將掩碼用于泊松混合過程。

下圖5展示的是不同類別條件的圖像重構(gòu)例子。

圖5 通過流形投射對多種類別標(biāo)簽進(jìn)行圖像重構(gòu)的例子。其中紅色幀圖像是通過原始類別標(biāo)簽進(jìn)行重構(gòu)的圖像。

下圖6展示兩種方法在真實(shí)圖像上的應(yīng)用例子。左側(cè)是 sCBN 方法在真實(shí)圖像上的結(jié)果,而右圖是特征混合方法所得到的結(jié)果。

圖6 sCBN 和特征混合方法在圖像上的應(yīng)用。

實(shí)驗(yàn)

結(jié)果分析

這里,將所提出的方法與 DCGAN 模型相結(jié)合,并在多個不同圖像數(shù)據(jù)集來驗(yàn)證方法的有效性。

此外,為了驗(yàn)證流形投射和 DCGAN 模型的表征能力,這里還進(jìn)行一系列的非空間變換的消融實(shí)驗(yàn) (ablation experiments)。

下圖7展示的是使用 sCBN 方法所得到的標(biāo)簽拼貼示例??梢钥吹?,該方法能夠調(diào)整圖像的全局信息 (如面部、形狀) 和局部信息 (如顏色、紋理),而不會破壞圖像的語義一致性。

圖7 sCBN 方法的標(biāo)簽拼貼結(jié)果。其中,紅線包圍的區(qū)域被翻譯為目標(biāo)標(biāo)簽。

圖8顯示的是使用特征混合所得到的標(biāo)簽拼貼結(jié)果??梢钥吹?,該方法成功地修改了圖像的語義分割,而不會破壞原始圖像的質(zhì)量。

這種方法對于轉(zhuǎn)換區(qū)域的語義排列信息有很強(qiáng)的魯棒性。

圖8 特征混合方法的標(biāo)簽拼貼結(jié)果。其中,紅色幀區(qū)域內(nèi)的特征被混合到基礎(chǔ)圖像中。

每層的拼貼效果

通過一系列的消融研究來探究模型中每層修改的影響。下圖9是 sCBN 方法分別應(yīng)用于 (1) 所有層,(2) 最靠近輸入層,(3) 除了第一層的所有層,所得到的結(jié)果。

可以看到,越靠近 z 層,該方法對于全局特征的影響越明顯;而越靠近 x 層,sCBN 方法對就局部特征的影響越顯著。

圖9 在不同層的拼貼效果。從上到下分別是 sCBN 方法作用于不同層所得到的結(jié)果。

同樣,下圖10展示的特征混合方法,則是以不同的混合權(quán)重,應(yīng)用于不同層 (l=1,2,3,4) 所得到的結(jié)果。

可以看到,當(dāng)用于第一層時,全局特征將受到影響,而局部特征將會被保留。而當(dāng)該方法應(yīng)用于靠近 x 層時,所得到的結(jié)果則相反。

因此,用戶可以根據(jù)需要,更精細(xì)地選取混合權(quán)重系數(shù)來控制局部特征轉(zhuǎn)換及其密度。

圖10 特征混合方法作用于不同層所得到的結(jié)果

真實(shí)圖像的轉(zhuǎn)換

為了通過分類精度和人類感知測試來定量評估方法在真實(shí)圖像轉(zhuǎn)換方面的表現(xiàn),將 sCBN 方法應(yīng)用于 ImageNet 數(shù)據(jù)集中的圖像,并進(jìn)行 (1) cat→big cat,(2) cat→dog 以及 (3) dog→dog 的變換。

隨后,以 UNIT 和 MUNIT 為基準(zhǔn),將本文所提出的方法與其進(jìn)行對比分析,結(jié)果如下圖11。

可以看到,在 top-5 錯誤率方面,該方法的表現(xiàn)更優(yōu)于其他兩種基準(zhǔn),這也驗(yàn)證了它在真實(shí)圖像變換方面的有效性。

圖11 top-5 分類錯誤率結(jié)果

結(jié)論

本文提出一種新穎有效的圖像編輯策略,通過 sCBN 和特征混合方法,對圖像中間特征表征進(jìn)行處理,從而達(dá)到修改語義信息、編輯圖像的目的。

其中條件正則化方法不僅能夠處理類別條件,還能處理其他的信息,在未來的研究中可以將該方法應(yīng)用于更廣泛的非圖像數(shù)據(jù)集。

然而,在研究中仍發(fā)現(xiàn)一些不足之處:表達(dá)能力受限的生成網(wǎng)絡(luò),尤其是在與流形投射結(jié)合用于處理真實(shí)圖像變換,未來的研究中相關(guān)問題仍值得深入探究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40346
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1898

    瀏覽量

    72364
  • python
    +關(guān)注

    關(guān)注

    54

    文章

    4759

    瀏覽量

    84295

原文標(biāo)題:惡犬秒變萌汪:東京大學(xué)開源“治愈系” GAN 圖片拼貼工具 | 技術(shù)頭條

文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    東京大學(xué)——C進(jìn)階教程

    東京大學(xué)——C進(jìn)階教程,很好的東東。
    發(fā)表于 02-16 09:22

    日本東京大學(xué)的兩篇關(guān)于無線充電的文章,需要的拿去,...

    日本東京大學(xué)的兩篇關(guān)于無線充電的文章
    發(fā)表于 03-08 15:08

    東京大學(xué)研究出柔性有機(jī)閃存

    東京大學(xué)研究出柔性有機(jī)閃存 科技的發(fā)展帶給人們的驚喜之就是,你永遠(yuǎn)不知道接下來會發(fā)生什么。比如,如果有人告訴你,以后從U盤到MP3到手機(jī),都能做成大白兔
    發(fā)表于 12-24 09:04 ?516次閱讀
    <b class='flag-5'>東京大學(xué)</b>研究出柔性有機(jī)閃存

    東京大學(xué)的研究人員:新開發(fā)的電子皮膚有個LED顯示屏

    過去的幾年出現(xiàn)很多柔性電子皮膚貼片概念,可以管理藥物或監(jiān)測健康狀況,但是東京大學(xué)的研究人員最新開發(fā)的版本增加了個LED顯示屏。
    發(fā)表于 05-15 08:46 ?1431次閱讀

    日本東京大學(xué)研發(fā)出了智能皮膚,可實(shí)時顯示健康數(shù)據(jù)

    日本東京大學(xué)研發(fā)出了智能皮膚(smart skin),可以直接貼在皮膚上,實(shí)時顯示健康數(shù)據(jù)。
    發(fā)表于 05-01 14:23 ?1833次閱讀

    日本東京大學(xué)團(tuán)隊(duì)發(fā)現(xiàn)人類磁感應(yīng)能力

    據(jù)日本《產(chǎn)經(jīng)新聞》3月19日報道,日本東京大學(xué)與美國加利福尼亞理工大學(xué)的聯(lián)合研究團(tuán)隊(duì)發(fā)現(xiàn),人類也擁有類似鳥類的電磁感應(yīng)能力。這研究成果已于19日在美國相關(guān)專業(yè)期刊雜志上發(fā)表。這
    發(fā)表于 03-20 11:19 ?949次閱讀

    IBM和東京大學(xué)合作共同推進(jìn)量子計算應(yīng)用

    據(jù)helpnetsecurity報道,IBM和東京大學(xué)宣布達(dá)成項(xiàng)合作協(xié)議,共同推進(jìn)量子計算,使其為工業(yè)、科學(xué)和社會發(fā)展作出貢獻(xiàn)。
    的頭像 發(fā)表于 12-23 16:30 ?3646次閱讀

    東京大學(xué)AI新創(chuàng)推出一款學(xué)習(xí)型的搬運(yùn)機(jī)器人

    由日本東京大學(xué)(University of Tokyo)設(shè)立的人工智能(AI)新創(chuàng)企業(yè),Trust Smith,在開發(fā)無人機(jī)(UAV)的自動控制與影像檢測、工業(yè)設(shè)備自動監(jiān)測、與行人自動計測系統(tǒng)后,又對外宣布新的產(chǎn)品。
    的頭像 發(fā)表于 01-09 16:43 ?2883次閱讀

    東京大學(xué)研究員通過新TFEP電解液來提高鋰電安全性

    東京大學(xué)研究人員首次探索電能存儲的物理和化學(xué)特性,并發(fā)現(xiàn)改進(jìn)鋰離子電池的新方法。
    的頭像 發(fā)表于 03-31 15:06 ?2663次閱讀

    東京大學(xué)內(nèi)部芯片項(xiàng)目的名稱譯名是什么?

    挑戰(zhàn)硬件的物理極限總是件有趣的事,Preferred Networks公司正在做的事著實(shí)震驚很多人。Preferred Networks公司是從東京大學(xué)(Tokyo University)衍生
    的頭像 發(fā)表于 06-08 17:11 ?2418次閱讀

    東京大學(xué)研究出種人工智能技術(shù),快速篩查癌變

    據(jù)《日本經(jīng)濟(jì)新聞》1月18日報道,日本東京大學(xué)的研究團(tuán)隊(duì)開發(fā)出種人工智能技術(shù),能根據(jù)膠囊內(nèi)窺鏡拍攝的圖像,迅速找到結(jié)腸癌或息肉等病變,其分辨準(zhǔn)確率達(dá)到96%。
    的頭像 發(fā)表于 01-20 09:22 ?1518次閱讀

    東京大學(xué)教授如何用藍(lán)牙技術(shù)來監(jiān)測房間使用情況

    復(fù)工復(fù)學(xué)。 我最近有幸采訪東京大學(xué)教授——Yoshihiro Kawahara(川原圭博)博士。他負(fù)責(zé)開發(fā)了種智能手機(jī)接觸者追蹤解決方案——MOCHA。在新冠疫情迫使許多其他大學(xué)關(guān)
    的頭像 發(fā)表于 05-24 11:08 ?1666次閱讀

    日本東京大學(xué):研制納米級量子傳感器實(shí)現(xiàn)高清成像

    傳感新品 【日本東京大學(xué):研制納米級量子傳感器實(shí)現(xiàn)高清成像?】 科技日報北京6月15日電 (記者張佳欣)日本東京大學(xué)科學(xué)家利用六方氮化硼二維層中的硼空位,首次完成了在納米級排列量子傳感器的精細(xì)任務(wù)
    的頭像 發(fā)表于 06-19 10:02 ?678次閱讀
    日本<b class='flag-5'>東京大學(xué)</b>:研制納米級量子傳感器實(shí)現(xiàn)高清成像

    AI圖像編輯技術(shù)DragGAN開源,拖動鼠標(biāo)即可改變?nèi)宋镄θ?/a>

    DragGAN是個直觀的圖像編輯工具PM系統(tǒng)(www.multiable.com.cn),用戶只需要控制圖像中的像素點(diǎn)和方向,就可以快速調(diào)整照片主體的位置、姿態(tài)、表情、大小和角度等。
    的頭像 發(fā)表于 06-29 10:34 ?842次閱讀

    伯克利AI實(shí)驗(yàn)室開源圖像編輯模型InstructPix2Pix,簡化生成圖像編輯并提供致結(jié)果

    具有挑戰(zhàn)性。最近,InfoQ 報道微軟的 Visual ChatGPT,它可以調(diào)用外部工具編輯圖像,前提是提供編輯操作的文本描述。
    的頭像 發(fā)表于 08-28 15:45 ?775次閱讀
    伯克利AI實(shí)驗(yàn)室<b class='flag-5'>開源</b><b class='flag-5'>圖像編輯</b>模型InstructPix2Pix,簡化生成<b class='flag-5'>圖像編輯</b>并提供<b class='flag-5'>一</b>致結(jié)果