0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個能通過空間條件坐標(biāo)和隱變量生成圖像片、并合成完整圖片的網(wǎng)絡(luò)模型

nlfO_thejiangme ? 來源:lp ? 2019-04-22 14:37 ? 次閱讀

我們?nèi)祟愑兄S富的生活經(jīng)驗和生物直覺,可以在只看到物體的一部分時就能在大腦中補全整個對象的全貌,也可以通過幾次對于目標(biāo)的部分觀測“拼接”出物體的全貌。人類的這種能力源于我們對于空間坐標(biāo)的深入理解和把握,可以將不同區(qū)域的觀測放置到相應(yīng)的位置上以識別整體環(huán)境。但目前大部分的計算機視覺系統(tǒng)都是以整張圖片作為輸入,隨后利用下采樣和特征抽取來實現(xiàn)一系列視覺任務(wù)。但這種方式限制了算法對于大場景高像素圖像的處理。我們不禁要問:“計算機是不是也可以像人類一樣由局部到整體的理解圖像呢?我們能不能訓(xùn)練出一個生成模型,可以利用坐標(biāo)信息生成局域圖像并組合成連續(xù)的全局圖像呢?”

帶著這個問題,研究人員們對生成對抗網(wǎng)絡(luò)進行了深入地探索。典型的GAN通常是將隱空間的分布映射到真實數(shù)據(jù)空間中去。為了從部分圖片生成高質(zhì)量的圖像,研究人員在圖像中引入了坐標(biāo)系統(tǒng)的概念,并將圖像生成分解為一系列并行的子過程。最后得到一個能通過空間條件坐標(biāo)和隱變量生成圖像片、并合成完整圖片的網(wǎng)絡(luò)模型。

這一名為條件坐標(biāo)生成對抗網(wǎng)絡(luò)(COnditional COordinate GAN ,COCO-GAN)的模型目標(biāo)是學(xué)習(xí)出一個與隱空間分布流型正交的坐標(biāo)流型。對隱空間采樣后,生成器以每個空間坐標(biāo)為條件在每個對應(yīng)位置生成圖像片。與此同時判別器則學(xué)會判斷相鄰圖像片的結(jié)構(gòu)是否合理,在視覺上是否勻稱、在邊緣處是否連續(xù)。

上圖中我們可以看到COCO-GAN的訓(xùn)練架構(gòu),最坐標(biāo)綠色的隱變量復(fù)制后分別與不同的坐標(biāo)表達銜接,隨后送入生成器中生成微圖像片。而后將多個不同的像素片進行拼接得到宏圖像片。而判別器測復(fù)雜分辨真實的和生成的宏圖像片,并在右上角的分支中輔助預(yù)測宏圖像片的空間坐標(biāo)。而完整的圖像則會在測試階段生成。

在測試時,生成的微圖像片直接拼接成最后的圖像輸出。

具體實現(xiàn)

在前文的架構(gòu)圖中我們已經(jīng)看到它由生成器和判別器兩個網(wǎng)絡(luò)和兩套坐標(biāo)系統(tǒng)組成,其中包括了細粒度的局域圖像片坐標(biāo)系統(tǒng)和粗粒度的宏圖像片坐標(biāo)系統(tǒng)。整個過程中包含了三種圖像,整幅圖、宏圖像片層、微圖像片層構(gòu)成。其中生成器主要基于空間條件,從隱變量中生成出維圖像片,并將多個圖像片拼接生成高質(zhì)量的輸出。并通過判別器對于宏圖像片的判斷來指導(dǎo)生成器對于圖像片的生成。最終生成器的損失包含了空間連續(xù)性損失和Wasserstein損失,而判別器還增加了一項梯度懲罰損失。

生成器和判別器其都是基于殘差塊和卷積實現(xiàn)的。

生成器和判別器的架構(gòu)

基于這樣的損失,生成器生成的每個圖像片邊緣會變得更加平滑,基于空間坐標(biāo)生成更為連續(xù)的結(jié)果。下圖是一些網(wǎng)絡(luò)得到的結(jié)果。這些全局連續(xù)平滑的圖像直接由網(wǎng)絡(luò)輸出,其中最頂一行是完整的圖像,中間一行是宏圖像片,而最下一行是生成器得到的為圖像片。每一列(同一個圖像)都是利用同一個隱變量得到的結(jié)果。由于大小不均,所以排列有些錯位。我們用不同顏色的箭頭分別標(biāo)出。

研究人員基于這一網(wǎng)絡(luò)模型還進行了一系列實驗,都達到了十分優(yōu)秀的結(jié)果。研究人員在CelebA和LSUN上分別將原始圖像分成2*2個宏圖像片,將每個宏圖像片分成了2*2個微圖像片,每個微圖像片由32*32個像素組成,這樣的配置記為:(N2,M2,S32)。下圖展示了不同配置的效果,宏圖像片可以由不同大小的微圖像片構(gòu)成。

我們可以看到在不同像素配置下的微圖像片都可以生成較為完整的圖像。

甚至達到4*4時(N16,M16,S4)生成的圖像還比較合理。將1024個獨立圖像片進行拼接同樣可以保持輸出人臉的連續(xù)性。

空間連續(xù)性

為了更好地研究空間連續(xù)性,研究人員還進行了兩項插值實驗,分別是全圖插值和坐標(biāo)插值。

在全圖插值中,研究人員隨即的從隱空間中選取兩個隱變量,在兩個隱變量之間的差值隱變量可以生成連續(xù)的全圖。在這一過程中所有的微圖像片都在同時改變以適應(yīng)隱變量的變化。

在坐標(biāo)插值的實驗中,利用固定的隱變量在空間坐標(biāo)從[-1,1]區(qū)間變化的過程中生成微圖像片,在下圖中可以看到空間連續(xù)性在微圖像片中依然表現(xiàn)良好。一個有趣的現(xiàn)象是模型沒有真正的學(xué)習(xí)到眉間的結(jié)構(gòu),而是通過對左右眼直接變形來實現(xiàn)左眼到右眼的變化,這說明模型沒有真正的理解場景背后的內(nèi)在聯(lián)系。

由于這一網(wǎng)絡(luò)學(xué)習(xí)到了圖像片的坐標(biāo)流型,在坐標(biāo)條件下進行外插生成器可以生成超過原始圖像大小的結(jié)果?;?56*256訓(xùn)練的模型可以得到384*384的生成圖像,實現(xiàn)超越原始圖像邊界的生成,并且生成的都是新的樣本。下圖中紅色框外的是外插的結(jié)果,提高了原有圖像的分辨率。

隨后,研究人員還探索了如何利用這種方法生成全景圖像、如何利用局部信息并行化地生成整體圖像、實現(xiàn)圖像片引導(dǎo)的生成。

COCO-GAN從新的角度揭示了GAN在條件坐標(biāo)下的強大生成能力,不僅拓展了GAN的生成能力同時并行化的處理和分治設(shè)計十分適用于計算受限設(shè)備的使用。相信COCO-GAN將為為GAN的研究帶來更寬廣的視野!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40345
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    313

    瀏覽量

    20922
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1688

    瀏覽量

    45872

原文標(biāo)題:國立清華與谷歌AI聯(lián)合提出新型生成模型COCO-GAN,讓計算機像人類一樣由局部到整體理解圖像

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于網(wǎng)絡(luò)數(shù)據(jù)庫技術(shù)的空間坐標(biāo)測量機應(yīng)用系統(tǒng)研究

    提出了基于網(wǎng)絡(luò)數(shù)據(jù)庫技術(shù)的空間坐標(biāo)測量機的應(yīng)用系統(tǒng),分析了基于網(wǎng)絡(luò)數(shù)據(jù)庫技術(shù)的
    發(fā)表于 05-06 20:31 ?946次閱讀
    基于<b class='flag-5'>網(wǎng)絡(luò)</b>數(shù)據(jù)庫技術(shù)的<b class='flag-5'>空間</b><b class='flag-5'>坐標(biāo)</b>測量機應(yīng)用系統(tǒng)研究

    基于改進空間約束貝葉斯網(wǎng)絡(luò)模型圖像分割

    針對馬爾可夫鏈蒙特卡羅方法普遍存在的迭代收斂性問題,在具有空間平滑約束的高斯混合模型條件上提出改進空間約束貝葉斯網(wǎng)絡(luò)
    發(fā)表于 12-05 17:55 ?1次下載
    基于改進<b class='flag-5'>空間</b>約束貝葉斯<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>分割

    面向評分數(shù)據(jù)中用戶偏好發(fā)現(xiàn)的變量模型構(gòu)建

    電子商務(wù)應(yīng)用中產(chǎn)生了大量用戶評分數(shù)據(jù),而這些數(shù)據(jù)中富含了用戶觀點和偏好信息,為了能夠從這些數(shù)據(jù)中準(zhǔn)確地推斷出用戶偏好,提出種面向評分數(shù)據(jù)中用戶偏好發(fā)現(xiàn)的變量模型(即含
    發(fā)表于 12-06 10:59 ?0次下載
    面向評分數(shù)據(jù)中用戶偏好發(fā)現(xiàn)的<b class='flag-5'>隱</b><b class='flag-5'>變量</b><b class='flag-5'>模型</b>構(gòu)建

    回歸的用戶關(guān)系強度模型

    為了科學(xué)合理地度量社會網(wǎng)絡(luò)中用戶間的有向關(guān)系強度,基于用戶有向交互次,提出度量用戶交互強度的光滑模型。將用戶關(guān)系強度作為
    發(fā)表于 12-23 10:13 ?0次下載

    探討條件GAN在圖像生成中的應(yīng)用

    條件GANs已經(jīng)應(yīng)用與多種跟圖像有關(guān)的任務(wù)中了,但分辨率通常都不高,并且看起來很不真實。而在這篇論文中,英偉達和加州大學(xué)伯克利分校的研究人員共同提出了新方法
    的頭像 發(fā)表于 01-11 16:22 ?1.2w次閱讀
    探討<b class='flag-5'>條件</b>GAN在<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>中的應(yīng)用

    基于馬爾科夫模型和卷積神經(jīng)網(wǎng)絡(luò)圖像標(biāo)注方法

    開發(fā)大規(guī)模圖像庫的搜索和瀏覽算法,使得圖像自動標(biāo)注的重要性日益增強?;?b class='flag-5'>隱馬爾科夫模型(HMM)與卷積神經(jīng)網(wǎng)絡(luò)(CNN),我們提出了
    發(fā)表于 11-16 17:17 ?4次下載
    基于<b class='flag-5'>隱</b>馬爾科夫<b class='flag-5'>模型</b>和卷積神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>圖像</b>標(biāo)注方法

    條件生成對抗模型生成數(shù)字圖片的教程

    這次我們在上次的例子中在提升下,這次我們選用條件生成對抗模型(Conditional Generative Adversarial Networks)來
    的頭像 發(fā)表于 12-10 18:36 ?700次閱讀

    高斯過程變量模型及相關(guān)實踐

    ,采用圖像池化操作獲得不同尺度的特征表示,利用線性投影方式將不同尺度的圖像投影到低維空間進行特征融合,并將融合特征和數(shù)據(jù)標(biāo)記分別作為輸入和輸出,構(gòu)建多尺度多核高斯過程
    發(fā)表于 03-11 16:01 ?8次下載

    基于譜歸條件生成對抗網(wǎng)絡(luò)圖像修復(fù)算法

    基于生成對抗網(wǎng)絡(luò)圖像修復(fù)算法在修復(fù)大尺寸缺失圖像時,存在圖像失真較多與判別網(wǎng)絡(luò)性能不可控等問題
    發(fā)表于 03-12 10:22 ?14次下載
    基于譜歸<b class='flag-5'>一</b>化<b class='flag-5'>條件</b><b class='flag-5'>生成</b>對抗<b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>圖像</b>修復(fù)算法

    梯度懲罰優(yōu)化的圖像循環(huán)生成對抗網(wǎng)絡(luò)模型

    通常情形下,現(xiàn)有的圖像生成模型都采用單次前向傳播的方式生成圖像,但實際中,畫家通常是反復(fù)修改后才完成
    發(fā)表于 05-10 16:25 ?7次下載

    基于條件生成式對抗網(wǎng)絡(luò)的面部表情遷移模型

    面部表情遷移是計算機視覺角色動畫領(lǐng)域的關(guān)鍵技術(shù),但現(xiàn)有面部表情遷移方法存在生成表情不自然、缺乏真實感、遷移模型復(fù)雜以及訓(xùn)練難度大等問題。為此,構(gòu)建種基于條件
    發(fā)表于 05-13 15:31 ?6次下載

    基于生成式對抗網(wǎng)絡(luò)圖像補全方法

    圖像補全是數(shù)字圖像處理領(lǐng)域的重要研究方向,具有廣闊的應(yīng)用前景。提出了種基于生成式對抗網(wǎng)絡(luò)(GAN)的
    發(fā)表于 05-19 14:38 ?14次下載

    基于像素級生成對抗網(wǎng)絡(luò)圖像彩色化模型

    基于像素級生成對抗網(wǎng)絡(luò)圖像彩色化模型
    發(fā)表于 06-27 11:02 ?4次下載

    空間稀疏推理(SSI)加速深度生成模型

    生成模型近年來發(fā)展迅猛,已經(jīng)表現(xiàn)出極強的真實感合成能力,在三維重建、AI繪畫、音視頻創(chuàng)作、可控圖像生成、真實
    的頭像 發(fā)表于 11-08 09:22 ?1120次閱讀

    生成式 AI 研究通過引導(dǎo)式圖像結(jié)構(gòu)控制為創(chuàng)作者賦

    新的研究正在通過文本引導(dǎo)的圖像編輯工具來提升生成式 AI 的創(chuàng)造性潛能。這項創(chuàng)新性的研究提出了
    的頭像 發(fā)表于 07-24 19:30 ?511次閱讀