0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

圖像生成領域的一個巨大進展:SAGAN

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-08 09:11 ? 次閱讀

編者按:幾個月前,論智介紹了圖像生成領域的一個巨大進展:SAGAN。在那篇論文中,羅格斯大學和Google Brain的研究人員大膽把NLP中的self-attention模型引入GAN,解決了特征記憶問題,把圖像生成的初始分數(shù)(IS)從36.8一下提到了52.52。而近日,一篇ICLR 2019的Open Review論文(赫瑞-瓦特大學&DeepMind)帶來了更震撼結果,他們把IS一下子提高了一百多分,從52.52提升到了166.3。

摘要

盡管學界在生成圖像建模上取得了不小進展,但從像ImageNet這樣的復雜數(shù)據(jù)集中成功生成高分辨率、多樣化的樣本仍然是一個難以實現(xiàn)的目標。為此,我們以至今最大規(guī)模訓練了生成對抗網(wǎng)絡(GAN),并研究了這種規(guī)模所特有的不穩(wěn)定性。研究發(fā)現(xiàn),通過在生成器上使用正交正則化,我們可以讓它適應簡單的“截斷技巧”,即允許利用“截斷”潛在空間來精確控制樣本保真度和多樣性之間的權衡。

我們的修改使模型的性能達到了新高度。當我們在ImageNet上用128×128分辨率的圖像進行訓練時,我們的模型(BigGAN)的IS為166.3,F(xiàn)ID為9.6,而之前的最佳記錄是IS 52.52,F(xiàn)ID 18.65。

簡介

近年來,生成圖像建模領域出現(xiàn)了不少成果,其中最前沿的是GAN,它能直接從數(shù)據(jù)中學習,生成高保真、多樣化的圖像。雖然GAN的訓練是動態(tài)的,而且對各方面的設置都很敏感(從優(yōu)化參數(shù)到模型架構),但大量研究已經(jīng)證實,這種方法可以在各種環(huán)境中穩(wěn)定訓練。

盡管取得了這些進步,當前生成圖像模型在ImageNet數(shù)據(jù)集上的表現(xiàn)還是很一般,最高IS只有52.52,而真實圖像數(shù)據(jù)的得分高達233。

在這篇論文中,研究人員通過一系列修改,縮小了GAN生成的圖像和ImageNet中的真實圖像之間的差異,他們做出的貢獻主要有以下三點:

證明GAN能從大規(guī)模訓練中受益。通過對體系結構做了兩個簡單修改,他們在訓練過程中使用的參數(shù)量是現(xiàn)有研究的2-4倍,batch size是8倍,但模型性能有顯著提高。

作為改進的副作用,新模型非常適合“截斷技巧”,即精確控制樣本保真度和多樣性之間的權衡。

發(fā)現(xiàn)大規(guī)模GAN的特有不穩(wěn)定性,并根據(jù)經(jīng)驗進行表征。根據(jù)分析所得,他們認為把新方法和現(xiàn)有技術結合可以緩解這種不穩(wěn)定性,但如果要實現(xiàn)完全的穩(wěn)定訓練,這會大大有損性能。

主要改進

本文提出的BigGAN遵循了SAGAN的基本架構,它基于ResNet,但判別器D中的通道和一般ResNet不同,每個模塊的第一個卷積層的filter數(shù)量等于輸出的filter數(shù),而不是輸入數(shù)。

在128×128 ImageNet數(shù)據(jù)上的架構

研究人員首先簡單增加了基線模型的batch size,這樣做的效果如下表所示。隨著batch size逐漸變?yōu)榛€的2倍、4倍、8倍,模型的FID不斷下降,IS不斷增加,至8倍時,BigGAN的IS較SAGAN已經(jīng)提高了約46%。對于這個結果,他們提出的一個猜想是更大的batch size意味著每個batch覆蓋的模式更多,這為兩個神經(jīng)網(wǎng)絡提供了更好的梯度。

但這么做也有缺點,就是雖然模型能在更少的迭代中達到更好的最終性能,但它很不穩(wěn)定,甚至會在訓練時崩潰。

各batch size下BigGAN的IS(越高越好)和FID(越低越好)

之后,他們又把神經(jīng)網(wǎng)絡每一層的通道數(shù)在原有基礎上增加了50%,這時每個神經(jīng)網(wǎng)絡的參數(shù)數(shù)量也幾乎翻了一倍。當BigGAN的參數(shù)數(shù)量是SAGAN的兩倍時,它的IS較后者提高了約21%。對此,他們給出的解釋是,相對于數(shù)據(jù)集的復雜性,模型的容量增加了。而增加神經(jīng)網(wǎng)絡深度不會產(chǎn)生相似效果,反而會降低最終性能。

考慮到生成器G中conditional BatchNorm layer的類嵌入c包含大量權重,他們不再為每個嵌入分別設置一個層,而是使用了一個共享嵌入,由它投影到每一層。這降低了計算和存儲成本,并把訓練速度提高了37%。同時,他們使用了分層潛在空間的變體,把噪聲向量z饋送進生成器的多個層,直接影響不同分辨率和層次結構級別的特征。

(a)常規(guī)生成器架構;(b)生成器中的殘差塊

生成效果

BigGAN生成的各個類別的圖像

BigGAN生成的256×256的圖像

BigGAN生成的512×512的圖像

上面是論文呈現(xiàn)的一些生成圖像。雖然其他GAN也能精選一些不錯的圖,但對比細節(jié),BigGAN在質地、光影、外形等方面的表現(xiàn)都優(yōu)于以往成果。而且就SAGAN強調的腿部生成效果來看,上圖中公雞的腿不突兀、更自然,和真實圖像難以區(qū)分。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4722

    瀏覽量

    100307
  • 圖像
    +關注

    關注

    2

    文章

    1078

    瀏覽量

    40345
  • GaN
    GaN
    +關注

    關注

    19

    文章

    1895

    瀏覽量

    72306

原文標題:DeepMind:從52.52到166.3,圖像生成再現(xiàn)巨大突破

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于擴散模型的圖像生成過程

    近年來,擴散模型在文本到圖像生成方面取得了巨大的成功,實現(xiàn)了更高圖像生成質量,提高了推理性能,也可以激發(fā)擴展創(chuàng)作靈感。 不過僅憑文本來控制
    的頭像 發(fā)表于 07-17 11:00 ?2560次閱讀
    基于擴散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    低質量圖像生成與增強的區(qū)別 圖像生成領域中存在的難點

    1. 論文信息 ? 2. 引言 ? 這篇論文的研究背景是圖像生成領域中存在的難點 - 如何從低質量的
    的頭像 發(fā)表于 08-03 15:36 ?1429次閱讀
    低質量<b class='flag-5'>圖像</b>的<b class='flag-5'>生成</b>與增強的區(qū)別 <b class='flag-5'>圖像</b><b class='flag-5'>生成</b><b class='flag-5'>領域</b>中存在的難點

    關于使用LabVIEW生成彩色圖像的問題

    我手里目前有圖像的數(shù)據(jù)(附件), 是RGB565格式的,用兩個字節(jié)表示像素點,現(xiàn)在我想在LabVIEW上通過這些數(shù)據(jù),生成
    發(fā)表于 11-12 16:33

    總結可微圖像參數(shù)表示的最新進展

    可微圖像參數(shù)表示邀請我們提出了這樣問題:“反向傳播通過的是什么樣的圖像生成過程?”答案是相當多樣的過程,其中
    的頭像 發(fā)表于 08-16 09:19 ?3715次閱讀

    圖像生成領域巨大進展,BigGAN的效果真的有那么好嗎?

    因此,如果快速瀏覽BigGAN生成系列圖像,我們能從中發(fā)現(xiàn)不少圖具有詭異的美感。比如模型在生成下面幾幅景觀圖時都遵循了從數(shù)據(jù)集中學到的構圖和光影,但當這些來自不同樣本的素材雜糅到
    的頭像 發(fā)表于 11-21 09:05 ?6566次閱讀

    種具有語義區(qū)域風格約束的圖像生成框架

    生成對抗網(wǎng)絡近年來發(fā)展迅速,其中語義區(qū)域分割與生成模型的結合為圖像生成技術研究提供了新方向。在當前的研究中,語義信息作為指導生成的條件,可以
    發(fā)表于 04-13 15:47 ?5次下載
    <b class='flag-5'>一</b>種具有語義區(qū)域風格約束的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>框架

    種全新的遙感圖像描述生成方法

    遙感圖像描述生成是同時涉及計算機視覺和自然語言處理領域的熱門研究話題,其主要工作是對于給定的圖像自動地生成
    發(fā)表于 04-20 11:21 ?2次下載
    <b class='flag-5'>一</b>種全新的遙感<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成</b>方法

    種基于改進的DCGAN生成SAR圖像的方法

    的方法。為測試和驗證多個同類圖像識別軟件,并進行擇優(yōu),需要自行設計不同于訓練用的圖像來對測軟件進行測試。此方法可以為擇優(yōu)測試提供公平的基準測試集。實驗分別使用原 DCGAN模型和改
    發(fā)表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一</b>種基于改進的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>圖像</b>的方法

    基于生成式對抗網(wǎng)絡的圖像補全方法

    圖像補全是數(shù)字圖像處理領域的重要研究方向,具有廣闊的應用前景。提出了種基于生成式對抗網(wǎng)絡(GAN)的
    發(fā)表于 05-19 14:38 ?14次下載

    基于卷積神經(jīng)網(wǎng)絡的圖像描述生成方法

    圖像描述,即利用電腦自動描述圖像的語義內容直是計算機視覺領域項重要研究任務。盡管使用卷積神經(jīng)網(wǎng)絡(connal neural netw
    發(fā)表于 06-03 14:45 ?41次下載

    虹軟圖像深度恢復技術與生成式AI的創(chuàng)新 生成式AI助力

    更加逼真,增加層次感。在這方面,虹軟的圖像深度恢復技術直保持著領先,在整個行業(yè)被廣泛認可。虹軟技術出色的性能賦予了生成式AI更高質量、更具深度感的圖像
    發(fā)表于 06-21 09:06 ?420次閱讀

    KOALA人工智能圖像生成模型問世

    近日,韓國科學團隊宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質量上均實現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內生成高質量圖片,同時大幅降低了對硬件的需求,為
    的頭像 發(fā)表于 03-05 10:46 ?680次閱讀

    生成式AI的基本原理和應用領域

    復雜性和創(chuàng)新性的內容的技術。這種技術不僅限于文本生成,還廣泛應用于圖像、音頻、視頻等多個領域。本文將詳細探討生成式AI的原理、關鍵技術、應用領域
    的頭像 發(fā)表于 07-04 11:50 ?813次閱讀

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設計資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這里程碑式的發(fā)布標志著AI圖像創(chuàng)作
    的頭像 發(fā)表于 08-30 16:23 ?1012次閱讀

    AI圖像生成公司Midjourney宣布進軍硬件領域

    AI圖像生成領域的佼佼者Midjourney近日宣布了項重大戰(zhàn)略調整,正式進軍硬件領域,標志著這家以創(chuàng)新聞名的公司在技術探索上邁出了新的步
    的頭像 發(fā)表于 08-30 16:24 ?899次閱讀