0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI最新提出的可逆生成模型Glow

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-11 09:46 ? 次閱讀

OpenAI最新提出的可逆生成模型Glow,可以使用相對(duì)少的數(shù)據(jù),快速生成高清的逼真圖像,具有GAN和VAE所不具備的精確操作潛在變量、需要內(nèi)存少等優(yōu)勢(shì)。

OpenAI剛剛在博客介紹了他們的最新成果——Glow,一種使用可逆1x1卷積的可逆生成模型。

Glow 可以生成逼真的高分辨率圖像,支持高效采樣,并且可以自動(dòng)學(xué)習(xí)圖像中屬性特征,比如人的五官。

先來(lái)看效果,加了胡子的Hinton,笑容調(diào)到最高,眼神也看起來(lái)更亮:

下圖是使用Glow操縱兩名研究人員面部圖像的屬性。模型在訓(xùn)練的時(shí)候并沒(méi)有給出眼睛、年齡等屬性標(biāo)簽,但自己學(xué)習(xí)了一個(gè)潛在空間,其中某些方向?qū)?yīng)胡須密度,年齡,發(fā)色等屬性的變化。

人臉混合過(guò)度的效果也十分自然:

這是使用30,000個(gè)高分辨率面部數(shù)據(jù)集進(jìn)行訓(xùn)練后,Glow模型中的樣本,可以說(shuō)很逼真了。如果不說(shuō)明,應(yīng)該有不少人會(huì)覺(jué)得是真人照片。

再放大來(lái)看,這個(gè)效果至少是不輸給GAN的:

Glow模型生成一個(gè)256x 256的樣本,在NVIDIA 1080 Ti GPU上只需要大約130ms。使用 reduced-temperature模型采樣結(jié)果更好,上面展示的例子是溫度0.7的結(jié)果。

數(shù)據(jù)利用率高,可泛化,優(yōu)于GAN和VAE

Glow是一種可逆生成模型(reversible generative model),也被稱為基于流的生成模型(flow-based generative model)。目前,學(xué)界還很少關(guān)注基于流的生成模型,因?yàn)镚AN和VAE這些顯而易見(jiàn)的原因。

OpenAI的研究人員在沒(méi)有標(biāo)簽的情況下訓(xùn)練基于流的模型,然后將學(xué)習(xí)到的潛在表示用于下游任務(wù),例如操縱輸入圖像的屬性。這些屬性可以是面部圖像中的頭發(fā)顏色,也可以是音樂(lè)的音調(diào)或者文本句子的情感。

上述過(guò)程只需要相對(duì)少量的標(biāo)記數(shù)據(jù),并且可以在模型訓(xùn)練完成后完成(訓(xùn)練時(shí)不需要標(biāo)簽)。使用GAN的工作需要單獨(dú)訓(xùn)練編碼器。而使用VAE的方法僅能確保解碼器和編碼器數(shù)據(jù)兼容。Cycle-GAN雖然可以直接學(xué)習(xí)表示變換的函數(shù),但每次變換都需要進(jìn)行重新訓(xùn)練。

訓(xùn)練基于流的生成模型操縱屬性的簡(jiǎn)單代碼:

Glow的具體操作過(guò)程

OpenAI研究人員表示,這項(xiàng)工作是建立在非線性成分估計(jì)(Dinh L. et, NICE: Non-linear Independent Components Estimation)和RealNVP(Dinh L. et, Density estimation using Real NVP)的基礎(chǔ)上。

他們的主要貢獻(xiàn)是增加了可逆的1x1卷積,并且刪除了RealNVP的其他組件,從而簡(jiǎn)化了整體架構(gòu)。

RealNVP架構(gòu)包含兩種類型的層:一種是有棋盤格masking的層,一種是有channel-wise masking的層。OpenAI去掉了前一種棋盤格masking,簡(jiǎn)化了整體結(jié)構(gòu)。

在Glow模型的工作中,具有channel-wise masking的層不斷重復(fù)下列步驟:

通過(guò)在channel維度上反轉(zhuǎn)輸入的順序來(lái)置換輸入。

將輸入在特征和維度的中間分為A和B兩部分。

將A輸入一個(gè)淺層的卷積神經(jīng)網(wǎng)絡(luò),根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出線性變換B

連接A和B

將這些層鏈接起來(lái),讓A更新B,B更新A,然后A再更新B,以此往復(fù)。這種雙向信息流非常rigid。研究人員發(fā)現(xiàn),通過(guò)將步驟(1)的反向排列改變?yōu)椋ü潭ǖ模﹕huffle 排列還能改善模型性能。

使用1x1卷積的效果要顯著好于逆轉(zhuǎn)和Shuffle

此外,他們還將批歸一化(BN)換成了一個(gè)激活歸一化層(activation normalization layer)。這個(gè)層能夠轉(zhuǎn)變和放大激活。因此,能將大圖像最小的批量大小縮小到1,并擴(kuò)大模型的大小。

這個(gè)架構(gòu)結(jié)合了多種優(yōu)化,例如梯度檢查點(diǎn)(gradient checkpointing),使研究人員能夠比平常更大規(guī)模地訓(xùn)練基于流的生成模型。他們還使用Horovod在多臺(tái)機(jī)器的集群上訓(xùn)練模型,上面演示中使用的模型在5臺(tái)機(jī)器上訓(xùn)練,每臺(tái)有8個(gè)GPU。使用這種設(shè)置,他們訓(xùn)練了具有超過(guò)一億個(gè)參數(shù)的模型。

基于流的生成模型,大有可為!

OpenAI研究人員表示,他們?cè)谶@項(xiàng)工作中表明,可以訓(xùn)練基于流的模型(flow-based)來(lái)生成逼真的高分辨率圖像,并且學(xué)習(xí)可以輕松用于下游任務(wù)(如數(shù)據(jù)操作)的潛在表示。

基于流的生成模型有以下優(yōu)點(diǎn):

精確的潛變量推斷和對(duì)數(shù)似然估計(jì)。在VAE中,只能近似推斷出與某個(gè)數(shù)據(jù)點(diǎn)相對(duì)應(yīng)的潛在變量的值。GAN則根本沒(méi)有編碼器來(lái)推斷潛伏變量。但是,在可逆生成模型中,不僅可以實(shí)現(xiàn)準(zhǔn)確的潛在變量推理,還可以優(yōu)化數(shù)據(jù)的對(duì)數(shù)似然,而不是只是其下限。

高效的推理和有效的合成。自回歸模型,例如PixelCNN,也是可逆的,但是這些模型的合成難以并行化,往往在并行硬件上效率很低?;诹鞯纳赡P?,比如Glow和RealNVP,可以有效地進(jìn)行推理與合成的并行化。

下游任務(wù)的有用潛在空間。自回歸模型的隱藏層邊際分布式未知的,因此很難進(jìn)行有效的數(shù)據(jù)操作。在GAN中,數(shù)據(jù)點(diǎn)通常不能直接在潛在空間中表示,因?yàn)樗鼈儧](méi)有編碼器,可能不完全支持?jǐn)?shù)據(jù)分布。但可逆生成模型和VAE,就能進(jìn)行數(shù)據(jù)點(diǎn)之間的插值,對(duì)現(xiàn)有數(shù)據(jù)點(diǎn)進(jìn)行有意義的修改等操作。

節(jié)省內(nèi)存的巨大潛力。如RevNet論文所述,在可逆神經(jīng)網(wǎng)絡(luò)中計(jì)算梯度需要的內(nèi)存是固定的,不會(huì)隨著深度的增加而增加。

他們建議未來(lái)可以繼續(xù)探索這兩個(gè)方向:

自回歸模型和VAE在對(duì)數(shù)似然性方面比基于流的模型表現(xiàn)更好,但它們分別具有采樣低效和推理不精確的缺點(diǎn)。未來(lái),可以將基于流的模型、VAE和自回歸模型結(jié)合起來(lái),權(quán)衡彼此優(yōu)勢(shì),這將是一個(gè)有趣的方向。

改進(jìn)架構(gòu)來(lái)提高計(jì)算效率和參數(shù)效率。為了生成逼真的高分辨率圖像,面部生成模型使用200M規(guī)模參數(shù)和大約600個(gè)卷積層,這需要花費(fèi)很高的訓(xùn)練成本。深度較小的模型在學(xué)習(xí)長(zhǎng)時(shí)間依賴(long-range dependencies)方面表現(xiàn)較差。使用self attention結(jié)構(gòu),或者用漸進(jìn)式訓(xùn)練擴(kuò)展到高分辨率,可以讓訓(xùn)練流模型的計(jì)算成本更低。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40345
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1895

    瀏覽量

    72328
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24590

原文標(biāo)題:超越GAN!OpenAI提出可逆生成模型,AI合成超逼真人像

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI的研究者們提出了一種新的生成模型,能快速輸出高清、真實(shí)的圖像

    為下游任務(wù)提供了有用的隱藏空間。自回歸模型的隱藏層有著位置的邊緣分布,使其更難對(duì)數(shù)據(jù)進(jìn)行正確操作。在GAN中,數(shù)據(jù)點(diǎn)經(jīng)常不能直接表現(xiàn)在隱藏空間中,因?yàn)樗鼈儧](méi)有編碼器,可能無(wú)法支持?jǐn)?shù)據(jù)分布。在可逆生成
    的頭像 發(fā)表于 07-12 08:43 ?8187次閱讀

    字節(jié)跳動(dòng)否認(rèn)借助OpenAI技術(shù)研發(fā)大模型,已刪除GPT生成數(shù)據(jù)

    據(jù)悉,有媒體曝光,字節(jié)跳動(dòng)可能涉足未公開(kāi)地使用OpenAI技術(shù)來(lái)開(kāi)發(fā)自家的大規(guī)模語(yǔ)言模型,這與OpenAI的服務(wù)條款相悖。因此,該公司的賬戶現(xiàn)已經(jīng)被OpenAI暫時(shí)禁用。
    的頭像 發(fā)表于 12-18 10:39 ?463次閱讀

    OpenAI發(fā)布首個(gè)視頻生成模型Sora

    OpenAI近日宣布推出其全新的文本到視頻生成模型——Sora。這一突破性的技術(shù)將視頻創(chuàng)作帶入了一個(gè)全新的紀(jì)元,為用戶提供了前所未有的創(chuàng)作可能性。
    的頭像 發(fā)表于 02-18 10:07 ?950次閱讀

    OpenAI推出新款大模型Sora,引領(lǐng)多模態(tài)AI新潮流

    全球人工智能領(lǐng)域的佼佼者OpenAI近日發(fā)布了一款名為Sora的短視頻生成模型,該模型能夠根據(jù)文字指令即時(shí)生成高質(zhì)量短視頻,引起了業(yè)界的廣泛
    的頭像 發(fā)表于 02-18 10:16 ?1247次閱讀

    奧特曼發(fā)布王炸模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相

    奧特曼發(fā)布王炸模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相 2月16日凌晨OpenAI的首個(gè)文生視頻模型Sora正式亮相。So
    的頭像 發(fā)表于 02-18 17:41 ?900次閱讀

    OpenAI發(fā)布文生視頻模型Sora,引領(lǐng)AI視頻生成新紀(jì)元

    在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的,正是OpenAI最新推出的文生視頻大模型——Sora。這款被業(yè)界廣泛贊譽(yù)的模型,以其“逼真”和“富有想象力”的視頻生成能力,徹底顛覆了傳統(tǒng)視
    的頭像 發(fā)表于 02-19 11:03 ?831次閱讀

    OpenAI發(fā)布文生視頻大模型Sora、英偉達(dá)市值超谷歌

    OpenAI加入文生視頻大模型的戰(zhàn)局,AI大模型進(jìn)入視頻生成的階段,這將進(jìn)一步刺激AI芯片的需求。 OpenAI發(fā)布文生視頻大
    的頭像 發(fā)表于 03-28 18:13 ?798次閱讀

    OpenAI新年開(kāi)出王炸,視頻生成模型Sora問(wèn)世

    近日,OpenAI在AI生成視頻領(lǐng)域取得重大突破,發(fā)布了全新的生成式人工智能模型“Sora”。該模型在視頻
    的頭像 發(fā)表于 02-20 11:46 ?683次閱讀

    OpenAI發(fā)布Sora模型,瞬間生成高清大片

    近日,人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI發(fā)布了一款名為“Sora”的視頻生成AI模型,再次展示了其在AI技術(shù)領(lǐng)域的創(chuàng)新實(shí)力。Sora以其出色的視頻生成能力,瞬間成為業(yè)界的焦點(diǎn)。
    的頭像 發(fā)表于 02-20 13:33 ?693次閱讀

    openai發(fā)布首個(gè)視頻生成模型sora

    美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日 ,OpenAI正式發(fā)布文生視頻模型Sora ,并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告 ,正式入局視頻生成領(lǐng)域 。Sora能夠根據(jù)提示詞生成60s的連貫視
    的頭像 發(fā)表于 02-21 16:45 ?1121次閱讀

    OpenAI新推文生視頻大模型Sora引發(fā)熱議,首批受益者涌現(xiàn)

    在科技浪潮中,OpenAI再次引領(lǐng)潮流。繼2023年的文生文大語(yǔ)言模型之后,2024年春節(jié)期間,OpenAI推出的文生視頻大模型Sora迅速成為全球科技界的焦點(diǎn)。這款
    的頭像 發(fā)表于 02-22 14:15 ?647次閱讀

    OpenAI文生視頻模型Sora要點(diǎn)分析

    近日,美國(guó)人工智能公司OpenAI發(fā)布了首個(gè)視頻生成模型Sora。不同于此前許多AI大模型文生圖或視頻時(shí),會(huì)出現(xiàn)人物形象前后不一致等問(wèn)題
    的頭像 發(fā)表于 02-22 16:37 ?933次閱讀
    <b class='flag-5'>OpenAI</b>文生視頻<b class='flag-5'>模型</b>Sora要點(diǎn)分析

    OpenAI 在 AI 生成視頻領(lǐng)域扔出一枚“王炸”,視頻生成模型“Sora”

    ABSTRACT摘要2月16日凌晨,也就是中國(guó)大年初七,OpenAI在AI生成視頻領(lǐng)域扔出一枚“王炸”,宣布推出全新的生成式人工智能模型“Sora”。這家舊金山公司周四推出的該工具使用
    的頭像 發(fā)表于 02-22 08:25 ?324次閱讀
    <b class='flag-5'>OpenAI</b> 在 AI <b class='flag-5'>生成</b>視頻領(lǐng)域扔出一枚“王炸”,視頻<b class='flag-5'>生成</b><b class='flag-5'>模型</b>“Sora”

    Stack Overflow與OpenAI簽訂協(xié)議為其模型提供數(shù)據(jù)

    OpenAI與知名的軟件開(kāi)發(fā)者問(wèn)答論壇Stack Overflow達(dá)成了重要合作,旨在提升生成式人工智能模型在編程領(lǐng)域的性能。根據(jù)雙方周一宣布的合作協(xié)議,OpenAI將利用Stack
    的頭像 發(fā)表于 05-09 09:25 ?320次閱讀

    OpenAI發(fā)布全新GPT-4o模型

    近日,OpenAI宣布推出全新的GPT-4o模型,標(biāo)志著人工智能領(lǐng)域的一大技術(shù)飛躍。這款模型不僅具備強(qiáng)大的生成能力,還能精準(zhǔn)理解用戶意圖,提供智能化的回答。
    的頭像 發(fā)表于 05-17 11:48 ?573次閱讀