0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

CVer ? 來(lái)源:CVer ? 2023-09-26 16:14 ? 次閱讀

論文簡(jiǎn)介

可控?cái)U(kuò)散模型如ControlNet、T2I-Adapter和GLIGEN等可通過(guò)額外添加的空間條件如人體姿態(tài)、目標(biāo)框來(lái)控制生成圖像中內(nèi)容的具體布局。使用從已有的圖像中提取的人體姿態(tài)、目標(biāo)框或者數(shù)據(jù)集中的標(biāo)注作為空間限制條件,上述方法已經(jīng)獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件?或者說(shuō)如何自定義空間條件用于可控圖像生成呢?例如自定義空間條件中物體的類別、大小、數(shù)量、以及表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、和實(shí)例掩碼)。

本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺(jué)先驗(yàn)(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來(lái)建模上述視覺(jué)先驗(yàn)。因此,我們可以從學(xué)習(xí)好的先驗(yàn)中通過(guò)Prompt從多個(gè)層面,例如表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、實(shí)例掩碼)、物體類別、大小和數(shù)量,來(lái)采樣空間限制條件。我們?cè)O(shè)想,隨著可控?cái)U(kuò)散模型生成能力的提升,以此可以針對(duì)性地生成圖像用于特定場(chǎng)景下的數(shù)據(jù)補(bǔ)充,例如擁擠場(chǎng)景下的人體姿態(tài)估計(jì)和目標(biāo)檢測(cè)。

方法介紹

表1 訓(xùn)練數(shù)據(jù)

e17fe920-5c2a-11ee-939d-92fbcf53809c.png

本文從當(dāng)前公開(kāi)的數(shù)據(jù)集中整理收集了七種數(shù)據(jù),如表1所示。為了以Generative Pre-Training的方式學(xué)習(xí)視覺(jué)先驗(yàn)并且添加序列輸出的可定制功能,本文提出以下兩種Prompt模板:

e198337c-5c2a-11ee-939d-92fbcf53809c.png

使用上述模板可以將表1中訓(xùn)練數(shù)據(jù)中每一張圖片的標(biāo)注格式化成一個(gè)序列x。在訓(xùn)練過(guò)程中,我們使用BPE算法將每個(gè)序列x編碼成tokens={u1,u2,…,u3},并通過(guò)極大化似然來(lái)學(xué)習(xí)視覺(jué)先驗(yàn),如下式:

e1b004d4-5c2a-11ee-939d-92fbcf53809c.png

最后,我們可以從上述方式學(xué)習(xí)獲得的模型中定制序列輸出,如下圖所示。

e1be4bfc-5c2a-11ee-939d-92fbcf53809c.png

圖1 定制序列輸出

效果展示

e1db2844-5c2a-11ee-939d-92fbcf53809c.png

e1fa30cc-5c2a-11ee-939d-92fbcf53809c.png

e21c6426-5c2a-11ee-939d-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3075

    瀏覽量

    48592
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1199

    瀏覽量

    24595
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    6878

原文標(biāo)題:NeurIPS 2023 | NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    北美運(yùn)營(yíng)商AT&T認(rèn)證的費(fèi)用受哪些因素影響

    申請(qǐng)北美運(yùn)營(yíng)商AT&T認(rèn)證的價(jià)格因多種因素而異,包括產(chǎn)品類型、認(rèn)證范圍、測(cè)試難度等。一般來(lái)說(shuō),申請(qǐng)AT&T認(rèn)證的費(fèi)用可能相對(duì)較高,因?yàn)锳T&T作為北美地區(qū)的主要電信運(yùn)營(yíng)商,其
    的頭像 發(fā)表于 10-16 17:10 ?101次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證的費(fèi)用受哪些因素影響

    onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp;amp; 行業(yè)應(yīng)用

    01直播介紹直播時(shí)間2024/10/281430直播內(nèi)容1.onsemiLV/MVMOSFET產(chǎn)品優(yōu)勢(shì)&amp;市場(chǎng)地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的頭像 發(fā)表于 10-13 08:06 ?153次閱讀
    onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-16 11:24 ?0次下載

    北美運(yùn)營(yíng)商AT&amp;amp;amp;T認(rèn)證入庫(kù)產(chǎn)品范圍名單相關(guān)

    AT&amp;T作為全球領(lǐng)先的通信服務(wù)運(yùn)營(yíng)商之一,通過(guò)AT&amp;T認(rèn)證不僅是對(duì)產(chǎn)品質(zhì)量的認(rèn)可,更是產(chǎn)品打開(kāi)北美市場(chǎng)大門(mén)的重要憑證。然而,或許您還不清楚AT&amp;T認(rèn)證入庫(kù)的產(chǎn)品范圍,接下來(lái)
    的頭像 發(fā)表于 06-28 16:58 ?346次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證入庫(kù)產(chǎn)品范圍名單相關(guān)

    解讀北美運(yùn)營(yíng)商,AT&amp;amp;amp;T的認(rèn)證分類與認(rèn)證內(nèi)容分享

    在數(shù)字化日益深入的今天,通信技術(shù)的穩(wěn)定與安全對(duì)于個(gè)人、企業(yè)乃至整個(gè)國(guó)家都至關(guān)重要。作為北美通信領(lǐng)域的領(lǐng)軍者,AT&amp;T一直致力于用戶提供高效、可靠的通信服務(wù)。而在這背后,AT&amp;T
    的頭像 發(fā)表于 06-05 17:27 ?444次閱讀
    解讀北美運(yùn)營(yíng)商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的認(rèn)證分類與認(rèn)證內(nèi)容分享

    在TSMaster中加載基于DotNet平臺(tái)的Seed&amp;amp;amp;Key

    在UDS診斷過(guò)程中,會(huì)涉及到安全訪問(wèn)的問(wèn)題,也就是所謂的Seed&amp;Key。TSMaster診斷模塊支持通過(guò).dll文件載入Seed&amp;Key算法用于安全訪問(wèn)解鎖。在最近發(fā)布
    的頭像 發(fā)表于 04-02 08:20 ?457次閱讀
    在TSMaster中加載基于DotNet平臺(tái)的Seed&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;Key

    愛(ài)立信旗下Vonage與AT&amp;amp;T合作,通過(guò)API開(kāi)發(fā)者提供更豐富的網(wǎng)絡(luò)能力

    近日,愛(ài)立信旗下的Vonage正在與美國(guó)跨國(guó)電信運(yùn)營(yíng)商AT&amp;T合作,通過(guò)API開(kāi)發(fā)者和企業(yè)提供更豐富的網(wǎng)絡(luò)能力。
    的頭像 發(fā)表于 03-21 10:37 ?1.2w次閱讀

    Open RAN的未來(lái)及其對(duì)AT&amp;amp;T的意義

    3月14日消息,在“Connected America 2024”會(huì)議上,AT&amp;T高級(jí)副總裁兼網(wǎng)絡(luò)首席技術(shù)官Yigal Elbaz討論了Open RAN 的未來(lái)及其對(duì)AT&amp;T的意義。
    的頭像 發(fā)表于 03-14 14:40 ?615次閱讀

    【電磁兼容技術(shù)文檔分享】頻譜儀應(yīng)用案例&amp;amp;amp;簡(jiǎn)易探頭的制作

    【電磁兼容技術(shù)文檔分享】頻譜儀應(yīng)用案例&amp;簡(jiǎn)易探頭的制作
    的頭像 發(fā)表于 02-19 13:20 ?690次閱讀
    【電磁兼容技術(shù)文檔分享】頻譜儀應(yīng)用案例&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;簡(jiǎn)易探頭的制作

    技術(shù)角度看AT&amp;amp;T為何“拋棄”諾基亞

    但是諾基亞所選擇的是Inline這種加速技術(shù),其把第一層放在由Marvell給諾基亞開(kāi)發(fā)的定制芯片上?;蛟SAT&amp;T可能認(rèn)為“云經(jīng)濟(jì)”將抵消CPU成本,并同意Verizon的觀點(diǎn)——諾基亞的解決方案并不是真正的“云原生”。
    的頭像 發(fā)表于 12-15 16:49 ?674次閱讀

    何愷明新作RCG:無(wú)自條件圖像生成新SOTA!與MIT首次合作!

    它有望超越條件圖像生成,并推動(dòng)諸如分子設(shè)計(jì)或藥物發(fā)現(xiàn)這種不需要人類給注釋的應(yīng)用往前發(fā)展(這也是為什么條件生成
    的頭像 發(fā)表于 12-10 10:24 ?862次閱讀
    何愷明新作RCG:無(wú)自<b class='flag-5'>條件</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b>新SOTA!與MIT首次合作!

    小模型也能進(jìn)行上下文學(xué)習(xí)!字節(jié)&amp;amp;華東師大聯(lián)合提出自進(jìn)化文本識(shí)別器

    場(chǎng)景文本識(shí)別(Scene Text Recognition)的目標(biāo)是將圖像中的文本內(nèi)容提取出來(lái)。實(shí)際應(yīng)用場(chǎng)景中,場(chǎng)景文本識(shí)別面臨著多種挑戰(zhàn):不同的場(chǎng)景、文字排版、形變、光照變化、字跡模
    的頭像 發(fā)表于 11-27 16:28 ?841次閱讀
    小模型也能進(jìn)行上下文學(xué)習(xí)!字節(jié)&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;華東師大聯(lián)合<b class='flag-5'>提出</b>自進(jìn)化<b class='flag-5'>文本</b>識(shí)別器

    香港大學(xué)最新提出!實(shí)現(xiàn)超現(xiàn)實(shí)的人類圖像生成:HyperHuman

    最后,為了進(jìn)一步提高視覺(jué)質(zhì)量,我們提出了一種結(jié)構(gòu)引導(dǎo)細(xì)化器來(lái)組合預(yù)測(cè)條件,以更詳細(xì)地生成更高分辨率。大量的實(shí)驗(yàn)表明,我們的框架具有最先進(jìn)的性能,可以在不同的場(chǎng)景下生成超逼真的人類
    的頭像 發(fā)表于 11-27 16:03 ?691次閱讀
    香港大學(xué)最新<b class='flag-5'>提出</b>!實(shí)現(xiàn)超現(xiàn)實(shí)的人類<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>:HyperHuman

    馬里蘭&amp;amp;NYU合力解剖神經(jīng)網(wǎng)絡(luò),CLIP模型神經(jīng)元形似骷髏頭

    對(duì)于大多數(shù)圖像生成模型來(lái)說(shuō),會(huì)輸出正面的圖像。但是優(yōu)化算法,可以讓模型生成更多詭異、恐怖的圖像。 就拿CLIP模型來(lái)說(shuō),可以衡量一段
    的頭像 發(fā)表于 11-23 17:29 ?552次閱讀
    馬里蘭&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;NYU合力解剖神經(jīng)網(wǎng)絡(luò),CLIP模型神經(jīng)元形似骷髏頭

    北大&amp;amp;華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來(lái)臨,越來(lái)越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺(jué)和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)
    的頭像 發(fā)表于 11-08 16:20 ?718次閱讀
    北大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;華為<b class='flag-5'>提出</b>:多模態(tài)基礎(chǔ)大模型的高效微調(diào)