0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

CVer ? 來源:CVer ? 2023-06-11 10:34 ? 次閱讀

5e3a79e4-07a8-11ee-962d-dac502259ad0.png

代碼:https://github.com/Sierkinhane/VisorGPT

論文:https://arxiv.org/abs/2305.13777

論文簡介

可控?cái)U(kuò)散模型如ControlNet、T2I-Adapter和GLIGEN等可通過額外添加的空間條件如人體姿態(tài)、目標(biāo)框來控制生成圖像中內(nèi)容的具體布局。使用從已有的圖像中提取的人體姿態(tài)、目標(biāo)框或者數(shù)據(jù)集中的標(biāo)注作為空間限制條件,上述方法已經(jīng)獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件?或者說如何自定義空間條件用于可控圖像生成呢?例如自定義空間條件中物體的類別、大小、數(shù)量、以及表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、和實(shí)例掩碼)。

本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺先驗(yàn)(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來建模上述視覺先驗(yàn)。因此,我們可以從學(xué)習(xí)好的先驗(yàn)中通過Prompt從多個(gè)層面,例如表示形式(目標(biāo)框、關(guān)鍵點(diǎn)、實(shí)例掩碼)、物體類別、大小和數(shù)量,來采樣空間限制條件。我們設(shè)想,隨著可控?cái)U(kuò)散模型生成能力的提升,以此可以針對性地生成圖像用于特定場景下的數(shù)據(jù)補(bǔ)充,例如擁擠場景下的人體姿態(tài)估計(jì)和目標(biāo)檢測

方法介紹

表1 訓(xùn)練數(shù)據(jù)

5eab847c-07a8-11ee-962d-dac502259ad0.png

本文從當(dāng)前公開的數(shù)據(jù)集中整理收集了七種數(shù)據(jù),如表1所示。為了以Generative Pre-Training的方式學(xué)習(xí)視覺先驗(yàn)并且添加序列輸出的可定制功能,本文提出以下兩種Prompt模板:

5ed8ad76-07a8-11ee-962d-dac502259ad0.png

使用上述模板可以將表1中訓(xùn)練數(shù)據(jù)中每一張圖片的標(biāo)注格式化成一個(gè)序列x。在訓(xùn)練過程中,我們使用BPE算法將每個(gè)序列x編碼成tokens={u1,u2,…,u3},并通過極大化似然來學(xué)習(xí)視覺先驗(yàn),如下式:

5f1636b4-07a8-11ee-962d-dac502259ad0.png

最后,我們可以從上述方式學(xué)習(xí)獲得的模型中定制序列輸出,如下圖所示。

5f39dd4e-07a8-11ee-962d-dac502259ad0.png

圖1 定制序列輸出

效果展示

5fd83cdc-07a8-11ee-962d-dac502259ad0.png

6011b3a4-07a8-11ee-962d-dac502259ad0.png

615fde7a-07a8-11ee-962d-dac502259ad0.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3076

    瀏覽量

    48592
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1199

    瀏覽量

    24595
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    6878

原文標(biāo)題:NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于擴(kuò)散模型的圖像生成過程

    等很難用文本指定。 ? 最近,谷歌發(fā)布了MediaPipe Diffusion插件,可以在移動設(shè)備上運(yùn)行「可控文本圖像生成」的低成本解決方
    的頭像 發(fā)表于 07-17 11:00 ?2578次閱讀
    基于擴(kuò)散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    一種有效的文本圖像二值化方法

    針對一般文本圖像二值化方法--全局閾值法和局部閾值法所存在的不足,提出了一種整體與局部相結(jié)合的二值化方法,該方法根據(jù)文本圖像的特點(diǎn),自適應(yīng)調(diào)整局部二值化的窗
    發(fā)表于 06-11 09:08 ?13次下載

    基于相容粗集的二值文本圖像數(shù)字水印方法

    針對二值文本圖像像素簡單、紋理復(fù)雜、信息隱藏的免疫力差的特點(diǎn),提出了一種基于相容粗糙集的數(shù)字水印嵌入位置選擇方法。該方法把二值文本載體圖像劃分為不同的等價(jià)類
    發(fā)表于 08-12 16:54 ?14次下載

    基于灰度直方圖和譜聚類的文本圖像二值化方法

    基于灰度直方圖和譜聚類的文本圖像二值化方法:在自動文本提取中,經(jīng)定位獲得的字符區(qū)域需二值化后方能有效識別,由于背景的復(fù)雜,常用的閾值化方法不能有效分割自然環(huán)境下
    發(fā)表于 10-29 13:08 ?18次下載

    基于多小波變換的文本圖像文種識別

    采用了基于多 小波變換 的文本圖像文種識別方法,提取多小波變換各子帶系數(shù)的能量特征,構(gòu)造特征矢量,并采用LIBSVM進(jìn)行多文種的分類。通過對10種語言文字的文本圖像進(jìn)行實(shí)驗(yàn),表
    發(fā)表于 08-15 10:34 ?25次下載
     基于多小波變換的<b class='flag-5'>文本圖像</b>文種識別

    基于嶺回歸的稀疏編碼文本圖像復(fù)原方法

    解決現(xiàn)有稀疏編碼方法在文本圖像復(fù)原中存在的編碼碼元表述空間有限和計(jì)算時(shí)間長的問題,提出了一種基于嶺回歸的稀疏編碼文本圖像復(fù)原方法。首先,該
    發(fā)表于 11-28 17:10 ?1次下載

    基于Hash函數(shù)的文本圖像脆弱水印算法

    隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)和電子政務(wù)隨之興起,重要文件資料、經(jīng)濟(jì)合同、電子發(fā)票等更多文本圖像需要網(wǎng)絡(luò)傳送。這些文件一旦出現(xiàn)惡意篡改而無法證明真?zhèn)?,就會造成?yán)重后果。因此,研究文本圖像認(rèn)證方法
    發(fā)表于 12-04 16:04 ?0次下載

    如何去解決文本圖像生成的跨模態(tài)對比損失問題?

    文本圖像的自動生成,如何訓(xùn)練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項(xiàng)非常具有挑戰(zhàn)
    的頭像 發(fā)表于 06-15 10:07 ?2669次閱讀
    如何去解決<b class='flag-5'>文本</b>到<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>的跨模態(tài)對比損失問題?

    Labview&amp;SQLSever如何自動生成查詢語句

    Labview&amp;SQLSever如何自動生成查詢語句
    發(fā)表于 09-29 18:17 ?7次下載

    復(fù)旦&amp;amp;微軟提出?OmniVL:首個(gè)統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

    根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同,現(xiàn)有的VLP方法可以大致分為兩類:圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練。前者從圖像-文本對中學(xué)習(xí)視覺和語言表
    的頭像 發(fā)表于 12-14 15:26 ?846次閱讀

    如何區(qū)分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值0,如果i大于10,并且i++等于1,則輸出“錯誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運(yùn)行,觀察運(yùn)行結(jié)果的不同。
    的頭像 發(fā)表于 02-24 10:46 ?1461次閱讀
    如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    微軟提出Control-GPT:用GPT-4實(shí)現(xiàn)可控文本圖像生成

    該研究提出了一個(gè)簡單而有效的框架 Control-GPT,它利用 LLM 的強(qiáng)大功能根據(jù)文本 prompt 生成草圖。Control-GPT 的工作原理是首先使用 GPT-4 生成 T
    的頭像 發(fā)表于 06-05 15:31 ?788次閱讀
    微軟<b class='flag-5'>提出</b>Control-GPT:用GPT-4實(shí)現(xiàn)<b class='flag-5'>可控</b><b class='flag-5'>文本</b>到<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>!

    基于文本圖像模型的可控文本到視頻生成

    文本到視頻模型需要大量高質(zhì)量的視頻和計(jì)算資源,這限制了相關(guān)社區(qū)進(jìn)一步的研究和應(yīng)用。為了減少過度的訓(xùn)練要求,我們研究了一種新的高效形式:基于文本圖像模型的可控
    的頭像 發(fā)表于 06-14 10:39 ?873次閱讀
    基于<b class='flag-5'>文本</b>到<b class='flag-5'>圖像</b>模型的<b class='flag-5'>可控</b><b class='flag-5'>文本</b>到視頻<b class='flag-5'>生成</b>

    HarmonyOS &amp;amp;amp;amp;潤和HiSpark 實(shí)戰(zhàn)開發(fā),“碼”上評選活動,邀您來賽?。?!

    出色的系統(tǒng) 助力優(yōu)秀的設(shè)備 應(yīng)用開發(fā)者帶來豐富的體驗(yàn)與想象空間 正如當(dāng)HarmonyOS遇見潤和HiSpark 這萬物互聯(lián)的時(shí)代 將由你的&amp;lt; 代碼 &amp;gt;來
    的頭像 發(fā)表于 04-11 15:33 ?1102次閱讀
    HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;潤和HiSpark 實(shí)戰(zhàn)開發(fā),“碼”上評選活動,邀您來賽?。?!

    NUS&;amp;大提出VisorGPT可控文本圖像生成定制空間條件

    本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺先驗(yàn)(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來建模上述視覺先驗(yàn)。
    的頭像 發(fā)表于 09-26 16:14 ?610次閱讀
    <b class='flag-5'>NUS&</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>深</b><b class='flag-5'>大提出</b><b class='flag-5'>VisorGPT</b>:<b class='flag-5'>為</b><b class='flag-5'>可控</b><b class='flag-5'>文本圖像</b><b class='flag-5'>生成</b><b class='flag-5'>定制</b><b class='flag-5'>空間</b><b class='flag-5'>條件</b>