日韓精品視頻一區二區三區,日本国产免费自拍,一级做性色α爱片久久毛片色

論文簡(jiǎn)介

可控?cái)U(kuò)散模型如ControlNet、T2I-Adapter和GLIGEN等可通過(guò)額外添加的空間條件如人體姿態(tài)、目標(biāo)框來(lái)控制生成圖像中內(nèi)容的具體布局。使用從已有的圖像中提取的人體姿態(tài)、目標(biāo)框或者數(shù)據(jù)集中的標(biāo)注作為空間限制條件，上述方法已經(jīng)獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件？或者說(shuō)如何自定義空間條件用于可控圖像生成呢？例如自定義空間條件中物體的類別、大小、數(shù)量、以及表示形式（目標(biāo)框、關(guān)鍵點(diǎn)、和實(shí)例掩碼）。

本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺(jué)先驗(yàn)（Visual Prior），并使用Transformer Decoder以Generative Pre-Training的方式來(lái)建模上述視覺(jué)先驗(yàn)。因此，我們可以從學(xué)習(xí)好的先驗(yàn)中通過(guò)Prompt從多個(gè)層面，例如表示形式（目標(biāo)框、關(guān)鍵點(diǎn)、實(shí)例掩碼）、物體類別、大小和數(shù)量，來(lái)采樣空間限制條件。我們?cè)O(shè)想，隨著可控?cái)U(kuò)散模型生成能力的提升，以此可以針對(duì)性地生成圖像用于特定場(chǎng)景下的數(shù)據(jù)補(bǔ)充，例如擁擠場(chǎng)景下的人體姿態(tài)估計(jì)和目標(biāo)檢測(cè)。

方法介紹

表1 訓(xùn)練數(shù)據(jù)

本文從當(dāng)前公開(kāi)的數(shù)據(jù)集中整理收集了七種數(shù)據(jù)，如表1所示。為了以Generative Pre-Training的方式學(xué)習(xí)視覺(jué)先驗(yàn)并且添加序列輸出的可定制功能，本文提出以下兩種Prompt模板：

使用上述模板可以將表1中訓(xùn)練數(shù)據(jù)中每一張圖片的標(biāo)注格式化成一個(gè)序列x。在訓(xùn)練過(guò)程中，我們使用BPE算法將每個(gè)序列x編碼成tokens={u1,u2,…,u3}，并通過(guò)極大化似然來(lái)學(xué)習(xí)視覺(jué)先驗(yàn)，如下式：

最后，我們可以從上述方式學(xué)習(xí)獲得的模型中定制序列輸出，如下圖所示。

圖1 定制序列輸出

效果展示

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴