中文一级无码黄片,中文一区二区三区视频

代碼：https://github.com/Sierkinhane/VisorGPT

論文：https://arxiv.org/abs/2305.13777

論文簡介

可控?cái)U(kuò)散模型如ControlNet、T2I-Adapter和GLIGEN等可通過額外添加的空間條件如人體姿態(tài)、目標(biāo)框來控制生成圖像中內(nèi)容的具體布局。使用從已有的圖像中提取的人體姿態(tài)、目標(biāo)框或者數(shù)據(jù)集中的標(biāo)注作為空間限制條件，上述方法已經(jīng)獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件？或者說如何自定義空間條件用于可控圖像生成呢？例如自定義空間條件中物體的類別、大小、數(shù)量、以及表示形式（目標(biāo)框、關(guān)鍵點(diǎn)、和實(shí)例掩碼）。

本文將空間條件中物體的形狀、位置以及它們之間的關(guān)系等性質(zhì)總結(jié)為視覺先驗(yàn)（Visual Prior），并使用Transformer Decoder以Generative Pre-Training的方式來建模上述視覺先驗(yàn)。因此，我們可以從學(xué)習(xí)好的先驗(yàn)中通過Prompt從多個(gè)層面，例如表示形式（目標(biāo)框、關(guān)鍵點(diǎn)、實(shí)例掩碼）、物體類別、大小和數(shù)量，來采樣空間限制條件。我們設(shè)想，隨著可控?cái)U(kuò)散模型生成能力的提升，以此可以針對性地生成圖像用于特定場景下的數(shù)據(jù)補(bǔ)充，例如擁擠場景下的人體姿態(tài)估計(jì)和目標(biāo)檢測。

方法介紹

表1 訓(xùn)練數(shù)據(jù)

本文從當(dāng)前公開的數(shù)據(jù)集中整理收集了七種數(shù)據(jù)，如表1所示。為了以Generative Pre-Training的方式學(xué)習(xí)視覺先驗(yàn)并且添加序列輸出的可定制功能，本文提出以下兩種Prompt模板：

使用上述模板可以將表1中訓(xùn)練數(shù)據(jù)中每一張圖片的標(biāo)注格式化成一個(gè)序列x。在訓(xùn)練過程中，我們使用BPE算法將每個(gè)序列x編碼成tokens={u1,u2,…,u3}，并通過極大化似然來學(xué)習(xí)視覺先驗(yàn)，如下式：

最后，我們可以從上述方式學(xué)習(xí)獲得的模型中定制序列輸出，如下圖所示。

圖1 定制序列輸出

效果展示

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴