0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DragGAN開源效果如何

CVer ? 來源:CVer ? 2023-06-30 10:57 ? 次閱讀

動動鼠標(biāo),讓圖片變「活」,成為你想要的模樣。

AIGC 的神奇世界里,我們可以在圖像上通過「拖曳」的方式,改變并合成自己想要的圖像。比如讓一頭獅子轉(zhuǎn)頭并張嘴:

bbf71f9a-1696-11ee-962d-dac502259ad0.gif

實現(xiàn)這一效果的研究出自華人一作領(lǐng)銜的「Drag Your GAN」論文,于上個月放出并已被 SIGGRAPH 2023 會議接收。 一個多月過去了,該研究團隊于近日放出了官方代碼。短短三天時間,Star 量便已突破了 23k,足可見其火爆程度。 bc050452-1696-11ee-962d-dac502259ad0.png GitHub 地址:https://github.com/XingangPan/DragGAN 無獨有偶,今日又一項類似的研究 —— DragDiffusion 進入了人們的視線。此前的 DragGAN 實現(xiàn)了基于點的交互式圖像編輯,并取得像素級精度的編輯效果。但是也有不足,DragGAN 是基于生成對抗網(wǎng)絡(luò)(GAN),通用性會受到預(yù)訓(xùn)練 GAN 模型容量的限制。 在新研究中,新加坡國立大學(xué)和字節(jié)跳動的幾位研究者將這類編輯框架擴展到了擴散模型,提出了 DragDiffusion。他們利用大規(guī)模預(yù)訓(xùn)練擴散模型,極大提升了基于點的交互式編輯在現(xiàn)實世界場景中的適用性。 雖然現(xiàn)在大多數(shù)基于擴散的圖像編輯方法都適用于文本嵌入,但 DragDiffusion 優(yōu)化了擴散潛在表示,實現(xiàn)了精確的空間控制。 bc712b5a-1696-11ee-962d-dac502259ad0.png

論文地址:https://arxiv.org/abs/2306.14435

項目地址:https://yujun-shi.github.io/projects/dragdiffusion.html

研究者表示,擴散模型以迭代方式生成圖像,而「一步」優(yōu)化擴散潛在表示足以生成連貫結(jié)果,使 DragDiffusion 高效完成了高質(zhì)量編輯。 他們在各種具有挑戰(zhàn)性的場景(如多對象、不同對象類別)下進行了廣泛實驗,驗證了 DragDiffusion 的可塑性和通用性。相關(guān)代碼也將很快放出、 下面我們看看 DragDiffusion 效果如何。 首先,我們想讓下圖中的小貓咪的頭再抬高一點,用戶只需將紅色的點拖拽至藍色的點就可以了:

接下來,我們想讓山峰變得再高一點,也沒有問題,拖拽紅色關(guān)鍵點就可以了:

bca03da0-1696-11ee-962d-dac502259ad0.gif

還想讓雕塑的頭像轉(zhuǎn)個頭,拖拽一下就能辦到:

bccdd8b4-1696-11ee-962d-dac502259ad0.gif

讓岸邊的花,開的范圍更廣一點:

方法介紹 本文提出的 DRAGDIFFUSION 旨在優(yōu)化特定的擴散潛變量,以實現(xiàn)可交互的、基于點的圖像編輯。 為了實現(xiàn)這一目標(biāo),該研究首先在擴散模型的基礎(chǔ)上微調(diào) LoRA,以重建用戶輸入圖像。這樣做可以保證輸入、輸出圖像的風(fēng)格保持一致。 接下來,研究者對輸入圖像采用 DDIM inversion(這是一種探索擴散模型的逆變換和潛在空間操作的方法),以獲得特定步驟的擴散潛變量。 在編輯過程中,研究者反復(fù)運用動作監(jiān)督和點跟蹤,以優(yōu)化先前獲得的第 t 步擴散潛變量,從而將處理點的內(nèi)容「拖拽(drag)」到目標(biāo)位置。編輯過程還應(yīng)用了正則化項,以確保圖像的未掩碼區(qū)域保持不變。 最后,通過 DDIM 對優(yōu)化后的第 t 步潛變量進行去噪,得到編輯后的結(jié)果??傮w概覽圖如下所示: bd0420f4-1696-11ee-962d-dac502259ad0.png實驗結(jié)果 給定一張輸入圖像,DRAGDIFFUSION 將關(guān)鍵點(紅色)的內(nèi)容「拖拽」到相應(yīng)的目標(biāo)點(藍色)。例如在圖(1)中,將小狗的頭轉(zhuǎn)過來,圖(7)將老虎的嘴巴合上等等。 ? 下面是更多示例演示。如圖(4)將山峰變高,圖(7)將筆頭變大等等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3181

    瀏覽量

    42238
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3058

    瀏覽量

    48571

原文標(biāo)題:DragGAN重磅開源!擴散模型版的DragDiffusion也來了!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    adxl加速度mems測量低頻振動的效果如何?

    之前選用了adxl372 和adxl345,我想請問一下,這些mems對低頻振動的檢測效果如何 目前項目需求測量0.5Hz-1000kHz頻率的振動,量程大概在±20g 以上兩種mems是否滿足。
    發(fā)表于 12-28 07:09

    如何實現(xiàn)在圖標(biāo)圖像中實現(xiàn)一個點,效果如下圖

    如何實現(xiàn)在圖標(biāo)圖像中實現(xiàn)一個點,效果如下圖,紅色的點可以動。坐標(biāo)為(x°,Y°)
    發(fā)表于 07-13 08:39

    LabVIEW中圖像濾波Vi以及實現(xiàn)效果如何實現(xiàn)

    新手求助?。?!LabVIEW中圖像濾波Vi以及實現(xiàn)效果如何實現(xiàn),能提供子Vi最好先謝謝大神
    發(fā)表于 01-11 22:58

    VL53L1水下使用效果如何?

    我知道舊的vl6180x在水下工作,但我找不到任何有關(guān)VL53L1的信息。有人試過嗎?如果是這樣,它的效果如何?我主要關(guān)注接近檢測/距離測量,但有限的手勢/運動檢測將是一個很好的獎勵
    發(fā)表于 04-15 09:23

    請問AT24C64和MX25L6406E效果如何?

    想試試AT24C64,MX25L6406E看看效果如何,不知道是否有人試過
    發(fā)表于 08-06 02:39

    CJMCU-115或者GY-33傳感器的效果如何,是否沒有色差?

    CJMCU-115或者GY-33傳感器的效果如何,是否沒有色差?
    發(fā)表于 10-17 06:01

    空調(diào)制熱效果如何?空調(diào)制熱多少度最合適?

    空調(diào)制熱效果如何? 首先,空調(diào)不制熱并不能說明是空調(diào)本身的質(zhì)量出了問題,因為空調(diào)制熱也受到外界低溫條件的影響。陳先
    發(fā)表于 11-22 16:52 ?6638次閱讀

    電銷機器人的使用效果如何?

    電銷機器人投入到電銷行業(yè)的使用已經(jīng)有一段時間了,有些企業(yè)定制的機器人服務(wù)也已經(jīng)開始進入工作流程,使用效果如何也開始得到反饋。那么這些使用了電銷機器人的企業(yè)的業(yè)績怎么樣了呢?某房地產(chǎn)公司使用了我們的電
    發(fā)表于 07-06 14:01 ?778次閱讀

    i9-9900K開蓋 使用了釬焊散熱后實際效果如

    2010年的第二代酷睿(Sandy Bridge)之后,高級釬焊散熱終于在九代酷睿(Coffee Lake-S Refresh)上回歸,首批三款K系列型號都拋棄了一直備受詬病的普通硅脂散熱,那么實際效果如何呢?
    發(fā)表于 10-22 11:16 ?3.1w次閱讀

    EE-26:AD184x Sigma Delta轉(zhuǎn)換器:它們使用直流輸入的效果如何?

    EE-26:AD184x Sigma Delta轉(zhuǎn)換器:它們使用直流輸入的效果如何?
    發(fā)表于 04-17 17:21 ?7次下載
    EE-26:AD184x Sigma Delta轉(zhuǎn)換器:它們使用直流輸入的<b class='flag-5'>效果如</b>何?

    Go項目中引入中間件的目的和效果如

    中間件是什么?Go 項目中引入中間件的目的和效果如何?本文詳細(xì)介紹了Golang 中間件。 中間件是一種計算機 軟件,可為 操作系統(tǒng) 提供的 軟件應(yīng)用程序 提供服務(wù),以便于各個軟件之間的溝通,特別是
    的頭像 發(fā)表于 08-14 14:24 ?1975次閱讀

    吉他效果器開發(fā)板開源項目

    電子發(fā)燒友網(wǎng)站提供《吉他效果器開發(fā)板開源項目.zip》資料免費下載
    發(fā)表于 07-21 09:36 ?6次下載
    吉他<b class='flag-5'>效果</b>器開發(fā)板<b class='flag-5'>開源</b>項目

    Catalinbread Formula No 5效果開源

    電子發(fā)燒友網(wǎng)站提供《Catalinbread Formula No 5效果開源.zip》資料免費下載
    發(fā)表于 07-26 11:16 ?0次下載
    Catalinbread Formula No 5<b class='flag-5'>效果</b>器<b class='flag-5'>開源</b>

    AI圖像編輯技術(shù)DragGAN開源,拖動鼠標(biāo)即可改變?nèi)宋镄θ?/a>

    DragGAN是一個直觀的圖像編輯工具PM系統(tǒng)(www.multiable.com.cn),用戶只需要控制圖像中的像素點和方向,就可以快速調(diào)整照片主體的位置、姿態(tài)、表情、大小和角度等。
    的頭像 發(fā)表于 06-29 10:34 ?837次閱讀

    你的DragGAN并不需要點跟蹤!中科大和上海AI Lab提出FreeDrag:無需點跟蹤即可穩(wěn)定拖動語義內(nèi)容

    這一驚人效果來自于發(fā)表在SIGGRAPH 2023會議上的 [Drag Your GAN] 論文(簡稱為DragGAN)。并且DragGAN的代碼一經(jīng)發(fā)出就在短短幾周內(nèi)狂攬30K star,引發(fā)廣大
    的頭像 發(fā)表于 07-13 14:36 ?440次閱讀