0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

放下你的PhotoShop!無限圖像編輯已開源!

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-12-10 10:09 ? 次閱讀

0. 筆者個人體會

最近文本到圖像的工作很火,生成的圖像也非常真實。但還有個問題,現(xiàn)有工作效率比較低,往往只能接受一次text指令,再修改就要重新輸入text重新生成,可能會影響原本的語義信息,這樣導出的圖像和最初圖像可能差距甚遠。

今天筆者將為大家分享一項最新開源的工作LEDITS++,可以一次輸入無限多的編輯指令,一次性生成真實圖像!而且LEDITS++是無參數(shù)方案,不需要微調(diào)和優(yōu)化。不得不感慨AI發(fā)展之迅速,距離人們真實生活也越來越近了。

下面一起來閱讀一下這項工作,文末附論文和代碼鏈接~

1. 效果展示

先看一下具體效果,輸入具體指令就可以直接產(chǎn)生對應效果。PS要想在幾十秒內(nèi)達到同等效果應該是有點困難。

27892dc0-96ad-11ee-8b88-92fbcf53809c.png

LEDITS++很強調(diào)編輯前后的圖像一致性,也就是僅修改圖像的相關(guān)區(qū)域,保持原始圖像的語義信息。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

27a9e4fc-96ad-11ee-8b88-92fbcf53809c.png

代碼已經(jīng)開源了,官方主頁也開放了交互式demo,感興趣的讀者可以上傳自己的圖像和文本指令嘗鮮一下效果。

2. 具體原理是什么?

LEDITS++可以分為三個部分:(1)有效的圖像反轉(zhuǎn);(3)多功能文本編輯;(3)圖像變化的語義基礎(chǔ)。

我們知道擴散模型生成圖像是通過反轉(zhuǎn)采樣來進行的,重點是識別噪聲。LEDITS++從DDPM反演中提取特征,并提出一種有效的反演方法,大大減少所需的步驟,同時降低重建誤差。當將反向擴散過程公式化為SDE時,DDPM可以被視為一階SDE解算器。使用高階微分方程解算器可以更有效地解算,因此作者推導出一種新的更快技術(shù)------DPM-solver++反演。

27cde406-96ad-11ee-8b88-92fbcf53809c.png

在創(chuàng)建重建序列之后,可以通過一組編輯指令操縱噪聲來編輯圖像。根據(jù)有條件和無條件估計,作者分別設計了一個專門的引導項,既反映了編輯的方向,又最大化了對所需編輯效果的細粒度控制。

27ef003c-96ad-11ee-8b88-92fbcf53809c.png

最后,LEDITS++還包括一個Mask項,由交叉注意層生成的Mask和噪聲估計導出的Mask取交集計算得到。Mask可以捕捉與編輯概念相關(guān)的圖像區(qū)域,對于多次編輯特別有效。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

2815c21c-96ad-11ee-8b88-92fbcf53809c.png

3. 和其他SOTA方法對比如何?

不同編輯方法的指令對齊和圖像相似度權(quán)衡的比較,側(cè)重CLIP得分(越高越好)與LPIPS相似度(越低越好),也就是圖中越靠近左上角效果越好。

282ecd02-96ad-11ee-8b88-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40345
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29359

    瀏覽量

    267647
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3181

    瀏覽量

    42238

原文標題:放下你的PhotoShop!無限圖像編輯已開源!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Matepad pro12.2 上市半個月,但是還沒有在開源網(wǎng)站看到該項目的開源信息,違背開源精神

    Matepad pro12.2 上市半個月,本人自己也購買了同款12+256的pad,想要同步學習下這款pad的一些體驗還不錯的功能點,但是目前為止還沒有在開源網(wǎng)站看到該項目的開源信息,也查詢不到
    發(fā)表于 08-27 17:25

    微軟AI新成果:將不可編輯PDF轉(zhuǎn)化為可編輯文檔

    市面現(xiàn)有相關(guān)軟件雖能將PDF轉(zhuǎn)為可編輯版,但易喪失原始布局。微軟研究論文名為《從不可編輯文檔生成可編輯文檔的方法和系統(tǒng)》,其獨特之處在于運用AI技術(shù)保持了字體、色彩、布局及圖像格式等視
    的頭像 發(fā)表于 05-30 10:11 ?540次閱讀

    蘋果擬提升照片應用AI技術(shù),以實現(xiàn)Photoshop級別編輯功能

    蘋果官方網(wǎng)站于今日更換了“起飛吧”頁面LOGO,用戶可通過鼠標涂抹掉部分或整個標識。此舉被視為同時為推廣新款Apple Pencil及增強后的編輯功能進行宣傳。
    的頭像 發(fā)表于 05-07 17:18 ?633次閱讀

    開放原子開源大賽—基于OpenHarmony的團結(jié)引擎應用開發(fā)賽正式啟動!

    所有開發(fā)者開放,只要完成注冊并認證,即可報名參與。將有機會深入實踐OpenHarmony開源項目與Unity中國團結(jié)引擎,更有機會贏取豐厚的獎勵與榮譽激勵。賽事共設立了62個獎項,總獎金池高達45萬元
    發(fā)表于 03-13 10:45

    谷歌模型怎么用PS打開文件和圖片

    )或ONNX模型(.onnx)等。這些模型文件是二進制的,并且是為特定的機器學習框架設計的,而不是為圖像編輯軟件如PS設計的。
    的頭像 發(fā)表于 02-29 18:25 ?1283次閱讀

    谷歌模型怎么PS打開文件格式不變

    要將谷歌模型與Photoshop結(jié)合使用,并保持文件格式不變,這通常涉及將谷歌模型生成的圖像或圖形導入到Photoshop中進行進一步編輯或處理。
    的頭像 發(fā)表于 02-29 18:09 ?758次閱讀

    誠邀報名|與同行——開源教育晨霧中的早行者

    價值更是顯得崇高。 大約十年前,開源教育在中國以創(chuàng)客教育的方式開始了初步的探索。然而,直至現(xiàn)在開源教育的發(fā)展依舊顯得初步,挑戰(zhàn)與機遇并存,我們?nèi)杂泻荛L的路要走。 當下,若你進入一家書店的網(wǎng)站,搜索“開源”“
    的頭像 發(fā)表于 12-14 16:05 ?228次閱讀

    jpg如何轉(zhuǎn)psd格式?

    使用Adobe Photoshop這樣的專業(yè)圖像編輯軟件來完成這個任務。Adobe Photoshop是業(yè)界最常用、功能最強大的圖像編輯軟件之一,它提供了豐富的功能和選項,用于
    的頭像 發(fā)表于 12-09 16:09 ?2182次閱讀

    免費開源圖像修復工具lama-cleaner介紹

    Lama Cleaner 是由 SOTA AI 模型提供支持的免費開源圖像修復工具。可以從圖片中移除任何不需要的物體、缺陷和人,或者擦除并替換(powered by stable diffusion)圖片上的任何東西。
    的頭像 發(fā)表于 12-04 10:23 ?2444次閱讀
    免費<b class='flag-5'>開源</b><b class='flag-5'>圖像</b>修復工具lama-cleaner介紹

    linux使用vim新建并編輯文件

    是一個文本編輯器,在Linux系統(tǒng)中被廣泛使用。它具有強大的功能和可定制性,并且支持各種編程語言。 二、 確認Vim安裝 在開始使用Vim之前,需要確認在Linux系統(tǒng)中已經(jīng)安裝了Vim??梢栽诮K端中輸入以下命令檢查Vim是否
    的頭像 發(fā)表于 11-28 15:17 ?2721次閱讀

    關(guān)于圖像傳感器圖像質(zhì)量的四大誤區(qū)!踩過幾個坑?

    關(guān)于圖像傳感器圖像質(zhì)量的四大誤區(qū)!踩過幾個坑?
    的頭像 發(fā)表于 11-27 16:56 ?384次閱讀
    關(guān)于<b class='flag-5'>圖像</b>傳感器<b class='flag-5'>圖像</b>質(zhì)量的四大誤區(qū)!<b class='flag-5'>你</b>踩過幾個坑?

    linux怎么執(zhí)行vim編輯的程序

    在Linux中,可以通過以下步驟執(zhí)行Vim編輯器中編寫的程序: 打開終端或命令行界面。 使用Vim編輯器打開的程序文件。假設的程序文件
    的頭像 發(fā)表于 11-26 15:45 ?984次閱讀

    文生圖大型實踐:揭秘百度搜索AIGC繪畫工具的背后故事!

    AIGC 從去年 9 月到現(xiàn)在,我們能看到各種各樣的模型和公司不斷涌現(xiàn)。從最初大家使用 Stable Diffusion 來生成簡單的圖像,到后來用一些其它方法進行生成式圖像編輯,后來甚至 Adobe Photoshop 支持使
    的頭像 發(fā)表于 11-21 16:04 ?673次閱讀
    文生圖大型實踐:揭秘百度搜索AIGC繪畫工具的背后故事!

    基于幾何分析的神經(jīng)輻射場編輯方法

    神經(jīng)輻射場作為近期一個廣受關(guān)注的隱式表征方法,能合成照片級真實的多視角圖像。但因為其隱式建模的性質(zhì),用戶難以直觀編輯神經(jīng)輻射場建模對象的幾何。面對這一問題,最新被IEEE TPAMI接收的論文
    的頭像 發(fā)表于 11-20 16:56 ?489次閱讀
    基于幾何分析的神經(jīng)輻射場<b class='flag-5'>編輯</b>方法

    資訊速遞 | OpenHarmony領(lǐng)學課堂之《開源賦能》系列課程火熱來襲!

    你想成為OpenHarmony開源社區(qū)的貢獻達人嗎? 你想更深度地參與OpenHarmony開源生態(tài)建設嗎? ? 開源專家團隊在直播間與不見不散~ ? E N D ??? 關(guān)注我們,
    的頭像 發(fā)表于 11-20 10:55 ?302次閱讀
    資訊速遞 | OpenHarmony領(lǐng)學課堂之《<b class='flag-5'>開源</b>賦能》系列課程火熱來襲!