0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本圖片編輯新范式:單個模型實現(xiàn)多文本引導(dǎo)圖像編輯

深度學(xué)習自然語言處理 ? 來源:機器之心 ? 2023-01-10 16:08 ? 次閱讀

最近用文本來引導(dǎo)圖像編輯取得了非常大的進展以及關(guān)注度,特別是基于去噪擴散模型如 StableDiffusion 或者 DALLE 等。但是基于 GAN 的文本 - 圖像編輯依舊有一些問題等待解決,例如經(jīng)典的 StyleCILP 中針對每一個文本必須要訓(xùn)練一個模型,這種單文本對單模型的方式在實際應(yīng)用中是不方便的。

本文我們提出 FFCLIP 并解決了這個問題,針對靈活的不同文本輸入,F(xiàn)FCLIP 只需要一個模型就能夠?qū)D片進行相應(yīng)的編輯,無需針對每個文本重新訓(xùn)練模型,并且在多個數(shù)據(jù)集上都取得了非常不錯的效果。

論文簡要概述

利用文本對圖像進行編輯的相關(guān)研究非?;馃幔罱S多研究都基于去噪擴散模型來提升效果而少有學(xué)者繼續(xù)關(guān)注 GAN 的相關(guān)研究。本文基于經(jīng)典的 StyleGAN 和 CLIP 并提出語義調(diào)制模塊,從而對不同的文本僅需要單個模型就可以進行文本 - 圖像編輯。

本文首先利用已有的編碼器將需要編輯的圖像轉(zhuǎn)換到 StyleGAN 的 語義空間中的潛在編碼 w,再通過提出的語義調(diào)制模塊對該隱編碼進行自適應(yīng)的調(diào)制。該語義調(diào)制模塊包括語義對齊和語義注入模塊,首先通過注意力機制對齊文本編碼和 GAN 的隱編碼之間的語義,再將文本信息注入到對齊后的隱編碼中,從而保證該隱編碼擁有文本信息從而達到利用文本編輯圖像能力。 不同于經(jīng)典的 StyleCLIP 模型,我們的模型無需對每個文本單獨訓(xùn)練一個模型,一個模型就可以響應(yīng)多個文本從而對圖像做有效的編輯,所以我們的模型成為 FFCLIP-Free Form Text-Driven Image Manipulation。同時我們的模型在經(jīng)典的教堂,人臉以及汽車數(shù)據(jù)集上都取得了非常不錯的效果。

9ce3a3d2-9011-11ed-bfe3-dac502259ad0.png

論文鏈接:

https://arxiv.org/pdf/2210.07883.pdf

代碼鏈接:

https://github.com/KumapowerLIU/FFCLIP

背景和啟示最近,描述用戶意圖的自由文本提示已被用于編輯 StyleGAN 潛在空間以進行圖像編輯操作 [1、2]。一句話(例如,‘Blue’)或短語(例如,‘Man aged 10’)作為輸入,這些方法通過調(diào)制 StyleGAN 潛在空間中的潛在編碼來相應(yīng)地編輯所描述的圖像屬性。 精確的文本 - 圖像編輯依賴于 StyleGAN 的視覺語義空間與 CLIP 的文本語義空間之間的精確潛在映射。比如當文本提示是 “驚喜”,我們首先在視覺語義空間中識別其相關(guān)的語義子空間(即 “表情”,因為驚喜屬于表情這個屬性)。找到與文本相對應(yīng)的語義子空間后,文本會告訴我們隱編碼的變化方向,從讓隱編碼從當前的表情變化到驚喜的表情。 TediGAN [1] 和 StyleCLIP [2] 等開創(chuàng)性研究憑經(jīng)驗預(yù)先定義了哪個潛在視覺子空間對應(yīng)于目標文本提示嵌入(即 TediGAN 中的特定屬性選擇和 StyleCLIP 中的分組映射)。這種經(jīng)驗識別限制了給定一個文本提示,他們必須訓(xùn)練相應(yīng)的編輯模型。 不同的文本提示需要不同的模型來調(diào)制 StyleGAN 的潛在視覺子空間中的潛在代碼。雖然 StyleCLIP 中的全局方向方法沒有采用這樣的過程,但參數(shù)調(diào)整和編輯方向是手動預(yù)定義的。為此,我們有理由來探索如何通過顯性的文本自動的找到隱性的視覺語義子空間,從而達到單個模型就可以應(yīng)對多個文本。 在這篇論文中,我們提出了 FFCLIP-Free Form CLIP,它可以針對不同的文本自動找到相對應(yīng)視覺子空間。FFCLIP 由幾個語義調(diào)制模塊組成,這些語義調(diào)制模塊把 StyleGAN 潛在空間 中的潛在編碼 和文本編碼 e 作為輸入。 語義調(diào)制模塊由一個語義對齊模塊和一個語義注入模塊組成。語義對齊模塊將文本編碼 e 作為 query,將潛在編碼 w 作為 key 和 Value。然后我們分別在 position 和 channel 維度上計算交叉注意力,從而得到兩個注意力圖。 接著我們使用線性變換將當前的視覺空間轉(zhuǎn)換到與文本對應(yīng)的子空間,其中線性變換參數(shù)(即平移和縮放參數(shù))是基于這兩個注意力圖計算的。通過這種對齊方式,我們可以自動的為每個文本找到相應(yīng)的視覺子空間。最后,語義注入模塊 [3] 通過之后的另一個線性變換修改子空間中的潛在代碼。 從 FFCLIP 的角度來看,[1, 2] 中子空間經(jīng)驗選擇是我們在語義對齊模塊中線性變換的一種特殊形式。他們的組選擇操作類似于我們的縮放參數(shù)的二進制值,以指示 w 的每個位置維度的用法。另一方面,我們觀察到 空間的語義仍然存在糾纏的現(xiàn)象,經(jīng)驗設(shè)計無法找到 StyleGAN 的潛在空間和 CLIP 的文本語義空間之間的精確映射。 相反,我們的語義對齊模塊中的縮放參數(shù)自適應(yīng)地修改潛在代碼 w 以映射不同的文本提示嵌入。然后通過我們的平移參數(shù)進一步改進對齊方式。我們在基準數(shù)據(jù)集上評估我們的方法,并將 FFCLIP 與最先進的方法進行比較。結(jié)果表明,F(xiàn)FCLIP 在傳達用戶意圖的同時能夠生成更加合理的內(nèi)容。

FFCLIP

圖 1 所展示的就是我們的整體框架。FFCLIP 首先通過預(yù)訓(xùn)練好的 GAN inversion 編碼器和文本編碼器得到圖像和文本的潛在編碼,其中圖像的潛在編碼則是之前提到的 StyleGAN 視覺語義空間 中的 w,而文本編碼則是 。我們和 StyleCLIP 一樣采用 e4e GAN inversion 編碼器 [4] 和 CLIP 中的文本編碼器來分別得到相應(yīng)的潛在編碼。接著我們將 和 w 作為調(diào)制模塊的輸入并輸出得到 w 的偏移量 ,最后將 與原始的 w 相加并放入預(yù)訓(xùn)練好的 StyleGAN 中得到相應(yīng)的結(jié)果。

9d2d681e-9011-11ed-bfe3-dac502259ad0.png

▲圖1. 整體框架圖

下圖二就是我們的語義調(diào)制模塊。在語義對齊模塊中(Semantic Alignment),我們可以清晰地看到我們將 設(shè)置為 Key 和 Value 并將 設(shè)置為 Query 來計算兩個注意力圖,這兩個注意力圖的大小分別是 18×1 以及 512×512。接著我們將 18×1 的注意力圖當作線性變換中縮放系數(shù) S,我們計算該注意力圖的過程如下:

9d3e66dc-9011-11ed-bfe3-dac502259ad0.png

同時我們將 512×512 的注意力圖與 Value 相乘以后再經(jīng)過 Pooling 操作得到顯性變換中的平移系數(shù) T。我們計算該注意力圖的過程如下:

9d4fe48e-9011-11ed-bfe3-dac502259ad0.png

擁有了平移和縮放系數(shù)后,我們就可以通過線性變換為當前文本找到相對應(yīng)的視覺子空間,計算步驟如下:

9d619c38-9011-11ed-bfe3-dac502259ad0.png

其中 是我們第 i 個語義調(diào)制模塊的輸出結(jié)果。由于 的大小是 18×512,所以 18×1 和 512×512 的注意力圖分別是在 的 position 和 channel 兩個維度上進行注意力圖的計算,這個操作類似于 Dual Attention [5]。

9d76c3d8-9011-11ed-bfe3-dac502259ad0.png

▲圖2. 語義調(diào)制模塊 我們通過以上的操作可以得到與文本對應(yīng)的視覺子空間,緊接著我們采用類似 AdaIN 的方式,將文本信息注入到這個空間中,從而得到最后的結(jié)果,我們稱這個操作為語義注入模塊(Semantic Injection)。整個模塊的實現(xiàn)步驟如下:

9d9f82a0-9011-11ed-bfe3-dac502259ad0.png

最終我們的 FFCLIP 中一共堆疊了 4 個語義調(diào)制模塊,并最終得到最后的偏移量 。

實驗結(jié)果

9dcb6f14-9011-11ed-bfe3-dac502259ad0.png

9f940180-9011-11ed-bfe3-dac502259ad0.png

▲圖3. 視覺對比圖

如圖 3 所示,我們與 StyleCLIP [1],TediGAN [2] 以及 HairCLIP [3] 進行了視覺上的對比:可以看到 FFCLIP 能夠更好的反應(yīng)文本的語義,并且生成更加真實的編輯圖像。同時相對應(yīng)的數(shù)值對比結(jié)果如下表所示,我們的方法無論是在客觀數(shù)值還是在主觀數(shù)值上都能取得最好的效果。

9ffe6a8e-9011-11ed-bfe3-dac502259ad0.png

▲表1.數(shù)值對比

同時我們的方法還展現(xiàn)出了非好的魯棒性,F(xiàn)FCLIP 在訓(xùn)練中并未見過詞的組合而是用單個的單詞進行訓(xùn)練,但是在測試中能夠很好的針對詞組的語義對圖像進行編輯,視覺效果如圖 4 所示。

a0181970-9011-11ed-bfe3-dac502259ad0.png

▲圖4. 詞組編輯

更多的實驗結(jié)果和消融實驗請看原文。

總結(jié)我們在本文中提出了 FFCLIP,一種可以針對不同文本但只需要單個模型就能進行有效圖像編輯的新方法。本文動機是現(xiàn)有方法是根據(jù)已有的經(jīng)驗來匹配當前文本和 GAN 的語義子空間,因此一個編輯模型只能處理一個文本提示。我們通過對齊和注入的語義調(diào)制來改進潛在映射。它有利于一個編輯模型來處理多個文本提示。多個數(shù)據(jù)集的實驗表明我們的 FFCLIP 有效地產(chǎn)生語義相關(guān)和視覺逼真的結(jié)果。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40355
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3073

    瀏覽量

    48587
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    118

    瀏覽量

    17047

原文標題:NIPS 2022 | 文本圖片編輯新范式:單個模型實現(xiàn)多文本引導(dǎo)圖像編輯

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    單日獲客成本超20萬,國產(chǎn)大模型開卷200萬字以上的長文本處理

    電子發(fā)燒友網(wǎng)報道(文/周凱揚)隨著AGI生態(tài)的蓬勃發(fā)展,各種支持模態(tài)的大模型推陳出新,比如最近比較火的音樂大模型Suno和文生視頻大模型Sora等等。然而在傳統(tǒng)基于
    的頭像 發(fā)表于 03-27 00:53 ?3259次閱讀
    單日獲客成本超20萬,國產(chǎn)大<b class='flag-5'>模型</b>開卷200萬字以上的長<b class='flag-5'>文本</b>處理

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學(xué)習不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說
    的頭像 發(fā)表于 10-18 09:39 ?164次閱讀

    vim編輯器命令模式使用方法

    Vim編輯器是一款功能強大的文本編輯器,廣泛應(yīng)用于程序員和開發(fā)者的日常工作中。Vim編輯器擁有多種模式,其中命令模式(Command mode)是最基本的模式之一,它允許用戶執(zhí)行各種命令來操作
    的頭像 發(fā)表于 08-30 15:01 ?294次閱讀

    vim編輯器如何使用

    Vim編輯器是一個功能強大的文本編輯器,它基于Vi進行改進,并增加了許多新特性。Vim編輯器的使用主要涉及其不同的工作模式及相應(yīng)操作。以下是Vim編輯器的基本使用方法: 一、Vim
    的頭像 發(fā)表于 08-30 14:58 ?276次閱讀

    NVIDIA文本嵌入模型NV-Embed的精度基準

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分數(shù)創(chuàng)下了嵌入準確率的新紀錄海量文本嵌入基準測試(MTEB)涵蓋 56 項嵌入任務(wù)。
    的頭像 發(fā)表于 08-23 16:54 ?1893次閱讀
    NVIDIA<b class='flag-5'>文本</b>嵌入<b class='flag-5'>模型</b>NV-Embed的精度基準

    HarmonyOS開發(fā)案例:【圖片編輯

    基于ArkTS的聲明式開發(fā)范式的樣例,主要介紹了圖片編輯實現(xiàn)過程。
    的頭像 發(fā)表于 04-23 20:54 ?292次閱讀
    HarmonyOS開發(fā)案例:【<b class='flag-5'>圖片</b><b class='flag-5'>編輯</b>】

    HarmonyOS開發(fā)案例:【圖片編輯

    基于canvas組件、圖片編解碼,介紹了圖片編輯實現(xiàn)過程。
    的頭像 發(fā)表于 04-22 16:42 ?773次閱讀
    HarmonyOS開發(fā)案例:【<b class='flag-5'>圖片</b><b class='flag-5'>編輯</b>】

    請問TouchGFX能不能實現(xiàn)中文文本編輯及顯示?

    目前來看,TouchGFX顯示的中文好像都是固定的。但是如果我串口收到一個中文unicode的編碼,要將其顯示出來,或者用戶通過鍵盤,編輯任意中文文本的話,要怎么實現(xiàn)呢?
    發(fā)表于 04-09 08:23

    谷歌模型怎么用PS打開文件和圖片

    )或ONNX模型(.onnx)等。這些模型文件是二進制的,并且是為特定的機器學(xué)習框架設(shè)計的,而不是為圖像編輯軟件如PS設(shè)計的。
    的頭像 發(fā)表于 02-29 18:25 ?1296次閱讀

    亞馬遜發(fā)布史上最大文本轉(zhuǎn)語音模型BASE TTS

    亞馬遜的人工智能研究團隊近日宣布,他們成功開發(fā)出了迄今為止規(guī)模最大的文本轉(zhuǎn)語音模型——BASE TTS。這款新模型擁有高達9.8億個參數(shù),不僅在規(guī)模上超越了之前的所有版本,還在能力上實現(xiàn)
    的頭像 發(fā)表于 02-20 17:04 ?753次閱讀

    linux打開文本文件命令提示錯誤

    Linux中打開文本文件的命令通常是使用文本編輯器打開,例如常用的命令有 vi 、 vim 、 nano 等。如果在使用其中一個命令時出現(xiàn)錯誤提示,可能有以下幾種原因和解決方法。 錯誤提示
    的頭像 發(fā)表于 12-22 15:10 ?724次閱讀

    放下你的PhotoShop!無限圖像編輯已開源!

    我們知道擴散模型生成圖像是通過反轉(zhuǎn)采樣來進行的,重點是識別噪聲。LEDITS++從DDPM反演中提取特征,并提出一種有效的反演方法,大大減少所需的步驟,同時降低重建誤差。當將反向擴散過程公式化為SDE時
    的頭像 發(fā)表于 12-10 10:09 ?795次閱讀
    放下你的PhotoShop!無限<b class='flag-5'>圖像編輯</b>已開源!

    linux使用vim新建并編輯文件

    在Linux系統(tǒng)下,Vim是一款功能強大的文本編輯器。它可以用于新建并編輯文件,具有很多高級功能和快捷鍵。下面是關(guān)于如何在Linux上使用Vim新建并編輯文件的細致的說明: 一、什么是Vim Vim
    的頭像 發(fā)表于 11-28 15:17 ?2836次閱讀

    linux怎樣進入vim編輯模式

    ,Vim將創(chuàng)建一個新文件。 3. 按下鍵盤上的 “i” 鍵進入插入模式。此時,您將能夠開始編輯文本。 4. 在插入模式下,您可以使用鍵盤輸入文本并對其進行修改。如果您想退出插入模式并返回命令模式,請按下 “ESC” 鍵。 5.
    的頭像 發(fā)表于 11-26 15:43 ?4411次閱讀

    探究編輯模態(tài)大語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單模態(tài)模型
    發(fā)表于 11-09 14:53 ?454次閱讀
    探究<b class='flag-5'>編輯</b><b class='flag-5'>多</b>模態(tài)大語言<b class='flag-5'>模型</b>的可行性