0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

DDFM:首個使用擴散模型進行多模態(tài)圖像融合的方法

CVer ? 來源:CVer ? 2023-09-19 16:02 ? 次閱讀

本文是西安交通大學&蘇黎世聯(lián)邦理工學院的趙子祥博士在ICCV2023上關于多模態(tài)圖像融合的最新工作,題目為:DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion。本文首次在多模態(tài)圖像融合領域采用了擴散模型,很精彩的一篇工作,就是數(shù)學推導難住了我這個工科生。本文提出的模型DDFM的完整流程是通過圖1的c來實現(xiàn),而具體到每一步從fT到fT?1的過程是通過圖3的流程實現(xiàn),也就是本文的核心之一:傳統(tǒng)vanilla DDPM模型中有ft→f~0|t→ft?1的過程,而本文會在f~0|t到ft?1之間通過EM算法增加一個中間量f^0|t來解決最大化似然問題(即解決下文中公式13),整個過程變?yōu)閒t→f~0|t→f^0|t→ft?1。而這個過程是為了解決本文另一個核心,即條件生成問題。具體則是將圖像融合損失函數(shù)優(yōu)化問題轉化為最大似然問題。綜上所述,可以這樣理解本文DDFM的融合思想:首先通過自然圖像預訓練的DDPM模型進行無條件生成,得到初步結果(目的使融合結果符合自然圖像的生成先驗)。隨后對初步生成結果進行條件生成(似然修正)。通過將融合問題轉化為一個含隱變量的極大似然估計問題(公式8轉換為公式13),再通過EM算法來解決該極大似然估計問題,完成條件生成。以上兩步,構成ft→ft?1的單次迭代,而最終經(jīng)過T次迭代后,得到融合圖像f0。

本文:https://https://arxiv.org/abs/2303.06840
代碼:https://github.com/Zhaozixiang1228/MMIF-DDFM

文章題目與作者信息

DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion

b82a60a8-56aa-11ee-939d-92fbcf53809c.png

在CVer微信公眾號后臺回復:DDFM,可以下載本論文pdf、代碼

下面是正文部分。

多模態(tài)圖像融合目的在于組合不同模態(tài)下的圖像并保留互補信息,為了避免GAN模型諸如訓練不穩(wěn)定和缺少解釋性這類問題,同時利用好強大的生成先驗,本文提出了基于去噪擴散概率模型 Denoising diffusion probabilistic model (DDPM) 的融合算法。融合任務會在DDPM采樣框架下設計為條件生成問題,并被分成無條件生成子問題和最大似然子問題。其中最大似然子問題通過具有隱變量的分層貝葉斯方式建模,并使用期望最大化算法進行推理。通過將推理解決方法整合進擴散采樣迭代中,本文方法可以生成高質量的融合圖像,使其具備自然的圖像生成先驗和來自源圖像的跨模態(tài)信息。需要注意的是本文方法需要無條件預訓練生成模型,不過不需要fine-tune。實驗表明本文在紅外-可見光融合以及醫(yī)學影像融合中效果很好。

紅外-可見光融合IVF就是要避免融合圖像對可見光的光照敏感,避免對紅外的噪聲和低分辨率敏感?;贕AN的融合方法如下圖a,會有一個生成器得到融合圖像,然后判別器來決定融合圖像和哪個模態(tài)的源圖像更接近?;贕AN的方法容易出現(xiàn)訓練不穩(wěn)定的問題,同時有缺少解釋性等問題。另外由于基于GAN的方法是一個黑箱,很難理解GAN的內(nèi)在機制和行為,讓可控的融合變得困難。

b8477486-56aa-11ee-939d-92fbcf53809c.png

近來去噪擴散概率模型 Denoising diffusion probabilistic model (DDPM)在圖像生成中獲得很多進步,通過對一張noise-corrupted圖像恢復為干凈圖像的擴散過程進行建模, 可以生成質量很好的圖像?;贚angevin擴散過程的DDPM利用一系列逆擴散步驟來生成效果很好的合成圖像。對比GAN的方法,DDPM不需要判別器,因此緩解了基于GAN方法諸如訓練不穩(wěn)定和模式崩潰等問題。另外,由于這類方法是基于擴散過程的,所以基于DDPM的生成過程具有可解釋性,可以更好地理解圖像生成過程。

因此本文提出了 Denoising Diffusion image Fusion Model (DDFM),其結構如上圖的c,本文將條件生成任務設計為基于DDPM的后驗采樣模型,進一步可以被分為無條件生成擴散問題和最大似然估計問題,第一個問題可以滿足自然圖像先驗,第二個問題通過似然矯正來限制生成圖像和源圖像之間的相似性。和判別式方法相比,用DDPM對自然圖像先驗建模可以得到更好的細節(jié)生成,這點很難通過損失函數(shù)的設計來達到。作為生成模型,DDFM效果穩(wěn)定,生成效果可控。綜合來說本文貢獻如下:1.引入基于DDPM的后驗采樣模型來進行多模態(tài)圖像法融合任務,包含無條件生成模塊和條件似然矯正模塊,采樣的圖像只通過一個預訓練的DDPM完成,不需要fine-tune;2.似然矯正中,由于顯式獲得似然不可行,因此將優(yōu)化損失表示為包含隱變量的概率推理問題,可以通過 EM 算法來解決,然后這個方法整合進DDPM回路中完成條件圖像生成;3.實驗表明本文方法在IVF和醫(yī)學影像融合中都可以獲得很好的結果。

Score-based擴散模型:首先看score SDE 方程。擴散模型目標是通過反轉一個預定義的前向過程來生成樣本,這個前向過程就是將干凈的樣本x0通過多個加噪過程,逐步轉換成接近高斯信號的樣本xT,其過程可以用隨機微分方程表示,如下式。

b8724148-56aa-11ee-939d-92fbcf53809c.png

其中dw是標準Wiener過程,β(t)是有利于variance-preserving SDE 的預定義噪聲表。

該前向過程可以被反轉并保持SDE的形式,如下式。

b87b4de2-56aa-11ee-939d-92fbcf53809c.png

b889caf2-56aa-11ee-939d-92fbcf53809c.png

b898739a-56aa-11ee-939d-92fbcf53809c.png

b8a38ffa-56aa-11ee-939d-92fbcf53809c.png

下來是使用擴散模型采樣。無條件擴散生成過程從一個隨機噪聲向量xT開始,根據(jù)式2的離散化形式進行更新。也可以將DDIM的方式理解采樣過程,即score函數(shù)可以被看做一個去噪器,在迭代t中,從狀態(tài)xt預測去噪結果x~0|t,如下式。

b8b2218c-56aa-11ee-939d-92fbcf53809c.png

這樣x~0|t就可以表示給定xt時,x0的估計。

具體更新的方式如下。

b8ca3772-56aa-11ee-939d-92fbcf53809c.png

使用上面的方式,直到x0被生成。

本文基于DDPM和以往方法的對比:傳統(tǒng)基于優(yōu)化的方法主要是收到人工設計損失函數(shù)的限制,這可能會讓這類方法在數(shù)據(jù)分布發(fā)生改變時融合效果不佳。雖然整合自然圖像先驗可以提供額外的知識,但是只用損失函數(shù)來建模是遠遠不足的。和GAN方法相比,本文的擴散模型方法可以避免不穩(wěn)定的訓練和模式坍塌,通過每次迭代過程中對源圖像生成過程的矯正和基于似然的優(yōu)化就可以得到穩(wěn)定的訓練和可控融合了。

模型結構

通過擴散后驗采樣來融合圖像:使用i、v、f分別表示紅外、可見光、融合圖像,其中融合圖像與可見光圖像均為RGB彩圖。期望f的后驗分布可以通過i和v建模,這樣f就可以通過后驗分布中采樣得到了。受到式2的啟發(fā),擴散過程的逆SDE可以用下式表示。

b8d94b18-56aa-11ee-939d-92fbcf53809c.png

score函數(shù)可以通過下式計算。

b8f8ba66-56aa-11ee-939d-92fbcf53809c.png

其中f~0|t是給定ft后,從無條件DDPM中對f0的估計。上式來源于貝葉斯理論,其近似方程可以看原文引用的文獻。上式中的第一項表示無條件擴散采樣的score函數(shù),可以通過預先訓練的 DDPM 輕松推到出來。下一節(jié)將解釋第二項的獲得方式。

圖像融合的似然矯正:傳統(tǒng)圖像退化反轉問題,如下式。

b9061102-56aa-11ee-939d-92fbcf53809c.png

x是groundtruth,y是測量方法,A是已知的,可以顯式地獲得其后驗分布,然后在圖像融合問題中,想要在給定ft或者f~0|t情況下,獲得i和v的后驗分布是不可能的。為了解決這個問題,首先需要建立優(yōu)化函數(shù)和概率模型的似然之間的關系。下面使用 f 來表示f~0|t。

圖像融合通常使用的損失函數(shù)如下式。

b91e447a-56aa-11ee-939d-92fbcf53809c.png

使用x=f-v和y=i-v來替換變量,可以得到下式。

b9298bfa-56aa-11ee-939d-92fbcf53809c.png

由于y已知,而x未知,那么上式中的第一項就對應于下式k恒為1的回歸模型。

b9357e06-56aa-11ee-939d-92fbcf53809c.png

而根據(jù)正則項和噪聲先驗分布之間的關系,?必須是拉普拉斯噪聲,x則是服從拉普拉斯分布。那么根據(jù)貝葉斯準則,有下式。

b9581006-56aa-11ee-939d-92fbcf53809c.png

b96796c0-56aa-11ee-939d-92fbcf53809c.png

b976de00-56aa-11ee-939d-92fbcf53809c.png

因此式10中的p(x)和p(y|x)可以被寫為下面的分層貝葉斯框架。

b981892c-56aa-11ee-939d-92fbcf53809c.png

其中i和j分別表示圖像的高和寬。通過上式,就可以將式9中的優(yōu)化問題轉換為一個最大似然推理問題。

另外,全變分懲罰項也可以加到融合圖像f中,以更好地從可見光圖像v中保留紋理信息,其形式如下,先對x求梯度后再計算L2范數(shù)。

b998781c-56aa-11ee-939d-92fbcf53809c.png

最終,概率推理問題的對數(shù)似然函數(shù)用下式表示。

b9a5353e-56aa-11ee-939d-92fbcf53809c.png

這個分層貝葉斯模型的概率圖即為圖1的b形式。

這里將式8的優(yōu)化問題轉換為了式13最大似然問題的概率模型。另外和傳統(tǒng)方法中人工調(diào)整參數(shù)懲罰項參數(shù)?不同,本文方法可以通過推理隱變量,自適應地更新參數(shù)?,讓模型可以更好地擬合不同數(shù)據(jù)分布。

下面是通過EM算法推理似然模型。為了解決式13的最大對數(shù)似然問題,也就是可以被看做包含隱變量的優(yōu)化問題,本文使用Expectation Maximization, EM算法來獲得x。EM步驟如下。

b9b4832c-56aa-11ee-939d-92fbcf53809c.png

在E步驟中,由下面的命題2來計算隱變量條件期望的計算結果,并得到Q方程的推導。

命題2:隱變量1/m和1/n的條件期望計算如下式,證明過程可以看原文。

b9c73864-56aa-11ee-939d-92fbcf53809c.png

然后,可以通過貝葉斯理論得到m的后驗概率,如下。

b9dc6e3c-56aa-11ee-939d-92fbcf53809c.png

同時m的后驗概率可以通過下式計算。

b9e96d58-56aa-11ee-939d-92fbcf53809c.png

其中IN是逆高斯分布。

對于n也可以用式17相同的方式計算,如下式。

b9f3c370-56aa-11ee-939d-92fbcf53809c.png

那么n也可以轉換為使用逆高斯分布計算的方式,如下式。

ba0d93a4-56aa-11ee-939d-92fbcf53809c.png

最終,1/m和1/n的條件期望就是式18和20中逆高斯分布的平均參數(shù)。

那么Q方程就可以通過下式推到得到。

ba18882c-56aa-11ee-939d-92fbcf53809c.png

M步驟中,需要最小化關于 x 的負 Q 函數(shù),用half-quadratic splitting算法來處理該問題,如下式。

ba271554-56aa-11ee-939d-92fbcf53809c.png

可以進一步轉化為如下無約束優(yōu)化問題。

ba398f68-56aa-11ee-939d-92fbcf53809c.png

式中的未知變量k、u、 x 可以通過坐標下降方式迭代求解。

k的更新是反卷積過程,如下式。

ba4985d0-56aa-11ee-939d-92fbcf53809c.png

可以采用快速傅里葉變換及其逆變換算子來得到,如下式。

ba55036a-56aa-11ee-939d-92fbcf53809c.png

u的更新是L2范數(shù)懲罰回歸問題,如下式。

ba654d06-56aa-11ee-939d-92fbcf53809c.png

其計算方式如下。

ba7ecdbc-56aa-11ee-939d-92fbcf53809c.png

x的更新是最小二乘問題,如下式。

ba8ad5a8-56aa-11ee-939d-92fbcf53809c.png

其計算方式如下。

ba97e842-56aa-11ee-939d-92fbcf53809c.png

baa97760-56aa-11ee-939d-92fbcf53809c.png

DDFM:前面部分描述是從已有損失函數(shù)中獲得分層貝葉斯模型,通過EM算法來進行推理。下面講述本文DDFM將推理方法和擴散采樣整合到同一個框架內(nèi),根據(jù)輸入v和i獲得融合圖像f,算法流程如下。

babc1cb2-56aa-11ee-939d-92fbcf53809c.png

bacf2190-56aa-11ee-939d-92fbcf53809c.png

DDFM中包含兩個模塊,一個是無條件擴散采樣模塊unconditional diffusion sampling (UDS) ,一個是似然矯正,也就是EM模塊。UDS模塊用來提供自然圖像先驗,給融合圖像提供較好的視覺效果。EM模塊通過似然來保護源圖像的更多信息,用于對UDS輸出進行矯正。

bae4a0c4-56aa-11ee-939d-92fbcf53809c.png

bafa7a20-56aa-11ee-939d-92fbcf53809c.png

EM模塊用來將f~0|t更新為f^0|t,在上圖算法中對應藍色和黃色部分。使用DDPM采樣(第五行)得到的f~0|t作為EM的起始輸入,獲得f^0|t(第6到13行),是經(jīng)過似然校正的融合圖像的估計??傮w來說,EM模塊就是將f~0|t更新為f^0|t來滿足似然。

為什么單步EM可以work:本文DDFM和傳統(tǒng)EM算法最大不同就是傳統(tǒng)方法需要多部迭代來獲得x,也就是上圖算法中的第6到13行需要多次循環(huán)。本文的DDFM只需要單階段EM迭代,可以直接嵌入到DDPM框架中完成采樣。下面給出命題3來解釋這種合理性。

命題3:單步無條件擴散采樣結合了單步EM迭代等價于單步有條件擴散采樣。下面是證明過程結論。

bb0b0ca0-56aa-11ee-939d-92fbcf53809c.png

也就是說,條件采樣可以被分為無條件擴散采樣和單步EM算法,這就對應了本文的UDS模塊和EM模塊。

實驗部分

首先是IVF的實驗結果。實驗在TNO、RoadScene、MSRS、M3FD四個數(shù)據(jù)集上進行驗證,需要注意的是由于本文方法不需要針對特定任務進行fine-tune,所以不需要訓練集,直接使用預訓練過的DDPM方法即可。本文采用的是在imagenet上預訓練的模型。對比實驗結果如下。

bb217990-56aa-11ee-939d-92fbcf53809c.png

bb463de8-56aa-11ee-939d-92fbcf53809c.png

消融實驗一個針對UDS模塊,一個針對EM模塊。對于UDS模塊,去掉去噪擴散生成網(wǎng)絡,只用EM算法來解決式8的優(yōu)化問題來獲得融合結果(實驗I)。為了公平對比,將總體的迭代次數(shù)設置的和DDFM相同。EM模塊是去除了式13中的總變分懲罰項,然后再去除貝葉斯推理模型(實驗II)。而前文也說過式8中的參數(shù)?可以在分層貝葉斯模型中推理,因此這里將參數(shù)?分別設置為0.1和1(實驗III和IV),使用ADMM來推理模型。以上設置的實驗結果如下表。

bb6054bc-56aa-11ee-939d-92fbcf53809c.png

下一組實驗是醫(yī)學影像融合的結果,在 Harvard Medical Image Dataset 上進行測試,包含MRI-CT、MRI-PET、MRI-SPECT三種,實驗結果如下圖。

bb78306e-56aa-11ee-939d-92fbcf53809c.png

bb8f109a-56aa-11ee-939d-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4574

    瀏覽量

    92335
  • 圖像
    +關注

    關注

    2

    文章

    1078

    瀏覽量

    40345
  • 生成器
    +關注

    關注

    7

    文章

    313

    瀏覽量

    20919

原文標題:ICCV 2023 Oral | DDFM:首個使用擴散模型進行多模態(tài)圖像融合的方法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于擴散模型圖像生成過程

    近年來,擴散模型在文本到圖像生成方面取得了巨大的成功,實現(xiàn)了更高圖像生成質量,提高了推理性能,也可以激發(fā)擴展創(chuàng)作靈感。 不過僅憑文本來控制圖像
    的頭像 發(fā)表于 07-17 11:00 ?2559次閱讀
    基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>生成過程

    基于小波變換的圖像數(shù)據(jù)融合與邊緣檢測方法

    提出基于小波變換的圖像數(shù)據(jù)融合和邊緣檢測的方法,對圖像
    發(fā)表于 08-21 12:10 ?7次下載

    運動相機的曝光圖像融合技術

    圖像配準和圖像融合,實現(xiàn)一個可以處理運動相機拍攝的曝光圖像融合系統(tǒng).首先,配準模塊提取SUR
    發(fā)表于 11-11 15:21 ?8次下載
    運動相機的<b class='flag-5'>多</b>曝光<b class='flag-5'>圖像</b><b class='flag-5'>融合</b>技術

    模態(tài)中NLP與CV融合的方式有哪些?

    test 看文本部分在其中起到的作用為0... ( ) ? 現(xiàn)在看來還是wide and deep這種方式太粗暴了(對于復雜信息的融合),本文寫寫模態(tài)掃盲基礎和最近大家精巧的一些圖像
    的頭像 發(fā)表于 12-31 10:12 ?4920次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>中NLP與CV<b class='flag-5'>融合</b>的方式有哪些?

    基于雙殘差超密集網(wǎng)絡的模態(tài)醫(yī)學圖像融合方法

    Networks, DRHDNS)的模態(tài)醫(yī)學圖像融合方法。 DRHDNS分為特征提取和特征融合
    發(fā)表于 04-14 11:18 ?19次下載
    基于雙殘差超密集網(wǎng)絡的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>醫(yī)學<b class='flag-5'>圖像</b><b class='flag-5'>融合</b><b class='flag-5'>方法</b>

    基于聯(lián)合壓縮感知的模態(tài)目標統(tǒng)一跟蹤方法

    針對模態(tài)目標跟蹤中大多僅考慮單個圖像的異種特征融合或不同模態(tài)圖像的同種特征
    發(fā)表于 04-27 15:59 ?0次下載
    基于聯(lián)合壓縮感知的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>目標統(tǒng)一跟蹤<b class='flag-5'>方法</b>

    模態(tài)MR和特征融合的GBM自動分割算法

    模態(tài)MR和特征融合的GBM自動分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    簡述文本與圖像領域的模態(tài)學習有關問題

    模型中的幾個分支角度,簡述文本與圖像領域的模態(tài)學習有關問題。 1. 引言 近年來,計算機視覺和自然語言處理方向均取得了很大進展。而融合二者
    的頭像 發(fā)表于 08-26 16:29 ?6702次閱讀

    模態(tài)圖像合成與編輯方法

    本篇綜述通過對現(xiàn)有的模態(tài)圖像合成與編輯方法的歸納總結,對該領域目前的挑戰(zhàn)和未來方向進行了探討和分析。
    的頭像 發(fā)表于 08-23 09:12 ?1201次閱讀

    圖像對齊所有模態(tài),Meta開源感官AI基礎模型,實現(xiàn)大一統(tǒng)

    最近,很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓練的
    的頭像 發(fā)表于 05-26 15:45 ?800次閱讀
    用<b class='flag-5'>圖像</b>對齊所有<b class='flag-5'>模態(tài)</b>,Meta開源<b class='flag-5'>多</b>感官AI基礎<b class='flag-5'>模型</b>,實現(xiàn)大一統(tǒng)

    VisCPM:邁向多語言模態(tài)模型時代

    可以大致分為兩類: 1. 在圖生文(image-to-text generation)方面,以 GPT-4 為代表的模態(tài)模型,可以面向圖像進行
    的頭像 發(fā)表于 07-10 10:05 ?664次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時代

    模態(tài)模型最全綜述來了!

    其中最后一個表示監(jiān)督信號是從圖像本身中挖掘出來的,流行的方法包括對比學習、非對比學習和masked image建模。在這些方法之外,文章也進一步討論了
    的頭像 發(fā)表于 09-26 16:42 ?2347次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>最全綜述來了!

    模型+模態(tài)的3種實現(xiàn)方法

    我們知道,預訓練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態(tài)的信息,讓其變得更強
    的頭像 發(fā)表于 12-13 13:55 ?1527次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實現(xiàn)<b class='flag-5'>方法</b>

    商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)首個面向金融行業(yè)的模態(tài)全棧式大模型

    4月23日,商湯科技正式推出“日日新SenseNova 5.0”大模型體系,并與海通證券聯(lián)合發(fā)布業(yè)內(nèi)首個面向金融行業(yè)的模態(tài)全棧式大模型。
    的頭像 發(fā)表于 04-26 09:48 ?383次閱讀
    商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)<b class='flag-5'>首個</b>面向金融行業(yè)的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>全棧式大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學習不同
    的頭像 發(fā)表于 10-18 09:39 ?134次閱讀