0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CLE Diffusion:可控光照增強(qiáng)擴(kuò)散模型

CVer ? 來(lái)源:CVer公眾號(hào) ? 2023-09-11 17:20 ? 次閱讀

本文介紹了由北交大、UT Austin、A*Star團(tuán)隊(duì)提出的基于擴(kuò)散模型的可控低光增強(qiáng)方法,論文被ACM MM 2023收錄。

6a480ee8-4ff3-11ee-a25d-92fbcf53809c.jpg

CLE Diffusion: Controllable Light Enhancement Diffusion Model 論文:arxiv.org/abs/2308.06725 代碼:github.com/YuyangYin/CLEDiffusion 主頁(yè):yuyangyin.github.io/CLEDiffusion/ 在CVer微信公眾號(hào)后臺(tái)回復(fù):CLE,可以下載本論文pdf Introduction

低光圖像增強(qiáng)技術(shù)近年來(lái)受到了廣泛的關(guān)注,目前的方法通常假設(shè)一個(gè)理想的增亮程度,對(duì)圖像整體進(jìn)行均勻的增強(qiáng),同時(shí)也限制了用戶的可控性。為了解決這個(gè)問(wèn)題,本文提出了可控光照增強(qiáng)擴(kuò)散模型(Controllable Light Enhancement Diffusion Model),可以讓用戶輸入所需的增亮級(jí)別,并利用SAM模型,來(lái)實(shí)現(xiàn)交互友好的區(qū)域可控增亮。如圖演示效果,用戶可以通過(guò)簡(jiǎn)單的點(diǎn)擊來(lái)指定增亮的區(qū)域。

6a6f1196-4ff3-11ee-a25d-92fbcf53809c.jpg

Method

本文提出了新型的可控光照增強(qiáng)框架,主要采用了條件擴(kuò)散模型來(lái)控制任意區(qū)域的任意亮度增強(qiáng)。通過(guò)亮度控制模塊(Brightness Control Module)將亮度信息信息融入Diffusion網(wǎng)絡(luò)中,并且設(shè)計(jì)了和任務(wù)適配的條件控制信息和損失函數(shù)來(lái)增強(qiáng)模型的能力。同時(shí)本文使用了Mask輸入和SAM模型(Segment-Anything Model)來(lái)進(jìn)一步增強(qiáng)可控性,使得用戶可以通過(guò)簡(jiǎn)單的點(diǎn)擊形式實(shí)現(xiàn)任意區(qū)域的增亮。整體的框架如下圖所示:

6a8b2c32-4ff3-11ee-a25d-92fbcf53809c.jpg

條件控制擴(kuò)散模型

6aa04e8c-4ff3-11ee-a25d-92fbcf53809c.png

亮度控制板塊

為了高效的控制亮度信息,本文采用了classifier-free guidance(CFG)方法。CFG采用同時(shí)訓(xùn)練條件擴(kuò)散模型(conditional diffusion model)和無(wú)條件擴(kuò)散模型(unconditional diffusion model)的方式來(lái)實(shí)現(xiàn)。在本任務(wù)中,將亮度值(brightness level)視作class label,由于亮度具有連續(xù)性,我們的class label也是連續(xù)的,可以實(shí)現(xiàn)更精細(xì)的亮度調(diào)節(jié)。對(duì)于條件擴(kuò)散模型,本文通過(guò)計(jì)算normal-light image的平均亮度λ,然后通過(guò)orthogonal matrix將其在編碼成illumintion embedding。然后通過(guò)FiLM layer將其注入到UNet的feature map中。對(duì)于無(wú)條件擴(kuò)散模型,本文將illumintion embedding的值設(shè)置為0。實(shí)驗(yàn)中為了提升采樣速度,采用DDIM采樣的辦法,因此總體的算法流程可以總結(jié)為:

6abadf04-4ff3-11ee-a25d-92fbcf53809c.jpg

區(qū)域控制增亮

在實(shí)際增亮過(guò)程中,用戶相比于全局增亮圖片其實(shí)更加關(guān)注區(qū)域的亮度控制,本文采用了Mask-CLE Diffusion來(lái)解決這個(gè)問(wèn)題。首先采樣了一批羽化邊緣的隨機(jī)mask,通過(guò)將normal-light image和mask混合得到了一個(gè)新的合成數(shù)據(jù)集。然后將mask信息拼接到擴(kuò)散模型的輸入中,訓(xùn)練得到新的增亮模型。SAM(Segment-Anything Model)可以實(shí)現(xiàn)任意圖片的分割。在SAM的幫助下,Mask-CLE Diffusion提供了更好的用戶交互體驗(yàn),可以讓用戶通過(guò)點(diǎn)擊的形式獲得指定區(qū)域的mask并進(jìn)行增亮。

輔助損失函數(shù)

6acee706-4ff3-11ee-a25d-92fbcf53809c.png

Expriment

New Metric

目前的大部分指標(biāo)通常假設(shè)理想的亮度值,但對(duì)于不同亮度的圖片質(zhì)量比較困難。如下圖所示,PSNR和SSIM通常隨著亮度變化呈現(xiàn)V字形的變換,而LPIPS會(huì)呈現(xiàn)倒V型。因此本文希望提出一個(gè)新的指標(biāo),可以衡量不同亮度下的圖片質(zhì)量。

6ae2bde4-4ff3-11ee-a25d-92fbcf53809c.jpg

本文發(fā)現(xiàn)可以用color map來(lái)對(duì)亮度進(jìn)行歸一化,之后通過(guò)Canny邊緣提取算子來(lái)衡量細(xì)節(jié)信息,最后采用LPIPS函數(shù)來(lái)衡量高頻質(zhì)量。新的指標(biāo)可以命名為L(zhǎng)ight-IndependentLPIPS,表示為:

6b038aec-4ff3-11ee-a25d-92fbcf53809c.png

LOL和Mit-Adobe FiveK數(shù)據(jù)集上的表現(xiàn)

評(píng)測(cè)指標(biāo)的比較:

6b14363a-4ff3-11ee-a25d-92fbcf53809c.jpg

LOL數(shù)據(jù)集上的可視化比較:

6b36cdf8-4ff3-11ee-a25d-92fbcf53809c.jpg

Mit-Adobe FiveK數(shù)據(jù)集上的可視化比較:

6b4a05da-4ff3-11ee-a25d-92fbcf53809c.jpg

區(qū)域亮度增強(qiáng)

給定用戶感興趣的區(qū)域,可以實(shí)現(xiàn)任意亮度的增強(qiáng)。對(duì)比于過(guò)往低光增強(qiáng)方法MAXIM(CVPR 2022 Oral),具有更強(qiáng)的可控性和增亮效果。

6a6f1196-4ff3-11ee-a25d-92fbcf53809c.jpg

6b7601d0-4ff3-11ee-a25d-92fbcf53809c.jpg

全局亮度增強(qiáng)

6ba11db6-4ff3-11ee-a25d-92fbcf53809c.png

6bd21f60-4ff3-11ee-a25d-92fbcf53809c.jpg

和其他亮度可控方法的比較

ReCoRo只能實(shí)現(xiàn)在low-light到well-light之間的亮度增強(qiáng),而CLE Diffusion有更廣的編輯空間。

6bee322c-4ff3-11ee-a25d-92fbcf53809c.jpg

在VE-LOL數(shù)據(jù)集上的比較

6c0cf96e-4ff3-11ee-a25d-92fbcf53809c.jpg

在正常光照數(shù)據(jù)集上的比較

6c2790da-4ff3-11ee-a25d-92fbcf53809c.jpg

在分割模型上的表現(xiàn)

6c3d2a3a-4ff3-11ee-a25d-92fbcf53809c.jpg

總結(jié)

CLE Diffusion提出了一種新型的擴(kuò)散模型框架來(lái)實(shí)現(xiàn)可控的光照增強(qiáng)。方法主要將亮度信息編碼,利用條件擴(kuò)散模型來(lái)實(shí)現(xiàn)可控的亮度增強(qiáng)。并且借助SAM模型,讓用戶可以選擇感興趣的區(qū)域進(jìn)行增亮。大量的實(shí)驗(yàn)表明,方法在定量和定性上都有優(yōu)異的表現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4256

    瀏覽量

    62223
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3058

    瀏覽量

    48570
  • 圖像增強(qiáng)
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    10015

原文標(biāo)題:ACM MM 2023 | CLE Diffusion:可控光照增強(qiáng)擴(kuò)散模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于擴(kuò)散模型的圖像生成過(guò)程

    等很難用文本指定。 ? 最近,谷歌發(fā)布了MediaPipe Diffusion插件,可以在移動(dòng)設(shè)備上運(yùn)行「可控文本到圖像生成」的低成本解決方案,支持現(xiàn)有的預(yù)訓(xùn)練擴(kuò)散模型及其低秩自適應(yīng)(
    的頭像 發(fā)表于 07-17 11:00 ?2560次閱讀
    基于<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的圖像生成過(guò)程

    Stable Diffusion的完整指南:核心基礎(chǔ)知識(shí)、制作AI數(shù)字人視頻和本地部署要求

    Stable Diffusion是一種擴(kuò)散模型diffusion model)的變體,叫做“潛在擴(kuò)散
    的頭像 發(fā)表于 09-18 10:06 ?2110次閱讀
    Stable <b class='flag-5'>Diffusion</b>的完整指南:核心基礎(chǔ)知識(shí)、制作AI數(shù)字人視頻和本地部署要求

    Stable Diffusion采樣速度翻倍!僅需10到25步的擴(kuò)散模型采樣算法

    然而,擴(kuò)散模型在使用上最大的問(wèn)題就是其極慢的采樣速度。模型采樣需要從純?cè)肼晥D片出發(fā),一步一步不斷地去噪,最終得到清晰的圖片。在這個(gè)過(guò)程中,模型必須串行地計(jì)算至少 50 到 100 步才
    的頭像 發(fā)表于 11-21 11:55 ?1825次閱讀

    基于擴(kuò)散模型的視頻合成新模型,加特效杠杠的!

    近日,曾參與創(chuàng)建 Stable Diffusion 的 Runway 公司推出了一個(gè)新的人工智能模型「Gen-1」,該模型通過(guò)應(yīng)用文本 prompt 或參考圖像指定的任何風(fēng)格,可將現(xiàn)有視頻轉(zhuǎn)化為新視頻。
    的頭像 發(fā)表于 03-24 10:43 ?982次閱讀

    使用OpenVINO?在算力魔方上加速stable diffusion模型

    Stable Diffusion 是 stability.ai 開源的 AI 圖像生成模型,實(shí)現(xiàn)輸入文字,生成圖像的功能。Stable Diffusion 將 AI 圖像生成提升到了全新高度,將引發(fā)媒體創(chuàng)作領(lǐng)域的革命。
    的頭像 發(fā)表于 05-12 09:10 ?1333次閱讀
    使用OpenVINO?在算力魔方上加速stable <b class='flag-5'>diffusion</b><b class='flag-5'>模型</b>

    優(yōu)化 Stable Diffusion 在 GKE 上的啟動(dòng)體驗(yàn)

    Diffusion 等應(yīng)運(yùn)而生。Stable Diffusion 是一個(gè)文字生成圖像的 Diffusion 模型,它能夠根據(jù)給定任何文本輸入生成逼真的圖像。我們?cè)?GitHub Re
    的頭像 發(fā)表于 06-03 08:35 ?790次閱讀

    開源了!UniControl:可控視覺生成的統(tǒng)一擴(kuò)散模型

    現(xiàn)有的可控圖片生成模型都是針對(duì)單一的模態(tài)進(jìn)行設(shè)計(jì),然而 Taskonomy [3] 等工作證明不同的視覺模態(tài)之間共享特征和信息,因此本文認(rèn)為統(tǒng)一的多模態(tài)模型具有巨大的潛力。
    的頭像 發(fā)表于 06-08 15:01 ?576次閱讀
    開源了!UniControl:<b class='flag-5'>可控</b>視覺生成的統(tǒng)一<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>

    基于一種移動(dòng)端高性能 Stable Diffusion 模型

    ? Stable Diffusion (SD)是當(dāng)前最熱門的文本到圖像(text to image)生成擴(kuò)散模型。盡管其強(qiáng)大的圖像生成能力令人震撼,一個(gè)明顯的不足是需要的計(jì)算資源巨大,推理速度很慢
    的頭像 發(fā)表于 06-12 10:14 ?717次閱讀
    基于一種移動(dòng)端高性能 Stable <b class='flag-5'>Diffusion</b> <b class='flag-5'>模型</b>

    iPhone兩秒出圖,目前已知的最快移動(dòng)端Stable Diffusion模型來(lái)了

    近日,Snap 研究院推出最新高性能 Stable Diffusion 模型,通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練流程、損失函數(shù)全方位進(jìn)行優(yōu)化,在 iPhone 14 Pro 上實(shí)現(xiàn) 2 秒出圖(512x512
    的頭像 發(fā)表于 06-12 15:25 ?716次閱讀
    iPhone兩秒出圖,目前已知的最快移動(dòng)端Stable <b class='flag-5'>Diffusion</b><b class='flag-5'>模型</b>來(lái)了

    英特爾研究院發(fā)布全新AI擴(kuò)散模型,可根據(jù)文本提示生成360度全景圖

    英特爾研究院宣布與Blockade Labs合作發(fā)布LDM3D(Latent Diffusion Model for 3D)模型,這一全新的擴(kuò)散模型使用生成式AI創(chuàng)建3D視覺內(nèi)容。LD
    的頭像 發(fā)表于 06-30 19:50 ?316次閱讀

    深入淺出擴(kuò)散模型(Diffusion Model)系列:基石DDPM

    具備了產(chǎn)出逼真圖片的能力,模型才可能在下一步中去學(xué)習(xí)語(yǔ)義信息(guidance),進(jìn)一步產(chǎn)生符合人類意圖的圖片。而DDPM的本質(zhì)作用,就是學(xué)習(xí)訓(xùn)練數(shù)據(jù)的分布,產(chǎn)出盡可能符合訓(xùn)練數(shù)據(jù)分布的真實(shí)圖片。所以,它也成為后續(xù)文生圖類擴(kuò)散模型
    的頭像 發(fā)表于 08-18 16:21 ?834次閱讀
    深入淺出<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>(<b class='flag-5'>Diffusion</b> Model)系列:基石DDPM

    如何加速生成2 PyTorch擴(kuò)散模型

    加速生成2 PyTorch擴(kuò)散模型
    的頭像 發(fā)表于 09-04 16:09 ?1010次閱讀
    如何加速生成2 PyTorch<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>

    DDFM:首個(gè)使用擴(kuò)散模型進(jìn)行多模態(tài)圖像融合的方法

    近來(lái)去噪擴(kuò)散概率模型 Denoising diffusion probabilistic model (DDPM)在圖像生成中獲得很多進(jìn)步,通過(guò)對(duì)一張noise-corrupted圖像恢復(fù)為干凈圖像的
    的頭像 發(fā)表于 09-19 16:02 ?3881次閱讀
    DDFM:首個(gè)使用<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>進(jìn)行多模態(tài)圖像融合的方法

    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問(wèn)題

    擴(kuò)散模型diffusion model)在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強(qiáng)化學(xué)習(xí)(RL)中來(lái)解
    的頭像 發(fā)表于 10-02 10:45 ?728次閱讀
    NeurIPS 2023 | <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>解決多任務(wù)強(qiáng)化學(xué)習(xí)問(wèn)題

    谷歌新作UFOGen:通過(guò)擴(kuò)散GAN實(shí)現(xiàn)大規(guī)模文本到圖像生成

    擴(kuò)散模型和 GAN 的混合模型最早是英偉達(dá)的研究團(tuán)隊(duì)在 ICLR 2022 上提出的 DDGAN(《Tackling the Generative Learning Trilemma with Denoising
    的頭像 發(fā)表于 11-21 16:02 ?546次閱讀
    谷歌新作UFOGen:通過(guò)<b class='flag-5'>擴(kuò)散</b>GAN實(shí)現(xiàn)大規(guī)模文本到圖像生成