国产精品精品久久久久久一,亚洲色噜噜在线观看播放

本文介紹了由北交大、UT Austin、A*Star團(tuán)隊(duì)提出的基于擴(kuò)散模型的可控低光增強(qiáng)方法，論文被ACM MM 2023收錄。

CLE Diffusion: Controllable Light Enhancement Diffusion Model 論文：arxiv.org/abs/2308.06725 代碼：github.com/YuyangYin/CLEDiffusion 主頁(yè)：yuyangyin.github.io/CLEDiffusion/ 在CVer微信公眾號(hào)后臺(tái)回復(fù)：CLE，可以下載本論文pdf Introduction

低光圖像增強(qiáng)技術(shù)近年來(lái)受到了廣泛的關(guān)注，目前的方法通常假設(shè)一個(gè)理想的增亮程度，對(duì)圖像整體進(jìn)行均勻的增強(qiáng)，同時(shí)也限制了用戶的可控性。為了解決這個(gè)問(wèn)題，本文提出了可控光照增強(qiáng)擴(kuò)散模型（Controllable Light Enhancement Diffusion Model），可以讓用戶輸入所需的增亮級(jí)別，并利用SAM模型，來(lái)實(shí)現(xiàn)交互友好的區(qū)域可控增亮。如圖演示效果，用戶可以通過(guò)簡(jiǎn)單的點(diǎn)擊來(lái)指定增亮的區(qū)域。

Method

本文提出了新型的可控光照增強(qiáng)框架，主要采用了條件擴(kuò)散模型來(lái)控制任意區(qū)域的任意亮度增強(qiáng)。通過(guò)亮度控制模塊（Brightness Control Module)將亮度信息信息融入Diffusion網(wǎng)絡(luò)中，并且設(shè)計(jì)了和任務(wù)適配的條件控制信息和損失函數(shù)來(lái)增強(qiáng)模型的能力。同時(shí)本文使用了Mask輸入和SAM模型(Segment-Anything Model)來(lái)進(jìn)一步增強(qiáng)可控性，使得用戶可以通過(guò)簡(jiǎn)單的點(diǎn)擊形式實(shí)現(xiàn)任意區(qū)域的增亮。整體的框架如下圖所示：

條件控制擴(kuò)散模型

亮度控制板塊

為了高效的控制亮度信息，本文采用了classifier-free guidance(CFG)方法。CFG采用同時(shí)訓(xùn)練條件擴(kuò)散模型(conditional diffusion model)和無(wú)條件擴(kuò)散模型(unconditional diffusion model)的方式來(lái)實(shí)現(xiàn)。在本任務(wù)中，將亮度值(brightness level)視作class label，由于亮度具有連續(xù)性，我們的class label也是連續(xù)的，可以實(shí)現(xiàn)更精細(xì)的亮度調(diào)節(jié)。對(duì)于條件擴(kuò)散模型，本文通過(guò)計(jì)算normal-light image的平均亮度λ，然后通過(guò)orthogonal matrix將其在編碼成illumintion embedding。然后通過(guò)FiLM layer將其注入到UNet的feature map中。對(duì)于無(wú)條件擴(kuò)散模型，本文將illumintion embedding的值設(shè)置為0。實(shí)驗(yàn)中為了提升采樣速度，采用DDIM采樣的辦法，因此總體的算法流程可以總結(jié)為:

區(qū)域控制增亮

在實(shí)際增亮過(guò)程中，用戶相比于全局增亮圖片其實(shí)更加關(guān)注區(qū)域的亮度控制，本文采用了Mask-CLE Diffusion來(lái)解決這個(gè)問(wèn)題。首先采樣了一批羽化邊緣的隨機(jī)mask，通過(guò)將normal-light image和mask混合得到了一個(gè)新的合成數(shù)據(jù)集。然后將mask信息拼接到擴(kuò)散模型的輸入中，訓(xùn)練得到新的增亮模型。SAM(Segment-Anything Model)可以實(shí)現(xiàn)任意圖片的分割。在SAM的幫助下，Mask-CLE Diffusion提供了更好的用戶交互體驗(yàn)，可以讓用戶通過(guò)點(diǎn)擊的形式獲得指定區(qū)域的mask并進(jìn)行增亮。

輔助損失函數(shù)

Expriment

New Metric

目前的大部分指標(biāo)通常假設(shè)理想的亮度值，但對(duì)于不同亮度的圖片質(zhì)量比較困難。如下圖所示，PSNR和SSIM通常隨著亮度變化呈現(xiàn)V字形的變換，而LPIPS會(huì)呈現(xiàn)倒V型。因此本文希望提出一個(gè)新的指標(biāo)，可以衡量不同亮度下的圖片質(zhì)量。

本文發(fā)現(xiàn)可以用color map來(lái)對(duì)亮度進(jìn)行歸一化，之后通過(guò)Canny邊緣提取算子來(lái)衡量細(xì)節(jié)信息，最后采用LPIPS函數(shù)來(lái)衡量高頻質(zhì)量。新的指標(biāo)可以命名為L(zhǎng)ight-IndependentLPIPS，表示為：

LOL和Mit-Adobe FiveK數(shù)據(jù)集上的表現(xiàn)

評(píng)測(cè)指標(biāo)的比較：

LOL數(shù)據(jù)集上的可視化比較：

Mit-Adobe FiveK數(shù)據(jù)集上的可視化比較：

區(qū)域亮度增強(qiáng)

給定用戶感興趣的區(qū)域，可以實(shí)現(xiàn)任意亮度的增強(qiáng)。對(duì)比于過(guò)往低光增強(qiáng)方法MAXIM(CVPR 2022 Oral)，具有更強(qiáng)的可控性和增亮效果。

全局亮度增強(qiáng)

和其他亮度可控方法的比較

ReCoRo只能實(shí)現(xiàn)在low-light到well-light之間的亮度增強(qiáng)，而CLE Diffusion有更廣的編輯空間。

在VE-LOL數(shù)據(jù)集上的比較

在正常光照數(shù)據(jù)集上的比較

在分割模型上的表現(xiàn)

總結(jié)

CLE Diffusion提出了一種新型的擴(kuò)散模型框架來(lái)實(shí)現(xiàn)可控的光照增強(qiáng)。方法主要將亮度信息編碼，利用條件擴(kuò)散模型來(lái)實(shí)現(xiàn)可控的亮度增強(qiáng)。并且借助SAM模型，讓用戶可以選擇感興趣的區(qū)域進(jìn)行增亮。大量的實(shí)驗(yàn)表明，方法在定量和定性上都有優(yōu)異的表現(xiàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4256

瀏覽量
62223
模型

模型

+關(guān)注

關(guān)注
1

文章
3058

瀏覽量
48570
圖像增強(qiáng)

圖像增強(qiáng)

+關(guān)注

關(guān)注
0

文章
53

瀏覽量
10015

原文標(biāo)題：ACM MM 2023 | CLE Diffusion：可控光照增強(qiáng)擴(kuò)散模型

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于擴(kuò)散模型的圖像生成過(guò)程

等很難用文本指定。 ? 最近，谷歌發(fā)布了MediaPipe Diffusion插件，可以在移動(dòng)設(shè)備上運(yùn)行「可控文本到圖像生成」的低成本解決方案，支持現(xiàn)有的預(yù)訓(xùn)練擴(kuò)散模型及其低秩自適應(yīng)（

發(fā)表于 07-17 11:00 ?2560次閱讀

基于<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的圖像生成過(guò)程

Stable Diffusion的完整指南：核心基礎(chǔ)知識(shí)、制作AI數(shù)字人視頻和本地部署要求

Stable Diffusion是一種擴(kuò)散模型（diffusion model）的變體，叫做“潛在擴(kuò)散模

發(fā)表于 09-18 10:06 ?2110次閱讀

Stable Diffusion采樣速度翻倍！僅需10到25步的擴(kuò)散模型采樣算法

然而，擴(kuò)散模型在使用上最大的問(wèn)題就是其極慢的采樣速度。模型采樣需要從純?cè)肼晥D片出發(fā)，一步一步不斷地去噪，最終得到清晰的圖片。在這個(gè)過(guò)程中，模型必須串行地計(jì)算至少 50 到 100 步才

發(fā)表于 11-21 11:55 ?1825次閱讀

基于擴(kuò)散模型的視頻合成新模型，加特效杠杠的！

近日，曾參與創(chuàng)建 Stable Diffusion 的 Runway 公司推出了一個(gè)新的人工智能模型「Gen-1」，該模型通過(guò)應(yīng)用文本 prompt 或參考圖像指定的任何風(fēng)格，可將現(xiàn)有視頻轉(zhuǎn)化為新視頻。

發(fā)表于 03-24 10:43 ?982次閱讀

使用OpenVINO?在算力魔方上加速stable diffusion模型

Stable Diffusion 是 stability.ai 開源的 AI 圖像生成模型，實(shí)現(xiàn)輸入文字，生成圖像的功能。Stable Diffusion 將 AI 圖像生成提升到了全新高度，將引發(fā)媒體創(chuàng)作領(lǐng)域的革命。

發(fā)表于 05-12 09:10 ?1333次閱讀

優(yōu)化 Stable Diffusion 在 GKE 上的啟動(dòng)體驗(yàn)

Diffusion 等應(yīng)運(yùn)而生。Stable Diffusion 是一個(gè)文字生成圖像的 Diffusion 模型，它能夠根據(jù)給定任何文本輸入生成逼真的圖像。我們?cè)?GitHub Re

發(fā)表于 06-03 08:35 ?790次閱讀

開源了！UniControl：可控視覺生成的統(tǒng)一擴(kuò)散模型

現(xiàn)有的可控圖片生成模型都是針對(duì)單一的模態(tài)進(jìn)行設(shè)計(jì)，然而 Taskonomy [3] 等工作證明不同的視覺模態(tài)之間共享特征和信息，因此本文認(rèn)為統(tǒng)一的多模態(tài)模型具有巨大的潛力。

發(fā)表于 06-08 15:01 ?576次閱讀

基于一種移動(dòng)端高性能 Stable Diffusion 模型

? Stable Diffusion （SD）是當(dāng)前最熱門的文本到圖像（text to image）生成擴(kuò)散模型。盡管其強(qiáng)大的圖像生成能力令人震撼，一個(gè)明顯的不足是需要的計(jì)算資源巨大，推理速度很慢

發(fā)表于 06-12 10:14 ?717次閱讀

iPhone兩秒出圖，目前已知的最快移動(dòng)端Stable Diffusion模型來(lái)了

近日，Snap 研究院推出最新高性能 Stable Diffusion 模型，通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練流程、損失函數(shù)全方位進(jìn)行優(yōu)化，在 iPhone 14 Pro 上實(shí)現(xiàn) 2 秒出圖（512x512

發(fā)表于 06-12 15:25 ?716次閱讀

英特爾研究院發(fā)布全新AI擴(kuò)散模型，可根據(jù)文本提示生成360度全景圖

英特爾研究院宣布與Blockade Labs合作發(fā)布LDM3D（Latent Diffusion Model for 3D）模型，這一全新的擴(kuò)散模型使用生成式AI創(chuàng)建3D視覺內(nèi)容。LD

發(fā)表于 06-30 19:50 ?316次閱讀

深入淺出擴(kuò)散模型(Diffusion Model)系列：基石DDPM

具備了產(chǎn)出逼真圖片的能力，模型才可能在下一步中去學(xué)習(xí)語(yǔ)義信息(guidance)，進(jìn)一步產(chǎn)生符合人類意圖的圖片。而DDPM的本質(zhì)作用，就是學(xué)習(xí)訓(xùn)練數(shù)據(jù)的分布，產(chǎn)出盡可能符合訓(xùn)練數(shù)據(jù)分布的真實(shí)圖片。所以，它也成為后續(xù)文生圖類擴(kuò)散模型

發(fā)表于 08-18 16:21 ?834次閱讀

如何加速生成2 PyTorch擴(kuò)散模型

加速生成2 PyTorch擴(kuò)散模型

發(fā)表于 09-04 16:09 ?1010次閱讀

DDFM：首個(gè)使用擴(kuò)散模型進(jìn)行多模態(tài)圖像融合的方法

近來(lái)去噪擴(kuò)散概率模型 Denoising diffusion probabilistic model (DDPM)在圖像生成中獲得很多進(jìn)步，通過(guò)對(duì)一張noise-corrupted圖像恢復(fù)為干凈圖像的

發(fā)表于 09-19 16:02 ?3881次閱讀

NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問(wèn)題

擴(kuò)散模型（diffusion model）在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強(qiáng)化學(xué)習(xí)（RL）中來(lái)解

發(fā)表于 10-02 10:45 ?728次閱讀

谷歌新作UFOGen：通過(guò)擴(kuò)散GAN實(shí)現(xiàn)大規(guī)模文本到圖像生成

擴(kuò)散模型和 GAN 的混合模型最早是英偉達(dá)的研究團(tuán)隊(duì)在 ICLR 2022 上提出的 DDGAN（《Tackling the Generative Learning Trilemma with Denoising

發(fā)表于 11-21 16:02 ?546次閱讀