Google提出了一個(gè)跨模態(tài)對(duì)比學(xué)習(xí)框架來訓(xùn)練用于文本到圖像合成的 GAN 模型,用于研究解決生成的跨模態(tài)對(duì)比損失問題。
從文本到圖像的自動(dòng)生成,如何訓(xùn)練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。
與其它指導(dǎo)圖像創(chuàng)建的輸入類型相比,描述性句子是一種更直觀、更靈活的視覺概念表達(dá)方式。強(qiáng)大的自動(dòng)文本到圖像的生成系統(tǒng)可以成為快速、有效的內(nèi)容生產(chǎn)、制作工具,用于更多具有創(chuàng)造性的應(yīng)用當(dāng)中。
在CVPR 2021中,Google提出了一個(gè)跨模態(tài)對(duì)比生成對(duì)抗網(wǎng)絡(luò)(XMC-GAN),訓(xùn)練用于文本到圖像合成的 GAN 模型,通過模態(tài)間與模態(tài)內(nèi)的對(duì)比學(xué)習(xí)使圖像和文本之間的互信息最大化,解決文本到圖像生成的跨模態(tài)對(duì)比損失問題。
XMC-GAN 文本到圖像合成模型中的模態(tài)間和模態(tài)內(nèi)對(duì)比學(xué)習(xí)
XMC-GAN 被成功應(yīng)用于三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集:一個(gè)是MS-COCO 圖像描述集合,另外兩個(gè)是用Localized Narratives注釋的數(shù)據(jù)集,一個(gè)是包括MS-COCO 圖像(稱為LN-COCO) ,另一個(gè)描述開放圖像數(shù)據(jù) (LN-OpenImages)。結(jié)果顯示 XMC-GAN生成圖像所描繪的場(chǎng)景相比于使用其它技術(shù)生成的圖像質(zhì)量更高,在每個(gè)方面都達(dá)到了最先進(jìn)的水平。
MS-COCO對(duì)圖像質(zhì)量和文本對(duì)齊的人工評(píng)估
此外,XMC-GAN還在 LN-OpenImages 上進(jìn)行了一系列訓(xùn)練和評(píng)估,這相比于 MS-COCO 更具有挑戰(zhàn)性,由于數(shù)據(jù)集更大,圖像涵蓋主題范圍更加廣泛且復(fù)雜。
對(duì)于人類評(píng)估和定量指標(biāo),XMC-GAN 在多個(gè)數(shù)據(jù)集模型中相較之前有顯著的改進(jìn)??梢陨膳c輸入描述非常匹配的高質(zhì)量圖像,包括更長,更詳細(xì)的敘述,同時(shí)端到端模型的復(fù)雜度也相對(duì)較為簡單,這代表了從自然語言描述生成圖像的創(chuàng)造性應(yīng)用的重大進(jìn)步。
責(zé)任編輯:lq6
-
圖像
+關(guān)注
關(guān)注
2文章
1078瀏覽量
40345 -
GaN
+關(guān)注
關(guān)注
19文章
1895瀏覽量
72306
原文標(biāo)題:XMC-GAN:從文本到圖像的跨模態(tài)對(duì)比學(xué)習(xí)
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論