0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何去解決文本到圖像生成的跨模態(tài)對(duì)比損失問題?

LiveVideoStack ? 來源:LiveVideoStack ? 作者:Google AI Blog ? 2021-06-15 10:07 ? 次閱讀

Google提出了一個(gè)跨模態(tài)對(duì)比學(xué)習(xí)框架來訓(xùn)練用于文本到圖像合成的 GAN 模型,用于研究解決生成的跨模態(tài)對(duì)比損失問題。

從文本到圖像的自動(dòng)生成,如何訓(xùn)練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。

與其它指導(dǎo)圖像創(chuàng)建的輸入類型相比,描述性句子是一種更直觀、更靈活的視覺概念表達(dá)方式。強(qiáng)大的自動(dòng)文本到圖像的生成系統(tǒng)可以成為快速、有效的內(nèi)容生產(chǎn)、制作工具,用于更多具有創(chuàng)造性的應(yīng)用當(dāng)中。

在CVPR 2021中,Google提出了一個(gè)跨模態(tài)對(duì)比生成對(duì)抗網(wǎng)絡(luò)(XMC-GAN),訓(xùn)練用于文本到圖像合成的 GAN 模型,通過模態(tài)間與模態(tài)內(nèi)的對(duì)比學(xué)習(xí)使圖像和文本之間的互信息最大化,解決文本到圖像生成的跨模態(tài)對(duì)比損失問題。

poYBAGDIDJ-AfrniAADMgxcEq1k626.jpg

XMC-GAN 文本到圖像合成模型中的模態(tài)間和模態(tài)內(nèi)對(duì)比學(xué)習(xí)

XMC-GAN 被成功應(yīng)用于三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集:一個(gè)是MS-COCO 圖像描述集合,另外兩個(gè)是用Localized Narratives注釋的數(shù)據(jù)集,一個(gè)是包括MS-COCO 圖像(稱為LN-COCO) ,另一個(gè)描述開放圖像數(shù)據(jù) (LN-OpenImages)。結(jié)果顯示 XMC-GAN生成圖像所描繪的場(chǎng)景相比于使用其它技術(shù)生成的圖像質(zhì)量更高,在每個(gè)方面都達(dá)到了最先進(jìn)的水平。

pYYBAGDIDI-AdQkNAAB3Ifj0XNA593.jpg

MS-COCO對(duì)圖像質(zhì)量和文本對(duì)齊的人工評(píng)估

此外,XMC-GAN還在 LN-OpenImages 上進(jìn)行了一系列訓(xùn)練和評(píng)估,這相比于 MS-COCO 更具有挑戰(zhàn)性,由于數(shù)據(jù)集更大,圖像涵蓋主題范圍更加廣泛且復(fù)雜。

對(duì)于人類評(píng)估和定量指標(biāo),XMC-GAN 在多個(gè)數(shù)據(jù)集模型中相較之前有顯著的改進(jìn)??梢陨膳c輸入描述非常匹配的高質(zhì)量圖像,包括更長,更詳細(xì)的敘述,同時(shí)端到端模型的復(fù)雜度也相對(duì)較為簡單,這代表了從自然語言描述生成圖像的創(chuàng)造性應(yīng)用的重大進(jìn)步。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40345
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1895

    瀏覽量

    72306

原文標(biāo)題:XMC-GAN:從文本到圖像的跨模態(tài)對(duì)比學(xué)習(xí)

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    利用OpenVINO部署Qwen2多模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說,多模態(tài)
    的頭像 發(fā)表于 10-18 09:39 ?134次閱讀

    Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項(xiàng)重要技術(shù)突破,成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息,還實(shí)現(xiàn)了對(duì)圖像內(nèi)容的精準(zhǔn)理解,標(biāo)志著Meta在AI多
    的頭像 發(fā)表于 09-27 11:44 ?304次閱讀

    鴻蒙ArkTS聲明式開發(fā):平臺(tái)支持列表【半模態(tài)轉(zhuǎn)場(chǎng)】模態(tài)轉(zhuǎn)場(chǎng)設(shè)置

    通過bindSheet屬性為組件綁定半模態(tài)頁面,在組件插入時(shí)可通過設(shè)置自定義或默認(rèn)的內(nèi)置高度確定半模態(tài)大小。
    的頭像 發(fā)表于 06-12 21:09 ?758次閱讀
    鴻蒙ArkTS聲明式開發(fā):<b class='flag-5'>跨</b>平臺(tái)支持列表【半<b class='flag-5'>模態(tài)</b>轉(zhuǎn)場(chǎng)】<b class='flag-5'>模態(tài)</b>轉(zhuǎn)場(chǎng)設(shè)置

    李未可科技正式推出WAKE-AI多模態(tài)AI大模型

    文本生成、語言理解、圖像識(shí)別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互,同時(shí)多
    發(fā)表于 04-18 17:01 ?534次閱讀
    李未可科技正式推出WAKE-AI多<b class='flag-5'>模態(tài)</b>AI大模型

    深度學(xué)習(xí)生成對(duì)抗網(wǎng)絡(luò)(GAN)全解析

    GANs真正的能力來源于它們遵循的對(duì)抗訓(xùn)練模式。生成器的權(quán)重是基于判別器的損失所學(xué)習(xí)的。因此,生成器被它生成
    發(fā)表于 03-29 14:42 ?4110次閱讀
    深度學(xué)習(xí)<b class='flag-5'>生成</b>對(duì)抗網(wǎng)絡(luò)(GAN)全解析

    NVIDIA Edify多模態(tài)架構(gòu)升級(jí),引領(lǐng)視覺生成式AI新紀(jì)元

    NVIDIA近日宣布,其用于視覺生成式AI的多模態(tài)架構(gòu)Edify迎來重大更新,為開發(fā)者和視覺內(nèi)容提供商帶來前所未有的新功能。其中,3D資產(chǎn)生成功能的引入,極大地提升了AI圖像
    的頭像 發(fā)表于 03-27 10:22 ?353次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身Stable Diffusion更快、更強(qiáng)大,而Stable Diffusion是許多其他文本
    的頭像 發(fā)表于 02-19 16:03 ?827次閱讀
    Stability AI試圖通過新的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>人工智能模型保持領(lǐng)先地位

    什么是多模態(tài)?多模態(tài)的難題是什么?

    模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對(duì)圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?4199次閱讀
    什么是多<b class='flag-5'>模態(tài)</b>?多<b class='flag-5'>模態(tài)</b>的難題是什么?

    自動(dòng)駕駛和多模態(tài)大語言模型的發(fā)展歷程

    模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合,通過多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)行各種任務(wù),包括圖像分類、將
    發(fā)表于 12-28 11:45 ?458次閱讀
    自動(dòng)駕駛和多<b class='flag-5'>模態(tài)</b>大語言模型的發(fā)展歷程

    高級(jí)檢索增強(qiáng)生成技術(shù)(RAG)全面指南

    ChatGPT、Midjourney等生成式人工智能(GenAI)在文本生成、文本圖像生成等任
    的頭像 發(fā)表于 12-25 15:16 ?4515次閱讀
    高級(jí)檢索增強(qiáng)<b class='flag-5'>生成</b>技術(shù)(RAG)全面指南

    大模型+多模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入
    的頭像 發(fā)表于 12-13 13:55 ?1527次閱讀
    大模型+多<b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    任意文本、視覺、音頻混合生成,多模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

    CoDi )模型,讓一種模型統(tǒng)一多種模態(tài)成為可能。CoDi 不僅支持從單模態(tài)模態(tài)生成,還能接收多個(gè)條件輸入以及多
    的頭像 發(fā)表于 12-03 20:20 ?634次閱讀
    任意<b class='flag-5'>文本</b>、視覺、音頻混合<b class='flag-5'>生成</b>,多<b class='flag-5'>模態(tài)</b>有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

    馬里蘭&amp;NYU合力解剖神經(jīng)網(wǎng)絡(luò),CLIP模型神經(jīng)元形似骷髏頭

    對(duì)于大多數(shù)圖像生成模型來說,會(huì)輸出正面的圖像。但是優(yōu)化算法,可以讓模型生成更多詭異、恐怖的圖像。 就拿CLIP模型來說,可以衡量一段
    的頭像 發(fā)表于 11-23 17:29 ?539次閱讀
    馬里蘭&amp;NYU合力解剖神經(jīng)網(wǎng)絡(luò),CLIP模型神經(jīng)元形似骷髏頭

    北大&amp;華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)
    的頭像 發(fā)表于 11-08 16:20 ?684次閱讀
    北大&amp;華為提出:多<b class='flag-5'>模態(tài)</b>基礎(chǔ)大模型的高效微調(diào)

    如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

    自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā),利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的CLIP知識(shí)來幫助理解3D場(chǎng)景。
    的頭像 發(fā)表于 10-29 16:54 ?1253次閱讀
    如何利用CLIP 的2D <b class='flag-5'>圖像</b>-<b class='flag-5'>文本</b>預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解