99热这里只有精品9988,国产一级特黄a大片99

Google提出了一個(gè)跨模態(tài)對(duì)比學(xué)習(xí)框架來訓(xùn)練用于文本到圖像合成的 GAN 模型，用于研究解決生成的跨模態(tài)對(duì)比損失問題。

從文本到圖像的自動(dòng)生成，如何訓(xùn)練模型僅通過一段文本描述輸入就能生成具體的圖像，是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。

與其它指導(dǎo)圖像創(chuàng)建的輸入類型相比，描述性句子是一種更直觀、更靈活的視覺概念表達(dá)方式。強(qiáng)大的自動(dòng)文本到圖像的生成系統(tǒng)可以成為快速、有效的內(nèi)容生產(chǎn)、制作工具，用于更多具有創(chuàng)造性的應(yīng)用當(dāng)中。

在CVPR 2021中，Google提出了一個(gè)跨模態(tài)對(duì)比生成對(duì)抗網(wǎng)絡(luò)（XMC-GAN），訓(xùn)練用于文本到圖像合成的 GAN 模型，通過模態(tài)間與模態(tài)內(nèi)的對(duì)比學(xué)習(xí)使圖像和文本之間的互信息最大化，解決文本到圖像生成的跨模態(tài)對(duì)比損失問題。

XMC-GAN 文本到圖像合成模型中的模態(tài)間和模態(tài)內(nèi)對(duì)比學(xué)習(xí)

XMC-GAN 被成功應(yīng)用于三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集：一個(gè)是MS-COCO 圖像描述集合，另外兩個(gè)是用Localized Narratives注釋的數(shù)據(jù)集，一個(gè)是包括MS-COCO 圖像（稱為LN-COCO），另一個(gè)描述開放圖像數(shù)據(jù) （LN-OpenImages）。結(jié)果顯示 XMC-GAN生成圖像所描繪的場(chǎng)景相比于使用其它技術(shù)生成的圖像質(zhì)量更高，在每個(gè)方面都達(dá)到了最先進(jìn)的水平。

MS-COCO對(duì)圖像質(zhì)量和文本對(duì)齊的人工評(píng)估

此外，XMC-GAN還在 LN-OpenImages 上進(jìn)行了一系列訓(xùn)練和評(píng)估，這相比于 MS-COCO 更具有挑戰(zhàn)性，由于數(shù)據(jù)集更大，圖像涵蓋主題范圍更加廣泛且復(fù)雜。

對(duì)于人類評(píng)估和定量指標(biāo)，XMC-GAN 在多個(gè)數(shù)據(jù)集模型中相較之前有顯著的改進(jìn)?？梢陨膳c輸入描述非常匹配的高質(zhì)量圖像，包括更長，更詳細(xì)的敘述，同時(shí)端到端模型的復(fù)雜度也相對(duì)較為簡單，這代表了從自然語言描述生成圖像的創(chuàng)造性應(yīng)用的重大進(jìn)步。

責(zé)任編輯：lq6

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1078

瀏覽量
40345
GaN

GaN

+關(guān)注

關(guān)注
19

文章
1895

瀏覽量
72306

原文標(biāo)題：XMC-GAN：從文本到圖像的跨模態(tài)對(duì)比學(xué)習(xí)

文章出處：【微信號(hào)：livevideostack，微信公眾號(hào)：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡單來說，多模態(tài)

發(fā)表于 10-18 09:39 ?134次閱讀

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項(xiàng)重要技術(shù)突破，成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息，還實(shí)現(xiàn)了對(duì)圖像內(nèi)容的精準(zhǔn)理解，標(biāo)志著Meta在AI多

發(fā)表于 09-27 11:44 ?304次閱讀

鴻蒙ArkTS聲明式開發(fā)：跨平臺(tái)支持列表【半模態(tài)轉(zhuǎn)場(chǎng)】模態(tài)轉(zhuǎn)場(chǎng)設(shè)置

通過bindSheet屬性為組件綁定半模態(tài)頁面，在組件插入時(shí)可通過設(shè)置自定義或默認(rèn)的內(nèi)置高度確定半模態(tài)大小。

發(fā)表于 06-12 21:09 ?758次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

文本生成、語言理解、圖像識(shí)別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互，同時(shí)多

發(fā)表于 04-18 17:01 ?534次閱讀

深度學(xué)習(xí)生成對(duì)抗網(wǎng)絡(luò)（GAN）全解析

GANs真正的能力來源于它們遵循的對(duì)抗訓(xùn)練模式。生成器的權(quán)重是基于判別器的損失所學(xué)習(xí)到的。因此，生成器被它生成的

發(fā)表于 03-29 14:42 ?4110次閱讀

NVIDIA Edify多模態(tài)架構(gòu)升級(jí)，引領(lǐng)視覺生成式AI新紀(jì)元

NVIDIA近日宣布，其用于視覺生成式AI的多模態(tài)架構(gòu)Edify迎來重大更新，為開發(fā)者和視覺內(nèi)容提供商帶來前所未有的新功能。其中，3D資產(chǎn)生成功能的引入，極大地提升了AI圖像

發(fā)表于 03-27 10:22 ?353次閱讀

Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身Stable Diffusion更快、更強(qiáng)大，而Stable Diffusion是許多其他文本到

發(fā)表于 02-19 16:03 ?827次閱讀

什么是多模態(tài)？多模態(tài)的難題是什么？

單模態(tài)大模型，通常大于100M～1B參數(shù)。具有較強(qiáng)的通用性，比如對(duì)圖片中任意物體進(jìn)行分割，或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。

發(fā)表于 01-17 10:03 ?4199次閱讀

自動(dòng)駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)行各種任務(wù)，包括圖像分類、將

發(fā)表于 12-28 11:45 ?458次閱讀

高級(jí)檢索增強(qiáng)生成技術(shù)(RAG)全面指南

ChatGPT、Midjourney等生成式人工智能（GenAI）在文本生成、文本到圖像生成等任

發(fā)表于 12-25 15:16 ?4515次閱讀

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢(shì)是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨

發(fā)表于 12-13 13:55 ?1527次閱讀

任意文本、視覺、音頻混合生成，多模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

CoDi ）模型，讓一種模型統(tǒng)一多種模態(tài)成為可能。CoDi 不僅支持從單模態(tài)到單模態(tài)的生成，還能接收多個(gè)條件輸入以及多

發(fā)表于 12-03 20:20 ?634次閱讀

馬里蘭&NYU合力解剖神經(jīng)網(wǎng)絡(luò)，CLIP模型神經(jīng)元形似骷髏頭

對(duì)于大多數(shù)圖像生成模型來說，會(huì)輸出正面的圖像。但是優(yōu)化算法，可以讓模型生成更多詭異、恐怖的圖像。就拿CLIP模型來說，可以衡量一段

發(fā)表于 11-23 17:29 ?539次閱讀

北大&華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)

發(fā)表于 11-08 16:20 ?684次閱讀

如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā)，利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的CLIP知識(shí)來幫助理解3D場(chǎng)景。

發(fā)表于 10-29 16:54 ?1253次閱讀