富二代抖音app黄版下载,高清不卡一区二区三区,制作腌茄子视频

曾幾何時，多模態(tài)預(yù)訓(xùn)練已經(jīng)不是一個新的話題，各大頂會諸多論文仿佛搭上Visual和BERT，就能成功paper+=1，VisualBERT、ViLBERT層出不窮，傻傻分不清楚。..。..這些年NLPer在跨界上忙活的不亦樂乎，提取視覺特征后和文本詞向量一同輸入到萬能的Transformer中，加大力度預(yù)訓(xùn)練，總有意想不到的SOTA。

如何在多模態(tài)的語境中更細(xì)致準(zhǔn)確地利用Transformer強大的表達能力呢？Facebook最新的 Transformer is All You Need 也許可以給你答案。

這篇貌似標(biāo)題黨的文章開宗明義，針對文本+視覺的多模態(tài)任務(wù)，用好Transformer就夠了，與許多前作不同，這次提出的模型一個模型可以解決多個任務(wù)：目標(biāo)檢測、自然語言理解、視覺問答，各個模型板塊各司其職、條理清晰：視覺編碼器、文本編碼器、特征融合解碼器，都是建立在多層Transformer之上，最后添加為每個任務(wù)設(shè)計的處理器，通過多任務(wù)訓(xùn)練，一舉刷新了多個任務(wù)的榜單。

文本編碼器用Transformer提取文本特征是個老生常談的問題，從BERT石破天驚開始，純文本領(lǐng)域近乎已被Transformer蠶食殆盡，所以該文也不能免俗，直接借用BERT的結(jié)構(gòu)提取文本內(nèi)容，區(qū)別在于，為了解決多個任務(wù)，在文本序列前添加了一個針對不同任務(wù)的參數(shù)向量，在最后輸出隱藏狀態(tài)到解碼器時再去掉。

視覺編碼器本文將Transformer強大的表達能力運用到視覺特征的提取中，由于圖片像素點數(shù)量巨大，首先通過基于卷積神經(jīng)網(wǎng)絡(luò)的ResNet-50提取卷積特征，極大程度上地降低了特征數(shù)量，最終得到的feature map大小為，然后用全聯(lián)接層調(diào)整單個特征的維度到，再利用多層Transformer中的注意力機制提取各個feature之間的關(guān)系，由于Transformer的輸入是序列，文章將拉成一條長為的序列，另外和文本編碼器類似，同樣添加了與下游任務(wù)相關(guān)的。

其中是調(diào)整維度的全聯(lián)接層，是多層Transformer編碼器。

模態(tài)融合解碼器多模態(tài)的關(guān)鍵之一就在于怎么同時利用多個模態(tài)，在本文中是通過Transformer的解碼器實現(xiàn)的，這個解碼器首先將任務(wù)相關(guān)的query做self-attention，再將結(jié)果與文本編碼器和視覺編碼器的結(jié)果做cross-attention，針對單一模態(tài)的任務(wù)，選取對應(yīng)編碼器的輸出即可，針對多模態(tài)的任務(wù)，取兩個編碼器輸出的拼接。

任務(wù)處理器（task-specific output head）之前多模態(tài)預(yù)訓(xùn)練模型往往只針對某一項任務(wù)，而本文提出的一個模型可以解決多個文本+視覺任務(wù)，與BERT可以解決多個文本任務(wù)類似，本文的模型在模態(tài)融合解碼器的結(jié)果上添加為每個任務(wù)設(shè)計的處理器，這個處理器相對簡單，用于從隱藏狀態(tài)中提取出與特定任務(wù)相匹配的特征。

目標(biāo)檢測：添加box_head和class_head兩個前饋神經(jīng)網(wǎng)絡(luò)從最后一層隱藏狀態(tài)中提取特征用來確定目標(biāo)位置和預(yù)測目標(biāo)類型。

自然語言理解、視覺問答：通過基于全聯(lián)接層的分類模型實現(xiàn)，將模態(tài)融合解碼器結(jié)果的第一位隱藏狀態(tài)輸入到兩層全聯(lián)接層并以GeLU作為激活函數(shù)，最后計算交叉熵?fù)p失。

實驗與總結(jié)本文提出的多模態(tài)預(yù)訓(xùn)練模型各個板塊劃分明確，通過多層Transformer分別提取特征，再利用解碼器機制融合特征并完成下游任務(wù)，同時借助最后一層任務(wù)相關(guān)的處理器，可以通過一個模型解決多個任務(wù)，同時也讓多任務(wù)預(yù)訓(xùn)練成為可能，并在實驗中的各個數(shù)據(jù)集上得到了論文主要進行了兩部分實驗：

多任務(wù)學(xué)習(xí)：

這里的多任務(wù)涉及目標(biāo)檢測和視覺問答兩個任務(wù)，在目標(biāo)檢測上運用COCO和VG兩個數(shù)據(jù)集，在視覺問答上運用VQAv2數(shù)據(jù)集。對比了單一任務(wù)和多任務(wù)同時訓(xùn)練的結(jié)果，同時對比了不同任務(wù)共用解碼器的結(jié)果。

從結(jié)果中我們可以看出，單純的使用多任務(wù)訓(xùn)練并不一定可以提高結(jié)果，不同任務(wù)間雖然相關(guān)但是卻不完全相同，這可能是任務(wù)本身差異或者數(shù)據(jù)集的特性所導(dǎo)致，第二行和第五行可以很明顯地看出COCO上的目標(biāo)檢測和VQAv2的視覺問答相結(jié)合后，結(jié)果有顯著的下降，然而VG上的目標(biāo)檢測卻能夠和視覺問答很好地結(jié)合，通過三個數(shù)據(jù)集上的共同訓(xùn)練，可以得到最高的結(jié)果。

多模態(tài)學(xué)習(xí)：

這一實驗中，為了體現(xiàn)所提出模型能夠有效解決多個多種模態(tài)的不同任務(wù)，論文作者在之前COCO、VG、VQAv2的基礎(chǔ)上，增加了單一文本任務(wù)GLUE的幾個數(shù)據(jù)集（QNLI、QQP、MNLI、SST-2）和視覺推斷數(shù)據(jù)集SNLI-VE，從數(shù)據(jù)集的數(shù)量上可以看出本文模型的全能性。與本文對比的有純文本的BERT、基于Transformer的視覺模型DETR、多模態(tài)預(yù)訓(xùn)練模型VisualBERT。

仔細(xì)看各個數(shù)據(jù)集上的結(jié)果，不難看出本文提出的模型其實并不能在所有數(shù)據(jù)集多上刷出SOTA，比如COCO上遜色于DETR，SNLI-VE遜色于VisualBERT，SST-2遜色于BERT，其他數(shù)據(jù)集上都有一定的提高，但是模型卻勝在一個“全”字，模型的結(jié)構(gòu)十分清晰明了，各個板塊的作用十分明確，同時針對不同任務(wù)的處理器也對后續(xù)多模態(tài)任務(wù)富有啟發(fā)性。

原文標(biāo)題：【Transformer】沒有什么多模態(tài)任務(wù)是一層Transformer解決不了的！

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
44

文章
3552

瀏覽量
133792
Transforme

Transforme

+關(guān)注

關(guān)注
0

文章
12

瀏覽量
8770
多模

多模

+關(guān)注

關(guān)注
1

文章
27

瀏覽量
10834

原文標(biāo)題：【Transformer】沒有什么多模態(tài)任務(wù)是一層Transformer解決不了的！

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

未來AI大模型的發(fā)展趨勢

上得到了顯著提升。未來，算法和架構(gòu)的進一步優(yōu)化將推動AI大模型在性能上實現(xiàn)新的突破。多頭自注意力機制、前饋神經(jīng)網(wǎng)絡(luò)等關(guān)鍵技術(shù)的改進，將增強模型的表達能力和泛化能力。多模態(tài)融合：

發(fā)表于 10-23 15:06 ?141次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說，多模態(tài)

發(fā)表于 10-18 09:39 ?143次閱讀

云知聲山海多模態(tài)大模型UniGPT-mMed登頂MMMU測評榜首

近日，多模態(tài)人工智能模型基準(zhǔn)評測集MMMU更新榜單，云知聲山海多模態(tài)大模型UniGPT-mMed以通用能力、醫(yī)療專業(yè)

發(fā)表于 10-12 14:09 ?171次閱讀

阿里云通義大模型助力“小愛同學(xué)”強化多模態(tài)AI生成能力

小米的人工智能助手“小愛同學(xué)”近期與阿里云通義大模型達成戰(zhàn)略合作，共同提升其多模態(tài)AI生成能力，特別是在圖片生成與理解方面。這次合作不僅將強化“小愛同學(xué)”的功能，還將在小米的多個產(chǎn)品線，包括小米汽車和手機等設(shè)備上得到實際應(yīng)用。

發(fā)表于 05-13 09:19 ?660次閱讀

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對標(biāo)GPT-4 Turbo

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對標(biāo)GPT-4 Turbo 4月23日，商湯科技董事長兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布了行業(yè)首個云、端、邊全棧大模型產(chǎn)品矩陣，能夠滿足不同規(guī)模

發(fā)表于 04-24 16:49 ?1016次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

李未可科技多模態(tài) AI 大模型正式發(fā)布，積極推進 AI 在終端的場景應(yīng)用 ? 4月18日，2024中國生成式AI大會上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI多

發(fā)表于 04-18 17:01 ?536次閱讀

基于Transformer的多模態(tài)BEV融合方案

由于大量的相機和激光雷達特征以及注意力的二次性質(zhì)，將 Transformer 架構(gòu)簡單地應(yīng)用于相機-激光雷達融合問題是很困難的。

發(fā)表于 01-23 11:39 ?641次閱讀

自動駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對齊使它們能夠更高效地執(zhí)行各種任務(wù)，包括圖像分類、將文本與相應(yīng)的視頻

發(fā)表于 12-28 11:45 ?459次閱讀

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

前段時間Google推出Gemini多模態(tài)大模型，展示了不凡的對話能力和多模態(tài)能力，其表現(xiàn)究竟如

發(fā)表于 12-28 11:19 ?1104次閱讀

成都匯陽投資關(guān)于多模態(tài)驅(qū)動應(yīng)用前景廣闊，上游算力迎機會!

【Gemini 大模型主打多模態(tài)，性能對標(biāo) GPT-4】當(dāng)?shù)貢r間12月6日，谷歌公司宣布推出其規(guī)模最大、功能最強的多模態(tài)大模型 Gemini, 其最

發(fā)表于 12-18 13:08 ?422次閱讀

人工智能領(lǐng)域多模態(tài)的概念和應(yīng)用場景

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)成為了一個備受關(guān)注的研究方向。多模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進行融合，以實現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹

發(fā)表于 12-15 14:28 ?8100次閱讀

大模型+多模態(tài)的3種實現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更

發(fā)表于 12-13 13:55 ?1530次閱讀

任意文本、視覺、音頻混合生成，多模態(tài)有了強大的基礎(chǔ)引擎CoDi-2

研究者表示，CoDi-2 標(biāo)志著在開發(fā)全面的多模態(tài)基礎(chǔ)模型領(lǐng)域取得了重大突破。今年 5 月，北卡羅來納大學(xué)教堂山分校、微軟提出一種可組合擴散（Composable Diffusion，簡稱

發(fā)表于 12-03 20:20 ?639次閱讀

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單模態(tài)模型編輯入手，將單模態(tài)

發(fā)表于 11-09 14:53 ?444次閱讀

北大&華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

深度學(xué)習(xí)的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個明顯缺點

發(fā)表于 11-08 16:20 ?698次閱讀