91视频精选,东京AV无卡热毛片

很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用！

https://arxiv.org/abs/2305.08381

這是我們第一篇拓展至多模態(tài)領(lǐng)域的高效微調(diào)的工作，在該工作中我們首次采用模式逼近（mode apprximation）的方法來進(jìn)行大模型的輕量化高效微調(diào)，僅需訓(xùn)練預(yù)訓(xùn)練大模型0.04%的參數(shù)。同時(shí)我們?cè)O(shè)計(jì)了兩個(gè)啟發(fā)性模塊來增強(qiáng)高效微調(diào)時(shí)極低參數(shù)條件下的模態(tài)對(duì)齊。實(shí)驗(yàn)上，我們?cè)诹罂缒B(tài)基準(zhǔn)測(cè)試集上進(jìn)行全面評(píng)估顯示,我們的方法不僅超越當(dāng)前的sota, 還在一些任務(wù)上優(yōu)于全量微調(diào)方法。

論文的相關(guān)代碼也會(huì)開源在這個(gè)GitHub項(xiàng)目：

github.com/WillDreamer/Aurora

大模型的高效微調(diào)是一個(gè)非常新且日漸繁榮的task，歡迎小伙伴們一起學(xué)習(xí)交流～

一、背景

深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)。第一,它帶來巨大的計(jì)算和物理存儲(chǔ)成本,使預(yù)訓(xùn)練和遷移變得非常昂貴。第二,微調(diào)限制了預(yù)訓(xùn)練知識(shí)在小規(guī)模數(shù)據(jù)量的下游任務(wù)中的應(yīng)用效果。這兩點(diǎn)阻礙了大模型從特定數(shù)據(jù)集擴(kuò)展到更廣泛場(chǎng)景。

為緩解預(yù)訓(xùn)練大模型的高昂成本,一系列參數(shù)高效微調(diào)方法相繼提出。其通用范式是凍結(jié)大模型的骨干網(wǎng)絡(luò),并引入少量額外參數(shù)。最近,一些工作開始關(guān)注多模態(tài)領(lǐng)域的高效微調(diào)任務(wù),例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語言處理領(lǐng)域的現(xiàn)有架構(gòu)用于多模態(tài)模型并組合使用,然后直接在單模態(tài)和多模態(tài)分支的骨干網(wǎng)絡(luò)中插入可訓(xùn)練參數(shù)以獲得良好表現(xiàn)。直接、簡(jiǎn)單的設(shè)計(jì)無法將參數(shù)高效遷移的精髓融入多模態(tài)模型。此外，還有兩個(gè)主要挑戰(zhàn)需要面對(duì): （1）如何在極輕量級(jí)高效微調(diào)框架下進(jìn)行知識(shí)遷移;（2）在極低參數(shù)環(huán)境下如何提高各模態(tài)間的對(duì)齊程度。

圖1:與現(xiàn)有主流的高效微調(diào)方法的對(duì)比

在這篇文章中，我們嘗試解決這兩種挑戰(zhàn)，貢獻(xiàn)可以總結(jié)為：

介紹了名為Aurora的多模態(tài)基礎(chǔ)大模型高效微調(diào)框架，它解決了當(dāng)前大規(guī)模預(yù)訓(xùn)練和微調(diào)策略的局限性。

提出了模式近似（mode approximation）方法來生成輕量級(jí)可學(xué)習(xí)參數(shù)，并提出了兩個(gè)啟發(fā)性模塊來更好地增強(qiáng)模態(tài)融合。

通過六個(gè)跨模態(tài)任務(wù)和兩個(gè)零樣本任務(wù)進(jìn)行實(shí)驗(yàn)驗(yàn)證，結(jié)果顯示Aurora相比其他方法取得了最先進(jìn)的性能，同時(shí)也只使用最少的可學(xué)習(xí)參數(shù)。

二、高效微調(diào)的輕量化架構(gòu)的設(shè)計(jì)

Aurora的整體過程示意圖。

三、高效微調(diào)的模態(tài)對(duì)齊的設(shè)計(jì)

3.1 Informative Context Enhancement

該模塊的目標(biāo)是為了實(shí)現(xiàn)更好的模態(tài)對(duì)齊，在交叉注意力模塊后的融合特征中提供提示文本來更好的激活。受“上下文學(xué)習(xí)”這一領(lǐng)域的進(jìn)步啟發(fā),我們意識(shí)到為提示詞提供示范模板是很重要的。最直觀的方法是對(duì)圖像與文本對(duì)進(jìn)行對(duì)齊,以獲得更多跨模態(tài)上下文信息。但是,即使與相關(guān)圖像區(qū)域匹配,描述這些區(qū)域的文本可能還是有多個(gè)選擇。一些文本可能準(zhǔn)確概括圖像內(nèi)容,而另一些可能不行。在沒有事先匹配文本信息的先驗(yàn)情況下,我們決定引入上下文增強(qiáng)模塊來涵蓋各個(gè)方面的可能的文本信息。

四、實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集與基準(zhǔn)比較。我們?cè)诹鶄€(gè)跨模態(tài)任務(wù)領(lǐng)域的benchmark上評(píng)估了Aurora,這些任務(wù)包括圖片文本檢索、問答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類方法進(jìn)行比較:完全微調(diào)后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細(xì)節(jié)請(qǐng)參閱附錄。

實(shí)現(xiàn)細(xì)節(jié)。我們的實(shí)現(xiàn)基于Salesforce開源代碼庫。與UniAdapter一致,我們使用BLIP-base作為所有多模態(tài)下游任務(wù)的視覺語言初始化權(quán)重。我們使用PyTorch在8臺(tái)NVIDIA V100 GPU(32G)設(shè)備上實(shí)現(xiàn)所有實(shí)驗(yàn)。我們使用AdamW優(yōu)化器,設(shè)置權(quán)重衰減為0.05,學(xué)習(xí)率通過網(wǎng)格搜索得到為1e-4。需要注意的是,在微調(diào)過程中,參數(shù)組只更新交叉注意模塊的權(quán)重, backbone初始化權(quán)重不更新。

4.2 實(shí)驗(yàn)結(jié)果

Image-Text Retrieval

Video-Text Retrieval

VQA

實(shí)驗(yàn)氣泡圖

4.3 消融實(shí)驗(yàn)

How Rank of CP Decomposition Affects Aurora?

How Does Aurora Benefit from Informative Context Enhancement

How Does Aurora Benefit from Gated Query Transformation?

How Does Aurora Benefit from Parameter Sharing?

4.4 可視化分析

參數(shù)分布可視化

Video-Text retrieval cases on MSRVTT

Video Question Answering cases on MSRVTT-QA

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

框架

框架

+關(guān)注

關(guān)注
0

文章
397

瀏覽量
17358
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5431

瀏覽量
120787
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2206

瀏覽量
2227

原文標(biāo)題：NeurIPS 2023 | 北大&華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AMP01 SPICE宏模型

AMP01 SPICE宏模型

發(fā)表于 04-14 08:52 ?0次下載

<b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

AMP02 SPICE宏模型

AMP02 SPICE宏模型

發(fā)表于 04-14 08:55 ?0次下載

<b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

AMP01 SPICE宏模型

AMP01 SPICE宏模型

發(fā)表于 06-17 15:53 ?0次下載

AMP02 SPICE宏模型

AMP02 SPICE宏模型

發(fā)表于 06-17 15:55 ?2次下載

如何區(qū)分Java中的&amp;和&amp;&amp;

首先給i賦值為0，如果i大于10，并且i++等于1，則輸出“錯(cuò)誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運(yùn)行，觀察運(yùn)行結(jié)果的不同。

發(fā)表于 02-24 10:46 ?1448次閱讀

如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

單張消費(fèi)級(jí)顯卡微調(diào)多模態(tài)大模型

把大模型的訓(xùn)練門檻打下來！我們?cè)趩螐埾M(fèi)級(jí)顯卡上實(shí)現(xiàn)了多模態(tài)大模型（LaVIN-7B, LaVIN-13B）的適配和訓(xùn)練

發(fā)表于 06-30 10:43 ?2103次閱讀

單張消費(fèi)級(jí)顯卡<b class='flag-5'>微調(diào)</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

VisCPM：邁向多語言多模態(tài)大模型時(shí)代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型

發(fā)表于 07-10 10:05 ?664次閱讀

VisCPM：邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

當(dāng)前學(xué)界和工業(yè)界都對(duì)多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言模型

發(fā)表于 07-16 20:45 ?656次閱讀

中科大&amp;amp;字節(jié)提出UniDoc：統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

如上圖所示，UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型，將文字的檢測(cè)、識(shí)別、spotting(圖中未畫出)、多模態(tài)理解等四個(gè)任務(wù)，通過多模態(tài)

發(fā)表于 08-31 15:29 ?1384次閱讀

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單

發(fā)表于 11-09 14:53 ?443次閱讀

用語言對(duì)齊多模態(tài)信息，北大騰訊等提出LanguageBind，刷新多個(gè)榜單

目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺和語言模態(tài)，而現(xiàn)實(shí)世界中的應(yīng)用場(chǎng)景往往包含更多的模態(tài)信息，如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息，并且能夠在多個(gè)模態(tài)之間建立準(zhǔn)確的語義

發(fā)表于 11-23 15:46 ?609次閱讀

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢(shì)是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大

發(fā)表于 12-13 13:55 ?1528次閱讀

自動(dòng)駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)

發(fā)表于 12-28 11:45 ?458次閱讀

基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)多模態(tài)大模型

今年4月份，面壁智能&amp;清華大學(xué)自然語言處理實(shí)驗(yàn)室推出MiniCPM系列的最新多模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建

發(fā)表于 07-15 09:34 ?620次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來說，多

發(fā)表于 10-18 09:39 ?135次閱讀