0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

CVer ? 來源:CVer ? 2023-11-08 16:20 ? 次閱讀

很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用!

0a78a91c-7d2c-11ee-939d-92fbcf53809c.png

https://arxiv.org/abs/2305.08381

這是我們第一篇拓展至多模態(tài)領(lǐng)域的高效微調(diào)的工作,在該工作中我們首次采用模式逼近(mode apprximation)的方法來進(jìn)行大模型的輕量化高效微調(diào),僅需訓(xùn)練預(yù)訓(xùn)練大模型0.04%的參數(shù)。同時(shí)我們?cè)O(shè)計(jì)了兩個(gè)啟發(fā)性模塊來增強(qiáng)高效微調(diào)時(shí)極低參數(shù)條件下的模態(tài)對(duì)齊。實(shí)驗(yàn)上,我們?cè)诹罂缒B(tài)基準(zhǔn)測(cè)試集上進(jìn)行全面評(píng)估顯示,我們的方法不僅超越當(dāng)前的sota, 還在一些任務(wù)上優(yōu)于全量微調(diào)方法。

論文的相關(guān)代碼也會(huì)開源在這個(gè)GitHub項(xiàng)目:

github.com/WillDreamer/Aurora

大模型的高效微調(diào)是一個(gè)非常新且日漸繁榮的task,歡迎小伙伴們一起學(xué)習(xí)交流~

一、背景

深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)。第一,它帶來巨大的計(jì)算和物理存儲(chǔ)成本,使預(yù)訓(xùn)練和遷移變得非常昂貴。第二,微調(diào)限制了預(yù)訓(xùn)練知識(shí)在小規(guī)模數(shù)據(jù)量的下游任務(wù)中的應(yīng)用效果。這兩點(diǎn)阻礙了大模型從特定數(shù)據(jù)集擴(kuò)展到更廣泛場(chǎng)景。

為緩解預(yù)訓(xùn)練大模型的高昂成本,一系列參數(shù)高效微調(diào)方法相繼提出。其通用范式是凍結(jié)大模型的骨干網(wǎng)絡(luò),并引入少量額外參數(shù)。最近,一些工作開始關(guān)注多模態(tài)領(lǐng)域的高效微調(diào)任務(wù),例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語言處理領(lǐng)域的現(xiàn)有架構(gòu)用于多模態(tài)模型并組合使用,然后直接在單模態(tài)和多模態(tài)分支的骨干網(wǎng)絡(luò)中插入可訓(xùn)練參數(shù)以獲得良好表現(xiàn)。直接、簡(jiǎn)單的設(shè)計(jì)無法將參數(shù)高效遷移的精髓融入多模態(tài)模型。此外,還有兩個(gè)主要挑戰(zhàn)需要面對(duì): (1)如何在極輕量級(jí)高效微調(diào)框架下進(jìn)行知識(shí)遷移;(2)在極低參數(shù)環(huán)境下如何提高各模態(tài)間的對(duì)齊程度。

0a83d436-7d2c-11ee-939d-92fbcf53809c.jpg

圖1:與現(xiàn)有主流的高效微調(diào)方法的對(duì)比

在這篇文章中,我們嘗試解決這兩種挑戰(zhàn),貢獻(xiàn)可以總結(jié)為:

介紹了名為Aurora的多模態(tài)基礎(chǔ)大模型高效微調(diào)框架,它解決了當(dāng)前大規(guī)模預(yù)訓(xùn)練和微調(diào)策略的局限性。

提出了模式近似(mode approximation)方法來生成輕量級(jí)可學(xué)習(xí)參數(shù),并提出了兩個(gè)啟發(fā)性模塊來更好地增強(qiáng)模態(tài)融合。

通過六個(gè)跨模態(tài)任務(wù)和兩個(gè)零樣本任務(wù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示Aurora相比其他方法取得了最先進(jìn)的性能,同時(shí)也只使用最少的可學(xué)習(xí)參數(shù)。

二、高效微調(diào)的輕量化架構(gòu)的設(shè)計(jì)

0a9c301c-7d2c-11ee-939d-92fbcf53809c.png

0aa7d0e8-7d2c-11ee-939d-92fbcf53809c.jpg

Aurora的整體過程示意圖。

三、高效微調(diào)的模態(tài)對(duì)齊的設(shè)計(jì)

3.1 Informative Context Enhancement

該模塊的目標(biāo)是為了實(shí)現(xiàn)更好的模態(tài)對(duì)齊,在交叉注意力模塊后的融合特征中提供提示文本來更好的激活。受“上下文學(xué)習(xí)”這一領(lǐng)域的進(jìn)步啟發(fā),我們意識(shí)到為提示詞提供示范模板是很重要的。最直觀的方法是對(duì)圖像與文本對(duì)進(jìn)行對(duì)齊,以獲得更多跨模態(tài)上下文信息。但是,即使與相關(guān)圖像區(qū)域匹配,描述這些區(qū)域的文本可能還是有多個(gè)選擇。一些文本可能準(zhǔn)確概括圖像內(nèi)容,而另一些可能不行。在沒有事先匹配文本信息的先驗(yàn)情況下,我們決定引入上下文增強(qiáng)模塊來涵蓋各個(gè)方面的可能的文本信息。

0ab5ae84-7d2c-11ee-939d-92fbcf53809c.png

四、實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集與基準(zhǔn)比較。我們?cè)诹鶄€(gè)跨模態(tài)任務(wù)領(lǐng)域的benchmark上評(píng)估了Aurora,這些任務(wù)包括圖片文本檢索、問答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類方法進(jìn)行比較:完全微調(diào)后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細(xì)節(jié)請(qǐng)參閱附錄。

實(shí)現(xiàn)細(xì)節(jié)。我們的實(shí)現(xiàn)基于Salesforce開源代碼庫。與UniAdapter一致,我們使用BLIP-base作為所有多模態(tài)下游任務(wù)的視覺語言初始化權(quán)重。我們使用PyTorch在8臺(tái)NVIDIA V100 GPU(32G)設(shè)備上實(shí)現(xiàn)所有實(shí)驗(yàn)。我們使用AdamW優(yōu)化器,設(shè)置權(quán)重衰減為0.05,學(xué)習(xí)率通過網(wǎng)格搜索得到為1e-4。需要注意的是,在微調(diào)過程中,參數(shù)組只更新交叉注意模塊的權(quán)重, backbone初始化權(quán)重不更新。

4.2 實(shí)驗(yàn)結(jié)果

0ac0ab9a-7d2c-11ee-939d-92fbcf53809c.jpg

Image-Text Retrieval

0acbc44e-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text Retrieval

0ae334da-7d2c-11ee-939d-92fbcf53809c.jpg

VQA

0aee2c1e-7d2c-11ee-939d-92fbcf53809c.jpg

實(shí)驗(yàn)氣泡圖

4.3 消融實(shí)驗(yàn)

0b151b8a-7d2c-11ee-939d-92fbcf53809c.jpg

How Rank of CP Decomposition Affects Aurora?

0b2deebc-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Informative Context Enhancement

0b4231f6-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Gated Query Transformation?

0b467522-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Parameter Sharing?

4.4 可視化分析

0b59e8a0-7d2c-11ee-939d-92fbcf53809c.jpg

參數(shù)分布可視化

0b694610-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text retrieval cases on MSRVTT

0b74c512-7d2c-11ee-939d-92fbcf53809c.jpg

Video Question Answering cases on MSRVTT-QA

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    397

    瀏覽量

    17358
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5431

    瀏覽量

    120787
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2206

    瀏覽量

    2227

原文標(biāo)題:NeurIPS 2023 | 北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    如何區(qū)分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值為0,如果i大于10,并且i++等于1,則輸出“錯(cuò)誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運(yùn)行,觀察運(yùn)行結(jié)果的不同。
    的頭像 發(fā)表于 02-24 10:46 ?1448次閱讀
    如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    單張消費(fèi)級(jí)顯卡微調(diào)模態(tài)模型

    把大模型的訓(xùn)練門檻打下來!我們?cè)趩螐埾M(fèi)級(jí)顯卡上實(shí)現(xiàn)了模態(tài)模型(LaVIN-7B, LaVIN-13B)的適配和訓(xùn)練
    的頭像 發(fā)表于 06-30 10:43 ?2103次閱讀
    單張消費(fèi)級(jí)顯卡<b class='flag-5'>微調(diào)</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    VisCPM:邁向多語言模態(tài)模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?664次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對(duì)模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言模型
    的頭像 發(fā)表于 07-16 20:45 ?656次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    中科大&amp;amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的模態(tài)模型

    如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫出)、模態(tài)理解等四個(gè)任務(wù),通過多模態(tài)
    的頭像 發(fā)表于 08-31 15:29 ?1384次閱讀
    中科大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字節(jié)<b class='flag-5'>提出</b>UniDoc:統(tǒng)一的面向文字場(chǎng)景的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    探究編輯模態(tài)大語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單
    發(fā)表于 11-09 14:53 ?443次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>的可行性

    用語言對(duì)齊模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單

    目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺和語言模態(tài),而現(xiàn)實(shí)世界中的應(yīng)用場(chǎng)景往往包含更多的模態(tài)信息,如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息,并且能夠在多個(gè)模態(tài)之間建立準(zhǔn)確的語義
    的頭像 發(fā)表于 11-23 15:46 ?609次閱讀
    用語言對(duì)齊<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息,<b class='flag-5'>北大</b>騰訊等<b class='flag-5'>提出</b>LanguageBind,刷新多個(gè)榜單

    模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大
    的頭像 發(fā)表于 12-13 13:55 ?1528次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    自動(dòng)駕駛和模態(tài)大語言模型的發(fā)展歷程

    模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合,通過多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)
    發(fā)表于 12-28 11:45 ?458次閱讀
    自動(dòng)駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>的發(fā)展歷程

    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)模態(tài)模型

    今年4月份,面壁智能&amp;清華大學(xué)自然語言處理實(shí)驗(yàn)室推出MiniCPM系列的最新模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建
    的頭像 發(fā)表于 07-15 09:34 ?620次閱讀
    基于AX650N芯片部署MiniCPM-V 2.0<b class='flag-5'>高效</b>端側(cè)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來說,
    的頭像 發(fā)表于 10-18 09:39 ?135次閱讀