0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Macaw-LLM:具有圖像、音頻、視頻和文本集成的多模態(tài)語言建模

Qxwdz168 ? 來源:計(jì)算機(jī)視覺芯片設(shè)計(jì) ? 2023-06-19 10:35 ? 次閱讀

文章:https://lnkd.in/gcwEeKE3

Python 代碼:https://lnkd.in/ggEK6KwU

9d1cc180-0df2-11ee-962d-dac502259ad0.jpg

盡管指令調(diào)整的大型語言模型 (LLM) 在各種 NLP 任務(wù)中表現(xiàn)出卓越的能力,但它們?cè)谖谋疽酝獾钠渌麛?shù)據(jù)模式上的有效性尚未得到充分研究。在這項(xiàng)工作中,我們提出了 Macaw-LLM,一種新穎的多模式 LLM,它無縫集成了視覺、音頻和文本信息

Macaw-LLM 由三個(gè)主要組件組成:用于編碼多模態(tài)數(shù)據(jù)的模態(tài)模塊、用于利用預(yù)訓(xùn)練 LLM 的認(rèn)知模塊以及用于協(xié)調(diào)不同表示的對(duì)齊模塊。

我們新穎的對(duì)齊模塊將多模態(tài)特征無縫地連接到文本特征,簡化了從模態(tài)模塊到認(rèn)知模塊的適應(yīng)過程。

此外,我們?cè)诙噍唽?duì)話方面構(gòu)建了一個(gè)大規(guī)模的多模態(tài)指令數(shù)據(jù)集,包括 69K 圖像實(shí)例和 50K 視頻實(shí)例。我們已經(jīng)公開了我們的數(shù)據(jù)、代碼和模型,我們希望這可以為多模態(tài) LLM 的未來研究鋪平道路,并擴(kuò)展 LLM 處理不同數(shù)據(jù)模態(tài)和解決復(fù)雜現(xiàn)實(shí)場景的能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模塊
    +關(guān)注

    關(guān)注

    7

    文章

    2626

    瀏覽量

    47211
  • 語言建模
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6259
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    490

    瀏覽量

    10225
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    252

    瀏覽量

    285

原文標(biāo)題:Macaw-LLM:具有圖像、音頻、視頻和文本集成的多模態(tài)語言建模

文章出處:【微信號(hào):計(jì)算機(jī)視覺芯片設(shè)計(jì),微信公眾號(hào):計(jì)算機(jī)視覺芯片設(shè)計(jì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    自然語言處理的圖像文本建模相關(guān)研究及分析

    近年來,圖像文本建模研究已經(jīng)成為自然語言處理領(lǐng)域一個(gè)重要的硏究方向。圖像常被用于增強(qiáng)句子的語義理解與表示。然而也有硏究人員對(duì)
    發(fā)表于 03-24 11:33 ?27次下載
    自然<b class='flag-5'>語言</b>處理的<b class='flag-5'>圖像</b><b class='flag-5'>文本</b><b class='flag-5'>建模</b>相關(guān)研究及分析

    簡述文本圖像領(lǐng)域的模態(tài)學(xué)習(xí)有關(guān)問題

    模型中的幾個(gè)分支角度,簡述文本圖像領(lǐng)域的模態(tài)學(xué)習(xí)有關(guān)問題。 1. 引言 近年來,計(jì)算機(jī)視覺和自然語言處理方向均取得了很大進(jìn)展。而融合二者
    的頭像 發(fā)表于 08-26 16:29 ?6702次閱讀

    復(fù)旦&amp;微軟提出?OmniVL:首個(gè)統(tǒng)一圖像視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

    根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同,現(xiàn)有的VLP方法可以大致分為兩類:圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練。前者從圖像-
    的頭像 發(fā)表于 12-14 15:26 ?835次閱讀

    微軟模態(tài)ChatGPT的常見測試介紹

    研究者將一個(gè)基于 Transformer 的語言模型作為通用接口,并將其與感知模塊對(duì)接。他們?cè)诰W(wǎng)頁規(guī)模的模態(tài)語料庫上訓(xùn)練模型,語料庫包括了文本數(shù)據(jù)、任意交錯(cuò)的
    發(fā)表于 03-13 11:23 ?783次閱讀

    ImageBind:跨模態(tài)之王,將6種模態(tài)全部綁定!

    最近,很多方法學(xué)習(xí)與文本、音頻等對(duì)齊的圖像特征。這些方法使用單對(duì)模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的
    的頭像 發(fā)表于 05-11 09:30 ?945次閱讀
    ImageBind:跨<b class='flag-5'>模態(tài)</b>之王,將6種<b class='flag-5'>模態(tài)</b>全部綁定!

    如何利用LLM模態(tài)任務(wù)?

    大型語言模型LLM(Large Language Model)具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發(fā)表于 05-11 17:09 ?832次閱讀
    如何利用<b class='flag-5'>LLM</b>做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>任務(wù)?

    邱錫鵬團(tuán)隊(duì)提出SpeechGPT:具有內(nèi)生跨模態(tài)能力的大語言模型

    雖然現(xiàn)有的級(jí)聯(lián)方法或口語語言模型能夠感知和生成語音,但仍存在一些限制。首先,在級(jí)聯(lián)模型中,LLM 僅充當(dāng)內(nèi)容生成器。由于語音和文本的表示沒有對(duì)齊,LLM 的知識(shí)無法遷移到語音
    的頭像 發(fā)表于 05-22 10:19 ?599次閱讀
    邱錫鵬團(tuán)隊(duì)提出SpeechGPT:<b class='flag-5'>具有</b>內(nèi)生跨<b class='flag-5'>模態(tài)</b>能力的大<b class='flag-5'>語言</b>模型

    邱錫鵬團(tuán)隊(duì)提出具有內(nèi)生跨模態(tài)能力的SpeechGPT,為模態(tài)LLM指明方向

    大型語言模型(LLM)在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時(shí),模態(tài)大型語言模型,如
    的頭像 發(fā)表于 05-22 14:38 ?604次閱讀
    邱錫鵬團(tuán)隊(duì)提出<b class='flag-5'>具有</b>內(nèi)生跨<b class='flag-5'>模態(tài)</b>能力的SpeechGPT,為<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>LLM</b>指明方向

    基于實(shí)體和動(dòng)作時(shí)空建模視頻文本預(yù)訓(xùn)練

    摘要 盡管常見的大規(guī)模視頻-文本預(yù)訓(xùn)練模型已經(jīng)在很多下游任務(wù)取得不錯(cuò)的效果,現(xiàn)有的模型通常將視頻或者文本視為一個(gè)整體建模
    的頭像 發(fā)表于 05-25 11:29 ?697次閱讀
    基于實(shí)體和動(dòng)作時(shí)空<b class='flag-5'>建模</b>的<b class='flag-5'>視頻</b><b class='flag-5'>文本</b>預(yù)訓(xùn)練

    圖像對(duì)齊所有模態(tài),Meta開源感官AI基礎(chǔ)模型,實(shí)現(xiàn)大一統(tǒng)

    最近,很多方法學(xué)習(xí)與文本、音頻等對(duì)齊的圖像特征。這些方法使用單對(duì)模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的
    的頭像 發(fā)表于 05-26 15:45 ?800次閱讀
    用<b class='flag-5'>圖像</b>對(duì)齊所有<b class='flag-5'>模態(tài)</b>,Meta開源<b class='flag-5'>多</b>感官AI基礎(chǔ)模型,實(shí)現(xiàn)大一統(tǒng)

    VisCPM:邁向多語言模態(tài)大模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn)。總體而言,面向
    的頭像 發(fā)表于 07-10 10:05 ?664次閱讀
    VisCPM:邁向多<b class='flag-5'>語言</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時(shí)代

    大模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練
    的頭像 發(fā)表于 12-13 13:55 ?1528次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    自動(dòng)駕駛和模態(tài)語言模型的發(fā)展歷程

    模態(tài)語言模型(MLLM) 最近引起了廣泛的關(guān)注,其將 LLM 的推理能力與圖像、視頻
    發(fā)表于 12-28 11:45 ?458次閱讀
    自動(dòng)駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b>模型的發(fā)展歷程

    韓國Kakao宣布開發(fā)模態(tài)語言模型“蜜蜂”

    韓國互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的模態(tài)大型語言模型。這種創(chuàng)新模型能夠同時(shí)理解和處理圖像和文本數(shù)據(jù)
    的頭像 發(fā)表于 01-19 16:11 ?588次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像音頻視頻等)進(jìn)行融合,通過學(xué)習(xí)不同
    的頭像 發(fā)表于 10-18 09:39 ?134次閱讀