文章:https://lnkd.in/gcwEeKE3
Python 代碼:https://lnkd.in/ggEK6KwU
盡管指令調(diào)整的大型語言模型 (LLM) 在各種 NLP 任務(wù)中表現(xiàn)出卓越的能力,但它們?cè)谖谋疽酝獾钠渌麛?shù)據(jù)模式上的有效性尚未得到充分研究。在這項(xiàng)工作中,我們提出了 Macaw-LLM,一種新穎的多模式 LLM,它無縫集成了視覺、音頻和文本信息。
Macaw-LLM 由三個(gè)主要組件組成:用于編碼多模態(tài)數(shù)據(jù)的模態(tài)模塊、用于利用預(yù)訓(xùn)練 LLM 的認(rèn)知模塊以及用于協(xié)調(diào)不同表示的對(duì)齊模塊。
我們新穎的對(duì)齊模塊將多模態(tài)特征無縫地連接到文本特征,簡化了從模態(tài)模塊到認(rèn)知模塊的適應(yīng)過程。
此外,我們?cè)诙噍唽?duì)話方面構(gòu)建了一個(gè)大規(guī)模的多模態(tài)指令數(shù)據(jù)集,包括 69K 圖像實(shí)例和 50K 視頻實(shí)例。我們已經(jīng)公開了我們的數(shù)據(jù)、代碼和模型,我們希望這可以為多模態(tài) LLM 的未來研究鋪平道路,并擴(kuò)展 LLM 處理不同數(shù)據(jù)模態(tài)和解決復(fù)雜現(xiàn)實(shí)場景的能力。
-
模塊
+關(guān)注
關(guān)注
7文章
2626瀏覽量
47211 -
語言建模
+關(guān)注
關(guān)注
0文章
5瀏覽量
6259 -
語言模型
+關(guān)注
關(guān)注
0文章
490瀏覽量
10225 -
LLM
+關(guān)注
關(guān)注
0文章
252瀏覽量
285
原文標(biāo)題:Macaw-LLM:具有圖像、音頻、視頻和文本集成的多模態(tài)語言建模
文章出處:【微信號(hào):計(jì)算機(jī)視覺芯片設(shè)計(jì),微信公眾號(hào):計(jì)算機(jī)視覺芯片設(shè)計(jì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論