久久久久99精品成人片三人毛片,色在线无码

論文：Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

地址：https://arxiv.org/pdf/2209.03430.pdf

多模態(tài)機(jī)器學(xué)習(xí)是一個(gè)充滿活力的多學(xué)科研究領(lǐng)域，旨在通過整合多種交流模態(tài)，包括語(yǔ)言、聲學(xué)、視覺、觸覺和生理信息，設(shè)計(jì)具有理解、推理和學(xué)習(xí)等智能能力的計(jì)算機(jī)智能體。隨著最近人們對(duì)視頻理解、具身化自主智能體、文本到圖像生成以及醫(yī)療健康和機(jī)器人等應(yīng)用領(lǐng)域的多傳感器融合的興趣，多模態(tài)機(jī)器學(xué)習(xí)給機(jī)器學(xué)習(xí)社區(qū)帶來了獨(dú)特的計(jì)算和理論挑戰(zhàn)，因?yàn)閿?shù)據(jù)源的異質(zhì)性和模式之間經(jīng)常發(fā)現(xiàn)的相互聯(lián)系。然而，多模態(tài)研究的廣泛進(jìn)展使得很難確定該領(lǐng)域的共同主題和開放問題。通過從歷史和最近的角度綜合廣泛的應(yīng)用領(lǐng)域和理論框架，本文旨在提供一個(gè)多模態(tài)機(jī)器學(xué)習(xí)的計(jì)算和理論基礎(chǔ)的概述。我們首先定義了驅(qū)動(dòng)后續(xù)創(chuàng)新的模態(tài)異質(zhì)性和相互聯(lián)系的兩個(gè)關(guān)鍵原則，并提出了6個(gè)核心技術(shù)挑戰(zhàn)的分類:表征、對(duì)齊、推理、生成、轉(zhuǎn)移和涵蓋歷史和近期趨勢(shì)的量化。最新的技術(shù)成果將通過這種分類法來展示，讓研究人員了解新方法的異同。最后，我們提出了幾個(gè)由我們的分類法確定的開放問題，以供未來研究。

開發(fā)具有智能能力的計(jì)算機(jī)智能體一直是人工智能的一個(gè)宏偉目標(biāo)，如通過多模態(tài)經(jīng)驗(yàn)和數(shù)據(jù)進(jìn)行理解、推理和學(xué)習(xí)，就像我們?nèi)祟愂褂枚喾N感官模式感知世界的方式一樣。隨著近年來在具身自主代理[77,512]、自動(dòng)駕駛汽車[647]、圖像和視頻理解[16,482,557]、文本到圖像生成[486]以及機(jī)器人[335,493]和醫(yī)療健康[281,357]等應(yīng)用領(lǐng)域的多傳感器融合方面的進(jìn)展，我們現(xiàn)在比以往任何時(shí)候都更接近能夠集成許多感官形態(tài)并從中學(xué)習(xí)的智能體。多模態(tài)機(jī)器學(xué)習(xí)這一充滿活力的多學(xué)科研究領(lǐng)域帶來了獨(dú)特的挑戰(zhàn)，因?yàn)閿?shù)據(jù)的異質(zhì)性和通常在模態(tài)之間發(fā)現(xiàn)的相互聯(lián)系，并在多媒體[351,435]、情感計(jì)算[353,476]、機(jī)器人[308,334]、人機(jī)交互[445,519]和醫(yī)療健康[85,425]中有廣泛的應(yīng)用。

然而，多模態(tài)研究的進(jìn)展速度使得很難確定歷史和近期工作的共同主題，以及該領(lǐng)域的關(guān)鍵開放問題。通過從歷史和最近的角度綜合廣泛的應(yīng)用領(lǐng)域和理論見解，本文旨在提供多模態(tài)機(jī)器學(xué)習(xí)的方法論、計(jì)算和理論基礎(chǔ)的概述，這很好地補(bǔ)充了最近在視覺和語(yǔ)言[603]、語(yǔ)言和強(qiáng)化學(xué)習(xí)[382]、多媒體分析[40]和人機(jī)交互[269]等面向應(yīng)用的研究。

圖1:多模態(tài)學(xué)習(xí)的核心研究挑戰(zhàn):(1)表示研究如何表示和總結(jié)多模態(tài)數(shù)據(jù)，以反映單個(gè)模態(tài)元素之間的異質(zhì)性和相互聯(lián)系。(2)對(duì)齊旨在識(shí)別所有元素之間的聯(lián)系和相互作用。(3)推理的目的是將多模態(tài)證據(jù)組合成知識(shí)，通常通過對(duì)一個(gè)任務(wù)的多個(gè)推理步驟。(4)生成包括學(xué)習(xí)生成過程，以產(chǎn)生反映跨模態(tài)交互、結(jié)構(gòu)和一致性的原始模態(tài)。(5)遷移旨在在模態(tài)及其表示之間遷移知識(shí)。(6)量化包括實(shí)證和理論研究，以更好地理解異質(zhì)性、相互聯(lián)系和多模態(tài)學(xué)習(xí)過程。

為了建立多模態(tài)機(jī)器學(xué)習(xí)的基礎(chǔ)，我們首先為數(shù)據(jù)模式和多模態(tài)研究的定義奠定基礎(chǔ)，然后確定驅(qū)動(dòng)后續(xù)技術(shù)挑戰(zhàn)和創(chuàng)新的兩個(gè)關(guān)鍵原則:(1)模態(tài)是異質(zhì)的，因?yàn)樵诓煌B(tài)中出現(xiàn)的信息往往表現(xiàn)出不同的質(zhì)量、結(jié)構(gòu)和表征;(2)模態(tài)是相互聯(lián)系的，因?yàn)樗鼈兘?jīng)常相關(guān)、共享共性，或在用于任務(wù)推斷時(shí)相互作用產(chǎn)生新信息?；谶@些定義，我們提出了多模態(tài)機(jī)器學(xué)習(xí)中的六個(gè)核心挑戰(zhàn)的新分類:表示、對(duì)齊、推理、生成、遷移和量化(見圖1)。這些構(gòu)成了傳統(tǒng)單模態(tài)機(jī)器學(xué)習(xí)中研究不足的核心多模態(tài)技術(shù)挑戰(zhàn)，為了推動(dòng)該領(lǐng)域向前發(fā)展，需要解決這些挑戰(zhàn):

1. 表征: 我們能學(xué)習(xí)反映個(gè)體模態(tài)元素之間的異質(zhì)性和相互聯(lián)系的表征嗎?本文將涵蓋以下基本方法:(1)表示融合:整合來自2個(gè)或更多模態(tài)的信息，有效減少單獨(dú)表示的數(shù)量;(2)表示協(xié)調(diào):互換跨模態(tài)信息，目標(biāo)是保持相同的表示數(shù)量，但改善多模態(tài)語(yǔ)境化;創(chuàng)建一個(gè)新的不相交的表示集，其數(shù)量通常大于輸入集，反映有關(guān)內(nèi)部結(jié)構(gòu)的知識(shí)，如數(shù)據(jù)聚類或因子分解。

2. 對(duì)齊:我們?nèi)绾巫R(shí)別樣式元素之間的連接和交互?模態(tài)之間的對(duì)齊具有挑戰(zhàn)性，涉及(1)識(shí)別模態(tài)元素之間的連接，(2)上下文表示學(xué)習(xí)以捕獲模態(tài)連接和交互，以及(3)處理具有歧義分割的模態(tài)輸入。

3. 推理被定義為從多模態(tài)證據(jù)中組合知識(shí)，通常通過多個(gè)推理步驟，為特定任務(wù)開發(fā)多模態(tài)對(duì)齊和問題結(jié)構(gòu)。這種關(guān)系通常遵循某種層次結(jié)構(gòu)，更抽象的概念在層次結(jié)構(gòu)中被定義為較不抽象的概念的函數(shù)。推理包括(1)對(duì)推理發(fā)生的結(jié)構(gòu)建模，(2)推理過程中的中間概念，(3)理解更抽象概念的推理范式，(4)在結(jié)構(gòu)、概念和推理的研究中利用大規(guī)模的外部知識(shí)。

4. 生成:第四個(gè)挑戰(zhàn)涉及學(xué)習(xí)生成過程，以生成反映每個(gè)模態(tài)的獨(dú)特異質(zhì)性和模態(tài)之間的相互聯(lián)系的原始模態(tài)。我們將其子挑戰(zhàn)分類為:(1)總結(jié):總結(jié)多模態(tài)數(shù)據(jù)以減少信息內(nèi)容，同時(shí)突出輸入中最突出的部分;(2)翻譯:從一種模態(tài)轉(zhuǎn)換到另一種模態(tài)并保持信息內(nèi)容，同時(shí)與跨模態(tài)交互保持一致;(3)創(chuàng)造:同時(shí)生成多個(gè)模態(tài)以增加信息內(nèi)容，同時(shí)保持模態(tài)內(nèi)部和跨模態(tài)的一致性。

5. 遷移旨在在模態(tài)及其表示之間遷移知識(shí)，通常用于幫助可能有噪聲或資源有限的目標(biāo)模態(tài)。以以下算法為例:(1)跨模態(tài)遷移:使模型適應(yīng)涉及主要模態(tài)的下游任務(wù);(2)共同學(xué)習(xí):通過在兩種模態(tài)之間共享表示空間，將信息從次要模態(tài)轉(zhuǎn)移到主要模態(tài);保持單個(gè)單模態(tài)模型獨(dú)立，但在這些模型之間傳遞信息，從一種模態(tài)學(xué)到的知識(shí)(例如，預(yù)測(cè)的標(biāo)簽或表示)如何幫助以另一種模態(tài)訓(xùn)練的計(jì)算模型?

6. 量化: 第六個(gè)挑戰(zhàn)涉及實(shí)證和理論研究，以更好地理解異質(zhì)性、模態(tài)相互聯(lián)系和多模態(tài)學(xué)習(xí)過程。量化旨在理解(1)多模態(tài)數(shù)據(jù)集的異質(zhì)性維度以及它們?nèi)绾斡绊懡：蛯W(xué)習(xí)，(2)多模態(tài)數(shù)據(jù)集和訓(xùn)練過的模型中模態(tài)連接和交互的存在和類型，以及(3)異構(gòu)數(shù)據(jù)涉及的學(xué)習(xí)和優(yōu)化挑戰(zhàn)。

最后，我們對(duì)多模態(tài)學(xué)習(xí)的未來研究方向提出了一個(gè)長(zhǎng)遠(yuǎn)的展望。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
28012

瀏覽量
205613
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8325

瀏覽量
132219
智能體

智能體

+關(guān)注

關(guān)注
1

文章
122

瀏覽量
10547

原文標(biāo)題：CMU最新《多模態(tài)機(jī)器學(xué)習(xí)的基礎(chǔ)和最新趨勢(shì)》綜述

文章出處：【微信號(hào)：vision263com，微信公眾號(hào)：新機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來說，多

發(fā)表于 10-18 09:39 ?164次閱讀

多通道開關(guān)濾波器的創(chuàng)新者，引領(lǐng)電磁兼容技術(shù)新趨勢(shì)

維愛普|多通道開關(guān)濾波器的創(chuàng)新者，引領(lǐng)電磁兼容技術(shù)新趨勢(shì)

發(fā)表于 10-16 14:25 ?126次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多模態(tài)大模型，正式宣告“Her時(shí)代

發(fā)表于 08-27 15:20 ?324次閱讀

深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支，近年來在多個(gè)領(lǐng)域取得了顯著的成果，特別是在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。然而，深度學(xué)習(xí)模型的強(qiáng)大性能往往依賴于大量有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練

發(fā)表于 07-09 10:50 ?301次閱讀

如何看待半導(dǎo)體行業(yè)未來的新趨勢(shì)

如何看待半導(dǎo)體行業(yè)未來的新趨勢(shì)

發(fā)表于 04-25 11:38 ?627次閱讀

AI機(jī)器人迎來多模態(tài)模型

配備 GR00T 模型的機(jī)器人由于需要“吸收消化”外界的多模態(tài)信息，還要快速完成理解、決策、行動(dòng)等一系列動(dòng)作，因此對(duì)于算力的需求是巨量的。

發(fā)表于 04-12 10:39 ?237次閱讀

機(jī)器人基于開源的多模態(tài)語(yǔ)言視覺大模型

ByteDance Research 基于開源的多模態(tài)語(yǔ)言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型，只用單機(jī)就可以訓(xùn)練。

發(fā)表于 01-19 11:43 ?330次閱讀

什么是多模態(tài)？多模態(tài)的難題是什么？

單模態(tài)大模型，通常大于100M～1B參數(shù)。具有較強(qiáng)的通用性，比如對(duì)圖片中任意物體進(jìn)行分割，或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。

發(fā)表于 01-17 10:03 ?4241次閱讀

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

前段時(shí)間Google推出Gemini多模態(tài)大模型，展示了不凡的對(duì)話能力和多模態(tài)能力，其表現(xiàn)究竟如何呢？

發(fā)表于 12-28 11:19 ?1127次閱讀

語(yǔ)音識(shí)別技術(shù)最新進(jìn)展：視聽融合的多模態(tài)交互成為主要演進(jìn)方向

多種模態(tài)（聲學(xué)、語(yǔ)言模型、視覺特征等）進(jìn)行聯(lián)合建模，基于深度學(xué)習(xí)的多模態(tài)語(yǔ)音識(shí)別取得了新進(jìn)展。 ? 多模

發(fā)表于 12-28 09:06 ?3317次閱讀

人工智能領(lǐng)域多模態(tài)的概念和應(yīng)用場(chǎng)景

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)成為了一個(gè)備受關(guān)注的研究方向。多模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合，以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹

發(fā)表于 12-15 14:28 ?8260次閱讀

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢(shì)是不支持其他模態(tài)（包括圖像、語(yǔ)音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大模型+

發(fā)表于 12-13 13:55 ?1548次閱讀

探究編輯多模態(tài)大語(yǔ)言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手，將單模態(tài)

發(fā)表于 11-09 14:53 ?454次閱讀

北大&華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)

發(fā)表于 11-08 16:20 ?718次閱讀

穩(wěn)石機(jī)器人第五代多模態(tài)柔性AMR、無人叉車震撼登場(chǎng) 全球首發(fā)

10月31日，以“算法探見未來，創(chuàng)新引領(lǐng)多模態(tài)時(shí)代”為主題的2023穩(wěn)石機(jī)器人第五代多模態(tài)新品發(fā)布會(huì)圓滿落幕。本次活動(dòng)邀請(qǐng)了眾多業(yè)內(nèi)專家、客

發(fā)表于 11-01 19:18 ?684次閱讀