0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過多模態(tài)對比學(xué)習(xí)增強(qiáng)句子特征學(xué)習(xí)

深度學(xué)習(xí)自然語言處理 ? 來源:知乎 ? 作者:李加貝 ? 2022-09-21 10:06 ? 次閱讀

論文:MCSE: Multimodal Contrastive Learning of Sentence Embeddings

鏈接:https://aclanthology.org/2022.naacl-main.436.pdf

代碼:https://github.com/uds-lsv/MCSE

8e32bb9e-22ce-11ed-ba43-dac502259ad0.png

視覺作為人類感知體驗(yàn)的核心部分,已被證明在建立語言模型和提高各種NLP任務(wù)的性能方面是有效的。作者認(rèn)為視覺作為輔助語義信息可以進(jìn)一步促進(jìn)句子表征學(xué)習(xí)。在這篇論文中,為了同時(shí)利用視覺信息和文本信息,作者采用了sota句子嵌入框架SimCSE,并將其擴(kuò)展為多模態(tài)對比目標(biāo)。作者發(fā)現(xiàn),除了文本語料庫之外,使用少量多模態(tài)數(shù)據(jù)可以顯著提高STS任務(wù)的性能。在論文的最后,作者也對該方法所存在的局限性進(jìn)行了分析

雖然這篇論文的框架非常簡單,但是我覺得對于實(shí)驗(yàn)和作者的局限性分析還是有值得思考的地方

方法

8e5651da-22ce-11ed-ba43-dac502259ad0.png

MCSE模型

SimCSE

8e8929c0-22ce-11ed-ba43-dac502259ad0.png

就是通過dropout+編碼兩次構(gòu)建正樣本對,進(jìn)行對比學(xué)習(xí)

給定一個(gè)圖像句子對,把他們映射到一個(gè)共同的嵌入空間中

8e9d2420-22ce-11ed-ba43-dac502259ad0.png

f()為預(yù)訓(xùn)練的語言編碼器和預(yù)訓(xùn)練的圖像編碼器,g()為映射頭

接下來就是多模態(tài)對比學(xué)習(xí):

8eac4fea-22ce-11ed-ba43-dac502259ad0.png

最終的損失函數(shù)為 SimCSE的損失+多模態(tài)對比損失:

8ec916c0-22ce-11ed-ba43-dac502259ad0.png

Experiments

作者使用Flickr30k(包含29, 783個(gè)訓(xùn)練圖像)和MS-COCO(包含82, 783個(gè)訓(xùn)練圖像)作為多模態(tài)數(shù)據(jù)集,使用Wiki1M(個(gè)句子)作為文本語料庫

SimCSEMCSE的差別就是,MCSE利用了圖像-句子對,引入了多模態(tài)對比損失。即使多模態(tài)數(shù)據(jù)量相對較小,可獲得輔助視覺信息的MCSE模型也能進(jìn)一步取得顯著的改進(jìn)。在STS16上,Bert+MCSE的性能較差,作者解釋為域差異,其中一些接近訓(xùn)練分布的子集比其他子集更能從視覺基礎(chǔ)中獲益。

8ed9a648-22ce-11ed-ba43-dac502259ad0.png

表1

為了進(jìn)一步研究不同數(shù)據(jù)集的影響,作者只在多模態(tài)數(shù)據(jù)上訓(xùn)練模型,并在表2中報(bào)告結(jié)果。我們觀察到,在沒有大型純文本語料庫的情況下,性能比表1中的結(jié)果下降了很多,但是依然可以超過SimCSE。此外,作者將成對的圖像替換為打亂的圖像進(jìn)行訓(xùn)練,模型下降了0.8-5.0個(gè)點(diǎn),進(jìn)一步驗(yàn)證了視覺語義的有效性。

這點(diǎn)其實(shí)我不太理解,是將圖像句子對的匹配關(guān)系給打亂了么,如果是這樣的話,感覺好像沒什么意義呀

8eeaba50-22ce-11ed-ba43-dac502259ad0.png

表2

作者使用bert-base model只在多模態(tài)數(shù)據(jù)上進(jìn)行了訓(xùn)練,來研究數(shù)據(jù)規(guī)模大小對性能的影響,在數(shù)量有限的樣本上,SimCSE取得了更好的性能,隨著數(shù)據(jù)量的增加,MCSE的性能更好,作者推測,這一現(xiàn)象可以歸因于多模態(tài)映射投權(quán)重的漸進(jìn)訓(xùn)練。

8f03863e-22ce-11ed-ba43-dac502259ad0.png

作者報(bào)告了alignment and uniformity兩個(gè)量化指標(biāo),結(jié)果表明,與SimCSE模型相比,MCSE模型在保持一致性的同時(shí)獲得了更好的對齊得分。這一分析進(jìn)一步支持了視覺基礎(chǔ)可以通過改善文本嵌入空間的對齊特性來增強(qiáng)句子特征學(xué)習(xí)。

8f1fef4a-22ce-11ed-ba43-dac502259ad0.png

8f2ce7a4-22ce-11ed-ba43-dac502259ad0.png

8f3a9cd2-22ce-11ed-ba43-dac502259ad0.png

Limitations

作者還指出了該方法所存在的局限性,多模態(tài)數(shù)據(jù)收集標(biāo)注困難,如果可以合理的利用噪聲圖像-句子對,或者擺脫顯式的圖像文本對齊關(guān)系,將會(huì)有很大的實(shí)用價(jià)值。此外,我們發(fā)現(xiàn)只有來自相關(guān)領(lǐng)域的子集可以獲得顯著的改進(jìn),而其他子集則受到域偏移的影響。對于學(xué)習(xí)通用的句子嵌入來說,減小域偏移是至關(guān)重要的。此外,“語義相似度”的定義是高度任務(wù)依賴的。除了STS基準(zhǔn)之外,值得探討的是純文本模型和多模態(tài)模型在其他基準(zhǔn)上的性能差距,這些基準(zhǔn)也可以評估句子特征的質(zhì)量。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    483

    瀏覽量

    21976

原文標(biāo)題:NAACL22 | 引入多模態(tài)對比學(xué)習(xí)來增強(qiáng)句子特征學(xué)習(xí)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)

    本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)。 ? 自監(jiān)督學(xué)習(xí)算法在自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域取得了重大進(jìn)展。這些自監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 09-04 10:07 ?1019次閱讀
    適用于任意數(shù)據(jù)<b class='flag-5'>模態(tài)</b>的自監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>數(shù)據(jù)<b class='flag-5'>增強(qiáng)</b>技術(shù)

    基于增強(qiáng)學(xué)習(xí)算法的PID參數(shù)調(diào)整方法研究

    本文首先介紹了增強(qiáng)學(xué)習(xí)的基本原理,然后分析了利用基于增強(qiáng)學(xué)習(xí)算法進(jìn)行PID 參數(shù)調(diào)節(jié)的步驟,并給出了具體的實(shí)現(xiàn)流程,最后通過仿真驗(yàn)證了
    發(fā)表于 08-07 14:33 ?27次下載

    基于多模態(tài)特征數(shù)據(jù)的多標(biāo)記遷移學(xué)習(xí)方法的早期阿爾茨海默病診斷

    特征選擇模塊和多模態(tài)多標(biāo)記分類回歸學(xué)習(xí)器模塊。首先,通過稀疏多標(biāo)記學(xué)習(xí)模型對分類和回歸學(xué)習(xí)任務(wù)進(jìn)
    發(fā)表于 12-14 11:22 ?3次下載

    多文化場景下的多模態(tài)情感識(shí)別

    學(xué)習(xí)特征,并通過多模態(tài)融合方法結(jié)合不同的模態(tài)。比較不同單模態(tài)
    發(fā)表于 12-18 14:47 ?0次下載

    AI全新應(yīng)用場景 技術(shù)趨勢多模態(tài)學(xué)習(xí)

    新的 AI 技術(shù)發(fā)展趨勢有哪些?多模態(tài)學(xué)習(xí)技術(shù)一定是其中之一。
    發(fā)表于 07-18 09:19 ?1969次閱讀

    通過多模態(tài)特征融合來設(shè)計(jì)三維點(diǎn)云分類模型

    針對點(diǎn)云數(shù)據(jù)本身信息量不足導(dǎo)致現(xiàn)有三維點(diǎn)云分類方法分類精度較低的問題,結(jié)合多模態(tài)特征融合,設(shè)計(jì)一種三維點(diǎn)云分類模型。通過引入投影圖對點(diǎn)云數(shù)據(jù)信息進(jìn)行擴(kuò)充,將點(diǎn)云數(shù)據(jù)與圖像數(shù)據(jù)同時(shí)作為輸入
    發(fā)表于 03-11 14:09 ?3次下載
    <b class='flag-5'>通過多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>特征</b>融合來設(shè)計(jì)三維點(diǎn)云分類模型

    基于語義耦合相關(guān)的判別式跨模態(tài)哈希特征表示學(xué)習(xí)算法

    特征表示的語義判別性,從而導(dǎo)致哈希碼表示的類別區(qū)分性不強(qiáng),降低了最近鄰搜索的準(zhǔn)確性和魯棒性。該文提出了基于語義耦合相關(guān)的判別式跨模態(tài)哈希特征表示學(xué)習(xí)算法。算法在模型的優(yōu)化目標(biāo)函數(shù)設(shè)計(jì)上
    發(fā)表于 03-31 11:28 ?12次下載
    基于語義耦合相關(guān)的判別式跨<b class='flag-5'>模態(tài)</b>哈希<b class='flag-5'>特征</b>表示<b class='flag-5'>學(xué)習(xí)</b>算法

    可提高跨模態(tài)行人重識(shí)別算法精度的特征學(xué)習(xí)框架

    為了提升跨模態(tài)行人重識(shí)別算法的識(shí)別精度,提出了一種基于改進(jìn)困難三元組損失的特征學(xué)習(xí)框架。首先,改進(jìn)了傳統(tǒng)困難三元組損失,使其轉(zhuǎn)換為全局三元組損失。其次,基于跨模態(tài)行亼重識(shí)別中存在
    發(fā)表于 05-10 11:06 ?9次下載

    特征選擇和機(jī)器學(xué)習(xí)的軟件缺陷跟蹤系統(tǒng)對比

    軟件缺陷報(bào)告嚴(yán)重程度。通過對4種特征選擇算法及4種機(jī)器學(xué)習(xí)算法處理結(jié)果的交叉對比表明,使用信息增益特征選擇算法對原始數(shù)據(jù)集進(jìn)行
    發(fā)表于 06-10 10:50 ?12次下載

    基于耦合字典學(xué)習(xí)與圖像正則化的跨模態(tài)檢索

    基于耦合字典學(xué)習(xí)與圖像正則化的跨模態(tài)檢索
    發(fā)表于 06-27 11:23 ?39次下載

    對比學(xué)習(xí)的關(guān)鍵技術(shù)和基本應(yīng)用分析

    對比學(xué)習(xí)的主要思想是相似的樣本的表示相近,而不相似的遠(yuǎn)離。對比學(xué)習(xí)可以應(yīng)用于監(jiān)督和無監(jiān)督的場景下,并且目前在CV、NLP等領(lǐng)域中取得了較好的性能。本文先對
    的頭像 發(fā)表于 03-09 16:28 ?5173次閱讀

    結(jié)合句子間差異的無監(jiān)督句子嵌入對比學(xué)習(xí)方法-DiffCSE

    句向量表征技術(shù)目前已經(jīng)通過對比學(xué)習(xí)獲取了很好的效果。而對比學(xué)習(xí)的宗旨就是拉近相似數(shù)據(jù),推開不相似數(shù)據(jù),有效地
    的頭像 發(fā)表于 05-05 11:35 ?1156次閱讀

    通過對比學(xué)習(xí)的角度來解決細(xì)粒度分類的特征質(zhì)量問題

    一、本文貢獻(xiàn) 1.網(wǎng)絡(luò)通過提取顯著性區(qū)域并融合這些區(qū)域特征,以同時(shí)學(xué)習(xí)局部和全局的特征2.通過混雜來自負(fù)例的注意力
    的頭像 發(fā)表于 05-13 16:54 ?2181次閱讀
    <b class='flag-5'>通過</b><b class='flag-5'>對比</b><b class='flag-5'>學(xué)習(xí)</b>的角度來解決細(xì)粒度分類的<b class='flag-5'>特征</b>質(zhì)量問題

    CMU最新《多模態(tài)機(jī)器學(xué)習(xí)的基礎(chǔ)和最新趨勢》綜述

    開發(fā)具有智能能力的計(jì)算機(jī)智能體一直是人工智能的一個(gè)宏偉目標(biāo),如通過多模態(tài)經(jīng)驗(yàn)和數(shù)據(jù)進(jìn)行理解、推理和學(xué)習(xí),就像我們?nèi)祟愂褂枚喾N感官模式感知世界的方式一樣。
    的頭像 發(fā)表于 12-07 14:43 ?954次閱讀

    通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化
    的頭像 發(fā)表于 06-05 08:27 ?291次閱讀
    <b class='flag-5'>通過強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行<b class='flag-5'>特征</b>選擇