論文:MCSE: Multimodal Contrastive Learning of Sentence Embeddings
鏈接:https://aclanthology.org/2022.naacl-main.436.pdf
代碼:https://github.com/uds-lsv/MCSE
視覺作為人類感知體驗(yàn)的核心部分,已被證明在建立語言模型和提高各種NLP任務(wù)的性能方面是有效的。作者認(rèn)為視覺作為輔助語義信息可以進(jìn)一步促進(jìn)句子表征學(xué)習(xí)。在這篇論文中,為了同時(shí)利用視覺信息和文本信息,作者采用了sota句子嵌入框架SimCSE,并將其擴(kuò)展為多模態(tài)對比目標(biāo)。作者發(fā)現(xiàn),除了文本語料庫之外,使用少量多模態(tài)數(shù)據(jù)可以顯著提高STS任務(wù)的性能。在論文的最后,作者也對該方法所存在的局限性進(jìn)行了分析
雖然這篇論文的框架非常簡單,但是我覺得對于實(shí)驗(yàn)和作者的局限性分析還是有值得思考的地方
方法
MCSE模型
SimCSE:
就是通過dropout+編碼兩次構(gòu)建正樣本對,進(jìn)行對比學(xué)習(xí)
給定一個(gè)圖像句子對,把他們映射到一個(gè)共同的嵌入空間中
f()為預(yù)訓(xùn)練的語言編碼器和預(yù)訓(xùn)練的圖像編碼器,g()為映射頭
接下來就是多模態(tài)對比學(xué)習(xí):
最終的損失函數(shù)為 SimCSE的損失+多模態(tài)對比損失:
Experiments
作者使用Flickr30k(包含29, 783個(gè)訓(xùn)練圖像)和MS-COCO(包含82, 783個(gè)訓(xùn)練圖像)作為多模態(tài)數(shù)據(jù)集,使用Wiki1M(個(gè)句子)作為文本語料庫
SimCSE和MCSE的差別就是,MCSE利用了圖像-句子對,引入了多模態(tài)對比損失。即使多模態(tài)數(shù)據(jù)量相對較小,可獲得輔助視覺信息的MCSE模型也能進(jìn)一步取得顯著的改進(jìn)。在STS16上,Bert+MCSE的性能較差,作者解釋為域差異,其中一些接近訓(xùn)練分布的子集比其他子集更能從視覺基礎(chǔ)中獲益。
表1
為了進(jìn)一步研究不同數(shù)據(jù)集的影響,作者只在多模態(tài)數(shù)據(jù)上訓(xùn)練模型,并在表2中報(bào)告結(jié)果。我們觀察到,在沒有大型純文本語料庫的情況下,性能比表1中的結(jié)果下降了很多,但是依然可以超過SimCSE。此外,作者將成對的圖像替換為打亂的圖像進(jìn)行訓(xùn)練,模型下降了0.8-5.0個(gè)點(diǎn),進(jìn)一步驗(yàn)證了視覺語義的有效性。
這點(diǎn)其實(shí)我不太理解,是將圖像句子對的匹配關(guān)系給打亂了么,如果是這樣的話,感覺好像沒什么意義呀
表2
作者使用bert-base model只在多模態(tài)數(shù)據(jù)上進(jìn)行了訓(xùn)練,來研究數(shù)據(jù)規(guī)模大小對性能的影響,在數(shù)量有限的樣本上,SimCSE取得了更好的性能,隨著數(shù)據(jù)量的增加,MCSE的性能更好,作者推測,這一現(xiàn)象可以歸因于多模態(tài)映射投權(quán)重的漸進(jìn)訓(xùn)練。
作者報(bào)告了alignment and uniformity兩個(gè)量化指標(biāo),結(jié)果表明,與SimCSE模型相比,MCSE模型在保持一致性的同時(shí)獲得了更好的對齊得分。這一分析進(jìn)一步支持了視覺基礎(chǔ)可以通過改善文本嵌入空間的對齊特性來增強(qiáng)句子特征學(xué)習(xí)。
Limitations
作者還指出了該方法所存在的局限性,多模態(tài)數(shù)據(jù)收集標(biāo)注困難,如果可以合理的利用噪聲圖像-句子對,或者擺脫顯式的圖像文本對齊關(guān)系,將會(huì)有很大的實(shí)用價(jià)值。此外,我們發(fā)現(xiàn)只有來自相關(guān)領(lǐng)域的子集可以獲得顯著的改進(jìn),而其他子集則受到域偏移的影響。對于學(xué)習(xí)通用的句子嵌入來說,減小域偏移是至關(guān)重要的。此外,“語義相似度”的定義是高度任務(wù)依賴的。除了STS基準(zhǔn)之外,值得探討的是純文本模型和多模態(tài)模型在其他基準(zhǔn)上的性能差距,這些基準(zhǔn)也可以評估句子特征的質(zhì)量。
編輯:黃飛
-
nlp
+關(guān)注
關(guān)注
1文章
483瀏覽量
21976
原文標(biāo)題:NAACL22 | 引入多模態(tài)對比學(xué)習(xí)來增強(qiáng)句子特征學(xué)習(xí)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論