0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

面向社交媒體的多模態(tài)屬性級(jí)情感分析

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:DataFunTalk ? 作者:虞劍飛 ? 2022-10-19 10:10 ? 次閱讀

導(dǎo)讀:隨著社交網(wǎng)絡(luò)的飛速發(fā)展,人們?cè)谝晕⒉witter為代表的社交平臺(tái)上發(fā)表的內(nèi)容逐漸趨于多模態(tài)化,比如用戶(hù)常以圖文并茂的方式來(lái)表達(dá)自己的態(tài)度和情感。因此,如何結(jié)合社交媒體上的圖片、視頻等富文本信息來(lái)分析用戶(hù)的情感傾向給傳統(tǒng)的單模態(tài)文本情感分析帶來(lái)了新的挑戰(zhàn)。

一方面,不同于傳統(tǒng)的文本情感分析,多模態(tài)情感分析需要利用不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)多種模態(tài)內(nèi)容進(jìn)行基于情感的表示學(xué)習(xí)。另一方面,相比于單一的文本數(shù)據(jù),多模態(tài)數(shù)據(jù)包含了多種不同信息,這些信息之間往往一一對(duì)應(yīng)、互為補(bǔ)充,如何對(duì)齊不同模態(tài)的內(nèi)容并提出有效的多模態(tài)融合機(jī)制是一個(gè)十分棘手的問(wèn)題。

01 社交媒體分析的背景與發(fā)展趨勢(shì)

將近10年前,社交媒體才剛剛興起,社交媒體上的用戶(hù)內(nèi)容都是以純文本為主。就以我們?cè)赥witter上搜索 world cup 這個(gè)關(guān)鍵詞為例,并把時(shí)間定在2006 年到 2007 年之間,檢索出來(lái)的內(nèi)容幾乎都是以文本內(nèi)容為主。但是把時(shí)間定在 2018 年到 2019 年之間,檢索出來(lái)的用戶(hù)發(fā)帖大多都是以圖文并茂的方式呈現(xiàn)出來(lái)。

2d462f66-4ec3-11ed-a3b6-dac502259ad0.png


在2017年,對(duì)北美比較流行的社交媒體網(wǎng)站的月活躍用戶(hù)數(shù)量進(jìn)行了統(tǒng)計(jì),圖中橫坐標(biāo)是各大社交媒體網(wǎng)站,縱坐標(biāo)是月活躍用戶(hù)數(shù)量,單位是百萬(wàn)。我們可以看到前五位中有三個(gè)社交媒體網(wǎng)站(YouTube、Instagram、Snapchat)是圖像或視頻內(nèi)容為主、文本內(nèi)容為輔的多模態(tài)形式。而其中以純文本的內(nèi)容為主的傳統(tǒng)社交媒體Facebook 和Twitter 也慢慢轉(zhuǎn)變到了多模態(tài)形式上來(lái)。

2e8a0b90-4ec3-11ed-a3b6-dac502259ad0.png


一個(gè)研究團(tuán)隊(duì)對(duì)2015年的Twitter 用戶(hù)推文進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)約 42% 的用戶(hù)推文包含至少一張圖片。因此在日趨快速發(fā)展的網(wǎng)絡(luò)時(shí)代,人們更加傾向于利用圖文結(jié)合或視頻的形式表達(dá)自己的觀點(diǎn)和情緒,社交媒體內(nèi)容的多模態(tài)性(文本、圖片等)讓傳統(tǒng)的單模態(tài)情感分析方法面臨許多局限,多模態(tài)情感分析技術(shù)對(duì)跨模態(tài)內(nèi)容的理解與分析具有重大的理論價(jià)值。

2eeb2f06-4ec3-11ed-a3b6-dac502259ad0.png


情感分析是自然語(yǔ)言處理的一項(xiàng)核心任務(wù),旨在識(shí)別對(duì)觀點(diǎn)、情感和評(píng)價(jià)的情感極性。由于社交媒體信息具有多樣性,為了提高針對(duì)社交媒體的情感分析的準(zhǔn)確性,綜合考慮文本和圖像信息進(jìn)行多模態(tài)情感分析具有重要意義,接下來(lái)看幾個(gè)不同的多模態(tài)情感分析子任務(wù)。

首先來(lái)看第一個(gè)子任務(wù),判斷用戶(hù)所表達(dá)情感傾向是正向、負(fù)向還是中立。如果只考慮純文本內(nèi)容“this is me after the Rihanna concert”,很難判斷用戶(hù)的真實(shí)情感。對(duì)于機(jī)器而言,大概率判斷用戶(hù)情感是中立。但是加入圖片中的笑臉信息,我們可以輕松地判斷用戶(hù)表達(dá)了比較正面的情感。

2f8a2d04-4ec3-11ed-a3b6-dac502259ad0.png

2fcb72d2-4ec3-11ed-a3b6-dac502259ad0.png

第二個(gè)任務(wù)是虛假新聞檢測(cè)。如果只看純文本內(nèi)容,意思是日本的富士山上有多層云,我們無(wú)法判斷用戶(hù)推文的真?zhèn)涡?。但?dāng)我們把圖片信息加入,可以明顯看出圖片中的云是經(jīng)過(guò)人為 PS 過(guò)的,從而輕松地判斷出用戶(hù)發(fā)帖內(nèi)容是虛假的。

2febdeaa-4ec3-11ed-a3b6-dac502259ad0.png

2ffc6ce8-4ec3-11ed-a3b6-dac502259ad0.png


最后一個(gè)子任務(wù)叫做反諷識(shí)別,也稱(chēng)為諷刺檢測(cè)。同樣地,只以純文本內(nèi)容“what wonderful weather!”看,無(wú)法判斷出用戶(hù)對(duì)天氣是否存在反諷的意思。但引入下雨的圖片之后,文本內(nèi)容和圖片內(nèi)容形成了鮮明的對(duì)比,因此用戶(hù)其實(shí)在諷刺天氣非常糟糕。

30771556-4ec3-11ed-a3b6-dac502259ad0.png

30b0b630-4ec3-11ed-a3b6-dac502259ad0.png

綜上所述,社交媒體的不同多模態(tài)信息能夠提供非常重要的線(xiàn)索,還會(huì)對(duì)提升子任務(wù)識(shí)別檢測(cè)性能起到關(guān)鍵性的作用。因此與單模態(tài)相比,通過(guò)對(duì)社交媒體的數(shù)據(jù)進(jìn)行多模態(tài)分析,有效地利用視覺(jué)信息和文本信息之間的關(guān)系及影響,不僅有利于學(xué)者準(zhǔn)確地了解人們?cè)诂F(xiàn)實(shí)世界中的生活態(tài)度與生活習(xí)慣,更能把握人們?cè)卺t(yī)療保健、政治話(huà)題、電視電影及線(xiàn)上購(gòu)物等領(lǐng)域的選擇。

02

多模態(tài)屬性級(jí)情感分析任務(wù)劃分與定義

針對(duì)上述背景,本節(jié)聚焦于多模態(tài)屬性級(jí)情感分析任務(wù),該任務(wù)主要包含三個(gè)子任務(wù):多模態(tài)屬性抽取/多模態(tài)命名實(shí)體識(shí)別、多模態(tài)屬性情感分類(lèi)任務(wù)、多模態(tài)屬性情感聯(lián)合抽取。

多模態(tài)屬性抽?。∕ATE):給定一段多模態(tài)產(chǎn)品評(píng)論或者用戶(hù)推文,抽取文本中提到的屬性詞。

多模態(tài)命名實(shí)體識(shí)別(MNER):進(jìn)一步判斷出抽取屬性詞的類(lèi)別,利用圖像來(lái)提高推文命名實(shí)體識(shí)別的準(zhǔn)確性,類(lèi)別是提前預(yù)定義的,如人名、地名等。

多模態(tài)屬性情感分類(lèi)任務(wù)(MASC):對(duì)每一個(gè)抽取的屬性詞進(jìn)行情感分類(lèi)。

多模態(tài)屬性情感聯(lián)合抽?。↗MASA):旨在同時(shí)抽取屬性詞極其相對(duì)應(yīng)的情感詞(成對(duì)抽取),識(shí)別出所有的屬性-情感詞對(duì)。

多模態(tài)屬性抽取這個(gè)子任務(wù)的目標(biāo)是從多模態(tài)輸入中抽取屬性詞。例如推文“The Yangtze is so amazing! ”加上一張配圖,抽取出推文中的屬性詞是Yangtze。

30edc746-4ec3-11ed-a3b6-dac502259ad0.png

接下來(lái)需進(jìn)一步判斷出屬性詞的類(lèi)別是什么,比如人名類(lèi)型、地名類(lèi)型、機(jī)構(gòu)名類(lèi)型等,同樣以長(zhǎng)江這個(gè)例子來(lái)看,判斷出Yangtze是一個(gè)地名類(lèi)型的實(shí)體。

310b280e-4ec3-11ed-a3b6-dac502259ad0.png


MASC子任務(wù)是對(duì)每一個(gè)抽取的屬性詞進(jìn)行情感分類(lèi),以長(zhǎng)江這個(gè)例子來(lái)判斷用戶(hù)表達(dá)的情感,單從文本內(nèi)容“The Yangtze is so amazing!”,大概率會(huì)覺(jué)得用戶(hù)表達(dá)了正面的情感,但是從配圖中很多垃圾可以看出,用戶(hù)其實(shí)在反諷長(zhǎng)江的環(huán)境污染問(wèn)題比較嚴(yán)重,對(duì)長(zhǎng)江表達(dá)的是負(fù)面情感,也可以看出圖像信息對(duì)于情感識(shí)別任務(wù)的重要性。

31359206-4ec3-11ed-a3b6-dac502259ad0.png


最后一個(gè)子任務(wù)是多模態(tài)屬性情感聯(lián)合抽取,旨在同時(shí)抽取多模態(tài)輸入中的屬性詞和其所對(duì)應(yīng)的情感。還是以長(zhǎng)江這個(gè)例子來(lái)看,抽取結(jié)果是:[Yangtze, Negative]。

323acaea-4ec3-11ed-a3b6-dac502259ad0.png

03

相關(guān)研究工作

接下來(lái)這部分主要介紹,近幾年在多模態(tài)屬性情感分析任務(wù)的代表性研究工作。

首先是社交媒體帖子的多模態(tài)命名實(shí)體識(shí)別(MNER),在 ACL 2020 上提出了一個(gè) Unified Multimodal Transformer 的模型。

具體論文參考: Jianfei Yu, Jing Jiang, Li Yang, and Rui Xia. Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer. In ACL 2020.

為什么提出這個(gè)模型?我們可以看一個(gè)例子,給定多模態(tài)用戶(hù)推文“Kevin Durant enters Oracle Arena wearing off- White x Jordan”和配圖,識(shí)別出Kevin Durant是一個(gè)人名類(lèi)型的實(shí)體,Oracle Arena是一個(gè)地名類(lèi)型的實(shí)體,Jordan是一個(gè)雜類(lèi)類(lèi)型的實(shí)體。

實(shí)際上,在大多數(shù)社交媒體帖子中,相關(guān)圖像往往只突出句子中的一兩個(gè)實(shí)體,而沒(méi)有提到其他實(shí)體。Kevin Durant可以從這個(gè)圖片當(dāng)中判斷出是一個(gè)人名,但是Oracle Arena 在這個(gè)圖片中沒(méi)有得到任何體現(xiàn),如果過(guò)分強(qiáng)調(diào)這個(gè)圖片信息,會(huì)導(dǎo)致給圖片當(dāng)中沒(méi)有出現(xiàn)的那部分實(shí)體帶來(lái)一定的噪音,可能會(huì)導(dǎo)致實(shí)識(shí)別性能變差。這就是提出Unified Multimodal Transformer模型的一個(gè)重要?jiǎng)訖C(jī)。

32764b92-4ec3-11ed-a3b6-dac502259ad0.png

圖a是提出Unified Multimodal Transformer模型的總覽的框架圖,UMT的總體架構(gòu)包含三個(gè)主要組件:

(1)單模態(tài)輸入的表示學(xué)習(xí)

(2)用于MNER的多模態(tài) Transformer

(3)具有輔助實(shí)體跨度檢測(cè)(ESD)模塊的統(tǒng)一結(jié)構(gòu)

單模態(tài)輸入的表示學(xué)習(xí)包含文本輸入和圖像輸入。左下角表示文本輸入,選取BERT作為句子編碼器,每個(gè)輸入句子插入兩個(gè)特殊標(biāo)記,[CLS]在開(kāi)始,[SEP]在結(jié)尾。右下角表示圖像輸入端,選取CNN圖像識(shí)別模型之一的ResNet作為圖像編碼器,提取輸入圖像在其深層中有意義的特征表示。

右上方是用于MNER的多模態(tài) Transformer,首先BERT編碼器得到的C上添加一個(gè)標(biāo)準(zhǔn)Transformer層,以獲得每個(gè)詞的文本隱藏表示R= (r0,r1,...,rn+1),為捕獲文本到圖像以及圖像到文本之間的雙向交互,提出了一個(gè)多模態(tài)交互(MMI)模塊來(lái)學(xué)習(xí)圖像感知的詞表示和每個(gè)詞的詞感知的視覺(jué)表示。

除此之外,為了緩解學(xué)習(xí)模型過(guò)分強(qiáng)調(diào)圖像突出顯示的實(shí)體而忽略剩余實(shí)體的偏差,附加了一個(gè)實(shí)體范圍識(shí)別的任務(wù)作為auxiliary任務(wù),即具有輔助實(shí)體跨度檢測(cè)(ESD)模塊的統(tǒng)一結(jié)構(gòu),使用純文本的ESD來(lái)指導(dǎo)我們的主要任務(wù)MNER的最終預(yù)測(cè)

BERT編碼器得到的C使用另一個(gè)Transformer層來(lái)獲得其特定的隱藏表示T,然后將其送到CRF層,因?yàn)镋SD與MNER這兩個(gè)任務(wù)是高度相關(guān)的,每個(gè)ESD標(biāo)簽應(yīng)該對(duì)應(yīng)于MNER中的標(biāo)簽子集,引入一個(gè)轉(zhuǎn)移矩陣來(lái)約束兩邊預(yù)測(cè)出來(lái)的實(shí)體位置保持一致。具體說(shuō),就是修改了MNER的CRF層,將實(shí)體跨度信息從ESD納入MNER任務(wù)的預(yù)測(cè)中。

3324767c-4ec3-11ed-a3b6-dac502259ad0.png

多模態(tài)交互(MMI)模塊,使用統(tǒng)一的Transformer結(jié)構(gòu)來(lái)進(jìn)行多模態(tài)信息的交互。使用三個(gè)cross transformer分別獲得圖像指導(dǎo)的文本表示、文本指導(dǎo)的圖像表示以及文本模態(tài)內(nèi)部的交互表示,在兩個(gè)模態(tài)信息交互的過(guò)程中通過(guò)一個(gè)Visual Gate動(dòng)態(tài)控制兩個(gè)模態(tài)之間的交互,為了合并詞表示和視覺(jué)表示,將A和B連接起來(lái),以獲得最終的隱藏表示H;然后,將H送到標(biāo)準(zhǔn)CRF層,進(jìn)行最終的序列標(biāo)注任務(wù)。

3349d00c-4ec3-11ed-a3b6-dac502259ad0.png

在兩個(gè)標(biāo)準(zhǔn)的 Twitter 數(shù)據(jù)集(Twitter15、Twitter17)進(jìn)行了實(shí)驗(yàn),其中倒數(shù)第二行是把Unified Multimodal Transformer模型左上角輔助任務(wù)去掉的結(jié)果,相較于之前的一些研究模型都有非常明顯地提升,最后一行是Unified Multimodal Transformer模型的結(jié)果相較于沒(méi)有輔助任務(wù)的結(jié)果大概有一個(gè)點(diǎn)的性能提升。

336d2df4-4ec3-11ed-a3b6-dac502259ad0.png

33d93e86-4ec3-11ed-a3b6-dac502259ad0.png

小結(jié):

第一個(gè)提出使用統(tǒng)一的Transformer結(jié)構(gòu)來(lái)進(jìn)行多模態(tài)信息的交互。

提出基于文本的具有輔助實(shí)體跨度檢測(cè)(ESD)模塊。

在兩個(gè)標(biāo)準(zhǔn)的 Twitter 數(shù)據(jù)集上都獲得了較先進(jìn)的結(jié)果。

為其他團(tuán)隊(duì)后來(lái)工作奠定了基礎(chǔ)。

344e1c88-4ec3-11ed-a3b6-dac502259ad0.png


接下來(lái),第二個(gè)是今年提出的一個(gè)從粗粒度到細(xì)粒度的圖像和評(píng)價(jià)對(duì)象匹配的網(wǎng)絡(luò),在這篇文章中的多模態(tài)屬性級(jí)情感分析任務(wù)具體是在給定評(píng)價(jià)對(duì)象的前提下,識(shí)別出用戶(hù)對(duì)這個(gè)評(píng)價(jià)對(duì)象表達(dá)了什么樣的情感,正面、負(fù)面還是中立?例如,在這個(gè)多模態(tài)推文中,提前給定了兩個(gè)評(píng)價(jià)對(duì)象 Nancy 和 Salalah Tourism Festival,根據(jù)圖文信息可以判斷出用戶(hù)對(duì)于 Nancy是正面的情感,而對(duì)于Salalah Tourism Festival表達(dá)了中立的情感。

具體論文參考: Jianfei Yu, Jieming Wang, Rui Xia, and Junjie Li. Targeted Multimodal Sentiment Classification based on Coarse-to-Fine Grained Image-Target Matching. In Proceedings of IJCAI-ECAI 2022.

349ece80-4ec3-11ed-a3b6-dac502259ad0.png

為什么要做這個(gè)工作?對(duì)于這個(gè)多模態(tài)屬性級(jí)情感分類(lèi)而言,目前大部分的研究工作都沒(méi)有對(duì)評(píng)價(jià)對(duì)象和圖像的匹配關(guān)系進(jìn)行顯示的建模。根據(jù)對(duì)benchmark數(shù)據(jù)集的觀察,發(fā)現(xiàn)其實(shí)大部分評(píng)價(jià)對(duì)象和圖片之間是完全不相關(guān)的。例如,Nancy 作為輸入的評(píng)價(jià)對(duì)象時(shí),是和圖片是相關(guān)的,同時(shí)圖中笑臉在判斷用戶(hù)正向情感提供了重要的支撐。但對(duì)于Salalah Tourism Festival來(lái)說(shuō),圖片中沒(méi)有任何體現(xiàn),因此這個(gè)評(píng)價(jià)對(duì)象和圖片其實(shí)是不相關(guān)的?;诖税l(fā)現(xiàn),就對(duì)benchmark數(shù)據(jù)集進(jìn)行了人工標(biāo)注,從而發(fā)現(xiàn)約 58% 的評(píng)價(jià)對(duì)象和相應(yīng)圖片都是不相關(guān)的。

34c0182e-4ec3-11ed-a3b6-dac502259ad0.png

由于每張圖片包含很多的對(duì)象,可以標(biāo)注出不同區(qū)域框,例如之前圖片當(dāng)中,可以標(biāo)注出 5 個(gè)比較明顯的對(duì)象,用數(shù)字去標(biāo)識(shí)。只有第一個(gè)框和評(píng)價(jià)對(duì)象 Nancy 是相關(guān)的,而其他的框都是完全無(wú)關(guān)的,第一個(gè)框中的笑臉信息可以幫助快速判斷正向情感。因此對(duì)于那些和圖片相關(guān)的評(píng)價(jià)對(duì)象,需要進(jìn)一步判斷圖中哪個(gè)對(duì)象或區(qū)域和評(píng)價(jià)對(duì)象是相關(guān)的,否則會(huì)引入一些無(wú)關(guān)對(duì)象,給情感識(shí)別帶來(lái)一定的噪音。

34ede754-4ec3-11ed-a3b6-dac502259ad0.png

基于兩個(gè)問(wèn)題,對(duì)benchmark數(shù)據(jù)集進(jìn)行了人工標(biāo)注,它是一個(gè)小規(guī)模的Twitter數(shù)據(jù)集。具體流程是標(biāo)注給定評(píng)價(jià)對(duì)象是否和對(duì)應(yīng)圖像相關(guān),并進(jìn)一步標(biāo)注評(píng)價(jià)對(duì)象與圖像中的哪一個(gè)區(qū)域相關(guān),也把框標(biāo)注出來(lái)。

3582a010-4ec3-11ed-a3b6-dac502259ad0.png

根據(jù)統(tǒng)計(jì),大概標(biāo)注了1200個(gè),從中發(fā)現(xiàn)用戶(hù)對(duì)大部分和圖片相關(guān)的評(píng)價(jià)對(duì)象表達(dá)的情感不是正向就是負(fù)向,很少表達(dá)中立的情感,而對(duì)那些和圖像不相關(guān)的評(píng)價(jià)對(duì)象,都傾向于表達(dá)中立的情感。這也符合我們的直觀感覺(jué),圖像一般都反映用戶(hù)比較感興趣的對(duì)象,而用戶(hù)不感興趣的對(duì)象一般都不會(huì)放到圖像上。

35bd2eba-4ec3-11ed-a3b6-dac502259ad0.png

基于這個(gè)數(shù)據(jù)集,設(shè)計(jì)了一個(gè)從粗粒度到細(xì)粒度的圖像和評(píng)價(jià)對(duì)象的匹配網(wǎng)絡(luò)。這是整個(gè)網(wǎng)絡(luò)的架構(gòu)圖。

3655d962-4ec3-11ed-a3b6-dac502259ad0.png

首先,分別使用文本編碼器和圖像編碼器來(lái)對(duì)輸入文本和圖像進(jìn)行編碼。值得注意的是,給定了評(píng)價(jià)對(duì)象如Emily,需對(duì)文本輸入進(jìn)行一個(gè)特殊處理,把Emily作為第二個(gè)句子放最后,然后把原句中的Emily用一個(gè)特殊指令$T$來(lái)代替,就得到一個(gè)帶有上下文和評(píng)價(jià)對(duì)象的文本輸入。左邊是圖像輸入,由于要判斷圖像中哪塊區(qū)域與評(píng)價(jià)對(duì)象是相關(guān)的,使用了一個(gè)廣泛使用的目標(biāo)檢測(cè)模型Faster R-CNN。

36816ad2-4ec3-11ed-a3b6-dac502259ad0.png

經(jīng)過(guò)編碼后,得到圖像和文本的表示Hv與HT,送到左上角的 Cross-Model Transformer 進(jìn)行交互,使用簡(jiǎn)單的二分類(lèi)來(lái)判斷粗粒度的圖像和評(píng)價(jià)對(duì)象是否相關(guān),再把概率乘回融合之后的圖像表示上,如果不相關(guān)的話(huà)概率比較小,基本上會(huì)把圖像信息過(guò)濾掉。

3710d05a-4ec3-11ed-a3b6-dac502259ad0.png

上一步得到的結(jié)果進(jìn)一步送到中間模塊進(jìn)行細(xì)粒度的匹配,也就是評(píng)價(jià)對(duì)象和相關(guān)object 進(jìn)行對(duì)齊模塊。評(píng)價(jià)對(duì)象的表示和過(guò)濾后的圖像表示送到另外一個(gè)Cross-Model Transformer進(jìn)行多模態(tài)信息的交互,這時(shí)候利用人工標(biāo)注的圖片里對(duì)應(yīng)的區(qū)域與Faster R-CNN提取出來(lái)的區(qū)域進(jìn)行交并比計(jì)算,得到IOU Score,如果IOU Score 大于0.5,認(rèn)為是一個(gè)有效的檢測(cè),否則屬于無(wú)效的匹配,從而得到一個(gè)Ground Truth分布,作為監(jiān)督信號(hào)。最后使用Cross-Model Transformer中的Cross-Model Attention的分布來(lái)逼近Ground Truth 分布,這樣會(huì)使得與評(píng)價(jià)對(duì)象相關(guān)的區(qū)域Attention位置會(huì)比較大,而與評(píng)價(jià)對(duì)象不相關(guān)的區(qū)域Attention位置就會(huì)比較小。

38848896-4ec3-11ed-a3b6-dac502259ad0.png

最后可以得到經(jīng)過(guò)多模態(tài)融合之后的表示,把它和原始的純文本表示拼起來(lái)送到一個(gè) Multimodal Transformer進(jìn)行情感分類(lèi)。

38a40d7e-4ec3-11ed-a3b6-dac502259ad0.png

在Twitter 15 和 Twitter 17 的這兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),可以發(fā)現(xiàn)此方法有非常顯著地提升。還對(duì)TomBERT和CapBERT做了一些變形,并把輔助任務(wù)加到里面,做了一些探索實(shí)驗(yàn),可以看到此方法相比于這些變形系統(tǒng)也有一個(gè)明顯的提升。

399052ec-4ec3-11ed-a3b6-dac502259ad0.png

下面是使用兩個(gè)輔助任務(wù)的性能,一個(gè)是圖文粗粒度匹配,另一個(gè)是細(xì)粒度的圖像區(qū)域和評(píng)價(jià)對(duì)象的對(duì)齊。這兩個(gè)任務(wù)我們提出的模型相比于基礎(chǔ)方法都有較明顯的性能提升。

39b4dd56-4ec3-11ed-a3b6-dac502259ad0.png

3a3d1bda-4ec3-11ed-a3b6-dac502259ad0.png

小結(jié):

人工標(biāo)注了一個(gè)圖像和評(píng)價(jià)對(duì)象匹配的數(shù)據(jù)集。

提出了一個(gè)新的圖像和評(píng)價(jià)對(duì)象匹配模型,主要是一個(gè)從粗粒度到細(xì)粒度進(jìn)行匹配的網(wǎng)絡(luò)結(jié)構(gòu)。

實(shí)驗(yàn)結(jié)果也表明這個(gè)模型取得了較先進(jìn)的效果。

近些年,多模態(tài)情感分析任務(wù)(MABSA任務(wù)又叫做Target-Oriented Multimodal Sentiment Analysis 或 Entity-Based Multimodal Sentiment Analysis)發(fā)展迅猛。之前大多數(shù)MABSA研究存在以下不足:

采用單模態(tài)預(yù)訓(xùn)練模型來(lái)獲得文本的表示和圖像的表示,忽略?xún)蓚€(gè)模態(tài)之間的對(duì)齊和交互。

使用通用的預(yù)訓(xùn)練任務(wù),和下游任務(wù)無(wú)相關(guān)性,不足以識(shí)別細(xì)粒度的屬性、情感及其跨模態(tài)的對(duì)齊。

未能充分利用生成型模型。

3ab15572-4ec3-11ed-a3b6-dac502259ad0.png

為了解決這些不足,針對(duì)MABSA任務(wù),我們?cè)诮衲甑?ACL 上提出了一個(gè)特定任務(wù)的視覺(jué)-文本(vision-language)預(yù)訓(xùn)練框架,這是一個(gè)通用的基于預(yù)訓(xùn)練的 BERT 模型的編碼、解碼框架,適用于所有的預(yù)訓(xùn)練和下游任務(wù)。此外,針對(duì)文本、視覺(jué)和多模態(tài),分別設(shè)計(jì)了5個(gè)預(yù)訓(xùn)練任務(wù):

MLM:類(lèi)似BERT的做法,以15%的概率隨機(jī)遮蔽輸入文本的tokens,目標(biāo)是基于圖像和文本上下文預(yù)測(cè)出遮蔽的文本內(nèi)容。

AOE:目標(biāo)是根據(jù)文本生成出其中包含的所有aspect和opinion。模型需要輸出一個(gè)序列,包含分隔符和終止符的token,以及每條aspect和每條opinion在原文本token序列中的位置編號(hào)。aspect的ground-truth采用的是NER工具對(duì)原文本提取出的所有實(shí)體,opinion的ground-truth采用的是SentiWordNet情感詞典[4]對(duì)原文本提取出的所有情感詞。

MRM:類(lèi)似UNITER中的MRM-kl的做法,以15%的概率隨機(jī)遮蔽image regions并替換為零向量,預(yù)測(cè)每個(gè)遮蔽掉的region的語(yǔ)義類(lèi)別分布,將模型預(yù)測(cè)的分布與Faster R-CNN對(duì)該region預(yù)測(cè)的類(lèi)別分布兩者的KL散度作為該任務(wù)的損失值。

AOG:目標(biāo)是從輸入圖像中生成所有的aspect-opinion pair。將DeepSentiBank對(duì)輸入圖像提取出的置信度最高的ANP(形容詞-名詞對(duì))作為ground-truth。模型需要預(yù)測(cè)出一個(gè)序列,包含一個(gè)這樣的ANP以及終止符token。

MSP:將MVSA-Multi提供的粗粒度情感標(biāo)簽作為監(jiān)督信號(hào)。根據(jù)兩個(gè)模態(tài)的信息,預(yù)測(cè)出圖文對(duì)的情感類(lèi)別。

3ac9bd9c-4ec3-11ed-a3b6-dac502259ad0.png

對(duì)于下游任務(wù)來(lái)講,建模和預(yù)訓(xùn)練的框架是一樣的,使用了一個(gè)BART-based的生成框架,為了區(qū)分不同的輸入,我們使用表示圖片特征的開(kāi)始,使用表示圖片特征的結(jié)束,使用分別表示文本特征的開(kāi)始和結(jié)束。視覺(jué)模態(tài)采用Faster R-CNN對(duì)檢測(cè)出的置信度最高的36個(gè)目標(biāo)區(qū)域提取出的mean-pooled卷積特征作為特征輸入,文本模態(tài)采用tokens的embeddings作為特征輸入。

3b68e75a-4ec3-11ed-a3b6-dac502259ad0.png

利用帶有粗粒度情感標(biāo)注的MVSA-Multi數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,這個(gè)數(shù)據(jù)集提供了文本-圖片成對(duì)輸入,以及關(guān)于其的粗粒度情感。在TWITTER-2015和TWITTER-2017兩個(gè)細(xì)粒度視覺(jué)語(yǔ)言情感數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在各下游任務(wù)上基本都能勝過(guò)其它SOTA方法的表現(xiàn)。

3b80f610-4ec3-11ed-a3b6-dac502259ad0.png

進(jìn)一步的實(shí)驗(yàn)和分析表明在所有的方法中,VLP-MABSA在兩個(gè)數(shù)據(jù)集中,性能都最優(yōu)。

3c178c10-4ec3-11ed-a3b6-dac502259ad0.png

以下分別是MATE和MAS任務(wù)的結(jié)果,與JMASA子任務(wù)的趨勢(shì)相似,我們可以清楚地觀察到,VLP-MABSA方法通常在兩個(gè)數(shù)據(jù)集上取得最好的性能,除了twitter-2015的準(zhǔn)確性度量,進(jìn)一步證明了我們提出的預(yù)訓(xùn)練方法的一般有效性。

3c4a729c-4ec3-11ed-a3b6-dac502259ad0.png

為了探究每個(gè)預(yù)訓(xùn)練任務(wù)的影響,使用完整訓(xùn)練數(shù)據(jù)集和弱監(jiān)督設(shè)置下僅隨機(jī)選擇200個(gè)訓(xùn)練樣本的全監(jiān)督設(shè)置上進(jìn)行了訓(xùn)練??梢钥吹絻蓚€(gè)比較通用的預(yù)訓(xùn)練任務(wù) MLM 和 MRM,它們的提升都非常有限,說(shuō)明這種比較通用的預(yù)訓(xùn)練任務(wù)對(duì)于下游任務(wù)的幫助并不大。但是反觀與下游息息相關(guān)的預(yù)訓(xùn)練任務(wù),都對(duì)提升模型的表現(xiàn)有所幫助,提升的效果很顯著。

3caf9ae6-4ec3-11ed-a3b6-dac502259ad0.png

在采用不同數(shù)量的樣本進(jìn)行下游訓(xùn)練時(shí),比較了有和沒(méi)有預(yù)訓(xùn)練的結(jié)果,使用JMASA任務(wù)作為例子來(lái)觀察其影響。如圖所示,當(dāng)樣本量較小時(shí),預(yù)訓(xùn)練可以帶來(lái)巨大的改進(jìn)。相比之下,當(dāng)樣本量增大時(shí),預(yù)訓(xùn)練帶來(lái)的改進(jìn)相對(duì)較小。這進(jìn)一步說(shuō)明了預(yù)訓(xùn)練方法的魯棒性和有效性,特別是在小樣本的場(chǎng)景中。

3cc76b30-4ec3-11ed-a3b6-dac502259ad0.png

小結(jié):

提出了一個(gè)特定任務(wù)的視覺(jué)-文本(vision-language)預(yù)訓(xùn)練框架,生成一個(gè)基于BART的生成式框架多模態(tài)模型。

針對(duì)文本、視覺(jué)、和多模態(tài),分別設(shè)計(jì)了三種特定任務(wù)的預(yù)訓(xùn)練任務(wù)。

實(shí)驗(yàn)證明了預(yù)訓(xùn)練方法在三個(gè)不同的子任務(wù)上都取得到非常好的性能。

3ce3bd8a-4ec3-11ed-a3b6-dac502259ad0.png04 總結(jié)

以上主要介紹了針對(duì)多模態(tài)屬性級(jí)情感分析三個(gè)不同的子任務(wù),并介紹了這幾年在每個(gè)子任務(wù)上的一個(gè)代表性工作。第一個(gè)聚焦于多模態(tài)交互和視覺(jué)偏差,第二個(gè)聚焦于圖像和文本之間的細(xì)粒度和粗粒度的對(duì)齊,第三個(gè)聚焦于任務(wù)特定的視覺(jué)語(yǔ)言的預(yù)訓(xùn)練。

展望未來(lái)工作,第一個(gè)點(diǎn)是多模態(tài)屬性級(jí)情感分析模型的可解釋性,一個(gè)方面可以通過(guò)可視化的方式來(lái)分析模型學(xué)到的知識(shí)正確性,另一方面是進(jìn)行對(duì)抗攻擊,把測(cè)試集中圖像和文本進(jìn)行隨機(jī)替換和變化,看模型預(yù)測(cè)的變化。第二個(gè)點(diǎn)是相關(guān)多模態(tài)任務(wù)的擴(kuò)展,比如說(shuō)多模態(tài)的信息抽取、多模態(tài)的實(shí)體鏈接、多模態(tài)的實(shí)體消歧、多模態(tài)的關(guān)系或者事件抽取以及多模態(tài)的知識(shí)圖譜的構(gòu)建和補(bǔ)全。

3d753878-4ec3-11ed-a3b6-dac502259ad0.png







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ACL
    ACL
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    11952
  • 多模態(tài)組網(wǎng)

    關(guān)注

    0

    文章

    3

    瀏覽量

    2370
  • Mate
    +關(guān)注

    關(guān)注

    2

    文章

    53

    瀏覽量

    4684

原文標(biāo)題:面向社交媒體的多模態(tài)屬性級(jí)情感分析研究

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?146次閱讀

    云知聲推出山海模態(tài)大模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來(lái)的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨(dú)運(yùn)的山海模態(tài)大模型,正式宣告“Her時(shí)代
    的頭像 發(fā)表于 08-27 15:20 ?319次閱讀

    鴻蒙ArkTS聲明式開(kāi)發(fā):跨平臺(tái)支持列表【半模態(tài)轉(zhuǎn)場(chǎng)】模態(tài)轉(zhuǎn)場(chǎng)設(shè)置

    通過(guò)bindSheet屬性為組件綁定半模態(tài)頁(yè)面,在組件插入時(shí)可通過(guò)設(shè)置自定義或默認(rèn)的內(nèi)置高度確定半模態(tài)大小。
    的頭像 發(fā)表于 06-12 21:09 ?761次閱讀
    鴻蒙ArkTS聲明式開(kāi)發(fā):跨平臺(tái)支持列表【半<b class='flag-5'>模態(tài)</b>轉(zhuǎn)場(chǎng)】<b class='flag-5'>模態(tài)</b>轉(zhuǎn)場(chǎng)設(shè)置

    商湯科技與海通證券攜手發(fā)布金融行業(yè)首個(gè)模態(tài)全棧式大模型

    商湯科技與海通證券聯(lián)合研發(fā)并發(fā)布了金融行業(yè)內(nèi)首個(gè)面向業(yè)務(wù)場(chǎng)景的模態(tài)全棧式大模型。雙方計(jì)劃將這一先進(jìn)技術(shù)應(yīng)用于智能問(wèn)答、合規(guī)風(fēng)控、代碼輔助以及辦公助手等關(guān)鍵業(yè)務(wù)領(lǐng)域,以實(shí)現(xiàn)大模型技術(shù)
    的頭像 發(fā)表于 05-06 10:16 ?392次閱讀

    商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)首個(gè)面向金融行業(yè)的模態(tài)全棧式大模型

    4月23日,商湯科技正式推出“日日新SenseNova 5.0”大模型體系,并與海通證券聯(lián)合發(fā)布業(yè)內(nèi)首個(gè)面向金融行業(yè)的模態(tài)全棧式大模型。
    的頭像 發(fā)表于 04-26 09:48 ?389次閱讀
    商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)首個(gè)<b class='flag-5'>面向</b>金融行業(yè)的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>全棧式大模型

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語(yǔ)言理解、圖像識(shí)別及視頻生成等模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺(jué)+語(yǔ)音打造新一代 LLM-Based的自然交互,同時(shí)模態(tài)問(wèn)答技術(shù)的加持,能實(shí)現(xiàn)所見(jiàn)即所問(wèn)
    發(fā)表于 04-18 17:01 ?536次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型

    云手機(jī)海外社交媒體監(jiān)測(cè):洞悉輿論,把握商機(jī)

    在當(dāng)前社交媒體時(shí)代,facebook、Twitter、tiktok等平臺(tái)已經(jīng)成為信息傳播的主渠道,個(gè)體傳播權(quán)和知情權(quán)回歸,輿論力量愈發(fā)強(qiáng)大。在這個(gè)背景下,如何有效進(jìn)行海外社交媒體監(jiān)測(cè),
    的頭像 發(fā)表于 03-04 16:35 ?372次閱讀

    什么是模態(tài)?模態(tài)的難題是什么?

    模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對(duì)圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?4210次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>?<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的難題是什么?

    從Google模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

    前段時(shí)間Google推出Gemini模態(tài)大模型,展示了不凡的對(duì)話(huà)能力和模態(tài)能力,其表現(xiàn)究竟如何呢?
    的頭像 發(fā)表于 12-28 11:19 ?1104次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型看后續(xù)大模型應(yīng)該具備哪些能力

    語(yǔ)音識(shí)別技術(shù)最新進(jìn)展:視聽(tīng)融合的模態(tài)交互成為主要演進(jìn)方向

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)所謂“模態(tài)”,英文是modality,用通俗的話(huà)說(shuō),就是“感官”,模態(tài)即將多種感官融合。模態(tài)交互技術(shù)是近年
    的頭像 發(fā)表于 12-28 09:06 ?3293次閱讀
    語(yǔ)音識(shí)別技術(shù)最新進(jìn)展:視聽(tīng)融合的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>交互成為主要演進(jìn)方向

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場(chǎng)景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個(gè)備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類(lèi)型的數(shù)據(jù)和信息進(jìn)行融合,以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹
    的頭像 發(fā)表于 12-15 14:28 ?8106次閱讀

    大模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語(yǔ)音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大模型+
    的頭像 發(fā)表于 12-13 13:55 ?1530次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    用語(yǔ)言對(duì)齊模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單

    目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺(jué)和語(yǔ)言模態(tài),而現(xiàn)實(shí)世界中的應(yīng)用場(chǎng)景往往包含更多的模態(tài)信息,如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息,并且能夠在多個(gè)
    的頭像 發(fā)表于 11-23 15:46 ?612次閱讀
    用語(yǔ)言對(duì)齊<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單

    情感語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)與前景

    的發(fā)展趨勢(shì) 深度學(xué)習(xí)技術(shù)的進(jìn)一步應(yīng)用:情感語(yǔ)音識(shí)別技術(shù)的發(fā)展得益于深度學(xué)習(xí)技術(shù)的不斷進(jìn)步。未來(lái),隨著深度學(xué)習(xí)算法的不斷完善和改進(jìn),情感語(yǔ)音識(shí)別的準(zhǔn)確性將得到進(jìn)一步提高。 模態(tài)
    的頭像 發(fā)表于 11-16 16:13 ?603次閱讀

    探究編輯模態(tài)大語(yǔ)言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手,將單模態(tài)
    發(fā)表于 11-09 14:53 ?444次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言模型的可行性