0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個真實閑聊多模態(tài)數(shù)據(jù)集TikTalk

深度學習自然語言處理 ? 來源:NLP工作站 ? 2023-02-09 09:31 ? 次閱讀

介紹

隨著大量預訓練語言模型在文本對話任務中的出色表現(xiàn),以及多模態(tài)的發(fā)展,在對話中引入多模態(tài)信息已經(jīng)引起了大量學者的關(guān)注。目前已經(jīng)提出了各種各樣的多模態(tài)對話數(shù)據(jù)集,主要來自電影、電視劇、社交媒體平臺等,但這些數(shù)據(jù)與真實世界的日常聊天對話之間還是存在一些差距。

對話形式過于同質(zhì)化。視頻中的現(xiàn)場評論缺乏明確背景,更偏向于評論,并充斥著重復的數(shù)據(jù)用來活躍氣氛。而從影視劇中提取出來的對話內(nèi)容或解說員根據(jù)指定圖片提出的對話內(nèi)容,都不是現(xiàn)實對話場景中自然生成的聊天,而是為了推動情節(jié)發(fā)展設計的一些人物臺詞或高度依賴形象。

缺乏對話的時間順序。現(xiàn)實世界的多模態(tài)對話場景可能包含具有時間順序的不同上下文,而目前大多數(shù)數(shù)據(jù)集中的靜態(tài)圖片所能提供的信息有限,限制了對話參與者在主題方面的多樣性。并且不同的語言語境中存在著獨特的表達方式和流行文化,很難進行翻譯或遷移到其他語言。

588c0238-a808-11ed-bfe3-dac502259ad0.png

因此,該論文提出了具有獨特特色的中文多模態(tài)對話數(shù)據(jù)集-TikTalk。TikTalk是基于視頻的真實世界人類聊天語料庫,是開放域的,并由用戶自發(fā)生成非故意創(chuàng)建的數(shù)據(jù)集。其中,與圖像、音頻和外部知識相關(guān)的回復占比分別為42%、10%和34%,如圖1(a)所示,聊天源于視頻內(nèi)容,圖1(b)中的“其他表演”和舞蹈分析需要一些外部知識,圖1(c)中的對話建立在音頻內(nèi)容之上。

58a35c12-a808-11ed-bfe3-dac502259ad0.png

最后采用排名、相關(guān)性和多樣性三種度量指標對現(xiàn)有生成模型進行分析,發(fā)現(xiàn)模型與人類表現(xiàn)仍有很大差距,在TikTalk數(shù)據(jù)集上有相當大的改進空間。

TikTalk Dataset

TikTalk數(shù)據(jù)集從抖音上采集,其抖音擁有超過25個大類的視頻,如教育、美食、游戲、旅游、娛樂等。每個視頻都有作者提供的標題和用戶的評論。用戶可以在視頻和一級評論下進行進一步的討論,這接近于現(xiàn)實世界面對面的多模態(tài)聊天場景。

Data Construction

該論文收集了2021年在抖音上發(fā)布的視頻,以及標題、評論和回復。為了保護隱私,沒有抓取任何用戶信息。由于視頻基數(shù)大,視頻質(zhì)量良莠不齊,大部分視頻只有一級評論,無法構(gòu)成對話語料庫。由于視頻高贊、評論高贊表示用戶評分高,因此在爬取數(shù)據(jù)時通過點贊數(shù)過濾低質(zhì)量的視頻和評論。

數(shù)據(jù)清理時,用正則表達式過濾掉句子中無用的內(nèi)容,例如:“@某人”、重復的詞語、以及一些不道德的言論等;此外,評論中帶有的表情符號,通常可以表明用戶的情緒,因此,從對話中提取它們,并作為附加信息。

Data Statistics

該論文共爬取153340個視頻,最終獲取38703個視頻和367670個對話來構(gòu)建TikTalk數(shù)據(jù)集。將訓練集、驗證集和測試集按照35703、1000和2000進行劃分,詳細統(tǒng)計數(shù)據(jù)見表2。

58b595ee-a808-11ed-bfe3-dac502259ad0.png

可以看出,視頻平均長度為34.03s,提供了豐富的視頻和音頻信息;每段對話的平均輪數(shù)為2.25,由于對話的文本上下文較短,回復更有可能來自視頻或外部知識。

Data Analysis

TikTalk數(shù)據(jù)集有如下幾個特征:

高度自發(fā)和自由,對話是由用戶觀看視頻后發(fā)起,沒有任何的預先的意圖及指導,類似于現(xiàn)實世界中的日常閑聊。

多種模式,對話上下文包括相關(guān)的圖像、音頻和文本,提供了更多樣化的信息來源,同時也對聊天場景進行了更多的限制,提高了回答的可信度標準。

開放領(lǐng)域的,由于社交平臺是開放域的,討論話題也十分豐富。

觀察數(shù)據(jù)發(fā)現(xiàn),對話回復中經(jīng)常包含與上下文信息相關(guān)的詞語,例如:圖1(a)中的“it”為視頻中的“海鷗”,圖1(c)中討論了音頻描述的故事,圖1(b)中的回復中為上下文觀點,并分析了視頻外的其他節(jié)目,與個人經(jīng)驗及常識相關(guān)。因此,該論文分析了數(shù)據(jù)及中數(shù)據(jù)與各種信息相關(guān)的響應占比,包括視頻中的視覺內(nèi)容和音頻內(nèi)容、文本內(nèi)容及隱形的外部知識。采用眾包的方式進行數(shù)據(jù)標注,并選擇另外其他三個具有代表性的對話數(shù)據(jù)集(每個數(shù)據(jù)集隨機選取300個樣本)進行對比。

從回復中提取名詞和代詞,要求標注人員判斷這些詞語或完整的回復是否是指:(1)視頻上下文;(2)音頻上下文;(3)文本上下文;(4)隱藏外部知識;(5)其他。并且,回復可以涉及多種模式的信息。

四種數(shù)據(jù)的比較如圖2(a)所示。TikTalk數(shù)據(jù)除去文本上下文和外部知識后,信息源占比最高,表示視頻中的圖像和音頻可以提供更多的信息。來自外部知識的回復比例最高(約33%,說明),說明多模態(tài)上下文更豐富時,會引入更多與當前對話相關(guān)的新信息。

58f0acc4-a808-11ed-bfe3-dac502259ad0.png

進一步探究IGC和TikTalk之間的差異,研究當對話輪數(shù)數(shù)增加時,IGC和TikTalk對不同上下文的依賴性,如圖2(b)和(c)所示。IGC數(shù)據(jù)集中圖像與對話的比例顯著下降,而TikTalk數(shù)據(jù)集中沒有這種趨勢??赡苁且驗镮GC的每個對話中只使用一個圖像,隨著時間的推移,可用的信息越來越少。

Experiments

采用三個自動指標(相關(guān)性、排序、多樣性),從多個角度評估模型在TikTalk上的性能,

相關(guān)性:針對模型生成的回復,與5個金標準計算BLEU-2、BLEU-4 、Meteor、Rouge-L和CIDEr。

排序:每段對話構(gòu)建一個100個樣本的候選集,其中包括5個金標準和95個隨機選擇的錯誤回復。在推理階段,模型根據(jù)生成每個回復的對數(shù)似然分數(shù)降序?qū)蜻x集進行排序。計算Recall@K和Mean Rank。

多樣性:計算回復的Dist-1和Dist-2指標。

從不同的任務和設置中評估一些最先進的對話模型,包括:Livebot、DialoGPT、Maria、Maria-Audio、Maria-C3KG等。為了適應TikTalk的特點,在現(xiàn)有的基于圖像的對話模型中引入音頻和外部知識作為輸入,并分別對模型的性能進行評估。

實驗結(jié)果如表3所示,可以看出TikTalk與以前的任務和數(shù)據(jù)集有很大不同,需要更強大的多模態(tài)對話模型。

590947b6-a808-11ed-bfe3-dac502259ad0.png

從測試集和上述基線模型生成結(jié)果中選擇了一些數(shù)據(jù)示例,對比結(jié)果如圖3所示。由于視頻場景和用戶個性的多樣性,TikTalk數(shù)據(jù)集需要復雜的理解和推理能力。雖然部分基線偶爾可以產(chǎn)生一些合理的響應,但它們遠遠不能滿足現(xiàn)實世界多模式對話的期望。

591d544a-a808-11ed-bfe3-dac502259ad0.png

總結(jié)

中文數(shù)據(jù)集,且用且珍惜。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • IGCT
    +關(guān)注

    關(guān)注

    2

    文章

    28

    瀏覽量

    16049
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24530

原文標題:中文多模態(tài)對話數(shù)據(jù)集-TikTalk

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    基于模態(tài)特征數(shù)據(jù)標記遷移學習方法的早期阿爾茨海默病診斷

    針對當前基于機器學習的早期阿爾茨海默?。ˋD)診斷中訓練樣本不足的問題,提出種基于模態(tài)特征數(shù)據(jù)標記遷移學習方法,并將其應用于早期阿爾
    發(fā)表于 12-14 11:22 ?3次下載

    文化場景下的模態(tài)情感識別

    自動情感識別是非常具有挑戰(zhàn)性的課題,并且有著廣泛的應用價值.本文探討了在文化場景下的模態(tài)情感識別問題.我們從語音聲學和面部表情等
    發(fā)表于 12-18 14:47 ?0次下載

    關(guān)于模態(tài)機器學習綜述論文

    因此,當研究問題或數(shù)據(jù)包括多個這樣的模態(tài)時,其特征在于模態(tài)。 本文主要關(guān)注但不僅僅關(guān)注三種形式:自然語言既可以是書面的,也可以是口頭的;
    的頭像 發(fā)表于 01-21 13:38 ?8675次閱讀

    基于注意力神經(jīng)網(wǎng)絡的模態(tài)情感分析方法

    近年來,越來越多的人熱衷于在社交媒體上同時用圖片和文本等媒體形式表達自己的感受與看法,使得以圖片和文本為主要內(nèi)容的模態(tài)數(shù)據(jù)不斷増長。相比單模態(tài)數(shù)據(jù)
    發(fā)表于 04-28 14:41 ?8次下載
    基于注意力神經(jīng)網(wǎng)絡的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>情感分析方法

    DocumentAI的模型、任務和基準數(shù)據(jù)

    隨著最近幾年模態(tài)大火的,越來越多的任務都被推陳出新為模態(tài)版本。譬如,傳統(tǒng)對話任務,推出了考慮視覺信息的
    的頭像 發(fā)表于 08-22 09:55 ?1708次閱讀

    面向社交媒體的模態(tài)屬性級情感分析

    方面,相比于單的文本數(shù)據(jù),模態(tài)數(shù)據(jù)包含了多種不同信息,這些信息之間往往一一對應、互為補充
    的頭像 發(fā)表于 10-19 10:10 ?1679次閱讀

    中文模態(tài)對話數(shù)據(jù)

    隨著大量預訓練語言模型在文本對話任務中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對話中引入模態(tài)信息已經(jīng)引起了大量學者的關(guān)注。目前已經(jīng)提出了各種各樣的
    的頭像 發(fā)表于 02-22 11:03 ?1198次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對話<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    模態(tài)GPT:國內(nèi)發(fā)布款可以在線使用的模態(tài)聊天機器人!

    基于開源模態(tài)模型 OpenFlamingo,作者使用公開數(shù)據(jù)創(chuàng)建了各種視覺指令數(shù)據(jù),包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視
    的頭像 發(fā)表于 05-12 09:55 ?1072次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>GPT:國內(nèi)發(fā)布<b class='flag-5'>一</b>款可以在線使用的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>聊天機器人!

    模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)MIMIC-IT

    然而,理想的 AI 對話助手應該能夠解決涉及多種模態(tài)的任務。這需要獲得多樣化和高質(zhì)量的
    的頭像 發(fā)表于 06-12 16:36 ?630次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>上下文指令調(diào)優(yōu)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>MIMIC-IT

    模態(tài)數(shù)據(jù)定制服務:提升智能化應用的關(guān)鍵利器

    可以獲得更準確、全面且豐富的信息,為智能化應用提供強有力的支持。在這方面,數(shù)據(jù)堂是您的理想合作伙伴。 作為家領(lǐng)先的數(shù)據(jù)科技公司,數(shù)據(jù)堂致力于提供
    的頭像 發(fā)表于 06-18 21:24 ?390次閱讀

    VisCPM:邁向多語言模態(tài)大模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進,模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能(AGI)目標的下一個
    的頭像 發(fā)表于 07-10 10:05 ?631次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時代

    全球首個面向網(wǎng)聯(lián)智能車的通信與模態(tài)感知數(shù)據(jù)發(fā)布

    7月2日,2023中國智能車大會暨國家智能車發(fā)展論壇在廣州南沙盛大開幕。會上重磅發(fā)布全球首個面向網(wǎng)聯(lián)智能車的包含車和多路端的通信與模態(tài)感知數(shù)據(jù)
    的頭像 發(fā)表于 07-13 15:20 ?636次閱讀

    更強更通用:智源「悟道3.0」Emu模態(tài)大模型開源,在模態(tài)序列中「補全切」

    熱度。Flamingo 具備強大的模態(tài)上下文少樣本學習能力。 Flamingo 走的技術(shù)路線是將大語言模型與預訓練視覺編碼器結(jié)合,并插入可學習的層來捕捉跨
    的頭像 發(fā)表于 07-16 20:45 ?612次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補全<b class='flag-5'>一</b>切」

    人工智能領(lǐng)域模態(tài)的概念和應用場景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的
    的頭像 發(fā)表于 12-15 14:28 ?7226次閱讀