日本高清二三四本2021第九页,被猛男房东cao到哭h

1.簡(jiǎn)介

隨著預(yù)訓(xùn)練模型的發(fā)展，研究者也開始嘗試將預(yù)訓(xùn)練模型的架構(gòu)和方法應(yīng)用于多模態(tài)任務(wù)當(dāng)中。在圖片-文本多模態(tài)任務(wù)當(dāng)中，預(yù)訓(xùn)練模型的應(yīng)用已經(jīng)取得了出色的表現(xiàn)。相比于圖片，視頻內(nèi)容中包含的信息更加豐富而冗余，多幀之間可能包含高度相似的畫面。與圖片不同，視頻內(nèi)容中自然地包含了時(shí)序信息，隨著視頻時(shí)間長(zhǎng)度的增長(zhǎng)，其包含的時(shí)序信息也愈加豐富。同時(shí)，由于視頻數(shù)據(jù)的體積相較于圖片而言也更加龐大，數(shù)據(jù)集、模型的構(gòu)建都為研究者提出了更大的挑戰(zhàn)。因此，如何更優(yōu)雅，高質(zhì)量地建立視頻-文本表示之間的聯(lián)系、進(jìn)行良好的交互，并為下游任務(wù)帶來提升，就成為了研究者們探究的問題。

本文簡(jiǎn)單梳理了當(dāng)前視頻-文本預(yù)訓(xùn)練的模型架構(gòu)及相關(guān)數(shù)據(jù)集，同時(shí)，針對(duì)視頻信息較為冗余的特點(diǎn)，對(duì)引入細(xì)粒度信息的工作進(jìn)行了簡(jiǎn)要介紹。

2. 常用預(yù)訓(xùn)練數(shù)據(jù)集

多模態(tài)預(yù)訓(xùn)練的數(shù)據(jù)通常來源于大規(guī)模的模態(tài)間對(duì)齊樣本對(duì)。由于時(shí)序維度的存在，視頻當(dāng)中包含了比圖片更加豐富而冗余的信息。因此，收集大規(guī)模的視頻-文本對(duì)齊數(shù)據(jù)對(duì)用于視頻預(yù)訓(xùn)練存在較高的難度。目前，大部分研究者所使用的公開預(yù)訓(xùn)練數(shù)據(jù)集主要包括HowTo100M[1]和WebVid[2]數(shù)據(jù)集，此外，由于視頻和圖片特征的相似性，也有非常多工作利用圖片-文本預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練，本節(jié)主要對(duì)視頻-文本預(yù)訓(xùn)練中常用的數(shù)據(jù)集進(jìn)行簡(jiǎn)單的介紹。

2.1 HowTo100M

學(xué)習(xí)視頻-文本的跨模態(tài)表示通常需要人工標(biāo)注描述的的視頻片段(clip)，而標(biāo)注一個(gè)這樣的大規(guī)模數(shù)據(jù)集非常昂貴。Miech[1]等人發(fā)布了HowTo100M數(shù)據(jù)集，幫助模型從帶有自動(dòng)轉(zhuǎn)寫的旁白文本(automatically transcribed narrations)的視頻數(shù)據(jù)中學(xué)習(xí)到跨模態(tài)的表示。HowTo100M從1.22M個(gè)帶有旁白的教學(xué)(instructional)網(wǎng)絡(luò)視頻中裁切得到了136M個(gè)視頻片段(clip)。視頻的教學(xué)內(nèi)容多由人類展示，包含了超過兩萬三千個(gè)不同的視覺任務(wù)。

圖1 HowTo100M數(shù)據(jù)集概覽研究者從WikiHow中檢索、抽取了23,611個(gè)與物理世界能夠產(chǎn)生一定交互的視覺任務(wù)，并在YouTube中通過構(gòu)造關(guān)鍵詞搜索相關(guān)的視頻，保留包含英語字幕的視頻。英文字幕通過時(shí)間軸和具體的視頻Clip構(gòu)成視頻-文本對(duì)，例子如圖2所示。

圖2 數(shù)據(jù)集中視頻-文本對(duì)的例子與之前的視頻-文本配對(duì)數(shù)據(jù)集不同，HowTo100M數(shù)據(jù)集中的描述并不是人工標(biāo)注的，由于旁白的特性，其與對(duì)應(yīng)的視頻clip在時(shí)序上可能并未對(duì)齊，同時(shí)也可能并不是完整的句子。但該數(shù)據(jù)集的規(guī)模足夠龐大，為視頻-文本預(yù)訓(xùn)練的工作進(jìn)一步提供了可能。 2.2 WebVid WebVid-2M[2]數(shù)據(jù)集包含了從網(wǎng)絡(luò)上爬取的2.5M視頻-文本數(shù)據(jù)對(duì)，與HowTo100M不同，WebVid中包含的視頻數(shù)據(jù)來自于通用領(lǐng)域。WebVid數(shù)據(jù)集的構(gòu)造方式和CC3M[3] 比較類似，研究者發(fā)現(xiàn)CC3M中超過10%的圖片事實(shí)上都是視頻的概覽，通過找到原視頻，研究者得以爬取2.5M的視頻-文本對(duì)。圖3展示了數(shù)據(jù)集中的一些樣例，WebVid中的視頻描述風(fēng)格多樣，包含精簡(jiǎn)亦或細(xì)節(jié)性的描述。

圖3 WebVid數(shù)據(jù)集的例子表1列出了現(xiàn)有的部分視頻文本數(shù)據(jù)集的統(tǒng)計(jì)信息，相比于HowTo100M數(shù)據(jù)集，WebVid的規(guī)模僅有不到其1/10。但數(shù)據(jù)集中的文本通常是人工撰寫的描述，具有較好的句子結(jié)構(gòu)，與視頻具有更好的匹配性，同時(shí)也避免了由于ASR撰寫帶來的語法錯(cuò)誤。表1 視頻-文本數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)[2]

2.3 Conceptual Captions 視頻是由多幀靜態(tài)圖片組合而成，由于視頻資源收集的難度較大，研究人員也常使用大規(guī)模圖片文本數(shù)據(jù)集來擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模，增強(qiáng)模型的泛化性。Conceptual Captions[3] 由Google的研究人員于2018年發(fā)布，研究人員通過從數(shù)十億的網(wǎng)頁中提取、過濾得到了大規(guī)模的圖片-描述文本對(duì)。為了使圖片描述更加干凈易用，其基于描述文本和圖片自動(dòng)生成了對(duì)應(yīng)的轉(zhuǎn)換描述，稱之為Conceptual Captions。數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表2所示。

表3 Conceptual Captions的統(tǒng)計(jì)數(shù)據(jù)[3]

3. 模型架構(gòu) 視頻-文本預(yù)訓(xùn)練模型涉及到對(duì)視頻、文本的編碼和處理，通?？梢源致缘胤譃閱瘟?Single-Stream)架構(gòu)和多流(Multi-Stream)架構(gòu)。對(duì)于Single-Stream架構(gòu)的模型，不同模態(tài)的特征/表示被輸入到一個(gè)單獨(dú)的跨模態(tài)編碼器中，捕捉他們的模態(tài)內(nèi)/間交互信息。而對(duì)于Multi-Stream架構(gòu)，視頻、文本將被輸入到各自模態(tài)獨(dú)立的編碼器中，捕捉模態(tài)內(nèi)部的表示信息，再通過不同的方式建立跨模態(tài)的聯(lián)系。本節(jié)將對(duì)不同架構(gòu)的模型進(jìn)行簡(jiǎn)單介紹，對(duì)于引入更細(xì)粒度信息的模型，我們將在后面的章節(jié)進(jìn)行介紹。 3.1 Single-Stream 3.1.1VideoBERT VideoBERT[4]是第一個(gè)利用Transformer架構(gòu)探究視頻-文本表示的預(yù)訓(xùn)練模型。從BERT[5]中獲得啟發(fā)，研究人員嘗試將視頻內(nèi)容進(jìn)行量化，對(duì)于視頻Clip進(jìn)行編碼，聚類，從中抽取得到離散的表示，稱之為視覺詞語(video words)，對(duì)于每一個(gè)視頻，其都可以由多個(gè)視覺詞語進(jìn)行表示，并能夠和文本一同輸入到編碼器中進(jìn)行聯(lián)合的表示學(xué)習(xí)，其架構(gòu)如圖4所示。

圖4 VideoBERT模型架構(gòu)[4] 與BERT相似，VideoBERT引入了文本、視頻兩個(gè)模態(tài)的掩碼完型任務(wù)(mask-completion)，具體而言，就是利用上下文和跨模態(tài)信息恢復(fù)被[MASK]標(biāo)簽遮蓋的視頻/文本token。同時(shí)，為了建?？缒B(tài)之間的關(guān)聯(lián)性，VideoBERT也利用[CLS]標(biāo)簽位置的編碼判斷視頻和文本之間是否時(shí)序/語義對(duì)齊。 3.1.2 ClipBERT 前人工作通常使用在不同領(lǐng)域預(yù)訓(xùn)練的視頻編碼器抽取得到的密集(dense)視頻特征，ClipBERT[6] 利用了視頻和圖片之間的相似性，通過對(duì)視頻進(jìn)行稀疏(sparse)采樣的方式對(duì)其進(jìn)行編碼，并實(shí)現(xiàn)了端到端的預(yù)訓(xùn)練。具體而言，研究人員隨機(jī)采取多個(gè)視頻片段(Clip)，對(duì)于每個(gè)視頻片段進(jìn)行稀疏采樣，以視頻幀為單位進(jìn)行編碼得到表示；對(duì)于不同Clip不同幀的表示，可以進(jìn)行時(shí)空上的信息融合，得到的表示將和文本編碼共同輸入到Transformer架構(gòu)的編碼器當(dāng)中，如圖5所示。以視頻幀為單位進(jìn)行編碼，使得模型能夠僅利用圖片-文本數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練（將圖片看作只有一幀的視頻），再在下游任務(wù)上利用視頻進(jìn)行訓(xùn)練。在預(yù)訓(xùn)練階段，模型僅僅采用掩碼語言建模，以及利用[CLS]標(biāo)簽進(jìn)行視覺-文本匹配，來學(xué)習(xí)跨模態(tài)的表示。

圖5 ClipBERT架構(gòu)[6] 3.1.3 VLM VLM[7]提出了一個(gè)簡(jiǎn)單、下游任務(wù)無關(guān)的預(yù)訓(xùn)練方法，統(tǒng)一了視頻、文本的表示，能夠接受視頻、文本的單模態(tài)輸入，亦或視頻-文本的聯(lián)合輸入。如圖6所示，模型引入了掩碼表示建模(視頻幀或者文本token)來建立模態(tài)內(nèi)部的表示；同時(shí)引入掩碼模態(tài)建模任務(wù)(MMM)，一次性遮蓋整個(gè)視頻或整個(gè)文本模態(tài)，指導(dǎo)模型利用跨模態(tài)交互來恢復(fù)信息。

圖6 VLM的預(yù)訓(xùn)練范式[7] 3.2Multi-Stream 3.2.1 CBT CBT[8]提出通過有噪對(duì)比估計(jì)(noise contrastive estimation, NCE)來學(xué)習(xí)視頻-文本的表示。CBT拓展了BERT的架構(gòu)來建立跨模態(tài)的表示，在預(yù)訓(xùn)練階段，兩個(gè)單模態(tài)的Transformer分別被用于學(xué)習(xí)視頻和文本的表示，并利用一個(gè)跨模態(tài)Transformer來建立兩個(gè)模態(tài)的聯(lián)合表示。由于視頻特征是連續(xù)的，對(duì)于視頻的單模態(tài)編碼器和跨模態(tài)編碼器，模型通過有噪對(duì)比估計(jì)來學(xué)習(xí)其表示。具體而言，對(duì)于單模態(tài)視頻編碼器，其損失函數(shù)具有如下的形式：

其中是 3D 編碼器的編碼輸出，而是視頻 Transformer 的編碼輸出。而對(duì)于跨模態(tài) Transformer 的聯(lián)合表示，其損失函數(shù)具有如下的形式：

其中MI(x,y)代表將視頻，文本模態(tài)進(jìn)行聯(lián)合編碼之后得到的聯(lián)合隱層表示輸出。

圖7：CBT模型的架構(gòu)[8] 3.2.2 UniVL 大多數(shù)跨模態(tài)模型僅僅應(yīng)用于下游的多模態(tài)理解任務(wù)，并未過多探索跨模態(tài)的生成任務(wù)。UniVL[9]建立了一個(gè)支持生成任務(wù)和理解任務(wù)的多模態(tài)框架。其架構(gòu)大致如圖8所示，UniVL將單模態(tài)編碼器編碼后的隱向量，輸入到一個(gè)跨模態(tài)的編碼器-解碼器架構(gòu)當(dāng)中。通過NCE建立跨模態(tài)之間的相似性，使得同一個(gè)視頻-文本對(duì)，其不同模態(tài)編碼器編碼之后的結(jié)果在表示上具有較好的相關(guān)性；同時(shí)通過跨模態(tài)的掩碼語言建模和掩碼幀建模來建立跨模態(tài)的交互。同時(shí)，利用解碼器進(jìn)行文本重建，為模型引入跨模態(tài)的生成能力。編碼器-解碼器架構(gòu)的引入使得模型能夠自然地應(yīng)用到下游的描述生成任務(wù)當(dāng)中。

圖8 UniVL的框架、預(yù)訓(xùn)練任務(wù)和下游任務(wù)的應(yīng)用[9] 3.2.2 Frozen Fronzen[2]提出了一個(gè)專為檢索任務(wù)設(shè)計(jì)的預(yù)訓(xùn)練框架。將圖片看作視頻的“快照”，將圖文數(shù)據(jù)集作為視頻數(shù)據(jù)集的一部分進(jìn)行預(yù)訓(xùn)練，利用圖文數(shù)據(jù)集增大了預(yù)訓(xùn)練的規(guī)模，同時(shí)利用視頻-文本數(shù)據(jù)集學(xué)習(xí)關(guān)注視頻內(nèi)容中獨(dú)有的時(shí)序信息。為了高效地進(jìn)行跨模態(tài)檢索，作者利用單模態(tài)的編碼器編碼兩個(gè)模態(tài)的信息，并將兩個(gè)模態(tài)的信息分別投影至一個(gè)共同的表示空間，計(jì)算其相似度。其架構(gòu)大致如圖9所示。視頻以幀為單位進(jìn)行輸入，而圖片則相當(dāng)于僅包含一幀的視頻，同時(shí)，模型也引入了space-time transformer[10]來建模視頻中的時(shí)空信息。在預(yù)訓(xùn)練階段，NCE同樣被用作衡量訓(xùn)練的損失，模型交替利用視頻數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。

圖9 Frozen的模型架構(gòu)[2] 4. 預(yù)訓(xùn)練中的細(xì)粒度信息相比于圖片，視頻中包含的信息通常較為豐富而冗余，例如，在連續(xù)的幀之間，動(dòng)作、場(chǎng)景等內(nèi)容可能高度相似?；诿芗蓸拥姆椒▽?huì)極大增加計(jì)算量，而基于稀疏采樣的方式又會(huì)損失過多細(xì)粒度信息。如何從視頻內(nèi)容中提取理解視頻所需要的細(xì)粒度信息，并加以利用，增強(qiáng)對(duì)視頻內(nèi)容的理解和跨模態(tài)表示的學(xué)習(xí)，也成為研究者所探究的問題之一。 4.1 基于時(shí)空信息與圖片相比，視頻內(nèi)容中包含更加豐富的時(shí)序信息和空間信息，建模視頻中的時(shí)空信息，對(duì)理解視頻內(nèi)容具有十分重要的作用。 4.1.1 HERO 較少工作顯式地探究模型對(duì)視頻時(shí)序信息的理解。HERO[11]在單流跨模態(tài)Transformer的架構(gòu)之上，引入了一個(gè)時(shí)序Transformer來建模視頻中的時(shí)序信息，同時(shí)利用掩碼幀預(yù)測(cè)(MFM)和幀順序預(yù)測(cè)(FOM)來增強(qiáng)模型對(duì)視頻中時(shí)序信息的理解。具體而言，MFM任務(wù)要求模型通過文本信息和視頻上下文來恢復(fù)當(dāng)前幀的內(nèi)容（通過回歸或者有噪對(duì)比估計(jì)NCE的形式）；FOM則將跨模態(tài)編碼后的幀信息按比例進(jìn)行打亂，要求時(shí)序Transformer架構(gòu)嘗試?yán)靡曨l上下文和按時(shí)序排列的字幕(subtitle)信息恢復(fù)被打亂的幀的順序，如圖10所示。

圖10 HERO的模型架構(gòu)[11] 4.1.2Merlot 包含密集視頻描述(Dense caption)的視頻內(nèi)容通常包括豐富的跨模態(tài)時(shí)序?qū)R信息，Merlot[12]通過視頻幀-描述匹配(Contrastive frame-transcript matching)來建模視頻內(nèi)部的時(shí)序信息。Merlot的輸入是稀疏采樣的視頻幀，和視頻幀對(duì)應(yīng)的描述，模型通過最大化視頻幀和對(duì)應(yīng)描述的相似度，最小化和視頻內(nèi)其他幀視頻描述相似度來建立視頻和文本之間的時(shí)序?qū)R信息；與HERO不同，Merlot利用時(shí)序重排序(Temporal Reordering)任務(wù)，按比例打亂視頻幀的順序，并判斷幀之間的相對(duì)順序來指導(dǎo)模型關(guān)注視頻內(nèi)部的時(shí)序信息。

圖11 Merlot模型的架構(gòu)[12] 4.1.3 DECEMBERT HowTo100M數(shù)據(jù)集中的對(duì)齊文本通常來自于自動(dòng)語音識(shí)別(ASR)，包含較多噪聲，而人類可能還會(huì)描述已經(jīng)發(fā)生或者還未發(fā)聲的場(chǎng)景，導(dǎo)致文本和視頻片段的時(shí)序上并未完全對(duì)齊，或語義不一致。如圖12所示，DECEMBERT[13]從視頻Clip中抽重新取了較為密集的caption來緩解噪聲和語義不一致的問題；同時(shí)引入視頻片段上下文的文本描述，來緩解可能產(chǎn)生的時(shí)序不一致問題。

圖12 DECEMBERT的架構(gòu)[13] 4.1.4 Violet 許多工作將視頻看作是靜態(tài)圖片的集合，忽略了時(shí)序上信息具有一定的連續(xù)性，基于此特點(diǎn)設(shè)計(jì)的視覺掩碼任務(wù)可能會(huì)失效。Violet[14]利用Discrete VAE[22]將視頻的patch特征離散化為一系列視覺token，視頻編碼和文本編碼聯(lián)合輸入跨模態(tài)Transformer后，掩碼視覺token建模任務(wù)要求模型從視覺掩碼輸出中恢復(fù)對(duì)應(yīng)的離散視覺token，與掩碼語言建模任務(wù)得到了統(tǒng)一。同時(shí)，模型引入了基于塊(Block wise)的離散視覺掩碼任務(wù)，基于時(shí)間、空間同時(shí)掩碼多個(gè)連續(xù)位置，防止其簡(jiǎn)單地從時(shí)空連續(xù)的位置恢復(fù)被掩碼的信息。此外，一般的掩碼方法以同樣的概率遮蓋重要/不重要的位置，Violet引入了Attended Masking的方法，利用跨模態(tài)的注意力權(quán)重，嘗試遮蓋模型認(rèn)為更重要的區(qū)域，以提升掩碼任務(wù)的難度。

圖13 Violet模型架構(gòu)[14] 4.2 基于實(shí)體和動(dòng)作基于patch或者視頻級(jí)特征的編碼方式隱式地編碼了視頻中的各類信息，粗粒度的視頻-文本對(duì)齊方式可能難以挖掘視頻中包含的細(xì)粒度信息。下面的一些工作也嘗試引入了實(shí)體和動(dòng)作等更細(xì)粒度的監(jiān)督信息，增強(qiáng)跨模態(tài)的表示學(xué)習(xí)和建模。 4.2.1 ActBERT

圖14 ActBERT的模型架構(gòu)[15] 將視頻離散化，與文本共同輸入Transformer進(jìn)行跨模態(tài)聯(lián)合建模的方式可能會(huì)丟失很多細(xì)粒度的信息，ActBERT[15]通過在預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練一個(gè)視頻動(dòng)作編碼器，獲得視頻的動(dòng)作編碼，同時(shí)引入目標(biāo)檢測(cè)工具來獲得視頻內(nèi)容中的物體信息編碼。通過建立文本-動(dòng)作-視頻區(qū)域間的糾纏編碼架構(gòu)，來建立視頻動(dòng)作和區(qū)域信息與文本信息之間的交互，進(jìn)而也保留了重要的時(shí)序信息。 4.2.2 OA-Trans Multi-Stream跨模態(tài)表示學(xué)習(xí)通常建立視頻-文本之間的整體對(duì)齊，并未探究更細(xì)粒度的對(duì)齊，OA-Trans[16]引入了對(duì)關(guān)鍵幀目標(biāo)檢測(cè)得到的實(shí)體區(qū)域信息和對(duì)應(yīng)的標(biāo)簽。如圖15所示，模型將關(guān)鍵幀中不包含實(shí)體區(qū)域的位置進(jìn)行掩碼，經(jīng)過時(shí)空編碼得到剩余位置對(duì)應(yīng)的表示，同時(shí)將實(shí)體區(qū)域的類別信息輸入文本編碼器進(jìn)行編碼。簡(jiǎn)單將獲得的細(xì)粒度表示進(jìn)行對(duì)齊，將對(duì)下游任務(wù)沒有太多幫助。在不修改模型架構(gòu)的前提下，研究者嘗試建立單模態(tài)細(xì)粒度表示和另一個(gè)模態(tài)整體表示之間的相似度聯(lián)系，指導(dǎo)單模態(tài)的整體表示能夠蘊(yùn)含更多細(xì)粒度的信息，在應(yīng)用于下游任務(wù)時(shí)，預(yù)訓(xùn)練所用的細(xì)粒度表示可以被去除，而單模態(tài)的整體表示已經(jīng)一定程度上具備保留細(xì)粒度信息的能力。

圖15 OA-Trans的模型架構(gòu)[16] 4.2.3 ALPRO 引入細(xì)粒度的信息通常需要借助外部的特征抽取工具，這種做法不僅影響效率，由于特征抽取工具的類別數(shù)量等限制，效果也不盡如人意。如圖16所示，ALPRO[17]基于CLIP[18]的思想，首先基于視頻-文本對(duì)訓(xùn)練了一個(gè)視頻-文本匹配架構(gòu)(和ALRP的單模態(tài)編碼器具有相同的架構(gòu))，通過提示描述*[CLS] A video of a [object]*，根據(jù)視頻和描述的相似度，能夠識(shí)別出視頻中包含的實(shí)體。在訓(xùn)練過程中，模型隨機(jī)裁剪一段視頻，利用匹配架構(gòu)獲得視頻的實(shí)體信息作為監(jiān)督信號(hào)，引入提示實(shí)體匹配(Prompt Entity Matching)任務(wù)，要求跨模態(tài)編碼器能夠識(shí)別出對(duì)應(yīng)裁剪位置的實(shí)體信息，以此建立視頻對(duì)細(xì)粒度實(shí)體信息和場(chǎng)景的理解。

圖16 ALPRO的模型架構(gòu)[17] 4.2.4 BridgeFormer 相比于利用物體檢測(cè)的信息，BridgeFormer[19]利用多項(xiàng)選擇任務(wù)(Multiple Choice Questions)來增強(qiáng)模型對(duì)視頻中實(shí)體新信息和動(dòng)作信息的理解。具體而言，研究人員從原始文本中遮蓋動(dòng)詞或名詞短語來構(gòu)建“問題”，將文本編碼器得到的問題表示作為跨模態(tài)Transformer的查詢(Query)，將視頻內(nèi)容編碼表示作為鍵(Key)和鍵值(Value)，即將跨模態(tài)表示問題形式化為了給定問題，從視頻中進(jìn)行查詢，獲得答案的過程，在應(yīng)用于下游任務(wù)時(shí)，單模態(tài)編碼器已經(jīng)學(xué)習(xí)如何建立到了細(xì)粒度的表示跨模態(tài)模塊可以被去除。

圖17 BridgeFormer的模型架構(gòu)[19] 4.3 隱式細(xì)粒度特征相比于考慮顯式的細(xì)粒度特征，如時(shí)序、實(shí)體、動(dòng)作等信息，也有部分工作認(rèn)為除了視頻、文本的整體表示，還可以考慮幀、patch級(jí)別的不同粒度表示，來隱式編碼細(xì)粒度特征。 4.3.1 HiT 在Transformer架構(gòu)中，不同的層將聚焦于不同粒度的表示信息，例如較低層的注意力記住傾向于編碼更加基礎(chǔ)表面的表示，而更高層的注意力機(jī)制，將會(huì)捕捉更加復(fù)雜的語義信息，基于這樣的想法，HiT[20]提出了分層跨模態(tài)的對(duì)比匹配機(jī)制，來建立不同粒度的跨模態(tài)表示對(duì)齊，具體而言，模型分別從視頻、文本Query編碼器的第一層和最后一層獲得低層次特征級(jí)別和高層次語義級(jí)別的表示。并分別與另一模態(tài)的高層次編碼結(jié)果進(jìn)行表示匹配，如圖18所示。

圖18 HiT的模型架構(gòu)[20] 4.3.2 HunYuan_tvr 大部分的檢索模型都聚焦于建立視頻整體和整個(gè)對(duì)應(yīng)文本之間的表示關(guān)系，HunYuan_tvr[21]從多個(gè)層次探究了細(xì)粒度表示的關(guān)系，通過建模幀-詞語，視頻片段-短語，視頻-句子三個(gè)不同粒度跨模態(tài)表示之間的表示匹配，提出了層次化的跨模態(tài)交互方法來學(xué)習(xí)細(xì)粒度的跨模態(tài)聯(lián)系，大致如圖19所示。

圖19：HunYuan_tvr的大致模型架構(gòu)[21] 5. 總結(jié) 本文簡(jiǎn)單梳理了當(dāng)前視頻-文本預(yù)訓(xùn)練的模型架構(gòu)及相關(guān)數(shù)據(jù)集，同時(shí)，針對(duì)視頻信息較為冗余的特點(diǎn)，對(duì)引入細(xì)粒度信息的工作進(jìn)行了介紹。經(jīng)過梳理和分析我們可以發(fā)現(xiàn)，目前視頻-文本預(yù)訓(xùn)練的數(shù)據(jù)集由于收集和標(biāo)注的難度較大，可用的數(shù)據(jù)集數(shù)量和規(guī)模和圖-文預(yù)訓(xùn)練相比仍然較少，同時(shí)也缺乏更加細(xì)粒度的標(biāo)注。而為了減少對(duì)計(jì)算資源的依賴，同時(shí)更好地利用圖片-文本預(yù)訓(xùn)練數(shù)據(jù)，視頻-文本預(yù)訓(xùn)練模型從密集采樣逐漸向稀疏采樣過渡，為了彌補(bǔ)稀疏采樣帶來的信息損失和粗粒度預(yù)訓(xùn)練數(shù)據(jù)的監(jiān)督信息缺乏，不少工作也開始探索如何抽取、或者通過無監(jiān)督的方式來獲得有用的細(xì)粒度信息，進(jìn)一步增強(qiáng)細(xì)粒度的視頻-文本表示學(xué)習(xí)。在未來，構(gòu)建更大規(guī)模、更細(xì)粒度的視頻-文本預(yù)訓(xùn)練數(shù)據(jù)；考慮更加合理有用的細(xì)粒度信息為訓(xùn)練過程提供幫助；設(shè)計(jì)、利用更強(qiáng)大的單模態(tài)、跨模態(tài)模型架構(gòu)和自監(jiān)督學(xué)習(xí)任務(wù)都是值得進(jìn)一步探索的方向。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3073

瀏覽量
48587
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1199

瀏覽量
24594
文本

文本

+關(guān)注

關(guān)注
0

文章
118

瀏覽量
17047

原文標(biāo)題：視頻文本預(yù)訓(xùn)練簡(jiǎn)述

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI大模型的訓(xùn)練數(shù)據(jù)來源分析

學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開發(fā)布，涵蓋了各種類型的數(shù)據(jù)，如圖像、文本、音頻、視頻等。例如： ImageNet ：一個(gè)廣泛用于圖像識(shí)別任務(wù)的大規(guī)模圖像數(shù)據(jù)集。 Common Crawl

發(fā)表于 10-23 15:32 ?190次閱讀

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日（周三）20：00精彩開播期待與您云相聚，共襄學(xué)術(shù)盛宴！|直播信息報(bào)告題目

發(fā)表于 10-18 08:09 ?91次閱讀

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí)，還包括對(duì)語言的深層次理解，如文化背景、語境含義和情感色彩等。自監(jiān)督學(xué)習(xí)：模型

發(fā)表于 08-02 11:03

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念，它們?cè)谔岣?b class='flag-5'>模型性能、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定

發(fā)表于 07-11 10:12 ?586次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?326次閱讀

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

在人工智能和自然語言處理（NLP）領(lǐng)域，大型語言模型（Large Language Model，簡(jiǎn)稱LLM）的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練

發(fā)表于 07-10 11:03 ?846次閱讀

人臉識(shí)別模型訓(xùn)練失敗原因有哪些

人臉識(shí)別模型訓(xùn)練失敗的原因有很多，以下是一些常見的原因及其解決方案： 數(shù)據(jù)集質(zhì)量問題 數(shù)據(jù)集是

發(fā)表于 07-04 09:17 ?458次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念，尤其是在自然語言處理（NLP）和計(jì)算機(jī)視覺（CV）等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)

發(fā)表于 07-03 18:20 ?1861次閱讀

PyTorch如何訓(xùn)練自己的數(shù)據(jù)集

PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架，它以其靈活性、易用性和強(qiáng)大的動(dòng)態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時(shí)，數(shù)據(jù)集是不可或缺的組成部分。然而，很多時(shí)候，我們可能需要使用自己的

發(fā)表于 07-02 14:09 ?1015次閱讀

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

增長(zhǎng)。DeepMind在相關(guān)論文中指出，模型大小和訓(xùn)練Token數(shù)應(yīng)以相似速率增長(zhǎng)，以確保最佳性能。因此，構(gòu)建與模型規(guī)模相匹配的預(yù)

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

模型架構(gòu)奠定基礎(chǔ)。然后，引介一些經(jīng)典的預(yù)訓(xùn)練模型，如BERT、GPT等。最后，解讀ChatGPT和LLaMA系列

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實(shí)踐】核心技術(shù)綜述

其預(yù)訓(xùn)練和微調(diào)，直到模型的部署和性能評(píng)估。以下是對(duì)這些技術(shù)的綜述：模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)

發(fā)表于 05-05 10:56

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領(lǐng)域的尖端技術(shù)，憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí)，利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然語言文本。這些模型通過訓(xùn)練海量的

發(fā)表于 05-04 23:55

大模型數(shù)據(jù)集：突破邊界，探索未來

隨著人工智能技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在自然語言處理領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)

發(fā)表于 12-06 16:10 ?566次閱讀

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來趨勢(shì)

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在各個(gè)領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)

發(fā)表于 12-06 15:28 ?1402次閱讀

搜索歷史

文本預(yù)訓(xùn)練的模型架構(gòu)及相關(guān)數(shù)據(jù)集

評(píng)論

AI大模型的訓(xùn)練數(shù)據(jù)來源分析

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

大語言模型的預(yù)訓(xùn)練

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

人臉識(shí)別模型訓(xùn)練失敗原因有哪些

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

PyTorch如何訓(xùn)練自己的數(shù)據(jù)集

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實(shí)踐】核心技術(shù)綜述

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

大模型數(shù)據(jù)集：突破邊界，探索未來

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來趨勢(shì)