欧美国产一区二区三区激情无套,亚洲色一区二区三区

【導(dǎo)語】繼圖像領(lǐng)域之后，現(xiàn)在的 CV 領(lǐng)域，大家都在研究哪些內(nèi)容？近日，F(xiàn)acebook AI 實(shí)驗(yàn)室的 Christoph Feichtenhofer、何愷明等人發(fā)表一篇論文，在視頻識別領(lǐng)域提出了一種 SlowFast 網(wǎng)絡(luò)，并且在沒有預(yù)訓(xùn)練模型情況下，此網(wǎng)絡(luò)在 Kinetics 數(shù)據(jù)集上取得79.0% 的準(zhǔn)確率，是當(dāng)前該數(shù)據(jù)集上的最佳表現(xiàn)。在 AVA 動作檢測數(shù)據(jù)集上，同樣實(shí)現(xiàn)了 28.3 mAP 的最佳水準(zhǔn)。

到底 SlowFast 網(wǎng)絡(luò)是怎樣的設(shè)計(jì)、有什么特征、效果如何，下面就一起來看一下~

對于圖像識別任務(wù)，給定一張圖像 I（x, y），對稱地處理圖像的空間維度 x、y 是一種很常見的做法，而自然圖像的統(tǒng)計(jì)數(shù)據(jù)也證明了這種做法的合理性—自然圖像具有各向同性（即所有方向具有相同的可能性）和平移不變性。

然而，對于視頻信號 I（x, y, t）而言，我們不能這樣對稱地處理時空信號。因?yàn)閯幼魇欠较虻臅r空產(chǎn)物，但并非所有的時空方向都擁有相同的可能性。如果這樣，那么我們就不能像基于時空卷積（spatiotemporal convolutions）的視頻識別方法那樣，對稱地處理空間和時間信息。相反，我們需要分解這種結(jié)構(gòu)，并分開處理空間結(jié)構(gòu)和時間事件。

受此啟發(fā)，本研究提出了一種用于視頻識別的 SlowFast 雙路徑模型，一條路徑 slow pathway更關(guān)注空間域的語義信息，以低幀率，緩慢的刷新速度運(yùn)行，用于捕獲圖像或幾個稀疏幀提供的語義信息；而另一條路徑 fast pathway以高時間分辨率、快速刷新在所有中間層運(yùn)行，捕獲快速變化的動作信息，輕量級，整體的計(jì)算開銷小。此外，這種快慢結(jié)合的雙路徑二者在結(jié)構(gòu)上通過側(cè)向連接（lateral connection）進(jìn)行融合，以不同的速率處理原始視頻。

圖1 SlowFast 網(wǎng)絡(luò)由低幀率、低時間分辨率的 Slow 路徑和高幀率、高時間分辨率 (是 Slow 路徑時間分辨率的 α 倍) 的 Fast 路徑構(gòu)成。使用減少通道容量輕量化 Fast 路徑，并通過側(cè)向連接的方式連接 Slow 路徑和 Fast 路徑。圖中該樣本來自 AVA 數(shù)據(jù)集。

SlowFast 模型

如上圖所示，SlowFast 網(wǎng)絡(luò)的整體結(jié)構(gòu)，包含 Slow pathway、Fast pathway 及其側(cè)向連接（lateral connection）部分。其中，Slow pathway 可以是任意的卷積模型，用于處理視頻的空間信息體量。為了與 Slow pathway 對應(yīng)，F(xiàn)ast pathway 也是卷積結(jié)構(gòu)的模型，但需要具有高幀率，高時間分辨率、低通道容量等特點(diǎn)。

為了將快慢兩條途徑的信息融合在一起，作者采用側(cè)向連接（lateral connection）的方式來實(shí)現(xiàn)。側(cè)向連接技術(shù)已被廣泛用于融合基于光流的雙流網(wǎng)絡(luò)，而在圖像目標(biāo)檢測任務(wù)中，橫向連接作為一種流行的融合的技術(shù)，能夠?qū)⒖臻g分辨率和語義水平特征融合在一起。在這里作者在快慢路徑之間引入一個橫向連接，即每個“階段”的兩條路徑（如上圖1所示）。具體而言，對于 ResNets 網(wǎng)絡(luò)，這些側(cè)向連接分別在 pool1，res2，res3 和 res4 層之后。而對于 slow-fast 網(wǎng)絡(luò)，由于兩條路徑存在差異，因此側(cè)向連接需要通過轉(zhuǎn)換過程以便匹配各自的路徑，即采用單向連接的方式來將 Fast 的特征融合到 Slow 路徑上。最后，在每條路徑的輸出后引入一個全局平均池化操作，并將兩個池化特征向量連接，作為全連接分類層的輸入。更多具體的信息可以查看論文中的詳細(xì)介紹。

值得一提的是，這種快慢結(jié)合方法是受到靈長類視覺系統(tǒng)中視網(wǎng)膜神經(jīng)節(jié)細(xì)胞的生物學(xué)研究啟發(fā)的。生物學(xué)研究結(jié)果發(fā)現(xiàn)，在這些細(xì)胞中約 80% 是小細(xì)胞 P-cell，它能夠提供良好的空間細(xì)節(jié)和顏色，但時間分辨率較低；而另外有大約 15-20% 的細(xì)胞是大細(xì)胞 M-cell，它以較高的時間頻率工作，對時間變化更加敏感，但對空間細(xì)節(jié)和顏色不敏感。SlowFast 網(wǎng)絡(luò)的提出正是受此啟發(fā)，兩條路徑構(gòu)成，分別以低時間分辨率和高時間分辨率工作，對應(yīng)于 P-cell 和 M-cell 的作用。

SlowFast 是一種通用的網(wǎng)絡(luò)框架，可以進(jìn)行實(shí)例化，適配各種的主干網(wǎng)絡(luò)。在這里，作者所采用的 SlowFast 網(wǎng)絡(luò)參數(shù)如下圖2所示：

圖2 SlowFast 網(wǎng)絡(luò)的實(shí)例化。核維度表示為 {T×S^2 , C}，其中 T 表示時間分辨率，S 表示空間語義而 C 表示通道數(shù)。步長表示為 {temporal stride, spatial stride^2}。此外，速度比率是α = 8，通道比率是 β = 1/8。τ = 16。圖中綠色表示 Fast 路徑較高的時間分辨率，橙色表示 Fast 路徑較少的通道數(shù)，下劃線表示非退化時間濾波器（non-degenerate temporal filter）。方括號內(nèi)表示的是殘差塊結(jié)構(gòu)。骨干網(wǎng)絡(luò)采用的是 ResNet-50。

實(shí)驗(yàn)

SlowFast 網(wǎng)絡(luò)在 Kinetics 和 AVA 數(shù)據(jù)集上具體表現(xiàn)如何？我們通過研究中的一些實(shí)驗(yàn)數(shù)據(jù)對比看一下各數(shù)據(jù)結(jié)果。

▌Kinetics 數(shù)據(jù)集的動作分類

對于視頻動作分類，作者采用 Kinetics-400 數(shù)據(jù)集，其中包含約 240k 個訓(xùn)練視頻數(shù)據(jù)和20k個驗(yàn)證數(shù)據(jù)，共涵蓋400種動作類別。實(shí)驗(yàn)結(jié)果得到 Top1 和 Top5 的分類準(zhǔn)確性，單條 Slow 網(wǎng)絡(luò)與 SlowFast 網(wǎng)絡(luò)的性能對比，以及 SlowFast 網(wǎng)絡(luò)與 Kibetics-400 數(shù)據(jù)集上當(dāng)前最佳模型之間的性能對比，詳細(xì)結(jié)果如下圖3，圖4，圖5所示。

圖3 Kinetics-400 數(shù)據(jù)集動作分類結(jié)果，包括 top-1 和 top-5 分類準(zhǔn)確度，以及計(jì)算復(fù)雜度 GFLOPs。

圖4 Kinetics-400 數(shù)據(jù)集上 Slow-only 網(wǎng)絡(luò)與 SlowFast 網(wǎng)絡(luò)的性能對比；top-1 訓(xùn)練誤差 (虛線表示) 和驗(yàn)證誤差 (實(shí)線表示)。

圖5 Kinetics-400 數(shù)據(jù)集上當(dāng)前最佳模型與 SlowFast 網(wǎng)絡(luò)的性能對比。

▌AVA 數(shù)據(jù)集的動作檢測

對于視頻動作檢測，作者采用 AVA 數(shù)據(jù)集，其中包含有 211k 個訓(xùn)練數(shù)據(jù)和 57k 個驗(yàn)證數(shù)據(jù)，共涵蓋 60 種動作類別。實(shí)驗(yàn)結(jié)果得到 60 個類別的平均精度 mAP 值，SlowFast 網(wǎng)絡(luò)與 AVA 數(shù)據(jù)集上當(dāng)前最佳模型之間的性能對比，以及 AVA 數(shù)據(jù)集動作檢測結(jié)果的可視化過程，詳細(xì)結(jié)果如下圖 6，圖 7，圖 8 所示。

圖6 AVA 數(shù)據(jù)集上每個類別的 AP：Slow-only 模型的 19.0 mAP vs. SlowFast 模型的 24.2 mAP。其中，黑色突出顯示的是絕對增長最高的5個類別，而這里實(shí)例化的 SlowFast 網(wǎng)絡(luò)并不是最佳的模型。

圖7 AVA 數(shù)據(jù)集上最佳模型與 SlowFast 網(wǎng)絡(luò)的性能對比。其中，++ 表示在測試過程引入了諸如水平翻轉(zhuǎn)的圖像增強(qiáng)操作。

圖8 可視化 AVA 數(shù)據(jù)集的動作檢測結(jié)果。其中真實(shí)的標(biāo)簽用紅色表示，而 SlowFast 模型在驗(yàn)證集上的預(yù)測結(jié)果用綠色表示。

總結(jié)

本文提出了一種用于視頻識別的 SlowFast 網(wǎng)絡(luò)。該模型由兩部分組成：以低幀率運(yùn)行以捕捉空間語義信息的 Slow pathway；以高幀率運(yùn)行捕捉較好時序分辨率的運(yùn)動信息的 Fast pathway。通過減少通道容量，所設(shè)計(jì)的 Fast pathway 是個非常輕量級的、同時又能夠?qū)W(xué)習(xí)到有用的時間信息用于視頻識別的網(wǎng)絡(luò)。

SlowFast 網(wǎng)絡(luò)在視頻動作分類及檢測任務(wù)上展現(xiàn)了強(qiáng)大的性能，同時這種快慢結(jié)合思想的提出也為視頻目標(biāo)識別和檢測領(lǐng)域做出了重要貢獻(xiàn)。實(shí)驗(yàn)結(jié)果表明，在沒有使用任何預(yù)訓(xùn)練模型的情況下，SlowFast 網(wǎng)絡(luò)在 Kinetics 數(shù)據(jù)集上取得了 79.0% 的準(zhǔn)確率，大大超過了以前同類方法的最佳結(jié)果。而在 AVA 動作檢測數(shù)據(jù)集上，該網(wǎng)絡(luò)同樣實(shí)現(xiàn)了 28.3 mAP 的當(dāng)前最佳水準(zhǔn)。

總的來說，時間維度是視頻任務(wù)中一個特殊的因素，本文的 SlowFast 網(wǎng)絡(luò)框架考慮時間維度上不同的速度對時空信息捕捉的影響，實(shí)例化的 SlowFast 模型在 Kinetics 和 AVA 數(shù)據(jù)集上實(shí)現(xiàn)當(dāng)前最佳的視頻動作分類和檢測結(jié)果，希望這種快慢結(jié)合的設(shè)計(jì)理念能夠促進(jìn)視頻識別領(lǐng)域未來的研究。有關(guān)的項(xiàng)目代碼將會在近期開源。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴