最新国产aⅴ精品无码,国产精品亚洲精品欧美日本精品

清華大學(xué)、Google AI 和斯坦福大學(xué)李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網(wǎng)絡(luò)，強化了 LSTM 的長時記憶能力，這為視頻預(yù)測、動作分類等相關(guān)問題提供了新思路，是一項非常具有啟發(fā)性的工作。

如何對時間序列進行時空建模及特征抽取，是 RGB 視頻預(yù)測分類，動作識別，姿態(tài)估計等相關(guān)領(lǐng)域的研究熱點。

清華大學(xué)、Google AI 和斯坦福大學(xué)李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網(wǎng)絡(luò)，用 3D 卷積代替 2D 卷積作為 LSTM 網(wǎng)絡(luò)的基礎(chǔ)計算操作，并加入自注意力機制，使網(wǎng)絡(luò)能同時兼顧長時和短時信息依賴以及局部時空特征抽取。

這為視頻預(yù)測、動作分類等相關(guān)問題提供了新思路，是一項非常具有啟發(fā)性的工作。

時間序列的時空建模問題

現(xiàn)實生活中許多數(shù)據(jù)都同時具有時間特征和空間特征，例如人體的運動軌跡，連續(xù)幀的視頻等，每個時間點都對應(yīng)一組數(shù)據(jù)，而數(shù)據(jù)往往又具有一定的空間特征。因此要在這樣的時間序列數(shù)據(jù)上開展分類，預(yù)測等工作，就必須在時間（temporal）和空間（spatial）上對其進行建模和特征抽取。

常用的時間建模工具是循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）相關(guān)模型（LSTM 等），由于其特有的門結(jié)構(gòu)設(shè)計，對時間序列特征具有強大的抽取能力，因此被廣泛應(yīng)用于預(yù)測問題并取得了良好的成果，但是 RNN 并不能很好的學(xué)習(xí)到原始特征的高階表示，這不利于對空間信息的提取?？臻g建模則當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò)（CNN），其具有強大的空間特征抽取能力，其中3D-CNN又能將卷積核可控范圍擴大到時域上，相對于 2D 卷積靈活性更高，能學(xué)習(xí)到更多的運動信息（motion 信息），相對于 RNN 則更有利于學(xué)習(xí)到信息的高級表示（層數(shù)越深，信息越高級），是目前動作識別領(lǐng)域的流行方法。當(dāng)然 3D 卷積的時間特征抽取能力并不能和 RNN 媲美。

得益于 3D 卷積和 RNN 在各自領(lǐng)域的成功，如何進一步將二者結(jié)合起來使用也成為了研究熱點，常見的簡單方法是將二者串聯(lián)堆疊或者并聯(lián)結(jié)合（在圖卷積網(wǎng)絡(luò)出現(xiàn)之前，動作識別領(lǐng)域的最優(yōu)方法就是將 CNN 和 RNN 并聯(lián)），但測試發(fā)現(xiàn)這么做并不能帶來太大的提升，這是因為二者的工作機制差距太大，簡單的結(jié)合并不能很好的實現(xiàn)優(yōu)勢互補。本文提出用 3D 卷積代替原始 LSTM 中的門更新操作，使 LSTM 不僅能在時間層面，也能在空間層面上進行短期依賴的表象特征和運動特征的抽取，從而在更深的機制層面實現(xiàn)兩種網(wǎng)絡(luò)的結(jié)合。此外，在 LSTM 中引入自注意力（self-attention）機制，進一步強化了 LSTM 的長時記憶能力，使其對長距離信息作用具有更好的感知力。作者將這種網(wǎng)絡(luò)稱為Eidetic 3D LSTM（E3D-LSTM），Eidetic 意思是具有逼真記憶，強調(diào)網(wǎng)絡(luò)的強記憶能力。

E3D-LSTM 網(wǎng)絡(luò)結(jié)構(gòu)

圖 1：三種不同的 3D 卷積和 LSTM 的結(jié)合方法

圖中每個顏色的模塊都代表了多層相應(yīng)的網(wǎng)絡(luò)。圖（a）和圖（b）是兩種 3D 卷積和 LSTM 結(jié)合的基線方法，3D 卷積和 LSTM 線性疊加，主要起到了編碼（解碼器）的作用，并沒有和 RNN 有機制上的結(jié)合。圖（a）中 3D 卷積作為編碼器，輸入是一段視頻幀，圖（b）中作為解碼器，得到每個單元的最終輸出。這兩個方法中的綠色模塊使用的是時空長短時記憶網(wǎng)絡(luò)（ST-LSTM）［1］，這種 LSTM 獨立的維護兩個記憶狀態(tài) M 和 C，但由于記憶狀態(tài) C 的遺忘門過于響應(yīng)具有短期依賴的特征，因此容易忽略長時依賴信息，因此 E3D-LSTM 在 ST-LSTM 的基礎(chǔ)添加了自注意力機制和 3D 卷積操作，在一定程度上解決了這個問題。具體單元結(jié)構(gòu)下一節(jié)介紹。

圖（c）是 E3D-LSTM 網(wǎng)絡(luò)的結(jié)構(gòu)，3D 卷積作為編碼 - 解碼器（藍色模塊），同時和 LSTM 結(jié)合（橙色模塊）。E3D-LSTM 既可用于分類任務(wù)，也可用于預(yù)測任務(wù)。分類時將所有 LSTM 單元的輸出結(jié)合，預(yù)測時則利用 3D 卷積解碼器的輸出作為預(yù)測值。

E3D-LSTM 單元結(jié)構(gòu)設(shè)計

圖 2：標(biāo)準(zhǔn) LSTM 單元結(jié)構(gòu)

首先簡要介紹一下標(biāo)準(zhǔn) LSTM 結(jié)構(gòu)，和 RNN 相比 LSTM 增加了更復(fù)雜的門結(jié)構(gòu)（圖中黃色模塊），主要解決 RNN 中存在的梯度消失問題，從而提高網(wǎng)絡(luò)對長時依賴（long-term dependency）的記憶感知能力。LSTM 有兩個輸入門，一個輸出門和遺忘門

。

圖 2：ST-LSTM 網(wǎng)絡(luò)結(jié)構(gòu)和單元結(jié)構(gòu)

和標(biāo)準(zhǔn) LSTM 相比，ST-LSTM 還增加了不同層間對應(yīng)位置的 cell 連接，如圖 2 左側(cè)，水平灰色連接線表示標(biāo)準(zhǔn) LSTM 的單元連接，豎直黃色連接線表示層間同一時刻的單元連接，通過張量 M 傳播，注意當(dāng) l=1 時，

（作者認為 t 時刻的頂層信息對 t+1 時刻的底層信息影響很大），這樣記憶信息就能同時在層內(nèi)和層間傳播。

圖 3 E3D-LSTM 單元結(jié)構(gòu)

圖 3 是本文提出的 E3D-LSTM 模型的單元結(jié)構(gòu)，

是一個維度為的五維張量，代表之前個時間步的所有隱狀態(tài)。表示召回門（代替遺忘門），和 ST-LSTM 相比，主要有以下改進：

1、輸入數(shù)據(jù)是的四維張量，對應(yīng)時刻

的連續(xù)幀序列，因此現(xiàn)在每個單元時間步都對應(yīng)一段視頻，而不是單幀視頻。

2、針對幀序列數(shù)據(jù)額外添加了一個召回門（recall gate）以及相關(guān)結(jié)構(gòu)，用于實現(xiàn)長時依賴學(xué)習(xí)，也就是自注意力機制。這部分對應(yīng)網(wǎng)絡(luò)名稱中的 Eidetic。

3、由于輸入數(shù)據(jù)變成了四維張量，因此在更新公式中采用 3D 卷積操作而不是 2D 卷積。

大部分門結(jié)構(gòu)的更新公式和 ST-LSTM 相同，額外添加了召回門更新公式：

上面介紹的機制用于同一層不同時間步連接，作者將這種機制也用在了不同層同一時間步的連接，但效果并不好，這是因為不同層在同一時刻學(xué)習(xí)到的信息并沒有太好的依賴性。

基于 E3D-LSTM 的半監(jiān)督輔助學(xué)習(xí)

在許多監(jiān)督學(xué)習(xí)任務(wù)，例如視頻動作識別中，沒有足夠的監(jiān)督信息和標(biāo)注信息來幫助訓(xùn)練一個令人滿意的 RNN，因此可以將視頻預(yù)測作為一個輔助的表征學(xué)習(xí)方法，來幫助網(wǎng)絡(luò)更好的理解視頻特征，并提高時間域上的監(jiān)督性。

具體的，讓視頻預(yù)測和動作識別任務(wù)共享相同的主干網(wǎng)絡(luò)（圖 1），只不過損失函數(shù)不同，在視頻預(yù)測任務(wù)中，目標(biāo)函數(shù)為：

帶上標(biāo)的 X 表示預(yù)測值，不帶上標(biāo)的表示真值，F(xiàn) 表示 Frobenius 歸一化。

在動作識別任務(wù)中，目標(biāo)函數(shù)為：

其中 Y 和是預(yù)測值和幀值，這樣通過將預(yù)測任務(wù)的損失函數(shù)嵌入到識別任務(wù)中，以及主干網(wǎng)絡(luò)的共享，能在一定程度上幫助識別任務(wù)學(xué)習(xí)到更多的時序信息。為了保證過渡平滑，額外添加了一個權(quán)重因子，會隨著迭代次數(shù)的增加而線性衰減：

作者將這種方法稱為半監(jiān)督輔助學(xué)習(xí)。

實驗結(jié)果

視頻預(yù)測任務(wù)，在 Moving MINIST 數(shù)據(jù)集上的結(jié)果：

為了驗證 E3D-LSTM 中不同模塊對性能的影響，作者還在該數(shù)據(jù)集上進行了燒蝕研究：

可以看到不管是添加 3D 卷積還是自注意力機制，網(wǎng)絡(luò)性能相對于基線方法都有提升。

視頻預(yù)測任務(wù)，在 KTH 人體動作數(shù)據(jù)集上的結(jié)果：

接下來在一個實際視頻預(yù)測任務(wù)：交通流預(yù)測中，與其他方法進行了對比：

動作識別任務(wù)，在 Something-Something 數(shù)據(jù)集上進行了測試：

同樣在該數(shù)據(jù)集上進行了燒蝕研究：

以及不同的半監(jiān)督輔助學(xué)習(xí)策略帶來的性能提升：

總結(jié)

本文對 ST-LSTM 進行了改進，將流行的 3D 卷積操作作為其基本張量操作，同時添加了自注意力模塊，進一步強化了網(wǎng)絡(luò)對長距離依賴信息的刻畫能力，不僅能用于預(yù)測任務(wù)，還能通過輔助學(xué)習(xí)的方法拓展到其他任務(wù)上，是非常具有啟發(fā)性的工作。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
0

文章
31

瀏覽量
2959

原文標(biāo)題：數(shù)月整改，三星折疊屏手機Fold 終于可以發(fā)售了？

文章出處：【微信號：AppDowns，微信公眾號：掌上科技頻道】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

LSTM模型的基本組成

長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory, LSTM）是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）架構(gòu)，它在處理序列數(shù)據(jù)時能夠捕捉長期依賴關(guān)系，有效解決了傳統(tǒng)RNN在處理長序

發(fā)表于 07-10 17:01 ?763次閱讀

如何理解RNN與LSTM神經(jīng)網(wǎng)絡(luò)

在深入探討RNN（Recurrent Neural Network，循環(huán)神經(jīng)網(wǎng)絡(luò)）與LSTM（Long Short-Term Memory，長短期記憶網(wǎng)絡(luò)）神經(jīng)

發(fā)表于 07-09 11:12 ?400次閱讀

李飛飛最新解碼空間智能,DePIN破局最后一米,AIoT即將綻放異彩

在人工智能的領(lǐng)域里，有一個概念正悄然崛起，它被稱為“空間智能”。最近，一位人工智能界的傳奇人物將它推到了聚光燈下。這個人就是李飛飛，她曾發(fā)起了里程碑式的ImageNet項目，催生了深度學(xué)習(xí)的革命

發(fā)表于 05-26 08:04 ?387次閱讀

<b class='flag-5'>李</b><b class='flag-5'>飛飛</b>最新解碼空間智能,DePIN破局最后一米,AIoT即將綻放異彩

助聽器降噪神經(jīng)網(wǎng)絡(luò)模型

抑制任務(wù)是語音增強領(lǐng)域的一個重要學(xué)科, 隨著深度神經(jīng)網(wǎng)絡(luò)的興起，提出了幾種基于深度模型的音頻處理新方法[1,2,3,4]。然而，這些通常是為離線處理而開發(fā)的，不需要考慮實時性。當(dāng)使用神經(jīng)網(wǎng)絡(luò)

發(fā)表于 05-11 17:15

Teledyne e2v公司和Airy3D公司合作，提供更實惠的3D視覺解決方案

。 △Topaz5D?是一款1,920 x 1,080分辨率的低噪聲全局快門2D和3D圖像傳感器。Teledyne e2v Teledyne e

發(fā)表于 05-11 10:12 ?299次閱讀

新火種AI|AI教母李飛飛初創(chuàng)AI公司，開啟最前沿AI算法研究

AI教母李飛飛首次創(chuàng)業(yè)，瞄準(zhǔn)“空間智能”。

發(fā)表于 05-06 16:24 ?269次閱讀

包含具有多種類型信息的3D模型

? BIM 360? ：是一個基于云的施工數(shù)據(jù)管理環(huán)境。作為Autodesk Construction Cloud的一部分，BIM 360連接數(shù)據(jù)、工作流和團隊。它具有2D 建模、3D

發(fā)表于 03-28 17:18

什么電路具有記憶功能時序電路是不含有記憶功能的器件對嗎

什么電路具有記憶功能時序電路是不含有記憶功能的器件對嗎什么電路具有記憶功能？電路的記憶功能

發(fā)表于 03-26 16:12 ?2244次閱讀

美光新款高頻寬記憶體HBM3E將被用于英偉達H200

美國記憶體制造巨頭美光（Micron）于26日宣布，其最新的高頻寬記憶體HBM3E已正式量產(chǎn)。此項技術(shù)將被用于今年第2季度的英偉達（NVIDIA）H200 Tensor Core GPU，標(biāo)志著美

發(fā)表于 02-28 14:17 ?437次閱讀

賽力斯申請問界商標(biāo) 申請注冊“賽力斯問界”

據(jù)悉，賽力斯已經(jīng)開始申請注冊“賽力斯問界”商標(biāo)，國際分類為運輸工具，目前該申請的商標(biāo)狀態(tài)為等待實質(zhì)審查。

發(fā)表于 01-26 20:03 ?2826次閱讀

量子比特的“記憶力”——相干時間

通常來說，一個人記憶力越好，他能整合、處理的信息就越多。傳說魚的記憶力只有7秒！這可能是它們沒有統(tǒng)治世界的原因。在量子計算中，量子比特所能“記住”的量子狀態(tài)越久，其所能進行的計算次數(shù)也就越多。量子

發(fā)表于 12-27 08:25 ?1525次閱讀

APUS李濤出席「清華會講」談“智能向善”

11 月 19 日，APUS董事長兼CEO李濤受邀出席第六屆清華會講，在“科技創(chuàng)新與企業(yè)發(fā)展”分會講中進行了《把握AI大模型發(fā)展主動權(quán) 引領(lǐng)智能向善》的主旨發(fā)言。李濤通過洞觀全球AI產(chǎn)業(yè)發(fā)展挑戰(zhàn)

發(fā)表于 11-22 16:13 ?451次閱讀

基于CNN-LSTM網(wǎng)絡(luò)的電力負荷預(yù)測

為了及時掌握電力負荷的變動信息，就需要對電力負荷進行準(zhǔn)確預(yù)測。鑒于此，探究出一種CNN和LSTM的組合模型來預(yù)測一日到一周的電力短期負荷波動情況。CNN模型負責(zé)從輸入信息中提取特征，LSTM模型利用

發(fā)表于 11-09 14:13 ?3252次閱讀

清華大學(xué)研發(fā)光電融合芯片，算力超商用芯片三千余倍

據(jù)清華大學(xué)官方消息，在計算能力方面，清華大學(xué)攻關(guān)團隊創(chuàng)造性地提出的計算框架光電深度融合，從最本質(zhì)的物理原理出發(fā)，電磁波傳播的空間為基礎(chǔ)的光計算和基爾霍夫定律為基礎(chǔ)的純結(jié)合了模擬電子計算

發(fā)表于 10-31 11:18 ?881次閱讀

清華大學(xué)團隊在超高性能計算芯片領(lǐng)域取得新突破

清華大學(xué)團隊在超高性能計算芯片領(lǐng)域取得新突破，相關(guān)研究發(fā)表在Nature上。

發(fā)表于 10-29 09:20 ?956次閱讀