0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Google又放大招,高效實時實現(xiàn)視頻目標檢測

ml8z_IV_Technol ? 來源:YXQ ? 2019-04-08 15:40 ? 次閱讀

圖像目標檢測是圖像處理領域的基礎。自從2012年CNN的崛起,深度學習在Detection的持續(xù)發(fā)力,為這個領域帶來了變革式的發(fā)展:一個是基于RPN的two-stage,RCNN/Fast RCNN/Faster RCNN、RetinaNet、Mask RCNN等,致力于檢測精度的提高。一類是基于SSD和YOLOv1/v2/3的one-stage,致力于提高檢測速度。

視頻目標檢測要解決的問題是對于視頻中每一幀目標的正確識別和定位。相對于圖像目標檢測,視頻是高度冗余的,包含了大量時間局部性(temporal locality,即在不同的時間是相似的)和空間局部性(spatial locality,即在不同場景中看起來是相似的),既Temporal Context(時間上下文)的信息。充分利用好時序上下文關系,可以解決視頻中連續(xù)幀之間的大量冗余的情況,提高檢測速度;還可以提高檢測質(zhì)量,解決視頻相對于圖像存在的運動模糊、視頻失焦、部分遮擋以及形變等問題。

視頻目標檢測和視頻跟蹤不同。兩個領域解決相同點在于都需要對每幀圖像中的目標精準定位,不同點在于視頻目標檢測不考慮目標的識別問題,而跟蹤需要對初始幀的目標精確定位和識別。

圖1 高德地圖車載AR導航可識別前方車輛并提醒

視頻目標檢測應用廣泛,如自動駕駛,無人值守監(jiān)控,安防等領域。如圖1所示,高德地圖車載AR導航利用視頻目標檢測,能夠?qū)^往車輛、行人、車道線、紅綠燈位置以及顏色、限速牌等周邊環(huán)境,進行智能的圖像識別,從而為駕駛員提供跟車距離預警、壓線預警、紅綠燈監(jiān)測與提醒、前車啟動提醒、提前變道提醒等一系列駕駛安全輔助。

視頻目標檢測算法一般包括單幀目標檢測、多幀圖像處理、光流算法、自適應關鍵幀選擇。Google提出基于Slownetwork 和Fast network分別提取不同特征,基于ConvLSTM特征融合后生成檢測框,實現(xiàn)實時性的state-of-art。

論文地址:https://arxiv.org/abs/1903.10172

1 Motivation

物體在快速運動時,當人眼所看到的影像消失后,人眼仍能繼續(xù)保留其影像,約0.1-0.4秒左右的圖像,這種現(xiàn)象被稱為視覺暫留現(xiàn)象。人類在觀看視頻時,利用視覺暫留機制和記憶能力,可以快速處理視頻流。借助于存儲功能,CNN同樣可以實現(xiàn)減少視頻目標檢測的計算量。

視頻幀具有較高的時序冗余。如圖2所示,模型[1]提出使用兩個特征提取子網(wǎng)絡:Slow network 和Fast network。Slow network負責提取視頻幀的精確特征,速度較慢,F(xiàn)ast network負責快速提取視頻幀的特征提取,準確率較差,兩者交替處理視頻幀圖像。Fast network和Slow network特征經(jīng)過ConvLSTM層融合并保存特征。檢測器在當前幀特征和上下文特征融合基礎上生成檢測框。論文提取基于強化學習策略的特征提取調(diào)度機制和需要保存特征的更新機制。

論文提出的算法模型在Pixel 3達到72.3 FPS,在VID 2015數(shù)據(jù)集state-of-art性能。

論文創(chuàng)新點:

1、提出基于存儲引導的交替模型框架,使用兩個特征提取網(wǎng)絡分別提取不同幀特征,減少計算冗余。

2、提出基于Q-learning學習自適應交替策略,取得速度和準確率的平衡。

3、在手機設備實現(xiàn)迄今為止已知視頻目標檢測的最高速度。

圖2 存儲引導的交錯模型

2網(wǎng)絡架構(gòu)

2.1交錯模型

圖3交錯模型

如圖3所示論文提出的交錯模型(τ = 2),Slow network(Large featureextractor)和Fastnetwork(Small feature extractor)均由MobileNetV2構(gòu)成(兩個模型的depth multiplier不同,前者為1.4,后者為0.35),anchors比率限制為{1.0,0.5,2.0}。

2.2存儲模型

LSTM可以高效處理時序信息,但是卷積運算量較大,并且需要處理所有視頻幀特征。論文提出改進的ConvLSTM模型加速視頻幀序列的特征處理。

ConvLSTM是一種將CNN與LSTM在模型底層結(jié)合,專門為時空序列設計的深度學習模塊。ConvLSTM核心本質(zhì)還是和LSTM一樣,將上一層的輸出作下一層的輸入。不同的地方在于加上卷積操作之后,為不僅能夠得到時序關系,還能夠像卷積層一樣提取特征,提取空間特征。這樣就能夠得到時空特征。并且將狀態(tài)與狀態(tài)之間的切換也換成了卷積計算。

圖4 存儲模型LSTM單元

如所示,論文的ConvLSTM有一下改進:

1、增加Bottleneck Gate和output跳躍連接。

2、LSTM單元分組卷積。特征圖HxWxN分為G組,每個LSTM僅處理HxWxN/G的特征,加速ConvLSTM計算。論文中G = 4。

3、LSTM有一固有弱點,sigmoid激活輸入和忘記門很少完全飽和,導致緩慢的狀態(tài)衰減,長期依賴逐漸喪失,更新中無法保留完整的前期狀態(tài)。導致Fast network運行中,Slownetwork特征緩慢消失。論文使用簡單的跳躍連接,既第一個Fast network輸出特征重復使用。

2.3推斷優(yōu)化

論文提出基于異步模式和量化模型,提高系統(tǒng)的計算效率。

1、異步模式。交錯模型的短板來自于Slow network。論文采用Fastnetwork提取每幀圖像特征,τ = 2幀采用Slow network計算特征和更新存儲特征。Slownetwork和Fast network異步進行,提高計算效率。

2、在有限資源的硬件設備上布置性能良好的網(wǎng)絡,就需要對網(wǎng)絡模型進行壓縮和加速,其中量化模型是一種高效手段?;赱2]算法,論文的ConvLSTM單元在數(shù)學運算(addition,multiplication, sigmoid and ReLU6)后插入量化計算,確保拼接操作的輸入范圍相同,消除重新縮放的需求。

3 實驗

模型在Imagenet DET 和COCO訓練,在Imagenet VID 2015測試結(jié)果如圖5所示。

從測試結(jié)果看,系統(tǒng)只有Slow network模塊時準確率最高, 只有Fast network模塊時準確率最低,但是速度沒有交錯模型快,比較詫異。另外基于強化學習的adaptive對精度和速度幾乎沒有影響,而異步模式和模型量化提高系統(tǒng)的實時性。

圖5 Imagenet VID 2015測試結(jié)果

4 優(yōu)缺點分析

視頻處理策略

1、基于強化學習的交錯模型調(diào)度是偽命題。論文的Slow network提取強特征,F(xiàn)astnetwork提取弱特征,交錯模型的τ越大,模型性能越差。理論上τ=2時模型的準確率越高。綜合考慮準確率和實時性,論文中τ=9。

2、視頻具有很強的上下文相關性。視頻理解領域的目標檢測、分割、識別,跟蹤,等領域,都需要提取前后幀的運動信息,而傳統(tǒng)采用光流方式,無法保證實時性。本文提出的分組ConvLSTM,可加速計算,量化模型保持準確率,具有借鑒意義。

以上僅為個人閱讀論文后的理解、總結(jié)和思考。觀點難免偏差,望讀者以懷疑批判態(tài)度閱讀,歡迎交流指正。

參考文獻

[1] MasonLiu, Menglong Zhu, Marie White, Yinxiao Li, Dmitry Kalenichenko.Looking Fastand Slow: Memory-Guided Mobile Video Object Detection.arXivpreprint arXiv:1903.10172,2019.

[2] B.Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard,H. Adam, and D.Kalenichenko. Quantization and training of neural networks for efficientinteger-arithmetic-only inference. In CVPR, 2018.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1752

    瀏覽量

    57334
  • 目標檢測
    +關注

    關注

    0

    文章

    197

    瀏覽量

    15576

原文標題:Google又發(fā)大招:高效實時實現(xiàn)視頻目標檢測

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用OpenVINO C# API部署YOLO-World實現(xiàn)實時開放詞匯對象檢測

    YOLO-World是一個融合了實時目標檢測與增強現(xiàn)實(AR)技術的創(chuàng)新平臺,旨在將現(xiàn)實世界與數(shù)字世界無縫對接。該平臺以YOLO(You Only Look Once)算法為核心,實現(xiàn)
    的頭像 發(fā)表于 08-30 16:27 ?483次閱讀
    使用OpenVINO C# API部署YOLO-World<b class='flag-5'>實現(xiàn)實時</b>開放詞匯對象<b class='flag-5'>檢測</b>

    目標檢測與圖像識別的區(qū)別在哪

    檢測(Object Detection)是指在圖像或視頻中識別并定位感興趣的目標,通常包括目標的類別和位置。目標
    的頭像 發(fā)表于 07-17 09:51 ?538次閱讀

    目標檢測與識別技術有哪些

    視頻中識別并定位感興趣的目標,通常包括目標的類別和位置信息。目標識別(Object Recognition)是指對檢測到的
    的頭像 發(fā)表于 07-17 09:40 ?462次閱讀

    目標檢測與識別技術的關系是什么

    任務是在圖像或視頻中快速準確地定位出感興趣的目標,并給出目標的位置信息。目標檢測技術通常包括候選區(qū)域提取、特征提取、分類器設計等步驟。
    的頭像 發(fā)表于 07-17 09:38 ?402次閱讀

    目標檢測識別主要應用于哪些方面

    介紹目標檢測識別的應用領域,以及其在各個領域的具體應用情況。 安全監(jiān)控 安全監(jiān)控是目標檢測識別應用最廣泛的領域之一。在安全監(jiān)控系統(tǒng)中,目標
    的頭像 發(fā)表于 07-17 09:34 ?758次閱讀

    基于深度學習的小目標檢測

    在計算機視覺領域,目標檢測一直是研究的熱點和難點之一。特別是在小目標檢測方面,由于小目標在圖像中所占比例小、特征不明顯,使得
    的頭像 發(fā)表于 07-04 17:25 ?645次閱讀

    基于FPGA的實時邊緣檢測系統(tǒng)設計,Sobel圖像邊緣檢測,F(xiàn)PGA圖像處理

    的主要特征提取手段 。由于實時視頻圖像的邊緣檢測需要處理的數(shù)據(jù)量非常大,所以采用一般的軟件方法實現(xiàn)起來處理速度慢,無法滿足實時性的要求。 隨
    發(fā)表于 05-24 07:45

    英碼科技EA500I基于昇騰Mind SDK實現(xiàn)實時人體關鍵點檢測

    ,實時人體關鍵點檢測應用可以用來識別異常行為或特定姿態(tài),以達到場景安全防控的目的。 那么,什么是實時人體關鍵點檢測? 簡單來說,實時人體關鍵
    的頭像 發(fā)表于 04-21 17:44 ?915次閱讀
    英碼科技EA500I基于昇騰Mind SDK<b class='flag-5'>實現(xiàn)實時</b>人體關鍵點<b class='flag-5'>檢測</b>

    在控道AI盒子上基于YOLOv9實現(xiàn)實時目標檢測實戰(zhàn)

    隨著計算機視覺技術的不斷進步,目標檢測已經(jīng)成為許多應用的核心組件,如自動駕駛、視頻監(jiān)控、智能安防等。
    的頭像 發(fā)表于 04-12 14:30 ?829次閱讀
    在控道AI盒子上基于YOLOv9<b class='flag-5'>實現(xiàn)實時</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>實戰(zhàn)

    OpenVINO工具包部署YOLO9模型實現(xiàn)實時目標檢測

    YOLOv9引入了可編程梯度信息 (PGI) 和廣義高效層聚合網(wǎng)絡 (GELAN) 等開創(chuàng)性技術,不僅增強了模型的學習能力,還確保了在整個檢測過程中保留關鍵信息,從而實現(xiàn)了卓越的準確性和性能。
    的頭像 發(fā)表于 03-18 11:38 ?997次閱讀
    OpenVINO工具包部署YOLO9模型<b class='flag-5'>實現(xiàn)實時</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>

    百度開源DETRs在實時目標檢測中勝過YOLOs

    這篇論文介紹了一種名為RT-DETR的實時檢測Transformer,是第一個實時端到端目標檢測器。
    的頭像 發(fā)表于 03-06 09:24 ?1269次閱讀
    百度開源DETRs在<b class='flag-5'>實時</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>中勝過YOLOs

    AI驅(qū)動的雷達目標檢測:前沿技術與實現(xiàn)策略

    傳統(tǒng)的雷達目標檢測方法,主要圍繞雷達回波信號的統(tǒng)計特性進行建模,進而在噪聲和雜波的背景下對目標存在與否進行判決,常用的典型算法如似然比檢測(LRT)、
    發(fā)表于 03-01 12:26 ?1935次閱讀
    AI驅(qū)動的雷達<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>:前沿技術與<b class='flag-5'>實現(xiàn)</b>策略

    在ELF 1 開發(fā)板上實現(xiàn)讀取攝像頭視頻進行目標檢測

    深度學習模型的項目,該項目能夠實時讀取攝像頭視頻流并實現(xiàn)對畫面中的物體進行精準的目標檢測。項目所需的硬件設備:1、基于NXP(恩智浦)i.M
    的頭像 發(fā)表于 01-24 10:38 ?605次閱讀
    在ELF 1 開發(fā)板上<b class='flag-5'>實現(xiàn)</b>讀取攝像頭<b class='flag-5'>視頻</b>進行<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>

    基于紫光同創(chuàng)FPGA的多路視頻采集與AI輕量化加速的實時目標檢測系統(tǒng)

    基于紫光同創(chuàng)FPGA的多路視頻采集與AI輕量化加速的實時目標檢測系統(tǒng)#2023集創(chuàng)賽#紫光同創(chuàng)#小眼睛科技助力紫光同創(chuàng)高校生態(tài)建設@小眼睛科技 獲獎作品展示:華南理工大學+CR8_Pr
    發(fā)表于 11-02 17:51

    提升智慧礦山運輸效率的皮帶跑偏視頻分析AI算法

    皮帶跑偏視頻分析AI算法在智慧礦山中的應用原理和相關場景。通過圖像處理、目標檢測和跑偏程度評估等技術,可以實現(xiàn)對皮帶跑偏情況的實時監(jiān)測和預警
    的頭像 發(fā)表于 10-31 21:37 ?441次閱讀