0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深蘭科技DeepBlueAI團(tuán)隊(duì)斬獲低分辨率視頻行為識別挑戰(zhàn)賽的冠軍

深蘭科技 ? 來源:DeepBlue深蘭科技 ? 作者:DeepBlue深蘭科技 ? 2021-06-30 10:19 ? 次閱讀

導(dǎo)讀近日,全球三大計(jì)算機(jī)視覺頂級會議之一CVPR如期舉行,深蘭科技DeepBlueAI團(tuán)隊(duì)斬獲TinyAction Challenge(低分辨率視頻行為識別挑戰(zhàn)賽)的冠軍。

TinyAction Challenge是第六屆動作識別國際挑戰(zhàn)賽系列競賽之一,該系列競賽由CVPR2021 International Challenge on Activity Recognition (ActivityNet) workshop 主辦,旨在推動視頻理解的進(jìn)一步發(fā)展。

冠軍方案解讀

賽題介紹

TinyAction Challenge使用TinyVirat-v2[1]數(shù)據(jù)集,旨在提高低分辨率高噪聲等真實(shí)監(jiān)控場景下的視頻行為識別能力。比賽提供大量真實(shí)場景視頻片段及標(biāo)注,每個視頻片段中可能含有多個動作,本質(zhì)是一個多標(biāo)簽的行為識別任務(wù),比賽結(jié)果采用precision、recall、F1-score等多個指標(biāo)來評測。

賽題難點(diǎn)

視頻分辨率很低,最小只有10x10像素尺度;

視頻尺度多樣,從10x10到128x128不等;

視頻質(zhì)量較差,含有大量噪聲;

視頻場景多樣,行為多樣,每個視頻可能含有多個行為。

解決方案

算法選擇上,團(tuán)隊(duì)廣泛嘗試了TSM[2]、TPN-Slowonly[3]等經(jīng)典算法,最終采用交互移除的CSN[4](ir-CSN)模型,在保證性能的前提下適當(dāng)減少計(jì)算量,同時減輕對數(shù)據(jù)的過擬合。

數(shù)據(jù)增強(qiáng)方面,訓(xùn)練時團(tuán)隊(duì)首先隨機(jī)調(diào)整尺度裁剪,再統(tǒng)一調(diào)整尺度到128x128,最后再隨機(jī)翻轉(zhuǎn)。而在測試時,通過Tencrop,即對視頻幀及其水平翻轉(zhuǎn)在中心與四角區(qū)域分別裁剪求平均,有效提高了inference時單模型性能。

測試階段團(tuán)隊(duì)進(jìn)一步使用了五折交叉驗(yàn)證的模型融合方法。另外由于觀察到在比賽數(shù)據(jù)集的26類行為中有些類別是互斥的,因而對最終的結(jié)果添加了后處理規(guī)則,使得F1指標(biāo)進(jìn)一步提高0.6個點(diǎn)。通過一步步優(yōu)化,DeepBlueAI團(tuán)隊(duì)單模型的F1指標(biāo)即超過了第二名達(dá)到0.4447,并最終達(dá)到0.4782,實(shí)現(xiàn)大幅度領(lǐng)先。

總結(jié)

在本次比賽中,團(tuán)隊(duì)對任務(wù)及數(shù)據(jù)做了仔細(xì)的分析,合理地選擇了模型算法,進(jìn)行了精細(xì)的模型訓(xùn)練,同時在數(shù)據(jù)的后處理上做了大量的優(yōu)化,有效實(shí)現(xiàn)了低分辨率高噪聲視頻中行為識別,并最終獲得冠軍。相信隨著計(jì)算機(jī)視覺及多模態(tài)技術(shù)的深入發(fā)展,行為識別等視頻理解問題能夠得到更好的解決,并獲得越來越廣泛的實(shí)際應(yīng)用。

參考文獻(xiàn):

[1] Demir U, Rawat Y S, Shah M. TinyVIRAT: low-resolution video action recognition[C]//2020 25th International Conference on Pattern Recognition (ICPR)。 IEEE, 2021: 7387-7394

[2] Yang C, Xu Y, Shi J, et al. Temporal pyramid network for action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 591-600.

[3] Lin J, Gan C, Han S. TSM: Temporal Shift Module for Efficient Video Understanding[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV)。 IEEE, 2019.

[4] Du T, Wang H, Feiszli M, et al. Video Classification With Channel-Separated Convolutional Networks[C]// International Conference on Computer Vision. 0.

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1688

    瀏覽量

    45872
  • 高噪聲率
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    5989
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24590
  • CSN
    CSN
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    8782
  • 深蘭科技
    +關(guān)注

    關(guān)注

    1

    文章

    52

    瀏覽量

    5931

原文標(biāo)題:賽道 | CVPR2021深蘭冠軍方案解讀- TinyAction Challenge低分辨率視頻行為識別挑戰(zhàn)賽

文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    視頻超分技術(shù)是指什么?

    ??超分辨率技術(shù)(SuperResolution),是通過硬件或軟件的方法提高圖像或視頻幀的分辨率,通過一系列低分辨率圖像獲取到高分辨率圖像
    的頭像 發(fā)表于 09-04 08:05 ?258次閱讀
    <b class='flag-5'>視頻</b>超分技術(shù)是指什么?

    VR顯示器分辨率的選擇

    顯示器能夠提供更加清晰、細(xì)膩的畫面,讓用戶在虛擬現(xiàn)實(shí)世界中獲得更加真實(shí)的感受。 1.2 分辨率與舒適度 除了視覺體驗(yàn)外,分辨率還與用戶的舒適度密切相關(guān)。低分辨率的VR顯示器容易產(chǎn)生紗窗效應(yīng)(Screen Door Effect)
    的頭像 發(fā)表于 07-08 10:29 ?784次閱讀

    浪潮信息獲CVPR2024自動駕駛挑戰(zhàn)賽&quot;Occupancy&amp; Flow&quot;冠軍

    北京2024年6月25日 /美通社/ -- 近日,在全球權(quán)威的CVPR 2024自動駕駛國際挑戰(zhàn)賽(Autonomous Grand Challenge)中,浪潮信息AI團(tuán)隊(duì)所提交的"F-OCC
    的頭像 發(fā)表于 06-25 20:29 ?311次閱讀
    浪潮信息獲CVPR2024自動駕駛<b class='flag-5'>挑戰(zhàn)賽</b>&quot;Occupancy&amp; Flow&quot;<b class='flag-5'>冠軍</b>

    格靈深瞳斬獲首屆花樣滑冰動作識別競賽奪冠

    近日,第一屆花樣滑冰動作識別挑戰(zhàn)賽公布了本次競賽的結(jié)果,格靈深瞳憑借領(lǐng)先的算法能力斬獲冠軍,并包攬了本次挑戰(zhàn)賽的前兩名。
    的頭像 發(fā)表于 05-13 14:04 ?349次閱讀
    格靈深瞳<b class='flag-5'>斬獲</b>首屆花樣滑冰動作<b class='flag-5'>識別</b>競賽奪冠

    基于CNN的圖像超分辨率示例

    考慮單個低分辨率圖像,首先使用雙三次插值將其放大到所需的大小,這是執(zhí)行的唯一預(yù)處理。將插值圖像表示為Y。我們的目標(biāo)是從Y中恢復(fù)與真實(shí)高分辨率圖像X盡可能相似的圖像F (Y) 。
    的頭像 發(fā)表于 03-11 11:40 ?606次閱讀
    基于CNN的圖像超<b class='flag-5'>分辨率</b>示例

    EVAL_PASCO2_SENSOR為什么無法從較低的分辨率高速獲得更高的分辨率

    捕獲,同時高速傳輸較低分辨率(640x480,1280x720,1920x1080)時,靜止請求被觸發(fā),它正在從一種分辨率轉(zhuǎn)移到另一種分辨率,但無法進(jìn)行靜態(tài)捕獲。 我在調(diào)試時觀察到了以下幾點(diǎn): 1
    發(fā)表于 02-22 07:58

    編碼器分辨率是什么意思 編碼器分辨率和脈沖數(shù)的關(guān)系

    按照編碼器支持的分辨率可以把編碼器分成標(biāo)清編碼器、高清編碼器、全高清編碼器,分辨率越高幀率越高視頻就越清楚。 1.編碼器的分辨率是什么意思 編碼器的
    的頭像 發(fā)表于 02-21 18:07 ?3434次閱讀
    編碼器<b class='flag-5'>分辨率</b>是什么意思 編碼器<b class='flag-5'>分辨率</b>和脈沖數(shù)的關(guān)系

    什么是DSR(動態(tài)超級分辨率)?DSR是做什么的?如何開啟DSR技術(shù)?

    使用高分辨率渲染來模擬更高的顯示分辨率,然后重采樣到實(shí)際的顯示分辨率,以提供更高質(zhì)量的圖像。 DSR的主要目標(biāo)是在較低分辨率的情況下提供更好的圖像質(zhì)量。傳統(tǒng)上,較低的
    的頭像 發(fā)表于 01-17 11:17 ?1.2w次閱讀

    鏡頭分辨率簡述

    分辨率可以從顯示分辨率與圖像分辨率兩個方向來分類。
    的頭像 發(fā)表于 01-15 11:12 ?820次閱讀

    淺談相機(jī)的圖像分辨率

    談到顯微成像系統(tǒng),常常會用分辨率來評價(jià)成像能力的高低,那分辨率到底指的是什么,又怎樣計(jì)算呢?其實(shí)對于一個特定的顯微成像系統(tǒng),分辨率要從兩個方面來考慮,一種是光學(xué)系統(tǒng)的分辨率—光學(xué)衍射極
    的頭像 發(fā)表于 01-09 09:54 ?1384次閱讀
    淺談相機(jī)的圖像<b class='flag-5'>分辨率</b>

    峰峰值分辨率與有效分辨率的區(qū)別

    低帶寬、高分辨率ADC的分辨率為16位或24位。但是,器件的有效位數(shù)受噪聲限制,而噪聲則取決于輸出字速率和所用的增益設(shè)置。有些公司規(guī)定使用有效分辨率來表示該參數(shù),ADI則規(guī)定使用峰峰值分辨率
    發(fā)表于 12-15 07:56

    HDBaseT傳輸器支持傳輸4K30及以下分辨率嗎?

    傳輸器廣泛應(yīng)用于家庭娛樂系統(tǒng)、商業(yè)展示、會議室等場景。 在傳輸視頻信號方面,HDBaseT傳輸器支持多種分辨率,包括但不限于4K30及以下分辨率。這意味著它可以傳輸4K分辨率
    的頭像 發(fā)表于 12-07 09:07 ?412次閱讀

    SAFA:高效時空視頻分辨率的尺度自適應(yīng)特征聚合

    的問題,考慮把插幀做到特征圖上,即 低分辨率幀 -> 編碼成特征 -> 特征圖上插幀 -> 解碼得到高分辨率幀。
    的頭像 發(fā)表于 11-29 16:31 ?665次閱讀
    SAFA:高效時空<b class='flag-5'>視頻</b>超<b class='flag-5'>分辨率</b>的尺度自適應(yīng)特征聚合

    視頻分辨率1080P、4K、及8MP有何區(qū)別?

    1080P,4K,2160P及8.3MP等經(jīng)常用來表示視頻分辨率,但是如此多的稱呼,經(jīng)常讓人混淆和困惑,那么今天就把視頻分辨率說清楚。
    發(fā)表于 11-02 10:55 ?1.1w次閱讀
    <b class='flag-5'>視頻</b><b class='flag-5'>分辨率</b>1080P、4K、及8MP有何區(qū)別?