0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

商湯論文精選:計算機視覺和深度學習技術最新突破

WpOh_rgznai100 ? 來源:lq ? 2019-07-18 14:43 ? 次閱讀

作為與ICCV、ECCV并稱為計算機視覺領域三大國際會議之一,本屆CVPR大會共收到5265篇有效投稿,接收論文1300篇,接收率為25.2%。

商湯科技CVPR 2019錄取論文在多個領域實現(xiàn)突破

作為國內CV領域的明星公司,商湯科技及聯(lián)合實驗室共有62篇論文被接收,其中口頭報告(Oral)論文18篇,相比2018 CVPR共44篇論文入選,增幅超40%。

商湯科技CVPR 2019錄取論文在多個領域實現(xiàn)突破:高層視覺核心算法——物體檢測與分割、底層視覺核心算法——圖片復原與補全、面向自動駕駛場景的3D視覺、面向AR/VR場景的人體姿態(tài)遷移、無監(jiān)督與自監(jiān)督深度學習前沿進展等。

值得一提的是,在CVPR 2019 Workshop NTIRE 2019視頻恢復比賽中(包含兩個視頻去模糊和兩個視頻超分辨率),來自商湯科技、香港中文大學、南洋理工大學、中國科學院深圳先進技術研究院組成的聯(lián)合研究團隊獲得了全部四個賽道的所有冠軍。

視頻恢復不是圖像恢復的簡單應用,因為其含有大量的時空冗余信息可以利用。目前行業(yè)最好的圖像超分辨算法是RCAN恢復,但使用EDVR算法視頻超分辨率的結果能看到更多的細節(jié),效果大幅提升。作者發(fā)明了一種新的網(wǎng)絡模塊PCD對齊模塊,使用Deformable卷積進行視頻的對齊,整個過程可以端到端訓練。而且在挖掘時域(視頻前后幀)和空域(同一幀內部)的信息融合時,作者發(fā)明了一種時空注意力模型進行信息融合。此次比賽的EDVR算法代碼已開源(開源地址:https://github.com/xinntao/EDVR)。

商湯論文精選:計算機視覺和深度學習技術最新突破

高層視覺核心算法——物體檢測與分割

代表性論文:基于混合任務級聯(lián)的實例分割算法

對于很多計算機視覺任務來說,級聯(lián)是一種經(jīng)典有效的結構,可以對性能產(chǎn)生明顯提升。但如何將級聯(lián)結構引入實例分割的任務仍然是一個開放性問題。簡單地將物體檢測的級聯(lián)結構Cascade R-CNN與經(jīng)典的實例分割算法Mask R-CNN進行結合,帶來的提升比較有限。

在這篇論文中,作者提出了一種新的框架Hybrid Task Cascade (HTC)。該框架是一個多階段多分支的混合級聯(lián)結構,對檢測和分割這兩個分支交替地進行級聯(lián)預測,除此之外,他們還引入了一個全卷積的語義分割分支來提供更豐富的上下文環(huán)境信息。HTC在COCO數(shù)據(jù)集上相對 Cascade Mask R-CNN獲得了1.5個點的提升?;谔岢龅目蚣?,他們獲得了COCO 2018比賽實例分割任務的冠軍。

代表性論文:基于特征指導的動態(tài)錨點框生成算法

錨點框(Anchor)是現(xiàn)代物體檢測技術的基石。目前主流的物體檢測方法大多依賴于密集產(chǎn)生靜態(tài)錨點框的模式。在這種模式下,有著預定義的大小和長寬比的靜態(tài)錨點框均勻的分布在平面上。

本文反思了這一關鍵步驟,提出了一種基于特征指導的動態(tài)錨點框生成算法,該算法利用語義特征來指導錨點框生成的過程,具有高效率和高質量的特點。本算法可以同時預測目標物體中心區(qū)域和該區(qū)域應產(chǎn)生的錨點框的大小和長寬比,以及根據(jù)錨點框的形狀來調整特征,使特征與錨點框相吻合,從而產(chǎn)生極高質量的動態(tài)錨點框。

本方法可以無縫使用在各種基于錨點框的物體檢測器中。實驗表明本方法可以顯著提高三種最主流的物體檢測器(Fast R-CNN, Faster R-CNN, RetinaNet)的性能。

底層視覺核心算法——圖片復原與補全

代表性論文:基于網(wǎng)絡參數(shù)插值的圖像效果連續(xù)調節(jié)

圖像效果的連續(xù)調節(jié)在實際中有著廣泛的需求和應用, 但是目前基于深度學習的算法往往只能輸出一個固定的結果,缺乏靈活的調節(jié)能力來滿足不同的用戶需求。

針對這個問題, 本文提出了一種簡單有效的方式來達到對圖像效果的連續(xù)光滑的調節(jié),而不需要進一步繁雜的訓練過程。該方法能夠在許多任務上得到應用, 比如圖像超分辨率,圖像去噪,圖像風格轉換,以及其他許多圖像到圖像的變換。

具體來說,作者對兩個或多個有聯(lián)系的網(wǎng)絡的參數(shù)進行線性插值,通過調節(jié)插值的系數(shù),便可以達到一個連續(xù)且光滑的效果調節(jié)。他們把這個在神經(jīng)網(wǎng)絡的參數(shù)空間中的操作方法稱為網(wǎng)絡參數(shù)插值。本文不僅展示了網(wǎng)絡參數(shù)插值在許多任務中的應用,還提供了初步的分析幫助更好地理解網(wǎng)絡參數(shù)插值。

代表性論文:基于光流引導的視頻修復

本文關注視頻中的修復問題,雖然近年來圖片修復(Image Inpainting)問題取得了很大的進展,可是在視頻上完成像素級的修復仍熱存在極大的挑戰(zhàn)。其困難主要在于:1)保證時序上的連續(xù)型 2)在高分辨率下實現(xiàn)修復 3)降低視頻對于計算的開銷。

本文致力于解決這三個問題,同時盡可能保證視頻的清晰度。在研究中發(fā)現(xiàn),保證視頻的時序一致性,對于視頻修復任務來說非常重要,這不僅僅保證了修復后的視頻能夠有良好的觀看體驗,同時還幫助從視頻本身來抽取真實的像素塊來實現(xiàn)更加高效地修復。

所以作者提出的框架主要由兩部分組成,第一部分是通過深度神經(jīng)網(wǎng)絡實現(xiàn)光流的補全,之后通過補全的光流在整個視頻間做像素的傳導,從而形成一條在時序上保持一致的像素鏈。這樣缺失的區(qū)域就可以通過它來實現(xiàn)修復,并且還能夠保證視頻的清晰度。

面向自動駕駛場景的3D視覺

代表性論文:PointRCNN: 基于原始點云的3D物體檢測方法

本文首次提出了基于原始點云數(shù)據(jù)的二階段3D物體檢測框架,PointRCNN。3D物體檢測是自動駕駛和機器人領域的重要研究方向,已有的3D物體檢測方法往往將點云數(shù)據(jù)投影到鳥瞰圖上再使用2D檢測方法去回歸3D檢測框,或者從2D圖像上產(chǎn)生2D檢測框后再去切割對應的局部點云去回歸3D檢測框。而這些方法中,前者在將點云投影到俯視圖上時丟失了部分原始點云的信息,后者很難處理2D圖像中被嚴重遮擋的物體。

作者觀察到自動駕駛場景中物體在3D空間中是自然分離的,從而可以直接從3D框的標注信息中得到點云的語義分割標注。因此本文提出了以自底向上的方式直接從原始點云數(shù)據(jù)中同步進行前景點分割和3D初始框生成的網(wǎng)絡結構,即從每個前景點去生成一個對應的3D初始框(階段一),從而避免了在3D空間中放置大量候選框。

在階段二中,前面生成的3D初始框將通過平移和旋轉從而規(guī)則化到統(tǒng)一坐標系下,并通過點云池化等操作后得到每個初始框的全局語義特征和局部幾何特征,他們將這兩種特征融合后進行了3D框的修正和置信度的打分,從而獲得最終的3D檢測框。

在提交到KITTI的3D檢測任務上進行官方測試時,作者提出的方法在只使用點云數(shù)據(jù)的情況下召回率和最終的檢測準確率均超越了已有的方法并達到了先進水平。目前該方法的已將代碼開源GitHub上。

面向AR/VR場景的人體姿態(tài)遷移

代表性論文:基于人體本征光流的姿態(tài)轉換圖像生成

本文主要關注人體姿態(tài)轉移問題,即在給定一幅包含一個人的輸入圖像和一個目標姿態(tài)的情況下,生成同一個人在目標姿態(tài)下的圖像。作者提出利用人體本征光流描述不同姿態(tài)間的像素級對應關系。

為此,他們設計了一個前饋神經(jīng)網(wǎng)絡模塊,以原始姿態(tài)和目標姿態(tài)作為輸入,迅速對光流場進行估計??紤]到真實光流數(shù)據(jù)難以獲取,他們利用3D人體模型擬合圖像中的人體姿態(tài),生成對應姿態(tài)變化的光流場數(shù)據(jù),用于模型訓練。

在該光流預測模塊的基礎上,他們設計了一個圖像生成模型,利用本征光流對人體的外觀特征進行空間變換,從而生成目標姿態(tài)下的人體圖像。他們的模型在DeepFashion和Market-1501等數(shù)據(jù)集上取得了良好的效果。

無監(jiān)督與自監(jiān)督深度學習前沿進展

代表性論文:基于條件運動傳播的自監(jiān)督學習

本文提出一種從運動中學習圖像特征的自監(jiān)督學習范式。(1)在自然場景中,物體的運動具有高度的復雜性,例如人體和常見動物都具有較高的運動自由度。(2)同時,從單張圖片中推測物體的運動具有歧義性?,F(xiàn)有基于運動的自監(jiān)督學習方法由于沒有很好地解決這兩個問題,因而未能高效地從運動中學習到較好的圖像特征。

為此,作者提出了條件運動傳播這個自監(jiān)督學習任務。訓練時,他們將單張圖像作為輸入,將目標運動場中抽樣出來的稀疏運動場作為條件,訓練神經(jīng)網(wǎng)絡去恢復目標運動場。這樣訓練完的圖像編碼器可以用來作為其他高級任務的初始化。他們在語意分割、實例分割和人體解析等任務中相比以往自監(jiān)督學習方法獲得了較大提升。

經(jīng)過分析,作者發(fā)現(xiàn)條件運動傳播任務從運動中學習到了物體的剛體性、運動學屬性和一部分現(xiàn)實世界中的物理規(guī)律。利用這些特性,他們將它應用到交互式視頻生成和半自動實例標注,獲得了令人滿意的效果;而整個過程,沒有用到任何人工的標注。

Open-MMLab計劃,推動學術生態(tài)建設

現(xiàn)代AI系統(tǒng)日趨復雜,涉及很多的關鍵細節(jié),這些細節(jié)的優(yōu)化和調節(jié)需要長時間的專注和積累。因此,AI研究的未來推進,也將需要越來越多不同研究背景的團隊共同參與,讓每個團隊專注于某一個方面的開拓與探索。

所以商湯科技啟動Open-MMLab計劃,希望在一個統(tǒng)一的代碼架構上,逐步開放實驗室積累的算法和模型。目前,商湯科技和香港中文大學多媒體實驗室(MMLab)聯(lián)合開源了兩個重要的純學術代碼庫MMDetection和MMAction。

MMDetection

MMDetection是一個基于PyTorch的開源物體檢測工具包。該工具包采用模塊化設計,支持多種流行的物體檢測和實例分割算法,并且可以靈活地進行拓展,在速度和顯存消耗上也具有優(yōu)勢。(https://github.com/open-mmlab/mmdetection)

目前已經(jīng)支持單階段檢測器如SSD/RetinaNet/FCOS/FSAF,兩階段檢測器如Faster R-CNN/Mask R-CNN,多階段檢測器如Cascade R-CNN/Hybrid Task Cascade等,另外支持許多相關模塊如DCN/Soft-NMS/OHEM等,也支持混合精度訓練。有很多最新的工作也在MMDetection上開源。

商湯團隊還提供了完整的訓練和測試框架,以及超過200個訓練好的模型及其測試結果,希望能為社區(qū)提供統(tǒng)一的開發(fā)平臺和測試基準,助力物體檢測的相關研究。

MMAction

MMAction是一個基于Pytorch的開源視頻動作理解工具包,囊括了視頻動作分類、時域動作檢測(定位)、時空動作檢測等視頻理解的基礎任務。(https://github.com/open-mmlab/mmaction)

目前已經(jīng)支持雙流、TSN、SSN等動作分類和動作檢測框架和基于Fast R-CNN的時空動作檢測基線模型,支持Plain 2D/Inflated 3D/Non-local等流行的網(wǎng)絡結構,支持UCF-101、Something-Something、Kinetics、THUMOS14、ActivityNet、AVA等視頻數(shù)據(jù)集,并提供相關的預訓練模型。

作為Open-MMLab系統(tǒng)開源項目的一部分,團隊希望MMAction可以成為視頻研究人員的測試平臺,促進視頻動作理解領域更上新臺階。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 論文
    +關注

    關注

    1

    文章

    103

    瀏覽量

    14938
  • 深度學習
    +關注

    關注

    73

    文章

    5439

    瀏覽量

    120794
  • 商湯科技
    +關注

    關注

    8

    文章

    478

    瀏覽量

    36027

原文標題:商湯62篇論文入選CVPR 2019,一覽五大方向最新研究進展

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    讓機器“看見”—計算機視覺入門及實戰(zhàn) 第二期基礎技術

    、圖像檢索等技術的主流方法和基本思路,并從數(shù)據(jù)處理、模型訓練、系統(tǒng)優(yōu)化以及模型評測的角度講解解決實際問題時的應對方法,讓大家對計算機視覺技術有一個基本了解,作為以后深入
    發(fā)表于 09-04 17:56

    請問計算機視覺深度學習要看什么書?

    計算機視覺深度學習,看這本書就夠了
    發(fā)表于 05-21 12:43

    深度學習計算機視覺領域圖像應用總結 精選資料下載

    簡單的回顧的話,2006年Geoffrey Hinton的論文點燃了“這把火”,現(xiàn)在已經(jīng)有不少人開始潑“冷水”了,主要是AI泡沫太大,而且深度學習不是包治百病的藥方。計算機
    發(fā)表于 07-28 08:22

    超全!深度學習計算機視覺領域應用一覽(附鏈接)精選資料分享

    這是一份深度學習計算機視覺領域的超全應用預覽~簡單回顧的話,2006年Geof...
    發(fā)表于 07-28 07:35

    計算機視覺論文速覽

    AI視野·今日CS.CV 計算機視覺論文速覽transformer、新模型、視覺語言模型、多模態(tài)、clip、視角合成
    發(fā)表于 08-31 08:46

    深度學習與傳統(tǒng)計算機視覺簡介

    文章目錄1 簡介1.1 深度學習與傳統(tǒng)計算機視覺1.2 性能考量1.3 社區(qū)支持2 結論3 參考在計算機
    發(fā)表于 12-23 06:17

    介紹了計算機視覺領域內比較成功的10個深度學習架構

    近年來,深度學習的發(fā)展勢頭迅猛,要跟上深度學習的進步速度變得越來越困難了。幾乎每一天都有關于深度學習
    的頭像 發(fā)表于 01-11 10:49 ?9197次閱讀

    深度學習是否會取代傳統(tǒng)的計算機視覺?

    理解傳統(tǒng)的計算機視覺實際上真的有助于你更好的使用深度學習。例如,計算機視覺中最常見的神經(jīng)網(wǎng)絡是卷
    的頭像 發(fā)表于 04-02 10:37 ?6147次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>是否會取代傳統(tǒng)的<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>?

    深度學習不能取代計算機視覺技術背后的真正原因

    深度學習只是一種 計算機視覺 工具,而不是包治百病的良藥,不要因為流行就一味地使用它。傳統(tǒng)的計算機視覺
    的頭像 發(fā)表于 04-05 11:37 ?4718次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>不能取代<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b><b class='flag-5'>技術</b>背后的真正原因

    深度學習為核心的計算機視覺技術具有視覺美感嗎

    我們看到了智能技術在影像辨識、偵測上的突破,甚至落地為產(chǎn)品。很多人問,這些深度學習為核心的計算機視覺
    的頭像 發(fā)表于 12-21 11:07 ?2265次閱讀

    深度學習計算機視覺上的四大應用

    計算機視覺中比較成功的深度學習的應用,包括人臉識別,圖像問答,物體檢測,物體跟蹤。
    的頭像 發(fā)表于 08-24 16:16 ?4459次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>在<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>上的四大應用

    基于深度學習計算機視覺技術在醫(yī)療領域中的現(xiàn)狀與應用

    十年來,人工智能取得了前所未有的進展,包括醫(yī)學在內的許多領域都有望從中受益。在該論文中,研究者調查了以深度學習為支撐的現(xiàn)代計算機視覺
    的頭像 發(fā)表于 03-20 10:02 ?7476次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b><b class='flag-5'>技術</b>在醫(yī)療領域中的現(xiàn)狀與應用

    深度學習和傳統(tǒng)計算機視覺技術在新興領域的比較

    是不是深度學習就可以解決所有問題呢?是不是它就比傳統(tǒng)計算機視覺方法好呢?但是深度學習無法解決所有
    的頭像 發(fā)表于 11-28 11:01 ?1497次閱讀

    計算機視覺中的九種深度學習技術

    計算機視覺中仍有許多具有挑戰(zhàn)性的問題需要解決。然而,深度學習方法正在針對某些特定問題取得最新成果。 在最基本的問題上,最有趣的不僅僅是深度
    發(fā)表于 08-21 09:56 ?524次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>中的九種<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>技術</b>

    深度學習計算機視覺領域的應用

    隨著人工智能技術的飛速發(fā)展,深度學習作為其中的核心技術之一,已經(jīng)在計算機視覺領域取得了顯著的成果
    的頭像 發(fā)表于 07-01 11:38 ?540次閱讀