0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分享下Kaiming大神在CVPR‘18 又有了什么新成果?

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-06-20 16:45 ? 次閱讀

一年一度的CVPR這就來了,各種前沿的、新奇的、驚人的成果又將給我們帶來全新的認知。忍不住想去關(guān)注大神們的杰出工作,其中曾獲得兩次CVPR最佳論文的Kaiming是第一個想要檢索的對象。在今年的主論壇上,共有四篇論文出現(xiàn)了Kaiming He的身影,他們分別是:

圖像分割領(lǐng)域的:Learning to Segment Every Thing;

利用數(shù)據(jù)蒸餾的全向監(jiān)督學(xué)習(xí):Data Distillation:Toward Omni-Supervised Learning;

研究人與物互動:Detecting and Recognizing Human-Object Interactions;

一種非局域的神經(jīng)網(wǎng)絡(luò)結(jié)果:Non-Local Neural Netwroks。

(另一位著名的rbg大牛也是這四篇論文的共同作者>>http://www.rossgirshick.info/)

下面就讓我們一起來學(xué)習(xí)這四篇論文中的精妙思想吧!

目標(biāo)檢測中最有趣的工作之一就是預(yù)測被檢測物體的前景掩膜了,這項被稱為實例分割的任務(wù)能將每個物體所包含的像素精確的預(yù)測出來。但在實際中的系統(tǒng)只包含了視覺世界的一小類物體,大約100中的目標(biāo)分類限制了它的應(yīng)用。這主要是由于先進的實例分割算法需要強監(jiān)督樣本進行訓(xùn)練。目前的訓(xùn)練數(shù)據(jù)類別有限而增添一個新類別的強監(jiān)督實例分割樣本十分耗時耗力。但另一方面,邊界框標(biāo)記的樣本卻十分豐富也容易獲取。于是研究人員提出了一個想法:有沒有可能不依靠完整的實例分割標(biāo)記來生成對于所有類都有效的高質(zhì)量分割模型呢?在這個想法的指導(dǎo)下,這篇論文引入了一種新的部分監(jiān)督實例分割任務(wù),并提出了一種新穎的遷移學(xué)習(xí)方法來解決這一問題。

這一新的半監(jiān)督問題定義如下:1.訓(xùn)練數(shù)據(jù)中包含很多類對象,只有很小的子集類別擁有實例掩膜標(biāo)注而其余只有邊界框標(biāo)記;2.實例分割算法需要充分利用這些數(shù)據(jù)來生成一個可以為數(shù)據(jù)集中所有類別預(yù)測實例分割的模型。由于訓(xùn)練數(shù)據(jù)是強標(biāo)記(掩膜)和弱標(biāo)記(邊框)數(shù)據(jù)的混合,所以將這一任務(wù)稱為部分監(jiān)督學(xué)習(xí)。

部分監(jiān)督任務(wù)最主要的優(yōu)點在于可以通過對已有小類別掩膜標(biāo)記數(shù)據(jù)和大類被邊框標(biāo)記數(shù)據(jù)的探索,建立大規(guī)模的實例分割模型,得以將在小類別上表現(xiàn)優(yōu)異的先進模型拓展到上千個分類中去,這對于實際生活中的使用至關(guān)重要。

在具體實現(xiàn)過程中,基于Mask R-CNN提出了一種新穎的遷移學(xué)習(xí)方法。Mask R-CNN可以將實例分割問題分解為邊框目標(biāo)檢測和掩膜預(yù)測兩個子任務(wù)。在訓(xùn)練中分類信息會被編碼到邊框頭單元中,就可以將這一視覺類別信息遷移到部分監(jiān)督的掩膜頭中去。其次,作者還提出了一個稱為權(quán)重遷移函數(shù)的單元用于從邊框參數(shù)預(yù)測出每一分類的分割參數(shù)。在預(yù)測時,它將用于對每一類物體預(yù)測實例分割的參數(shù),包括在訓(xùn)練時沒有掩膜標(biāo)記的類別。

圖中綠框表示擁有掩膜標(biāo)記的類別和紅框則表示只有邊框標(biāo)記,而后預(yù)測出掩膜的類別。

最終通過學(xué)習(xí)小類別中邊框到分割的權(quán)重遷移函數(shù),成功地通過混合數(shù)據(jù)的訓(xùn)練實現(xiàn)了部分監(jiān)督學(xué)習(xí),將強大的圖像分割模型拓展到了3000類物體中。也開拓了非全監(jiān)督條件下大規(guī)模實例分割的研究方向。

論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_Learning_to_Segment_CVPR_2018_paper.pdf

這篇文章同樣是關(guān)于充分利用數(shù)據(jù)方面的工作,探索了一種稱為全向監(jiān)督學(xué)習(xí)的機制來使得模型盡可能的利用標(biāo)記數(shù)據(jù),并提供了潛在的無限制的無標(biāo)記數(shù)據(jù),它屬于半監(jiān)督學(xué)習(xí)的一個特殊領(lǐng)域。但目前大多數(shù)研究人員研究半監(jiān)督問題主要從標(biāo)記數(shù)據(jù)中分割出標(biāo)記和未標(biāo)記數(shù)據(jù)來模擬這樣的數(shù)據(jù)集,這樣的方法就決定了其上限是利用所有標(biāo)記數(shù)據(jù)來實現(xiàn)的全監(jiān)督學(xué)習(xí)。而全向監(jiān)督學(xué)習(xí)則是利用所有的標(biāo)記數(shù)據(jù)得到的精確結(jié)果作為模型的下限,來探索超越全監(jiān)督學(xué)習(xí)基線的可能性。

這篇文章在模型精煉思想的啟發(fā)下提出了數(shù)據(jù)精餾的方法來處理全向監(jiān)督問題。首先了利用大規(guī)模標(biāo)記數(shù)據(jù)訓(xùn)練的模型來為無標(biāo)簽數(shù)據(jù)創(chuàng)建標(biāo)簽;隨后又將新得到的標(biāo)簽數(shù)據(jù)與原數(shù)據(jù)一起訓(xùn)練新的模型。為了避免模型預(yù)測的數(shù)據(jù)標(biāo)簽沒有意義,研究人員利用的單個模型對不同變換后(翻轉(zhuǎn)和尺度變換)未標(biāo)記數(shù)據(jù)進行處理并組合了它們的結(jié)果,通過數(shù)據(jù)變化來增強單個模型的精度。

實驗證明這樣的變換可以提供不尋常的信息。換句話說,和利用多個模型來精煉知識的預(yù)測方法相比,這種方法通過單個模型在不同變化下的非標(biāo)簽數(shù)據(jù)中進行了數(shù)據(jù)精餾。

由于全監(jiān)督學(xué)習(xí)模型的飛速發(fā)展,目前的模型產(chǎn)生的錯誤越來越少,對于未知數(shù)據(jù)的預(yù)測結(jié)果也越來越可信。所以數(shù)據(jù)精餾無需改變識別模型,并且可以用于規(guī)?;奶幚泶笠?guī)模未標(biāo)記數(shù)據(jù)。

為了驗證對于全向監(jiān)督學(xué)習(xí)的數(shù)據(jù)蒸餾是否有效,在COCO數(shù)據(jù)集上對人體關(guān)鍵點檢測任務(wù)進行了測評。通過原始標(biāo)記的COCO數(shù)據(jù)集和連一個大規(guī)模非標(biāo)記數(shù)據(jù)集(Sports-1M)進行數(shù)據(jù)精餾并訓(xùn)練了Mask R-CNN模型。

通過模型對未標(biāo)記數(shù)據(jù)生成的標(biāo)注

通過對未標(biāo)記數(shù)據(jù)的精餾,研究人員觀察到了留存驗證集上精度的明顯提升:對于基準(zhǔn)Mask R-CNN提升了2個點AP;作為參考的是利用相同數(shù)據(jù)量的手工標(biāo)記數(shù)據(jù)得到了近3個點的提升,這說明利用本文的方法是有希望利用未標(biāo)記數(shù)據(jù)提高模型表現(xiàn)的。

利用數(shù)據(jù)精餾實現(xiàn)的結(jié)果

總結(jié)一下,本文主要探索了利用全向監(jiān)督學(xué)習(xí)(omni-supervised)的方法超越大規(guī)模全監(jiān)督學(xué)習(xí)的可能性,利用所有的監(jiān)督數(shù)據(jù)與非監(jiān)督數(shù)據(jù)的精餾來實現(xiàn)提升。

論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Radosavovic_Data_Distillation_Towards_CVPR_2018_paper.pdf

第三篇文章提出了一種以人為中心的思想,通過圖像中出現(xiàn)的人作為一個強大的線索來定為與之交互的對象,并基于這個想法開發(fā)了稱為InteractNet的模型,檢測<人、動作、對象>三元組,實現(xiàn)人與物之間交互的檢測與識別。

在視覺任務(wù)中,理解圖像中發(fā)生了什么除了檢測出其中的對象,還需要識別出對象間的關(guān)系,這篇文章主要集中與解決人與物的交互。識別人與物之間的交互關(guān)系可以被表示為檢測<人、動作、對象>三元組的過程。在互聯(lián)網(wǎng)的圖片中有很大部分包含了人物,所以以人為中心的理解具有很大的現(xiàn)實意義。事實上在研究者看來,圖片中的任務(wù)提供了豐富的動作信息,并銜接了與其發(fā)生交互的物體。但對于細粒度的人體行為及其交互的多種類的對象識別比起單純的對象檢測來說還面臨著一系列挑戰(zhàn)。

研究人員們發(fā)現(xiàn)圖片中的人物的行為和姿態(tài)中包含了大量與之交互物體的位置信息,所以基于這一前提相關(guān)物體的搜索范圍可以大大縮小。雖然每幅圖像中會檢測大大量物體,但由人體預(yù)測的目標(biāo)位置可以幫助模型迅速地找到與特定動作相關(guān)的目標(biāo)物體。研究人員把這一想法稱為“以人為中心”的識別,并利用Faster R-CNN框架進行了實現(xiàn)。

具體來說,在與人物相關(guān)的ROI中,這個分支實現(xiàn)了行為分類和對行為目標(biāo)物體的密度估計。密度估計器生成一個四維的高斯分布,對于每一種行為模型將會把目標(biāo)對象的位置與人物聯(lián)系起來。這個以人為中的識別分支與另一個簡單的對偶交互分支一起組成了多任務(wù)的學(xué)習(xí)系統(tǒng),并可以聯(lián)合優(yōu)化。

基于faster R-CNN的三分支架構(gòu)

作者最后在V-COCO數(shù)據(jù)集上進行了測評,實現(xiàn)了26%的AP(31.8to40.0)提升,這主要來自于利用與人物相關(guān)的目標(biāo)位置。同時這一稱為InteractNet的模型在HICO-DET數(shù)據(jù)集上實現(xiàn)了27%的提升。在復(fù)雜任務(wù)中達到了135ms/image的速度,具有潛在的實用性。

與動作相關(guān)目標(biāo)區(qū)域的估計

一些結(jié)果展示

想了解實現(xiàn)的細節(jié),請看論文中的具體描述:

http://openaccess.thecvf.com/content_cvpr_2018/papers/Gkioxari_Detecting_and_Recognizing_CVPR_2018_paper.pdf

第四篇論文提出了一非局域化的操作單元來獲取長程的依賴信息。在這種構(gòu)建單元的幫助下,模型可以在視頻分類任務(wù)和靜態(tài)目標(biāo)檢測任務(wù)中得到十分優(yōu)異的表現(xiàn)。

在深度神經(jīng)網(wǎng)絡(luò)中長程依賴性的抓取是十分重要的,對于序列數(shù)據(jù)來說一般采用遞歸操作來實現(xiàn),而對于圖像數(shù)據(jù)則主要通過深層卷積操作的堆疊而實現(xiàn)大感受野來實現(xiàn)。但卷積和遞歸操作主要用于處理時空局域信息,所以長程(大范圍)依賴性只能通過重復(fù)的操作,逐步傳播信號來獲取。這樣的重復(fù)操作會帶來一系列局限性:首先是計算效率低;其次導(dǎo)致了優(yōu)化困難;最后這樣的方法使得處理不同節(jié)點間信息來回傳輸?shù)亩啻畏瓷湟蕾嚹P妥兊檬掷щy。

為了克服這些困難,在這篇文章中作者提出了一種非局域的操作,作為高效、簡便、通用的模塊用于深度神經(jīng)網(wǎng)絡(luò)來抽取長程依賴性。這種操作是傳統(tǒng)非局域化均值操作的泛化,它通過加權(quán)輸入特征圖的所有位置特征來計算某一位置的響應(yīng),而這些位置可以是空間、時間或者是時空相關(guān)的,所以它適用于圖像、序列和視頻信號的處理。

非局域操作的優(yōu)點有以下三個方面:首先與卷積和遞歸的逐漸傳播過程相比,非局域操作可以直接通過計算位置間的相互作用來抓取長程特征;其次高效率的操作在少數(shù)幾層的模型下也能取得很好的結(jié)果;最后它可以適應(yīng)變化大小的輸入并便捷地集成到其他操作中去。

在視頻中像素具有時空上的長程相關(guān)性,單個非局域單元可以直接在前饋中抓取這些時空相關(guān)性。通過少數(shù)幾個非局域單元構(gòu)建的非局域神經(jīng)網(wǎng)絡(luò)來對視頻進行處理其精度要優(yōu)于傳統(tǒng)的2D/3D卷積網(wǎng)絡(luò)。同時,非局域神經(jīng)網(wǎng)絡(luò)相比于3D卷積計算更經(jīng)濟。

其數(shù)學(xué)表示如下:

x為輸入信號(圖像、視頻、序列、特征等)y為相同大小的輸出信號,i表示輸出結(jié)果中位置i的索引,它由所有可能位置j的響應(yīng)結(jié)果來計算。其中f用于計算位置ij之間的關(guān)系,而g用于計算輸入信號在位置j出的表示。C表述響應(yīng)的歸一化函數(shù)。

其構(gòu)成的空時計算單元結(jié)構(gòu)如下圖所示:

其中輸入為特征張量,其中g(shù)可以通過1*1卷積實現(xiàn),而計算相關(guān)性的函數(shù)可以由高斯和embedded高斯來實現(xiàn)。這里使用softmax來進行歸一化。具體實現(xiàn)請參看論文,其中描述了公式中的每一步包括f的點乘、相互聯(lián)系等方式的實現(xiàn),以及非局域化單元的實現(xiàn)。

在Kinetics和Charades數(shù)據(jù)集中,僅僅使用RGB圖像而不使用各種花哨的技巧,這種方法就能得到與當(dāng)前最好算法相比擬(甚至更好)的結(jié)果。同時在COCO數(shù)據(jù)集上這種方法可以提高目標(biāo)檢測、分割和位姿估計三個任務(wù)的精度,而只需要引入很少的而外計算。對于視頻和圖像的處理證明非局域化操作具有通用性,并將成為深度網(wǎng)絡(luò)的基本構(gòu)建單元。

論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.pdf

除此之外,Kaiming還將在今年的CVPR上帶來名為Visual Recognition and Beyond的教程,內(nèi)容包括視覺識別的前沿研究領(lǐng)域及其在高級任務(wù)中的應(yīng)用。Kaiming,Ross Girshick,Alex Kirillov將從不同角度闡述圖像分類、目標(biāo)檢測、實例分割和語義分割后支撐的方法和原理,而后Georgia Gkioxari和Justin Johnson將會在兩個報告中探索基于行為和推理視覺識別的新任務(wù)。感興趣的小伙伴可以關(guān)注:

https://sites.google.com/view/cvpr2018-recognition-tutorial

http://kaiminghe.com/

另外,從Facebook Research的網(wǎng)站查詢后發(fā)現(xiàn),幾年CVPR共接收其論文28篇,除了上述四篇外,各領(lǐng)域文章如下,有興趣的小伙伴可以進行更深入的學(xué)習(xí)。(點擊圖片放大)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:蹭熱度 | 梳理下Kaiming大神在CVPR‘18 又有了什么新成果?(贈論文下載工具)

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    北斗列 中國八大神器震驚全球

    近年來中國取得的科研成果還遠遠不僅如此。本文羅列了八大神器:世界最大單口徑FAST射電望遠鏡,還有全球超級計算機500強第一的“神威·太湖之光”超級計算機、世界上精度最高的北斗衛(wèi)星導(dǎo)航系統(tǒng)、全球首條量子通信“京滬干線”……它們中許多曾被國外技術(shù)封鎖,但它們又終究震撼世界。
    發(fā)表于 07-11 10:01 ?2949次閱讀

    中國量子科技領(lǐng)域又有新突破!

    中國量子科技領(lǐng)域又有新突破!《科學(xué)》雜志每年都會評選出當(dāng)年科技領(lǐng)域最為重要的十大突破,業(yè)界期待的2019年科技領(lǐng)域十大突破已在近期公布,量子霸權(quán)位于十大突破之列。今年9月,谷歌的物理學(xué)家聲稱實現(xiàn)
    發(fā)表于 07-28 07:38

    ProbeRequest是什么 它又有什么作用

    博主 [ESP8266開發(fā)之旅 網(wǎng)絡(luò)篇⑥ ESP8266WiFiGeneric——基礎(chǔ)庫] 中提到了一個 函數(shù)onSoftAPModeProbeRequestReceived —— AP模式收到
    發(fā)表于 08-06 08:53

    lsh_tracking_cvpr2013英文版資料

    lsh_tracking_cvpr2013英文版資料,基于局部敏感直方圖的目標(biāo)跟蹤算法,該算法CVPR2013中出現(xiàn),算法較簡單但卻非常有效,值得各位研究視覺跟蹤算法的同行研究,pdf格式,感興趣的朋友可以下載學(xué)習(xí)。
    發(fā)表于 11-08 18:16 ?0次下載

    國外大神惡搞iOS10.2.1-10.3越獄, 看的人差點就信!

    說實話盧卡斯大神也確實有娛樂精神,推特上的一則消息著實把各位粉絲惡搞了一番,搞的很多人以為大神發(fā)布iOS10.2.1-10.3越獄,這又是怎么回事呢?
    發(fā)表于 02-20 10:29 ?2.6w次閱讀

    大神F2聯(lián)通版性能怎么樣

    8月26日大神北京國家會議中心舉辦發(fā)布會,發(fā)布大神F2,盡管沒有采用傳說中的MT6595芯片,但是8和4G承諾還是如期而至,從過去這兩個月的銷量來看,
    的頭像 發(fā)表于 12-17 11:16 ?1720次閱讀

    62篇論文入選十年來最難CVPR,商湯研究再創(chuàng)佳績

    根據(jù)官方數(shù)據(jù),本屆CVPR大會共收到6656篇投稿,接收論文1470篇,錄用率約22%,低于ICCV 2019論文錄用率(25%),為十年以來CVPR論文錄用率最低。
    的頭像 發(fā)表于 05-12 14:42 ?2549次閱讀

    AI觀察室(三)|頂會推薦!獲選CVPR oral paper的Xilinx AI研發(fā)團隊最新成果揭秘

    CVPR 是計算機視覺領(lǐng)域的頂級學(xué)術(shù)會議。對于所有從事計算機視覺領(lǐng)域的工程師來說,能夠入圍 CVPR 無疑是一項巨大的肯定。
    發(fā)表于 06-18 09:07 ?2444次閱讀

    CVPR 2021華為諾亞方舟實驗室發(fā)表30篇論文 |CVPR 2021

    一年一度的計算機視覺頂會IEEE計算機視覺及模式識別大會CVPR錄用結(jié)果最近公布。據(jù)悉,今年CVPR投稿量與論文接收量相對往年繼續(xù)上升,有...
    發(fā)表于 01-25 18:24 ?1次下載
    <b class='flag-5'>CVPR</b> 2021華為諾亞方舟實驗室發(fā)表30篇論文 |<b class='flag-5'>CVPR</b> 2021

    CVPR2020 | 對數(shù)字屏幕拍照時的摩爾紋怎么去除?

    本文收錄于CVPR2020,是華為諾亞方舟研究院的成果,主要解決的是,去除對數(shù)字屏幕拍照產(chǎn)生摩爾紋,有一定的應(yīng)用價值。
    發(fā)表于 01-26 19:05 ?2次下載
    <b class='flag-5'>CVPR</b>2020 | 對數(shù)字屏幕拍照時的摩爾紋怎么去除?

    CVPR2020 | MAL:聯(lián)合解決目標(biāo)檢測中的定位與分類問題,自動選擇最佳anchor

    本文是收錄于CVPR2020的工作,其實文章去年就掛在網(wǎng)上,整體思路還算不錯。具體來說,本文提出Multiple Anchor Learning(MAL),是...
    發(fā)表于 01-26 19:50 ?0次下載
    <b class='flag-5'>CVPR</b>2020 | MAL:聯(lián)合解決目標(biāo)檢測中的定位與分類問題,自動選擇最佳anchor

    深蘭團隊已連續(xù)5年CVPR挑戰(zhàn)賽中斬獲冠軍

    近日,被譽為 全球計算機視覺三大頂級會議之一的CVPR 2023 加拿大溫哥華隆重舉行。本次大會公布多個研究項目的科研成果及相關(guān)參賽隊伍的成績,深蘭團隊
    的頭像 發(fā)表于 06-26 11:11 ?485次閱讀

    高通2023年國際計算機視覺與模式識別會議上,展示先進研究成果并將生成式AI引入邊緣側(cè)

    6月18日至22日,IEEE/CVF國際計算機視覺與模式識別會議(CVPR溫哥華舉行,該會議不僅是計算機視覺,也是AI領(lǐng)域最重要的年度活動之一。會議期間,高通展示已被業(yè)界認可的研
    的頭像 發(fā)表于 06-27 19:15 ?442次閱讀
    高通<b class='flag-5'>在</b>2023年國際計算機視覺與模式識別會議上,展示先進研究<b class='flag-5'>成果</b>并將生成式AI引入邊緣側(cè)

    大神手工自制CPU的過程

    為了深入理解這個問題,大神耗時整整半年,“逐點”焊接,自制一個CPU,杰作如下圖所示。
    的頭像 發(fā)表于 09-27 09:41 ?1220次閱讀
    <b class='flag-5'>大神</b>手工自制CPU的過程

    OpenCV攜Orbbec 3D相機亮相CVPR 2024,加速AI視覺創(chuàng)新

    科技發(fā)展的浪潮中,一年一度的IEEE國際計算機視覺與模式識別會議(CVPR)無疑是視覺技術(shù)領(lǐng)域的一大盛事。今年的CVPR 2024于6月17日至21日美國西雅圖盛大舉行,吸引
    的頭像 發(fā)表于 06-21 10:15 ?510次閱讀