一年一度的CVPR這就來了,各種前沿的、新奇的、驚人的成果又將給我們帶來全新的認知。忍不住想去關(guān)注大神們的杰出工作,其中曾獲得兩次CVPR最佳論文的Kaiming是第一個想要檢索的對象。在今年的主論壇上,共有四篇論文出現(xiàn)了Kaiming He的身影,他們分別是:
圖像分割領(lǐng)域的:Learning to Segment Every Thing;
利用數(shù)據(jù)蒸餾的全向監(jiān)督學(xué)習(xí):Data Distillation:Toward Omni-Supervised Learning;
研究人與物互動:Detecting and Recognizing Human-Object Interactions;
一種非局域的神經(jīng)網(wǎng)絡(luò)結(jié)果:Non-Local Neural Netwroks。
(另一位著名的rbg大牛也是這四篇論文的共同作者>>http://www.rossgirshick.info/)
下面就讓我們一起來學(xué)習(xí)這四篇論文中的精妙思想吧!
目標(biāo)檢測中最有趣的工作之一就是預(yù)測被檢測物體的前景掩膜了,這項被稱為實例分割的任務(wù)能將每個物體所包含的像素精確的預(yù)測出來。但在實際中的系統(tǒng)只包含了視覺世界的一小類物體,大約100中的目標(biāo)分類限制了它的應(yīng)用。這主要是由于先進的實例分割算法需要強監(jiān)督樣本進行訓(xùn)練。目前的訓(xùn)練數(shù)據(jù)類別有限而增添一個新類別的強監(jiān)督實例分割樣本十分耗時耗力。但另一方面,邊界框標(biāo)記的樣本卻十分豐富也容易獲取。于是研究人員提出了一個想法:有沒有可能不依靠完整的實例分割標(biāo)記來生成對于所有類都有效的高質(zhì)量分割模型呢?在這個想法的指導(dǎo)下,這篇論文引入了一種新的部分監(jiān)督實例分割任務(wù),并提出了一種新穎的遷移學(xué)習(xí)方法來解決這一問題。
這一新的半監(jiān)督問題定義如下:1.訓(xùn)練數(shù)據(jù)中包含很多類對象,只有很小的子集類別擁有實例掩膜標(biāo)注而其余只有邊界框標(biāo)記;2.實例分割算法需要充分利用這些數(shù)據(jù)來生成一個可以為數(shù)據(jù)集中所有類別預(yù)測實例分割的模型。由于訓(xùn)練數(shù)據(jù)是強標(biāo)記(掩膜)和弱標(biāo)記(邊框)數(shù)據(jù)的混合,所以將這一任務(wù)稱為部分監(jiān)督學(xué)習(xí)。
部分監(jiān)督任務(wù)最主要的優(yōu)點在于可以通過對已有小類別掩膜標(biāo)記數(shù)據(jù)和大類被邊框標(biāo)記數(shù)據(jù)的探索,建立大規(guī)模的實例分割模型,得以將在小類別上表現(xiàn)優(yōu)異的先進模型拓展到上千個分類中去,這對于實際生活中的使用至關(guān)重要。
在具體實現(xiàn)過程中,基于Mask R-CNN提出了一種新穎的遷移學(xué)習(xí)方法。Mask R-CNN可以將實例分割問題分解為邊框目標(biāo)檢測和掩膜預(yù)測兩個子任務(wù)。在訓(xùn)練中分類信息會被編碼到邊框頭單元中,就可以將這一視覺類別信息遷移到部分監(jiān)督的掩膜頭中去。其次,作者還提出了一個稱為權(quán)重遷移函數(shù)的單元用于從邊框參數(shù)預(yù)測出每一分類的分割參數(shù)。在預(yù)測時,它將用于對每一類物體預(yù)測實例分割的參數(shù),包括在訓(xùn)練時沒有掩膜標(biāo)記的類別。
圖中綠框表示擁有掩膜標(biāo)記的類別和紅框則表示只有邊框標(biāo)記,而后預(yù)測出掩膜的類別。
最終通過學(xué)習(xí)小類別中邊框到分割的權(quán)重遷移函數(shù),成功地通過混合數(shù)據(jù)的訓(xùn)練實現(xiàn)了部分監(jiān)督學(xué)習(xí),將強大的圖像分割模型拓展到了3000類物體中。也開拓了非全監(jiān)督條件下大規(guī)模實例分割的研究方向。
論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_Learning_to_Segment_CVPR_2018_paper.pdf
這篇文章同樣是關(guān)于充分利用數(shù)據(jù)方面的工作,探索了一種稱為全向監(jiān)督學(xué)習(xí)的機制來使得模型盡可能的利用標(biāo)記數(shù)據(jù),并提供了潛在的無限制的無標(biāo)記數(shù)據(jù),它屬于半監(jiān)督學(xué)習(xí)的一個特殊領(lǐng)域。但目前大多數(shù)研究人員研究半監(jiān)督問題主要從標(biāo)記數(shù)據(jù)中分割出標(biāo)記和未標(biāo)記數(shù)據(jù)來模擬這樣的數(shù)據(jù)集,這樣的方法就決定了其上限是利用所有標(biāo)記數(shù)據(jù)來實現(xiàn)的全監(jiān)督學(xué)習(xí)。而全向監(jiān)督學(xué)習(xí)則是利用所有的標(biāo)記數(shù)據(jù)得到的精確結(jié)果作為模型的下限,來探索超越全監(jiān)督學(xué)習(xí)基線的可能性。
這篇文章在模型精煉思想的啟發(fā)下提出了數(shù)據(jù)精餾的方法來處理全向監(jiān)督問題。首先了利用大規(guī)模標(biāo)記數(shù)據(jù)訓(xùn)練的模型來為無標(biāo)簽數(shù)據(jù)創(chuàng)建標(biāo)簽;隨后又將新得到的標(biāo)簽數(shù)據(jù)與原數(shù)據(jù)一起訓(xùn)練新的模型。為了避免模型預(yù)測的數(shù)據(jù)標(biāo)簽沒有意義,研究人員利用的單個模型對不同變換后(翻轉(zhuǎn)和尺度變換)未標(biāo)記數(shù)據(jù)進行處理并組合了它們的結(jié)果,通過數(shù)據(jù)變化來增強單個模型的精度。
實驗證明這樣的變換可以提供不尋常的信息。換句話說,和利用多個模型來精煉知識的預(yù)測方法相比,這種方法通過單個模型在不同變化下的非標(biāo)簽數(shù)據(jù)中進行了數(shù)據(jù)精餾。
由于全監(jiān)督學(xué)習(xí)模型的飛速發(fā)展,目前的模型產(chǎn)生的錯誤越來越少,對于未知數(shù)據(jù)的預(yù)測結(jié)果也越來越可信。所以數(shù)據(jù)精餾無需改變識別模型,并且可以用于規(guī)?;奶幚泶笠?guī)模未標(biāo)記數(shù)據(jù)。
為了驗證對于全向監(jiān)督學(xué)習(xí)的數(shù)據(jù)蒸餾是否有效,在COCO數(shù)據(jù)集上對人體關(guān)鍵點檢測任務(wù)進行了測評。通過原始標(biāo)記的COCO數(shù)據(jù)集和連一個大規(guī)模非標(biāo)記數(shù)據(jù)集(Sports-1M)進行數(shù)據(jù)精餾并訓(xùn)練了Mask R-CNN模型。
通過模型對未標(biāo)記數(shù)據(jù)生成的標(biāo)注
通過對未標(biāo)記數(shù)據(jù)的精餾,研究人員觀察到了留存驗證集上精度的明顯提升:對于基準(zhǔn)Mask R-CNN提升了2個點AP;作為參考的是利用相同數(shù)據(jù)量的手工標(biāo)記數(shù)據(jù)得到了近3個點的提升,這說明利用本文的方法是有希望利用未標(biāo)記數(shù)據(jù)提高模型表現(xiàn)的。
利用數(shù)據(jù)精餾實現(xiàn)的結(jié)果
總結(jié)一下,本文主要探索了利用全向監(jiān)督學(xué)習(xí)(omni-supervised)的方法超越大規(guī)模全監(jiān)督學(xué)習(xí)的可能性,利用所有的監(jiān)督數(shù)據(jù)與非監(jiān)督數(shù)據(jù)的精餾來實現(xiàn)提升。
論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Radosavovic_Data_Distillation_Towards_CVPR_2018_paper.pdf
第三篇文章提出了一種以人為中心的思想,通過圖像中出現(xiàn)的人作為一個強大的線索來定為與之交互的對象,并基于這個想法開發(fā)了稱為InteractNet的模型,檢測<人、動作、對象>三元組,實現(xiàn)人與物之間交互的檢測與識別。
在視覺任務(wù)中,理解圖像中發(fā)生了什么除了檢測出其中的對象,還需要識別出對象間的關(guān)系,這篇文章主要集中與解決人與物的交互。識別人與物之間的交互關(guān)系可以被表示為檢測<人、動作、對象>三元組的過程。在互聯(lián)網(wǎng)的圖片中有很大部分包含了人物,所以以人為中心的理解具有很大的現(xiàn)實意義。事實上在研究者看來,圖片中的任務(wù)提供了豐富的動作信息,并銜接了與其發(fā)生交互的物體。但對于細粒度的人體行為及其交互的多種類的對象識別比起單純的對象檢測來說還面臨著一系列挑戰(zhàn)。
研究人員們發(fā)現(xiàn)圖片中的人物的行為和姿態(tài)中包含了大量與之交互物體的位置信息,所以基于這一前提相關(guān)物體的搜索范圍可以大大縮小。雖然每幅圖像中會檢測大大量物體,但由人體預(yù)測的目標(biāo)位置可以幫助模型迅速地找到與特定動作相關(guān)的目標(biāo)物體。研究人員把這一想法稱為“以人為中心”的識別,并利用Faster R-CNN框架進行了實現(xiàn)。
具體來說,在與人物相關(guān)的ROI中,這個分支實現(xiàn)了行為分類和對行為目標(biāo)物體的密度估計。密度估計器生成一個四維的高斯分布,對于每一種行為模型將會把目標(biāo)對象的位置與人物聯(lián)系起來。這個以人為中的識別分支與另一個簡單的對偶交互分支一起組成了多任務(wù)的學(xué)習(xí)系統(tǒng),并可以聯(lián)合優(yōu)化。
基于faster R-CNN的三分支架構(gòu)
作者最后在V-COCO數(shù)據(jù)集上進行了測評,實現(xiàn)了26%的AP(31.8to40.0)提升,這主要來自于利用與人物相關(guān)的目標(biāo)位置。同時這一稱為InteractNet的模型在HICO-DET數(shù)據(jù)集上實現(xiàn)了27%的提升。在復(fù)雜任務(wù)中達到了135ms/image的速度,具有潛在的實用性。
與動作相關(guān)目標(biāo)區(qū)域的估計
一些結(jié)果展示
想了解實現(xiàn)的細節(jié),請看論文中的具體描述:
http://openaccess.thecvf.com/content_cvpr_2018/papers/Gkioxari_Detecting_and_Recognizing_CVPR_2018_paper.pdf
第四篇論文提出了一非局域化的操作單元來獲取長程的依賴信息。在這種構(gòu)建單元的幫助下,模型可以在視頻分類任務(wù)和靜態(tài)目標(biāo)檢測任務(wù)中得到十分優(yōu)異的表現(xiàn)。
在深度神經(jīng)網(wǎng)絡(luò)中長程依賴性的抓取是十分重要的,對于序列數(shù)據(jù)來說一般采用遞歸操作來實現(xiàn),而對于圖像數(shù)據(jù)則主要通過深層卷積操作的堆疊而實現(xiàn)大感受野來實現(xiàn)。但卷積和遞歸操作主要用于處理時空局域信息,所以長程(大范圍)依賴性只能通過重復(fù)的操作,逐步傳播信號來獲取。這樣的重復(fù)操作會帶來一系列局限性:首先是計算效率低;其次導(dǎo)致了優(yōu)化困難;最后這樣的方法使得處理不同節(jié)點間信息來回傳輸?shù)亩啻畏瓷湟蕾嚹P妥兊檬掷щy。
為了克服這些困難,在這篇文章中作者提出了一種非局域的操作,作為高效、簡便、通用的模塊用于深度神經(jīng)網(wǎng)絡(luò)來抽取長程依賴性。這種操作是傳統(tǒng)非局域化均值操作的泛化,它通過加權(quán)輸入特征圖的所有位置特征來計算某一位置的響應(yīng),而這些位置可以是空間、時間或者是時空相關(guān)的,所以它適用于圖像、序列和視頻信號的處理。
非局域操作的優(yōu)點有以下三個方面:首先與卷積和遞歸的逐漸傳播過程相比,非局域操作可以直接通過計算位置間的相互作用來抓取長程特征;其次高效率的操作在少數(shù)幾層的模型下也能取得很好的結(jié)果;最后它可以適應(yīng)變化大小的輸入并便捷地集成到其他操作中去。
在視頻中像素具有時空上的長程相關(guān)性,單個非局域單元可以直接在前饋中抓取這些時空相關(guān)性。通過少數(shù)幾個非局域單元構(gòu)建的非局域神經(jīng)網(wǎng)絡(luò)來對視頻進行處理其精度要優(yōu)于傳統(tǒng)的2D/3D卷積網(wǎng)絡(luò)。同時,非局域神經(jīng)網(wǎng)絡(luò)相比于3D卷積計算更經(jīng)濟。
其數(shù)學(xué)表示如下:
x為輸入信號(圖像、視頻、序列、特征等)y為相同大小的輸出信號,i表示輸出結(jié)果中位置i的索引,它由所有可能位置j的響應(yīng)結(jié)果來計算。其中f用于計算位置ij之間的關(guān)系,而g用于計算輸入信號在位置j出的表示。C表述響應(yīng)的歸一化函數(shù)。
其構(gòu)成的空時計算單元結(jié)構(gòu)如下圖所示:
其中輸入為特征張量,其中g(shù)可以通過1*1卷積實現(xiàn),而計算相關(guān)性的函數(shù)可以由高斯和embedded高斯來實現(xiàn)。這里使用softmax來進行歸一化。具體實現(xiàn)請參看論文,其中描述了公式中的每一步包括f的點乘、相互聯(lián)系等方式的實現(xiàn),以及非局域化單元的實現(xiàn)。
在Kinetics和Charades數(shù)據(jù)集中,僅僅使用RGB圖像而不使用各種花哨的技巧,這種方法就能得到與當(dāng)前最好算法相比擬(甚至更好)的結(jié)果。同時在COCO數(shù)據(jù)集上這種方法可以提高目標(biāo)檢測、分割和位姿估計三個任務(wù)的精度,而只需要引入很少的而外計算。對于視頻和圖像的處理證明非局域化操作具有通用性,并將成為深度網(wǎng)絡(luò)的基本構(gòu)建單元。
論文>>http://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.pdf
除此之外,Kaiming還將在今年的CVPR上帶來名為Visual Recognition and Beyond的教程,內(nèi)容包括視覺識別的前沿研究領(lǐng)域及其在高級任務(wù)中的應(yīng)用。Kaiming,Ross Girshick,Alex Kirillov將從不同角度闡述圖像分類、目標(biāo)檢測、實例分割和語義分割后支撐的方法和原理,而后Georgia Gkioxari和Justin Johnson將會在兩個報告中探索基于行為和推理視覺識別的新任務(wù)。感興趣的小伙伴可以關(guān)注:
https://sites.google.com/view/cvpr2018-recognition-tutorial
http://kaiminghe.com/
另外,從Facebook Research的網(wǎng)站查詢后發(fā)現(xiàn),幾年CVPR共接收其論文28篇,除了上述四篇外,各領(lǐng)域文章如下,有興趣的小伙伴可以進行更深入的學(xué)習(xí)。(點擊圖片放大)
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4722瀏覽量
100308 -
圖像分割
+關(guān)注
關(guān)注
4文章
181瀏覽量
17948 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1197瀏覽量
24590
原文標(biāo)題:蹭熱度 | 梳理下Kaiming大神在CVPR‘18 又有了什么新成果?(贈論文下載工具)
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論