0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞洲研究院視覺計(jì)算組又一個(gè)令人拍案叫絕的操作

DPVg_AI_era ? 來源:lq ? 2018-11-30 09:00 ? 次閱讀

微軟亞洲研究院視覺計(jì)算組又一個(gè)令人拍案叫絕的操作:可變形卷積網(wǎng)絡(luò)v2版!DCNv2方法簡單,結(jié)果更好,在COCO基準(zhǔn)測試中比上個(gè)版本提升了5個(gè)點(diǎn)。

同樣的物體在圖像中可能呈現(xiàn)出不同的大小、姿態(tài)、視角變化甚至非剛體形變,如何適應(yīng)這些復(fù)雜的幾何形變是物體識(shí)別的主要難點(diǎn),也是計(jì)算機(jī)視覺領(lǐng)域多年來關(guān)注的核心問題。

去年,微軟亞洲研究院視覺計(jì)算組提出了 “Deformable Convolutional Networks”(可變形卷積網(wǎng)絡(luò)),首次在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中引入了學(xué)習(xí)空間幾何形變的能力,得到可變形卷積網(wǎng)絡(luò)(Deformable ConvNets),從而更好地解決了具有空間形變的圖像識(shí)別任務(wù)。

通俗地說,圖像中的物體形狀本來就是千奇百怪,方框型的卷積核,即使卷積多次反卷積回去仍然是方框,不能真實(shí)表達(dá)物體的形狀,如果卷積核的形狀是可以變化的,這樣卷積后反卷積回去就可以形成一個(gè)多邊形,更貼切的表達(dá)物體形狀,從而可以更好地進(jìn)行圖像分割和物體檢測

研究員們通過大量的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法在復(fù)雜的計(jì)算機(jī)視覺任務(wù)(如目標(biāo)檢測和語義分割)上的有效性,首次表明在深度卷積神經(jīng)網(wǎng)絡(luò)(deep CNN)中學(xué)習(xí)空間上密集的幾何形變是可行的。

但這個(gè)Deformable ConvNets也有缺陷,例如,激活單元的樣本傾向于集中在其所在對(duì)象的周圍。然而,對(duì)象的覆蓋是不精確的,顯示出超出感興趣區(qū)域的樣本的擴(kuò)散。在使用更具挑戰(zhàn)性的COCO數(shù)據(jù)集進(jìn)行分析時(shí),研究人員發(fā)現(xiàn)這種傾向更加明顯。這些研究結(jié)果表明,學(xué)習(xí)可變形卷積還有更大的可能性。

昨天,MSRA視覺組發(fā)布可變形卷積網(wǎng)絡(luò)的升級(jí)版本:Deformable ConvNets v2 (DCNv2),論文標(biāo)題也相當(dāng)簡單粗暴:更加可變形,更好的結(jié)果!

論文地址:

https://arxiv.org/pdf/1811.11168.pdf

DCNv2具有更強(qiáng)的學(xué)習(xí)可變形卷積的建模能力,體現(xiàn)在兩種互補(bǔ)的形式:

第一種是網(wǎng)絡(luò)中可變形卷積層的擴(kuò)展使用。配備具有offset學(xué)習(xí)能力的更多卷積層允許DCNv2在更廣泛的特征級(jí)別上控制采樣。

第二種是可變形卷積模塊中的調(diào)制機(jī)制,其中每個(gè)樣本不僅經(jīng)過一個(gè)學(xué)習(xí)的offset,而且還被一個(gè)學(xué)習(xí)特征調(diào)制。因此,網(wǎng)絡(luò)模塊能夠改變其樣本的空間分布和相對(duì)影響。

為了充分利用DCNv2增強(qiáng)的建模能力,需要進(jìn)行有效的訓(xùn)練。受神經(jīng)網(wǎng)絡(luò)的knowledge distillation這一工作的啟發(fā),我們利用教師網(wǎng)絡(luò)來實(shí)現(xiàn)這一目的,教師在訓(xùn)練期間提供指導(dǎo)。

具體來說,我們利用R-CNN作為教師網(wǎng)絡(luò)。由于它是訓(xùn)練用于對(duì)裁剪圖像內(nèi)容進(jìn)行分類的網(wǎng)絡(luò),因此R-CNN學(xué)習(xí)的特征不受感興趣區(qū)域之外無關(guān)信息的影響。為了模仿這個(gè)屬性,DCNv2在其訓(xùn)練中加入了一個(gè)特征模擬損失,這有利于學(xué)習(xí)與R-CNN一致的特征。通過這種方式,DCNv2得到強(qiáng)大的訓(xùn)練信號(hào),用于增強(qiáng)可變形采樣。

通過這些改變,可變形模塊仍然是輕量級(jí)的,并且可以容易地結(jié)合到現(xiàn)有網(wǎng)絡(luò)架構(gòu)中。

具體而言,我們將DCNv2合并到Faster R-CNN 和Mask R-CNN 系統(tǒng),并具有各種backbone網(wǎng)絡(luò)。在COCO基準(zhǔn)測試上的大量實(shí)驗(yàn)證明了DCNv2相對(duì)于DCNv1在物體檢測和實(shí)例分割方面都有顯著改進(jìn)。

我們將在不久后發(fā)布DCNv2的代碼。

圖1:常規(guī)ConvNet、DCNv1以及DCNv2中conv5 stage最后一層節(jié)點(diǎn)的空間支持。

圖3:利用R-CNN feature mimicking的訓(xùn)練

結(jié)果

表4:COCO 2017 test-dev set 中各種backbones上的DCNv2、DCNv1和regular ConvNets的結(jié)果。

圖4:在COCO 2017 test-dev set不同分辨率的輸入圖像上,DCNv2和regular ConvNets(Faster R-CNN + ResNet-50 / ResNet-101)的APbbox分?jǐn)?shù)。

表6:DCNv2、DCNv1和regular ConvNets的ImageNet分類準(zhǔn)確度。

可以看到,Deformable ConvNets v2的結(jié)果相當(dāng)亮眼!下面,我們精選了兩篇業(yè)內(nèi)對(duì)這篇論文的評(píng)價(jià),經(jīng)授權(quán)發(fā)布:

業(yè)界良心DCNV2:方法簡單,結(jié)果好,分析充分

知乎用戶Bowen Cheng的評(píng)價(jià):

一周前就聽說 Jifeng 組做出了Deformable ConvNet V2(DCNV2),今天 Jifeng 告訴我 paper 已經(jīng)掛 ArXiv 上之后果斷放下所有事把這篇 paper 好好讀了讀。感覺這個(gè)工作特別 solid,果然沒有讓人失望。下面簡單談?wù)剛€(gè)人對(duì)這篇 paper 的理解,可能有不對(duì)的地方請(qǐng)大家多多指點(diǎn)!

DCNV2 首先用了更好的 visualization 來更深入的理解 DCNV1 為什么 work 以及還存在什么缺陷,發(fā)現(xiàn)存在的問題就是因?yàn)?offset 不可控導(dǎo)致引入了過多的 context,而這些 context 可能是有害的([1]和 [2] 中也說明了這些 context 可能是有害的)。

解決方法也很簡單粗暴:

(1) 增加更多的 Deformable Convolution

(2)讓 Deformable Conv 不僅能學(xué)習(xí) offset,還能學(xué)習(xí)每個(gè)采樣點(diǎn)的權(quán)重(modulation)

(3)模擬 R-CNN 的 feature(knowledge distillation)

(1) 就不用說了,在 DCNV1 中只有 ResNet 的 Conv5 stage 中有 Deformable Conv,在 DCNV2 中把 Conv3-Conv5 的 3x3 convolution 都換成了 Deformable Conv

(2) 在 DCNV1 里,Deformable Conv 只學(xué)習(xí) offset:

而在 DCNV2 中,加入了對(duì)每個(gè)采樣點(diǎn)的權(quán)重:

其中是學(xué)到的 offset,是學(xué)到的權(quán)重。這樣的好處是增加了更大的自由度,對(duì)于某些不想要的采樣點(diǎn)權(quán)重可以學(xué)成 0。

(3) [1] 中作者(好吧,其實(shí)作者是我)發(fā)現(xiàn)把 R-CNN 和 Faster RCNN 的 classification score 結(jié)合起來可以提升 performance,說明 R-CNN 學(xué)到的 focus 在物體上的 feature 可以解決 redundant context 的問題。但是增加額外的 R-CNN 會(huì)使 inference 速度變慢很多。DCNV2 里的解決方法是把 R-CNN 當(dāng)做 teacher network,讓 DCNV2 的 ROIPooling 之后的 feature 去模擬 R-CNN 的 feature。(圖里畫的很清楚了)

其中 feature mimic 的 loss 定義是:

在 end-to-end train 的時(shí)候這個(gè) loss 給了一個(gè) 0.1 的 weight。

實(shí)驗(yàn)結(jié)果大家看 paper 就好了,在 ResNet-50 backbone COCO 上跟 DCNV1 比漲了 5 個(gè)點(diǎn)!這比目前大部分 detection paper 靠東拼西湊漲的那一兩個(gè)點(diǎn)要強(qiáng)多了。我驚訝的是和 DCNV1 對(duì)比,在 image classification 上也有很大的提升。

說說自己的想法吧,DCNV2 方法簡單,結(jié)果好,分析充分,我覺得和近期各種 detection paper 比算是業(yè)界良心了。我覺得還有可以學(xué)習(xí)的一點(diǎn)就是 context 的問題。很多 detection 的 paper 都在引入 context(大家都 claim 說小物體需要引入 context 來解決),其實(shí)我個(gè)人覺得有點(diǎn)在扯淡,物體小最直接的方法難道不是放大物體來解決嗎?比如 SNIP/SNIPER 都是在 “放大” 物體。所以在 context 這個(gè)問題上我(詳情見 [1] 和[2])跟 Jifeng 他們的看法是一樣的,我們也許不需要那么多沒用的 context。作者都是熟人,我也不多吹了,反正我是準(zhǔn)備去 follow 這個(gè)工作了哈哈。

最后說說 DCN 有一個(gè)小缺點(diǎn),其實(shí)就是速度的問題。因?yàn)闆]有 cudnn 的加速,DCN 完全是靠 im2col 實(shí)現(xiàn)的(從目前的 MXNet 版本來看是這樣的),當(dāng) batchsize 大的時(shí)候我感覺速度會(huì)比有 cudnn 加速的 3x3 conv 慢。很好奇當(dāng) batchsize 大的時(shí)候(比如 ImageNet)的 training 時(shí)間會(huì)慢多少。希望以后能和 dilated convolution 一樣被加到 cudnn 里支持吧。

發(fā)現(xiàn)好多人好像沒有看過 [1][2],放張 network 的圖(宣傳一下自己的工作),DCN V2 的 mimic R-CNN 和 DCR V1 的結(jié)構(gòu)類似,但是通過 knowledge distillation 很巧妙的在 inference 階段把 R-CNN 給去掉了。

[1] Revisiting RCNN: On Awakening the Classification Power of Faster RCNN

[2] Decoupled Classification Refinement: Hard False Positive Suppression for Object Detection

創(chuàng)新性與性能雙贏,COCO漲了5個(gè)點(diǎn)!

知乎用戶孔濤的評(píng)價(jià):

首先祭出結(jié)論,這是一篇干貨滿滿,novelty 和 performance 雙贏的 paper(COCO 直接漲了~ 5 個(gè)點(diǎn)?。?/p>

自己一直在做 object detection 相關(guān)的工作,再加上之前在 MSRA 跟 Jifeng 及 CV 組的小伙伴共事過一段時(shí)間,努力給出客觀的評(píng)價(jià)吧。

從 Deform ConvNet V1 說起

目標(biāo)檢測中有一個(gè)比較棘手的問題,即所謂的幾何形變問題(Geometric variations)。就拿人檢測來講,人的姿態(tài)有多種多樣(想想跳舞的場景),這就需要我們?cè)O(shè)計(jì)的模型具備 deformation 的能力。通常情況下為了解決這類問題有兩種思路:(a) 收集更多樣的數(shù)據(jù)用于模型的訓(xùn)練;(b) 設(shè)計(jì) transformation invariant 的特征來提升模型多樣化能力。

Deform ConvNet 是在卷積神經(jīng)網(wǎng)絡(luò)的框架下,對(duì) transformation-invariant feature 的比較成功的嘗試。思想非常直觀,在標(biāo)準(zhǔn)的卷積核上加入了可學(xué)習(xí)的 offset,使得原來方方正正的卷積核具備了形變的能力。

deformable convolution

用過的童鞋其實(shí)都知道,在大型的 object detection/instance segmentation 任務(wù)上的表現(xiàn)還蠻搶眼的。

Deform ConvNet V2 在干啥

我認(rèn)為,Deform ConvNet 是在解決如何讓學(xué)到的 offset 能更聚焦到感興趣的物體上邊,也就是提取到更聚焦的 feature 來幫助物體的識(shí)別定位。在下邊的圖片中,我們當(dāng)然希望模型的 feature 能夠聚焦到物體上邊,這樣才能提取到更有意義的 supporting feature。

為了做到這一點(diǎn),作者主要用了幾種策略:

(a) 增加更多的 offset 層,這個(gè)不必細(xì)說;

(b) 在 deform convolution 中引入調(diào)節(jié)項(xiàng) (modulation),這樣既學(xué)到了 offset,又有了每個(gè)位置的重要性信息;

(c) Feature Mimicking,作者強(qiáng)調(diào),簡單在對(duì)應(yīng)的 feature 上用 roi-pooling 來提取對(duì)應(yīng)位置的 feature 并不一定能提取到最有用的信息(可能包含無用的 context)。如何才能讓 feature 更加聚焦到物體上呢?解決就是 Mimicking 技術(shù),讓 roi-pooling 之后的 feature 更像直接用 R-CNN 學(xué)到的 feature。

其他

除了漂亮的結(jié)果,我覺得 paper 的可視化分析部分也挺值得好好看看的。

另外很難理解為什么 Feature Mimicking 在 regular Faster R-CNN 上不 work。

從最近的一些 paper 結(jié)果看,至少目前在 deep 的框架下,針對(duì) task,讓模型提取更加有意義的 feature 是個(gè)比較熱 / 好的方向吧。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:MSRA視覺組可變形卷積網(wǎng)絡(luò)升級(jí)!更高性能,更強(qiáng)建模能力

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    香港城市大學(xué)與富士康鴻海研究院成立聯(lián)合研究中心

    來源:富士康 香港城市大學(xué)(城大)與鴻海科技集團(tuán)(富士康)旗下的鴻海研究院共同成立了 "富士康-城大聯(lián)合研究中心"。該中心旨在結(jié)合產(chǎn)學(xué)界的科研力量,推動(dòng)人工智能、半導(dǎo)體、下代通訊、信息安全和量子
    的頭像 發(fā)表于 06-21 14:37 ?353次閱讀
    香港城市大學(xué)與富士康鴻海<b class='flag-5'>研究院</b>成立聯(lián)合<b class='flag-5'>研究</b>中心

    計(jì)算機(jī)視覺的主要研究方向

    計(jì)算機(jī)視覺(Computer Vision, CV)作為人工智能領(lǐng)域的個(gè)重要分支,致力于使計(jì)算機(jī)能夠像人眼
    的頭像 發(fā)表于 06-06 17:17 ?661次閱讀

    長沙北斗研究院總部基地正式奠基

    長沙北斗研究院總部基地正式奠基 日前長沙北斗研究院總部基地正式奠基,項(xiàng)目由長沙北斗研究院牽頭建設(shè);項(xiàng)目又名“北斗足跡”。項(xiàng)目期預(yù)計(jì)2025年年底前建成投用。 據(jù)悉,長沙北斗
    的頭像 發(fā)表于 05-16 12:49 ?1090次閱讀

    上海浦東軟件園榮獲SAP中國研究院“Bamboo Award”2023獎(jiǎng)項(xiàng)

    2024年4月,SAP d-com China開發(fā)者大會(huì)成功舉辦。會(huì)上,SAP中國研究院創(chuàng)新生態(tài)2.0專家委員會(huì)(以下簡稱“專委會(huì)”)成員單位上海浦東軟件園獲得SAP中國研究院 “Bamboo Award” 2023獎(jiǎng)項(xiàng),
    的頭像 發(fā)表于 05-10 10:20 ?386次閱讀
    上海浦東軟件園榮獲SAP中國<b class='flag-5'>研究院</b>“Bamboo Award”2023獎(jiǎng)項(xiàng)

    航天宏圖與天儀研究院合作共同推動(dòng)遙感衛(wèi)星數(shù)據(jù)應(yīng)用創(chuàng)新

    近日,航天宏圖信息技術(shù)股份有限公司(以下簡稱“航天宏圖”)與長沙天儀空間科技研究院有限公司(以下簡稱“天儀研究院”)正式簽署戰(zhàn)略合作框架協(xié)議。
    的頭像 發(fā)表于 04-23 17:11 ?453次閱讀
    航天宏圖與天儀<b class='flag-5'>研究院</b>合作共同推動(dòng)遙感衛(wèi)星數(shù)據(jù)應(yīng)用創(chuàng)新

    本源入榜胡潤研究院2024全球獨(dú)角獸榜單!

    4月9日,胡潤研究院于廣州發(fā)布《2024全球獨(dú)角獸榜》,榜單列出了全球成立于2000年之后,價(jià)值10億美元以上的非上市公司。本源量子成功入圍該榜單,也是中國量子計(jì)算領(lǐng)域唯入榜企業(yè)。來源:胡潤
    的頭像 發(fā)表于 04-12 08:22 ?346次閱讀
    本源入榜胡潤<b class='flag-5'>研究院</b>2024全球獨(dú)角獸榜單!

    依托廣立微建設(shè)的浙江省集成電路EDA技術(shù)重點(diǎn)企業(yè)研究院正式掛牌

    近日,依托廣立微建設(shè)的浙江省集成電路 EDA 技術(shù)重點(diǎn)企業(yè)研究院正式掛牌,成為目前浙江EDA領(lǐng)域唯的省級(jí)重點(diǎn)企業(yè)研究院。
    的頭像 發(fā)表于 04-03 10:14 ?492次閱讀
    依托廣立微建設(shè)的浙江省集成電路EDA技術(shù)重點(diǎn)企業(yè)<b class='flag-5'>研究院</b>正式掛牌

    浙江圖靈算力研究院向知存科技頒發(fā)“年度最具影響力企業(yè)獎(jiǎng)”

    近日,浙江圖靈算力研究院生態(tài)伙伴聯(lián)誼會(huì)在杭州舉行,知存科技作為研究院生態(tài)企業(yè)之,與賽迪研究院、中科計(jì)
    的頭像 發(fā)表于 03-06 14:02 ?630次閱讀

    廣東腐蝕科學(xué)與技術(shù)創(chuàng)新研究院選購HS-DR-5導(dǎo)熱系數(shù)測試儀

    決策不僅提升了其科研能力,更為我國腐蝕科學(xué)領(lǐng)域的技術(shù)創(chuàng)新注入了新的活力。廣東腐蝕科學(xué)與技術(shù)創(chuàng)新研究院HS-DR-5導(dǎo)熱系數(shù)測試儀是款功能強(qiáng)大、操作簡便的測試設(shè)備
    的頭像 發(fā)表于 01-12 14:04 ?221次閱讀
    廣東腐蝕科學(xué)與技術(shù)創(chuàng)新<b class='flag-5'>研究院</b>選購HS-DR-5導(dǎo)熱系數(shù)測試儀

    微軟內(nèi)部對(duì)亞洲研究院的未來持有不同看法

    四位消息人士披露,微軟內(nèi)部曾考慮過關(guān)閉或搬遷MSRA,但高層領(lǐng)導(dǎo)普遍傾向于維持實(shí)驗(yàn)室在中國的運(yùn)作。目前,微軟已在加拿大溫哥華設(shè)立MSR分中心,部分研究員已被調(diào)配至此。此舉旨在作為備用安置點(diǎn),以應(yīng)對(duì)可能面臨的
    的頭像 發(fā)表于 01-11 13:58 ?502次閱讀

    北京大學(xué)無錫EDA研究院揭牌

    研究院自2023年1月5日起正式投入運(yùn)營,項(xiàng)目總投資額達(dá)3億元人民幣,下設(shè)三個(gè)研發(fā)機(jī)構(gòu),分別致力于高性能EDA技術(shù)、中國EDA產(chǎn)業(yè)標(biāo)準(zhǔn)以及半導(dǎo)體量測技術(shù)研究及其產(chǎn)業(yè)化。
    的頭像 發(fā)表于 12-14 09:25 ?823次閱讀

    周禮棟對(duì)話比爾·蓋茨:深入的科學(xué)研究比以往任何時(shí)候都更加重要

    2023年是微軟亞洲研究院建院25周年。25年來,微軟亞洲研究院探索并實(shí)踐了
    的頭像 發(fā)表于 12-12 15:55 ?304次閱讀
    周禮棟對(duì)話比爾·蓋茨:深入的科學(xué)<b class='flag-5'>研究</b>比以往任何時(shí)候都更加重要

    英特爾研究院將在NeurIPS大會(huì)上展示業(yè)界領(lǐng)先的AI研究成果

    英特爾研究院將在NeurIPS 2023大會(huì)上展示系列富有價(jià)值、業(yè)界領(lǐng)先的AI創(chuàng)新成果。面向廣大開發(fā)者、研究人員和學(xué)界人士,這AI和計(jì)算
    的頭像 發(fā)表于 12-08 19:15 ?499次閱讀

    英特爾研究院將在NeurIPS大會(huì)上展示業(yè)界領(lǐng)先的AI研究成果

    人員和學(xué)界人士,這AI和計(jì)算機(jī)視覺領(lǐng)域的全球頂會(huì)將于12月10日至16日在美國新奧爾良市舉辦。 ? ? ? ?在NeurIPS 2023上,英特爾研究院將展示其最新AI
    的頭像 發(fā)表于 12-08 09:17 ?636次閱讀

    IBM 咨詢獲 SAP 中國研究院 EcoFactory-首屆合作伙伴駭客松創(chuàng)新營獎(jiǎng),期待攜手客戶共創(chuàng)代碼現(xiàn)代化

    近日,IBM 咨詢團(tuán)隊(duì)參加首屆 SAP 中國研究院 EcoFactory-合作伙伴駭客松創(chuàng)新營并榮獲該賽事智能技術(shù)賽道等獎(jiǎng)。 以“互聯(lián)共贏 創(chuàng)新生態(tài)”為主題,本次創(chuàng)新營由 SAP 中國研究院創(chuàng)新
    的頭像 發(fā)表于 12-07 18:25 ?366次閱讀