0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用遷移學(xué)習(xí)探明CV任務(wù)的底層結(jié)構(gòu)

zhKF_jqr_AI ? 來源:未知 ? 作者:胡薇 ? 2018-06-26 15:22 ? 次閱讀

今天凌晨,第31屆計(jì)算機(jī)視覺和模式識別大會(CVPR)在美國鹽湖城正式召開。本屆大會一共收到3309篇投稿文章,最終接受979篇,接受率為29.6%,其中斯坦福和伯克利研究人員合作的Taskonomy: Disentangling Task Transfer Learning斬獲最佳論文,圖賓根大學(xué)教授Andreas Geiger和FAIR何凱明獲得PAMI年輕學(xué)者獎。

雖然這幾天學(xué)界大牛都忙著在twitter上譴責(zé)特朗普政府的“零容忍”移民政策,但CVPR 2018火熱依舊,大會剛開幕,官網(wǎng)就因訪問量過大掛了(現(xiàn)已恢復(fù))。下面是論智帶來的最佳論文預(yù)覽,如有錯誤,歡迎留言指出。

視覺任務(wù)之間是否存在相關(guān)性?就像表面法線可以被用來簡化圖像深度估計(jì)。針對這些問題,直覺給出了積極的答案,暗示視覺任務(wù)中可能存在某種“結(jié)構(gòu)”。掌握這種結(jié)構(gòu)是意義重大的;它是遷移學(xué)習(xí)的基礎(chǔ),也為確定各種任務(wù)之間的冗余提供了理論依據(jù),例如,它允許我們在各種相關(guān)任務(wù)中無縫重復(fù)使用監(jiān)督,或是用一個模型完成多種任務(wù)而不增加復(fù)雜度。

本文提出了一種完全計(jì)算的方法,從26個2D、2.5D、3D和語義任務(wù)中提取遷移學(xué)習(xí)相關(guān)性關(guān)系,進(jìn)而建模視覺任務(wù)空間結(jié)構(gòu)。該產(chǎn)品已經(jīng)上線,是遷移學(xué)習(xí)的計(jì)算分類圖。此外,文章還探究了這個結(jié)構(gòu)的作用,比如利用提取到的non-trivial關(guān)系減少任務(wù)對標(biāo)記數(shù)據(jù)量的需求。實(shí)驗(yàn)表明,對于10個不同的視覺任務(wù),這種方法可以減少2/3的標(biāo)記數(shù)據(jù)量,同時模型的性能和單獨(dú)訓(xùn)練的模型基本一致。

物體識別、深度估計(jì)、邊緣檢測、姿態(tài)估計(jì)等都是常見的計(jì)算機(jī)視覺任務(wù),它們也被學(xué)界看作是有價值的研究課題。其中的一些任務(wù)是高度相關(guān)的,比如我們知道表面法線和深度估計(jì)存在衍生關(guān)系,空間中消失的點(diǎn)對目標(biāo)定位也有一定作用。但對于其他關(guān)系,我們掌握的知識就很有限了,例如,我們還沒有弄清關(guān)鍵點(diǎn)檢測和空間中的陰影為什么能被一起用來進(jìn)行姿態(tài)估計(jì)。

計(jì)算機(jī)視覺確實(shí)沒有明確使用這些關(guān)系,近年來學(xué)界在開發(fā)先進(jìn)學(xué)習(xí)模型上已經(jīng)取得了令人矚目的成就,如ConvNets,它們能從多對(x, y)中找到X到Y(jié)的復(fù)雜映射。當(dāng)然,x∈X,y∈Y,這些前提是訓(xùn)練數(shù)據(jù)給出的,也就是我們常說的完全監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)的一個缺點(diǎn)是會導(dǎo)致模型只能解決一類孤立的問題,這也意味著每接受一個新任務(wù),模型就得從頭開始訓(xùn)練——我們需要大量標(biāo)記數(shù)據(jù)。

如果模型掌握了各種任務(wù)之間的關(guān)系,它需要的監(jiān)督學(xué)習(xí)就更少,計(jì)算壓力也更輕,而且預(yù)測效率更高。但到目前為止,這個關(guān)系是未知的。因此本文的目標(biāo)是揭示任務(wù)空間底層結(jié)構(gòu),并提出一個計(jì)算機(jī)視覺任務(wù)之間的映射框架。這里的“結(jié)構(gòu)”指的是任務(wù)間的相關(guān)性集合,即這個任務(wù)能給那個任務(wù)提供多少有用的信息。

論文作者在這里用的是完全計(jì)算的方法,在前饋神經(jīng)網(wǎng)絡(luò)中,每一層都包含將輸入映射到輸出所需信息的抽象表征,這些表征可以被用來計(jì)算對輸出的貢獻(xiàn)程度,繼而推導(dǎo)任務(wù)之間的相關(guān)性矩陣。簡而言之,這里需要用到完全抽樣的遷移學(xué)習(xí),從不同任務(wù)中提取相關(guān)的遷移策略。經(jīng)實(shí)驗(yàn)證實(shí),最后獲得的模型大大降低了對標(biāo)記數(shù)據(jù)量的需求,同時這個架構(gòu)在普通數(shù)據(jù)集上也能使用。

工具

上述任務(wù)可以被定義如下:在有限的監(jiān)督預(yù)算γ內(nèi)(計(jì)算量、數(shù)據(jù)量和時間限制),我們要在一組任務(wù)T = {t1, ..., tn}中實(shí)現(xiàn)任務(wù)集體性能的最大化。其中γ表示允許從頭開始訓(xùn)練的最大任務(wù)數(shù)(源任務(wù)),T表示我們想要完成的任務(wù)集(目標(biāo)任務(wù)),S表示可以訓(xùn)練的任務(wù)集(源任務(wù)),那么

V=T ∪ S是任務(wù)詞典;

T ? T ∩ S是我們想要完成但沒法訓(xùn)練的任務(wù)(target-only);

T ∩ S既是目標(biāo)任務(wù),也是源任務(wù);

S ? T ∩ S是可以訓(xùn)練的任務(wù),但我們對它們不感興趣(source-only)。

什么是Taxonomy?

Taxonomy,也就是任務(wù)分類法是一個定向的超圖模型,它可以從給定任務(wù)詞典里找出可遷移的元素。正如上文提到的,我們手里有一個源任務(wù)集和一個目標(biāo)任務(wù)集,它們相交的邊表示一個可行的遷移方案,具體預(yù)測性能由雙方權(quán)重決定。為了預(yù)測T的全局最優(yōu)遷移策略,我們需要用到這些邊,因此taskonomy的作用是生成一系列圖(如上面動圖),它的參數(shù)由監(jiān)督預(yù)算、選擇的任務(wù)、遷移順序和遷移函數(shù)表達(dá)構(gòu)成。

創(chuàng)建taskonomy

taskonomy的創(chuàng)建過程可分為4步:I.在S中,訓(xùn)練針對特定任務(wù)的神經(jīng)網(wǎng)絡(luò);II.源任務(wù)和目標(biāo)任務(wù)間的所有可遷移元素都已經(jīng)訓(xùn)練好了,用多輸入任務(wù)對一輸出任務(wù)訓(xùn)練一個高階遷移函數(shù);III.用AHP(層次分析法)獲得歸一化的遷移相關(guān)性;IV.用BIP(二元整數(shù)規(guī)劃)查找全局遷移taskonomy。

任務(wù)詞典

如下圖所示,任務(wù)詞典中一共有26種計(jì)算機(jī)視覺任務(wù),涵蓋2D、2.5D、3D和語義任務(wù)等常見主題。需要注意的是,這個詞典應(yīng)該是所有可以想象的視覺任務(wù)的采樣集,而不是詳盡的列表。采樣允許我們稀疏地模擬視覺任務(wù)的密集空間,并依靠假設(shè)把成果推廣到詞典以外的任務(wù)中。采樣空間越規(guī)則/越好,成果的通用性就越好。

任務(wù)詞典

數(shù)據(jù)集

論文作者制作了一個室內(nèi)場景的大型高質(zhì)量數(shù)據(jù)集:

通過對齊的網(wǎng)格記錄像素級的幾何信息;

通過蒸餾從ImageNet、MS COCO和MIT Places圖像中提取語義信息;

一致的攝影角度,相機(jī)功能完整;

高清晰度的圖像;

是ImageNet的3倍。

這個數(shù)據(jù)集大小有12TB,如果讀者有使用的興趣,可直接聯(lián)系作者申請:zamir@eecs.berkeley.edu / zamir@cs.stanford.edu。

步驟1:特定任務(wù)建模

為S中的每個任務(wù)訓(xùn)練一個專用的神經(jīng)網(wǎng)絡(luò)(完全監(jiān)督),這些特定網(wǎng)絡(luò)有一個均勻的encoder-decoder架構(gòu),其中編碼器很大,能提取強(qiáng)大的表征;解碼器相對較小,但足以實(shí)現(xiàn)良好的性能。

步驟2:遷移模型

給定一個源任務(wù)s和一個目標(biāo)任務(wù)t,其中s∈S,t∈T,如上圖所示,從輸入任務(wù)s和輸出任務(wù)t中,我們的遷移網(wǎng)絡(luò)應(yīng)該能學(xué)到一些有關(guān)遷移函數(shù)的知識。其中,編碼器從圖片I中提取的表征是Es(I),輸出函數(shù)Ds→t中包含參數(shù)θs→t,它的目標(biāo)是使損失Lt最?。?/p>

其中ft(I)是t對于圖像I的真值,因?yàn)镋s(I)可能無法基于t和s的相關(guān)性,完美地解決任務(wù)t,所以函數(shù)Ds→t就為兩者的相關(guān)性提供了一個可用的參考指標(biāo)。

步驟3:用AHP進(jìn)行歸一化處理

既然已經(jīng)獲得了任務(wù)間的相關(guān)性,我們自然希望能建立一個跨任務(wù)的、具有可傳遞性的相關(guān)性矩陣。對于這個目標(biāo),如果只是簡單地把Ls→t匯總到矩陣中,那顯然是有問題的,因?yàn)樗鼈兛缍忍?,而且處于不同的任?wù)空間中,因此適當(dāng)?shù)臍w一化是必須的。

這里我們不能直接把它線性縮小到[0, 1]內(nèi),因?yàn)閾p失-性能曲線是未知的,這樣粗暴的縮小沒有效果。論文采用的是一種序數(shù)方法,它把輸出性能和損失假設(shè)為單調(diào)變化,這之后,對于每個t,Wt是遷移到t的所有可行源任務(wù)的成對矩陣。(i, j)處的值是保留測試集中圖像的百分比,即Dtest,其中si遷移到t比sj遷移到t更優(yōu)(Dsi→t(I) > Dsj→t(I))。

對矩陣Wt做拉普拉斯平滑,把閾值控制在[0.001,0.999],然后計(jì)算Wt' = Wt/WtT,這樣矩陣就能量化si和sj的差距,顯示兩者的倍數(shù)關(guān)系:

步驟4:計(jì)算全局Taxonomy

現(xiàn)在已經(jīng)有了歸一化的相關(guān)性矩陣,我們還需要制定一項(xiàng)全局遷移策略,最大限度地提高所有任務(wù)的集體性能,同時盡量減少所用的監(jiān)督。這個問題可以表示為子圖選擇,其中任務(wù)是節(jié)點(diǎn),傳輸是邊。最佳子圖選擇理想源節(jié)點(diǎn)和從這些源任務(wù)到目標(biāo)任務(wù)的最佳邊,同時滿足源節(jié)點(diǎn)數(shù)量不超過監(jiān)督預(yù)算。

對于這個問題,論文使用的方法是布爾整數(shù)規(guī)劃(BIP),詳情這里不再具體介紹。

BIP計(jì)算出的關(guān)系圖

實(shí)驗(yàn)

在論文正文中,作者沒有明確給出自己的模型和其他state-of-art模型的具體對比情況,他們在附錄(taskonomy.stanford.edu/taskonomysuppCVPR2018.pdf)和FCRN做了對比,發(fā)現(xiàn)兩者在性能上并沒有多大差距,但因?yàn)檎撐哪P驼莆樟巳蝿?wù)底層結(jié)構(gòu)知識,在遷移上更加得心應(yīng)手,使用的標(biāo)記數(shù)據(jù)更少,用時也更短。

小結(jié)

本文提出了一種利用遷移學(xué)習(xí)對計(jì)算機(jī)視覺任務(wù)空間進(jìn)行建模的方法,并展示了它在減少標(biāo)記數(shù)據(jù)量方面的實(shí)用性。任務(wù)空間本身就是一個有趣的研究對象,但本文的研究還只是皮毛。對于這個框架,論文作者還提出了一些應(yīng)注意的假設(shè):

Model Dependence:盡管本文驗(yàn)證了成果在各種架構(gòu)和數(shù)據(jù)集上的穩(wěn)定性,但這不意味著它是萬能的,它在原則上還是只適用于特性模型和特定數(shù)據(jù)。

Compositionality:本文通過一組常用的人工定義的計(jì)算機(jī)視覺任務(wù)來進(jìn)行建模,那么在此基礎(chǔ)上的進(jìn)階做法應(yīng)該是把這些任務(wù)作為觀察樣本,進(jìn)一步探究它們和其他冷門任務(wù)的相關(guān)性。

Space Regularity:本文通過一個采樣詞典對密集空間進(jìn)行建模,盡管它表現(xiàn)出了良好的通用性,但為了證實(shí)這種通用性,我們還需要對計(jì)算空間的屬性做更嚴(yán)謹(jǐn)?shù)难芯俊?/p>

Transferring to Non-visual and Robotic Tasks:既然遷移學(xué)習(xí)在計(jì)算機(jī)視覺任務(wù)中能找出任務(wù)空間的底層結(jié)構(gòu),那它在其他領(lǐng)域的任務(wù)中應(yīng)該也有用武之地,比如機(jī)器人研究,也許它能被用于解決機(jī)器人對下游任務(wù)的感知問題。

Lifelong Learning:在終身學(xué)習(xí)問題中,系統(tǒng)是不斷演變的,任務(wù)數(shù)量也是不斷增加的,對于這類情況,本文的一次性建模方法就不再適用了,它需要考慮更多的新因素。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:CVPR 2018最佳論文:用遷移學(xué)習(xí)探明CV任務(wù)的底層結(jié)構(gòu)

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    遷移學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)

    keras 之 遷移學(xué)習(xí),改變VGG16輸出層,imagenet權(quán)重retrain
    發(fā)表于 09-09 11:02

    遷移學(xué)習(xí)

    經(jīng)典機(jī)器學(xué)習(xí)算法介紹章節(jié)目標(biāo):機(jī)器學(xué)習(xí)是人工智能的重要技術(shù)之一,詳細(xì)了解機(jī)器學(xué)習(xí)的原理、機(jī)制和方法,為學(xué)習(xí)深度學(xué)習(xí)
    發(fā)表于 04-21 15:15

    cv::bmcv::resize看代碼底層調(diào)用的是bmcv_image_resize,cv::resize的是cpu嗎?

    cv::bmcv::resize 看代碼底層調(diào)用的是bmcv_image_resize,cv::resize的是cpu嗎,處理的是mat中cpu內(nèi)存中的那部分?jǐn)?shù)據(jù)嗎?還有1個
    發(fā)表于 09-18 06:40

    面向NLP任務(wù)遷移學(xué)習(xí)新模型ULMFit

    除了能夠更快地進(jìn)行訓(xùn)練之外,遷移學(xué)習(xí)也是特別有趣的,僅在最后一層進(jìn)行訓(xùn)練,讓我們可以僅僅使用較少的標(biāo)記數(shù)據(jù),而對整個模型進(jìn)行端對端訓(xùn)練則需要龐大的數(shù)據(jù)集。標(biāo)記數(shù)據(jù)的成本很高,在無需大型數(shù)據(jù)集的情況下建立高質(zhì)量的模型是很可取的方法。
    的頭像 發(fā)表于 08-22 08:11 ?5584次閱讀

    遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)領(lǐng)域的進(jìn)展

    如果我們想使用多任務(wù)學(xué)習(xí),但只有一個任務(wù),該怎么辦呢?一篇名為 “Pseudo-task Augmentation: From Deep Multitask Learning
    的頭像 發(fā)表于 09-04 08:50 ?3906次閱讀

    對深度遷移學(xué)習(xí)的當(dāng)前研究進(jìn)行了回顧和分類

    定義 1:(遷移學(xué)習(xí))。給定一個基于數(shù)據(jù) Dt 的學(xué)習(xí)任務(wù) Tt,我們可以從 Ds 中獲取對任務(wù) Ts 有用的知識。
    的頭像 發(fā)表于 09-17 16:17 ?7449次閱讀

    面向自然語言處理的神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)的答辯PPT

    現(xiàn)實(shí)中的自然語言處理面臨著多領(lǐng)域、多語種上的多種類型的任務(wù),為每個任務(wù)都單獨(dú)進(jìn)行數(shù)據(jù)標(biāo)注是不大可行的,而遷移學(xué)習(xí)可以將學(xué)習(xí)的知識
    的頭像 發(fā)表于 03-02 09:16 ?3032次閱讀

    遷移學(xué)習(xí)與模型預(yù)訓(xùn)練:何去何從

    把我們當(dāng)前要處理的NLP任務(wù)叫做T(T稱為目標(biāo)任務(wù)),遷移學(xué)習(xí)技術(shù)做的事是利用另一個任務(wù)S(S稱為源任務(wù)
    的頭像 發(fā)表于 07-18 11:29 ?7793次閱讀
    <b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>與模型預(yù)訓(xùn)練:何去何從

    遷移學(xué)習(xí)的意圖識別在口語理解中的應(yīng)用

    獲得大量數(shù)據(jù),因此為搭建新領(lǐng)域的深度學(xué)習(xí)模型提出了挑戰(zhàn)。遷移學(xué)習(xí)是深度學(xué)習(xí)的一種特殊應(yīng)用,在遷移學(xué)習(xí)
    發(fā)表于 04-12 11:18 ?4次下載
    <b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>的意圖識別在口語理解中的應(yīng)用

    基于特征和實(shí)例遷移的加權(quán)多任務(wù)聚類算法

    基于特征和實(shí)例遷移的加權(quán)多任務(wù)聚類算法
    發(fā)表于 06-07 15:18 ?3次下載

    一種基于標(biāo)簽比例信息的遷移學(xué)習(xí)算法

    摘要: 標(biāo)簽比例學(xué)習(xí)問題是一項(xiàng)僅使用樣本標(biāo)簽比例信息去構(gòu)建分類模型的挖掘任務(wù),由于訓(xùn)練樣本不充分,現(xiàn)有方法將該問題視為單一任務(wù),在文本分類中的表現(xiàn)并不理想。考慮到遷移
    發(fā)表于 03-30 15:46 ?480次閱讀

    遷移學(xué)習(xí)Finetune的四種類型招式

    遷移學(xué)習(xí)廣泛地應(yīng)用于NLP、CV等各種領(lǐng)域,通過在源域數(shù)據(jù)上學(xué)習(xí)知識,再遷移到下游其他目標(biāo)任務(wù)
    的頭像 發(fā)表于 04-02 17:35 ?3057次閱讀

    周三研討會預(yù)告 | 從 CUDA 到 CV-CUDA:如何為自己定制高效的 CV 任務(wù)算子

    的 CUDA (Compute Unified Device Architecture)編程模型 ,利用 GPU 強(qiáng)大的并行計(jì)算能力,為計(jì)算機(jī)視覺任務(wù)帶來了前所未有的加速效果。 為了能讓 CV
    的頭像 發(fā)表于 06-13 20:55 ?440次閱讀
    周三研討會預(yù)告 | 從 CUDA 到 <b class='flag-5'>CV</b>-CUDA:如何為自己定制高效的 <b class='flag-5'>CV</b> <b class='flag-5'>任務(wù)</b>算子

    一文詳解遷移學(xué)習(xí)

    遷移學(xué)習(xí)需要將預(yù)訓(xùn)練好的模型適應(yīng)新的下游任務(wù)。然而,作者觀察到,當(dāng)前的遷移學(xué)習(xí)方法通常無法關(guān)注與任務(wù)
    的頭像 發(fā)表于 08-11 16:56 ?6061次閱讀
    一文詳解<b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>

    遷移學(xué)習(xí)的基本概念和實(shí)現(xiàn)方法

    遷移學(xué)習(xí)(Transfer Learning)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念,其核心思想是利用在一個任務(wù)或領(lǐng)域中學(xué)到的知識來加速或改進(jìn)另一個相關(guān)任務(wù)
    的頭像 發(fā)表于 07-04 17:30 ?999次閱讀