0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何結(jié)合深度學(xué)習(xí)和深度圖在三個項目中取得有效的成果

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-11-01 09:43 ? 次閱讀

對于機(jī)器人感知來說,RGB圖加卷積網(wǎng)絡(luò)已經(jīng)變成了感知系統(tǒng)的標(biāo)配。在機(jī)器人和通常的計算機(jī)視覺任務(wù)中,人們會從從VGG或者ResNet等網(wǎng)絡(luò)模型中借鑒基礎(chǔ)結(jié)構(gòu)以及預(yù)訓(xùn)練權(quán)重,隨后利用遷移學(xué)習(xí)的方法在特定任務(wù)的數(shù)據(jù)上進(jìn)行微調(diào)來實現(xiàn)對于特定任務(wù)的學(xué)習(xí)。但對于某些任務(wù)來說,只知道場景的顏色信息只能提供有限的感知。例如要訓(xùn)練機(jī)器人抓取一個新的未知物體,那么這時候理解物體及所處環(huán)境的幾何形貌就比感知它的顏色紋理重要的多。

rgb圖和對應(yīng)的深度圖(圖例用灰色)

進(jìn)行操作的物理過程主要依賴于物體的幾何、位姿和其他與顏色無關(guān)的信息(或者是顏色不變量)。可以想象一下你在手里轉(zhuǎn)筆的過程,我們可以流暢的旋轉(zhuǎn)而不需要盯著它看,這是因為我們已經(jīng)對于手指和筆接觸點的空間位置、朝向有了極為深入的理解和認(rèn)識。那么我們不禁要問,我們可以利用彩色圖獲取對于物體如此深入的理解嗎?

其實在視覺領(lǐng)域還有一個可供選擇的解決方案:深度圖。這是一種單通道灰度圖,包含了相機(jī)到物體的深度信息,同時提供了對于物體顏色不變的信息。并且我們還可以利用濾波器來消除背景噪聲,這在很多機(jī)器人任務(wù)上十分有效。接下來的文章中將會介紹研究人員如何結(jié)合深度學(xué)習(xí)和深度圖在以下三個項目中取得有效的成果:Dex-Net用于機(jī)器人抓取、物體分割和機(jī)器人鋪床的任務(wù)。

感知深度

深度圖一般在特定的視角下編碼了對于環(huán)境中物體的距離信息。近年來隨著計算機(jī)視覺的發(fā)展,深度感知領(lǐng)域也產(chǎn)生了很多進(jìn)展。

傳統(tǒng)獲取深度圖的方法是利用雙目立體視覺獲取視差信息從而得到環(huán)境的深度的。而今天大多使用的深度傳感器則是基于結(jié)構(gòu)光傳感器的原理,通過將已知模式的紅外光投影到環(huán)境并解算來實現(xiàn)深度的獲取。另一種方法是通過激光雷達(dá)來獲取環(huán)境精確的深度信息,但缺點是高昂的成本和成像速度。

所以Kinect的出現(xiàn)提供了一種消費級的RGB-D成像系統(tǒng),可以通過硬件更快更便宜的獲取環(huán)境的深度信息。如今很多機(jī)器人系統(tǒng)中,比如FetchRobot和Toyoya的機(jī)器人都裝配有相似的感知系統(tǒng),而且這一技術(shù)還在不斷改進(jìn),Intel的realsense和Photoneo公司產(chǎn)品都提供了更為優(yōu)異的表現(xiàn)。

在深度圖的幫助下,研究人員們可以使用深度信息幫助機(jī)器人導(dǎo)航、實時建圖和跟蹤、為室內(nèi)環(huán)境建模等任務(wù)。同時深度圖為機(jī)器人提供了距離障礙物的遠(yuǎn)近信息,這也使得它們在導(dǎo)航中獲得了壁障和定位的能力。

同時深度圖還被用于在游戲中實時地檢測、識別和定位人體的各個部分,移除造成模糊的因素(比如光線和衣服等)。更有研究人員利用模擬的深度圖像來引導(dǎo)機(jī)械臂接近物體。目前人們已經(jīng)可以利用圖形學(xué)的方法較為精確的通過模擬生成大量的深度數(shù)據(jù)了。

這些結(jié)果表明,對于某些任務(wù)深度圖可以編碼足夠多的有用信息和色彩不變信息用于幫助訓(xùn)練任務(wù)。下面將用三個例子來具體說明。

機(jī)器人抓取

抓取很多類從未見過的物體對于機(jī)器人來說依然是一個嚴(yán)峻的挑戰(zhàn)。盡管很多研究人員利用RGB圖像來完成這一任務(wù),但需要耗費大量的時間來進(jìn)行訓(xùn)練。而最新進(jìn)展的關(guān)鍵在于可以利用渲染技術(shù),基于幾何和相機(jī)位置,通過3D模型合成精確的深度圖。

Bair的Dexterity Network(Dex-Net)是一個綜合了算法、代碼和數(shù)據(jù)集的項目用于訓(xùn)練機(jī)器人的抓取策略,它結(jié)合了大規(guī)模的合成數(shù)據(jù)集、機(jī)器人模型和隨機(jī)采樣,以及深度學(xué)習(xí)技術(shù)。Dex-Net在抓取中引入了域隨機(jī)化的概念,集中于利用簡單的夾具來抓取復(fù)雜的物體。在先前的研究中,研究人員提出了670萬張圖片的虛擬數(shù)據(jù)集用于訓(xùn)練抓取質(zhì)量模型。目前他們將這一模型拓展到了深度圖上。

首先生成和增強(qiáng)大量的物體網(wǎng)格模型,隨后對于每個模型生成多種抓取位置,最后計算每一個物體及其抓取的魯棒性,并生成對應(yīng)的模擬深度圖。其中通過估計抓取成功的概率來計算魯棒性。

研究人員將Dex-Net拓展了新功能,可以自動生成用于物體模型抓取的改進(jìn)數(shù)據(jù)集。抓取同時定義了位姿角度和夾爪的深度。上圖描述了生成數(shù)據(jù)的流程。研究的目標(biāo)是訓(xùn)練出一個可以通過深度圖來檢測夾爪是否可以成功夾住物體的模型。

抓取質(zhì)量網(wǎng)絡(luò)的架構(gòu)

研究人員利用這一數(shù)據(jù)集訓(xùn)練了抓取質(zhì)量網(wǎng)絡(luò)(Grasp Quality,GQ-CNN),用于檢測每一次抓取成功的可能性。人們可以利用GQ-CNN檢測不同抓取方式,并從中選取概率最高的方案來使用。

2017年,Dex-Net拓展到了箱內(nèi)分揀任務(wù)(bin-picking),這需要從一堆無需的物體中一個個的分揀出物體。Bair的研究人員將bin-picking理解為部分觀測的馬爾科夫決策過程,同時利用仿真來生成物體堆進(jìn)行學(xué)習(xí)。通過仿真,可以得到物體位置的完整信息,并利用監(jiān)督策略對GQ-CNN進(jìn)行的微調(diào),最后將學(xué)習(xí)到的策略用于ABB YuMi機(jī)器人上,實現(xiàn)了在僅僅利用深度圖的情況下在3mins內(nèi)分揀除了十個物體。下圖顯示了Dex-Net顯示的抓取點(紅點),其中第一行是真實數(shù)據(jù),第二行是仿真數(shù)據(jù)。

箱內(nèi)物體分割

實例分割任務(wù)需要判斷圖像中的像素分屬于哪一個物體,它廣泛應(yīng)用于視覺任務(wù)和機(jī)器人感知中。例如機(jī)器人需要在箱子里抓取物體時,就需要先對其中的物體進(jìn)行分析以便區(qū)分不同物體。

先前的研究主要集中在利用RGB圖實現(xiàn)的Mask R-CNN上,但訓(xùn)練需要大量手工標(biāo)注的數(shù)據(jù)。同時用于訓(xùn)練Mask R-CNN的數(shù)據(jù)包含的物體個數(shù)有限,可能還不足以完成貨倉內(nèi)地分揀任務(wù),對于微調(diào)所需要的數(shù)據(jù)也需要手工耗時耗力的得到。所以研究人員們提出可以放松算法的要求可以再得到物體的掩膜后再來預(yù)測類別,這樣就可以對大規(guī)模的物體預(yù)測掩膜,此時物體的幾何信息就顯得更加重要。

這一任務(wù)的數(shù)據(jù)現(xiàn)有相似的3D模型生成物體堆,再從中獲取精確的深度圖和對應(yīng)的掩膜圖

基于幾何的分割來說,我們可以利用仿真和渲染技術(shù)來獲取大規(guī)模類別豐富的,同時帶有標(biāo)簽的深度數(shù)據(jù)集。研究人員假設(shè)這些深度圖包含了用于分割的足夠信息,這主要是每個物體可以由深度圖中的像素邊界來進(jìn)行區(qū)分。利用1600個3D模型和pybullet物理引擎,生成了50k的箱內(nèi)物體堆深圖數(shù)據(jù)。由于物體已知,生成深度圖和掩膜的精度得到了有效的保證。最終利用這一深度數(shù)據(jù)集,研究人員訓(xùn)練出了SD Mask R-CNN網(wǎng)絡(luò),從合成的深度圖中分割出每一個實例。

在實際中算法的表現(xiàn),第一行是高精度數(shù)據(jù)第二行是低精度數(shù)據(jù),最后一列是本算法的結(jié)果。

令人驚奇的是,這個沒有見過任何真實數(shù)據(jù)的SD Mask R-CNN表現(xiàn)超過了點云分割和精調(diào)過的Mask R-CNN。值得注意的是,真實數(shù)據(jù)和仿真數(shù)據(jù)的物體并不相同,這意味著SD Mask R-CNN確實能夠預(yù)測出新的物體掩膜,同時利用深度圖時可以減少主干網(wǎng)絡(luò)的大?。ú噬珗DResNet101,深度圖ResNet-35)。

實例分割被解耦成了分類和分割兩個任務(wù)。對于數(shù)據(jù)集中十個物體的分類,僅僅使用VGG在10mins內(nèi)就能訓(xùn)練達(dá)到95%的準(zhǔn)確率。這一工作證明SD Mask R-CNN可以與分類網(wǎng)絡(luò)串行工作,這使得對于不同物體集的訓(xùn)練變得容易。

總的來說,利用深度圖代替RGB圖實現(xiàn)分割給我們帶來了以下啟示:

- 深度編碼的幾何信息足以對物體進(jìn)行實例分割;

- 深度圖可以便捷迅速的生成,并且訓(xùn)練結(jié)果能有效遷移到真實數(shù)據(jù)上;

- 在不同物體間深度線索的表示更為一致,利用深度圖訓(xùn)練的網(wǎng)絡(luò)具有更好的泛化性。

機(jī)器人鋪床

機(jī)器人鋪床是一個典型的家庭應(yīng)用場景,它容錯性高、時間充裕同時也是人類不喜歡的工作。研究人員先前通過RGB圖像來訓(xùn)練機(jī)器人,而最近使用深度感知技術(shù)將鋪床的技能遷移到不同顏色和問題的毯子上。

雜亂的床,前四個為訓(xùn)練數(shù)據(jù),后兩個彩色為測試數(shù)據(jù)。

機(jī)器人需要將鋪床分解成一下幾個任務(wù),首先需要識別毯子的角,然后移動到合適的位置抓起這個角最大化毯子的面積(鋪開),最后在進(jìn)行折疊。再一次強(qiáng)調(diào)一個假設(shè):深度圖中包含了鋪床任務(wù)中所需毯子角點足夠可靠的幾何信息。

為了收集訓(xùn)練數(shù)據(jù),研究人員在毯子角上放置了紅色mark,利用機(jī)器人的RGB-D攝像頭就可以自動地獲取彩色和深度信息。隨后利用收集到的深度圖和對應(yīng)的角點信息來訓(xùn)練卷積網(wǎng)絡(luò)從不同的毯子布置中找到可以抓取的角點。

由于抓取點檢測和物體檢測任務(wù)類似,這里使用了YOLO模型作為預(yù)訓(xùn)練,并添加了幾層用于微調(diào)。模型在2018張深度數(shù)據(jù)上進(jìn)行了訓(xùn)練,結(jié)果顯示雖然YOLO適用于彩色場景檢測的,但依然可以基于它在深度圖上得到很好的結(jié)果。

深度圖帶來的額外優(yōu)勢是可以通過距離信息濾除干擾。

利用深度圖實現(xiàn)抓取點檢測的結(jié)果。結(jié)果顯示這種方法大大超過了基線,幾乎實現(xiàn)了與人類同樣的水準(zhǔn)。

上圖顯示了算法對于青色毯子抓取點的檢測結(jié)果。抓取網(wǎng)絡(luò)并沒有利用青色毯數(shù)據(jù)進(jìn)行訓(xùn)練,由于測試數(shù)據(jù)深度圖和訓(xùn)練的深度圖十分類似,即使不一樣的顏色也能獲得優(yōu)異的結(jié)果。隨著機(jī)器人移動到另一側(cè),距機(jī)器人最近的抓取點也被很好的檢測出來。(RGB訓(xùn)練的抓取網(wǎng)絡(luò)表現(xiàn)就不如深度圖訓(xùn)練的網(wǎng)絡(luò),因為訓(xùn)練數(shù)據(jù)都是白色床單。為了獲得更好的效果就需要投入更多顏色和紋理的床單采集數(shù)據(jù)。)

深度魅力

這些項目表明深度圖攜帶了足夠的信息支撐抓取點檢測、實例分割和變形物體角點檢測。隨著深度傳感器質(zhì)量和分辨率的提高,對于機(jī)器人也將變得日益重要。人們可以很便捷快速地合成深度圖,這種具有顏色不變性和豐富幾何信息的數(shù)據(jù),同時可以充分利用其固有的特性來去除噪聲和干擾。同時深度圖比RGB維度更低,網(wǎng)絡(luò)更傾向于從中學(xué)習(xí)出邊緣和空間模式。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    27990

    瀏覽量

    205546
  • 計算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1688

    瀏覽量

    45873
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5431

    瀏覽量

    120790

原文標(biāo)題:Duang!深度圖和深度學(xué)習(xí)碰撞出的神器火花

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    ,共同進(jìn)步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問題(一) Q:FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?現(xiàn)在用FPGA做深度學(xué)習(xí)加速成為一
    發(fā)表于 09-27 20:53

    深度學(xué)習(xí)中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨著深度
    的頭像 發(fā)表于 07-09 15:54 ?520次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一重要分支,近年來在多個領(lǐng)域取得了顯著的成果,特別是在圖像識別、語音
    的頭像 發(fā)表于 07-09 10:50 ?278次閱讀

    深度學(xué)習(xí)在視覺檢測中的應(yīng)用

    能力,還使得機(jī)器能夠模仿人類的某些智能行為,如識別文字、圖像和聲音等。深度學(xué)習(xí)的引入,極大地推動了人工智能技術(shù)的發(fā)展,特別是在圖像識別、自然語言處理、語音識別等領(lǐng)域取得了顯著成果。
    的頭像 發(fā)表于 07-08 10:27 ?488次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計算機(jī)科學(xué)領(lǐng)域中兩非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。
    的頭像 發(fā)表于 07-05 09:47 ?646次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)作為人工智能的一重要分支,通過模擬人類大腦中的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。Python作為一種流行的編程語言,憑借其簡潔的語法和豐富的庫支持,成為了深度
    的頭像 發(fā)表于 07-03 16:04 ?471次閱讀

    深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為其中的重要分支,已經(jīng)在多個領(lǐng)域取得了顯著的應(yīng)用成果。從圖像識
    的頭像 發(fā)表于 07-02 18:19 ?667次閱讀

    TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一重要分支,在過去十年中取得了顯著的進(jìn)展。在構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型的
    的頭像 發(fā)表于 07-02 14:04 ?732次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 16:13 ?765次閱讀

    深度學(xué)習(xí)編譯工具鏈中的核心——優(yōu)化

    等,需要調(diào)整優(yōu)化網(wǎng)絡(luò)中使用的算子或算子組合,這就是深度學(xué)習(xí)編譯工具鏈中的核心——優(yōu)化。優(yōu)化是指對深度
    的頭像 發(fā)表于 05-16 14:24 ?640次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>編譯工具鏈中的核心——<b class='flag-5'>圖</b>優(yōu)化

    利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對心電降噪

    事件。其中三個:Q、R 和 S 形成所謂的 QRS 復(fù)合體。 ECG 信號容易受到各種噪聲的影響,具體有: 電源線干擾 - 產(chǎn)生 60 或 50 Hz 的隨 機(jī)分量,具體取決于電源頻率。 電極接觸噪聲 - 由
    發(fā)表于 05-15 14:42

    深度解析深度學(xué)習(xí)下的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測、識別和分類等領(lǐng)域。近年來,研究人員開始在視覺SLAM算法中引入深度
    發(fā)表于 04-23 17:18 ?1155次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的語義SLAM

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

    ,這使得它比一般處理器更高效。但是,很難對 FPGA 進(jìn)行編程,Larzul 希望通過自己公司開發(fā)的新平臺解決這個問題。 專業(yè)的人工智能硬件已經(jīng)成為了一獨立的產(chǎn)業(yè),但對于什么是深度學(xué)習(xí)算法的最佳
    發(fā)表于 03-21 15:19

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一子集,已成為人工智能領(lǐng)域的一項變革性技術(shù),在從計算機(jī)視覺、自然語言處理到自動駕駛汽車等廣泛的應(yīng)用中取得了顯著的成
    的頭像 發(fā)表于 03-09 08:26 ?539次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?

    長短距離循環(huán)更新(LRRU)網(wǎng)絡(luò)的輕量級深度網(wǎng)絡(luò)框架介紹

    1. 文章一覽 本文介紹了一種名為長短距離循環(huán)更新(LRRU)網(wǎng)絡(luò)的輕量級深度網(wǎng)絡(luò)框架,用于深度補(bǔ)全。深度補(bǔ)全是指從稀疏的距離測量估計密集的深度圖的過程?,F(xiàn)有的
    的頭像 發(fā)表于 11-03 09:24 ?903次閱讀
    長短距離循環(huán)更新(LRRU)網(wǎng)絡(luò)的輕量級<b class='flag-5'>深度</b>網(wǎng)絡(luò)框架介紹