0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

場(chǎng)景流論文速記—RGBD圖像場(chǎng)景流

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-10 19:28 ? 次閱讀
簡(jiǎn)單記一下最近看的六篇場(chǎng)景流論文~其中3篇是關(guān)于RGBD圖像的場(chǎng)景流,另外3篇是關(guān)于點(diǎn)云的場(chǎng)景流。
來(lái)源:https://zhuanlan.zhihu.com/p/85663856
作者:林小北

所謂場(chǎng)景流,就是光流的三維版本,表述了圖像/點(diǎn)云中每個(gè)點(diǎn)在前后兩幀的變化情況。目前對(duì)場(chǎng)景流的研究還局限在實(shí)驗(yàn)室階段,由于缺乏實(shí)際數(shù)據(jù)(打標(biāo)成本太高)以及客觀的評(píng)價(jià)指標(biāo),離工程應(yīng)用還有不小的距離。此外,巨大的計(jì)算量也是一個(gè)瓶頸。以下論文可以在文末直接下載。

《Deep Rigid Instance Scene Flow》 CVPR 2019

輸入:雙目攝像頭的前后幀左右圖像

核心思想:把場(chǎng)景流分割成多個(gè)actor的運(yùn)動(dòng),利用MaskRCNN進(jìn)行Instance Segmentation,每個(gè)Instance的Motion都應(yīng)該與深度和光流一致。

首先,利用三個(gè)預(yù)先訓(xùn)練好的子網(wǎng)絡(luò)提取視覺(jué)線索:

a. 利用MaskRCNN進(jìn)行Instance Segmentation
b. 利用PSM-Net計(jì)算深度圖(disparity map)
c. 利用PWC-Net計(jì)算光流

之后,采用高斯牛頓法最小化下面三個(gè)能量函數(shù)之和得到3D motion:

a. Photometric Error:前一幀左邊圖像的inlier像素點(diǎn),與第二幀的投影位置的像素點(diǎn)必須盡量一致
b. Rigid Fitting:估計(jì)出的剛體運(yùn)動(dòng)必須與觀察到的深度和光流信息一致
c. Flow Consistency:估計(jì)出的剛體運(yùn)動(dòng)在2d上的投影必須和光流一致

《Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation》 ECCV 2018

輸入:前后幀圖像的RGBD信息

核心思想:把圖像分割為rigid/no-rigid區(qū)域,計(jì)算rigid區(qū)域的ego motion后再結(jié)合光流即可得到scene flow。

先利用兩個(gè)預(yù)先訓(xùn)練好的子網(wǎng)絡(luò)提取特征:

a. 利用PWCNet提取前后兩幀的光流
b. 利用 rigidity-transform network (RTN)預(yù)測(cè)ego-motion以及rigidity mask

之后,結(jié)合光流、rigidity mask對(duì)ego motioon進(jìn)行refine,保證rigity里面的像素點(diǎn)的光流與ego-motion一致。

最后,綜合利用光流、rigidity mask、ego motioon信息即可得到scene flow。

備注:本文的另一個(gè)貢獻(xiàn)是提出了一個(gè)用于場(chǎng)景流的數(shù)據(jù)庫(kù)REFRESH。在kitti的inference結(jié)果如下,不是很好。

《Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding》TPAMI

輸入:?jiǎn)文?雙目攝像頭的前后幀圖像

核心思想:先用三個(gè)子網(wǎng)絡(luò)估計(jì)光流、深度、camera motion,送入holistic 3D motion parser (HMP) 按照幾何關(guān)系即可計(jì)算出rigid background的motion和moving objects的motion。

三個(gè)子網(wǎng)絡(luò)先分別進(jìn)行預(yù)訓(xùn)練,再結(jié)合HMP考慮如下loss優(yōu)化三個(gè)子網(wǎng)絡(luò):

a. Rigid-aware structural matching:按照3D motion投影后rigid部分的結(jié)構(gòu)特點(diǎn)應(yīng)該match
b. Edge-aware local smoothness:投影后的深度和光流的應(yīng)該保持smoothness
c. Rigid-aware 3D motion consistency:rigid background的moving object motion值應(yīng)該盡量小
d. Flow motion consistency in occluded regions:occluded regions的光流前后映射應(yīng)該一致
e. Multi-scale penalization:累加4個(gè)尺度的loss

備注:在雙目攝像頭的表現(xiàn)優(yōu)于單目。通過(guò)joint learning,光流、深度、camera motion的表現(xiàn)均有提升。

在Kitti上的表現(xiàn)如下,算是差強(qiáng)人意吧。

本文作者還有一篇工作《Every Pixel Counts: Unsupervised Geometry Learning with Holistic 3D Motion Understanding》,是關(guān)于估計(jì)ego motion的。

《FlowNet3D: Learning Scene Flow in 3D Point Clouds》 CVPR 2018

輸入:僅使用點(diǎn)云數(shù)據(jù)

核心思想:采用pointnet++作為基本模塊,提取前后兩幀點(diǎn)云特征并進(jìn)行融合、上采樣,直接擬合出scene flow

網(wǎng)絡(luò)結(jié)構(gòu)如下:

a. 4組set conv layer:pointnet++ 提取點(diǎn)云特征
b. 1組flow embedding layer: 把前后兩幀的點(diǎn)云特征mix,第一幀的取中心點(diǎn),其臨近點(diǎn)從第二幀取,再提取特征
c. 4組set upconv layer:上采樣,新增點(diǎn)從鄰近點(diǎn)獲取特征

loss為smooth L1 loss

備注:在合成數(shù)據(jù)集上訓(xùn)練的模型可以直接在kitti上work,但與圖像場(chǎng)景流的論文不同,沒(méi)有把background和moving object做區(qū)分,沒(méi)有考慮ego motion。

《HPLFlowNet: Hierarchical Permutohedral Lattice FlowNet for Scene Flow Estimation on Large-scale Point Clouds》 CVPR 2019

輸入:僅使用點(diǎn)云數(shù)據(jù)

核心思想:采用Bilateral Convolutional Layers作為基本模塊,提取前后兩幀點(diǎn)云特征并進(jìn)行融合、上采樣,直接擬合出scene flow。

備注:與FlowNet3D的整體結(jié)構(gòu)一樣,都是下采樣-融合-上采樣。Bilateral Convolutional Layers能夠快速處理高維稀疏數(shù)據(jù),是不同于PointNet的一種濾波操作。

《PointFlowNet: Learning Representations for Rigid Motion Estimation from Point Clouds》 CVPR 2019

輸入:僅使用點(diǎn)云數(shù)據(jù)

核心思想:利用點(diǎn)云數(shù)據(jù)提取特征后,分別生成ego motion、scene flow、rigid motion、objection location,再整合結(jié)果輸出

細(xì)節(jié)如下:

a. 采用VolexNet作為feature encoder
b. 把前后兩幀的特征進(jìn)行concate,接入context encoder
c. 之后,接入三個(gè)分支:

i. ego-miotion regressor
ii. sceneflow decoder -> rigid motion decoder(證明了rigid motion decoder 無(wú)法使用卷積層,故此處采用了fc)
iii. objection location decoder

d. 把檢測(cè)出的object和motion融合得到結(jié)果

loss為 Scene Flow Loss + Rigid Motion Loss + Ego-motion Loss + Detection Loss

備注:本文思路與圖像類方法很像,也是考慮各個(gè)instance的motion。

總結(jié)

  • Deep Rigid Instance Scene Flow:

輸入為雙目圖像,用MaskRCNN把動(dòng)靜態(tài)障礙物分開(kāi)。三個(gè)子網(wǎng)絡(luò)分別獨(dú)立訓(xùn)練并計(jì)算出Instance Segmentation、深度圖、光流,利用三個(gè)子網(wǎng)絡(luò)的結(jié)果計(jì)算motion,進(jìn)而得到scene flow。

  • Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation:

輸入為RGBD圖像,兩個(gè)子網(wǎng)絡(luò)分別獨(dú)立訓(xùn)練并算出光流、ego-motion&rigid mask,refine ego motion后算出scene flow。

  • Every Pixel Counts ++:

輸入為單目/雙目攝像頭,先用三個(gè)子網(wǎng)絡(luò)估計(jì)光流、深度、camera motion,再按照幾何關(guān)系計(jì)算出rigid background的motion和moving objects的motion,之后根據(jù)一致性對(duì)三個(gè)子網(wǎng)絡(luò)進(jìn)行優(yōu)化。

  • FlowNet3D 以及 HPLFlowNet:

分別對(duì)前后兩幀點(diǎn)云下采樣提取特征并進(jìn)行融合、上采樣,直接擬合出scene flow。

  • PointFlowNet(思路類似Deep Rigid Instance Scene Flow):

采用volexnet提取前后兩幀點(diǎn)云特征并融合,先檢測(cè)出object、計(jì)算出ego motion、scene flow,再去回歸各個(gè)object的motion。

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29359

    瀏覽量

    267646
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46316

    瀏覽量

    236479
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    LED恒驅(qū)動(dòng)芯片:升壓恒和降壓恒的區(qū)別和應(yīng)用場(chǎng)景

    輸入電壓,使其高于LED正常工作電壓,以實(shí)現(xiàn)恒定的LED電流輸出。在升壓恒驅(qū)動(dòng)中,驅(qū)動(dòng)電路將輸入電壓升高至所需電壓,并保持輸出電流恒定。 升壓恒驅(qū)動(dòng)適用于需要將低電壓源提升至較高電壓來(lái)驅(qū)動(dòng)LED的場(chǎng)景,例如電池供電的手持設(shè)備
    的頭像 發(fā)表于 08-09 13:47 ?928次閱讀

    FPGA與MCU的應(yīng)用場(chǎng)景

    肯定是不同的。在需要處理多個(gè)高速數(shù)據(jù)場(chǎng)景下,F(xiàn)PGA的多通道IO接口設(shè)計(jì)能力顯得尤為重要,例如PCIe、DDR還是其他高速通信協(xié)議。FPGA可以進(jìn)行高速數(shù)字信號(hào)處理,能夠以極高的效率執(zhí)行數(shù)
    發(fā)表于 07-29 15:45

    圖像檢測(cè)和圖像識(shí)別的原理、方法及應(yīng)用場(chǎng)景

    圖像檢測(cè)和圖像識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要概念,它們?cè)谠S多應(yīng)用場(chǎng)景中發(fā)揮著關(guān)鍵作用。 1. 定義 1.1 圖像檢測(cè) 圖像檢測(cè)(Object
    的頭像 發(fā)表于 07-16 11:19 ?2290次閱讀

    LT3042使用過(guò)程出現(xiàn)過(guò)保護(hù),為什么?

    波形如下: 使用LT3042的過(guò)程中,因后級(jí)負(fù)載產(chǎn)生倒灌電流超過(guò)LT3042 200mA限制,出現(xiàn)過(guò)保護(hù),麻煩問(wèn)一下該應(yīng)用場(chǎng)景是否會(huì)對(duì)LT3042產(chǎn)生影響或者損壞
    發(fā)表于 05-31 08:26

    功率電子電路中續(xù)和換流的區(qū)別

    功率電子電路中續(xù)和換流的區(qū)別 續(xù)和換流是功率電子電路中常用的兩種控制方式,它們具有不同的工作原理和應(yīng)用場(chǎng)景。 1. 續(xù)技術(shù): 續(xù)技術(shù)
    的頭像 發(fā)表于 04-08 17:35 ?1159次閱讀

    AG32VF-MIPI應(yīng)用場(chǎng)景

    MIPI接口技術(shù)在圖像和視頻傳輸中的應(yīng)用越來(lái)越廣泛,應(yīng)用場(chǎng)景也在不斷拓展,而不僅限于移動(dòng)設(shè)備。MIPI接口在物聯(lián)網(wǎng)、智能家居、智能監(jiān)控、智能電視、智能汽車等領(lǐng)域也得到廣泛應(yīng)用。 MIPI還可
    發(fā)表于 01-22 08:56

    降壓恒LED芯片F(xiàn)P7126 PWM調(diào)光:打造高效照明

    降壓恒LED芯片F(xiàn)P7126可以實(shí)現(xiàn)精確的亮度調(diào)節(jié),無(wú)論是在家庭、辦公室還是商業(yè)場(chǎng)所,都能滿足不同使用場(chǎng)景的需求。
    的頭像 發(fā)表于 01-18 15:26 ?661次閱讀
    降壓恒<b class='flag-5'>流</b>LED芯片F(xiàn)P7126 PWM調(diào)光:打造高效照明

    從記錄的傳感器數(shù)據(jù)中獲取駕駛場(chǎng)景

    此工作使用 MATLAB 和 RoadRunner 產(chǎn)品完成,它提供了一種結(jié)構(gòu)化的方法來(lái)創(chuàng)建虛擬場(chǎng)景,使安波福的工程師能夠通過(guò)仿真嚴(yán)格驗(yàn)證 ADAS/AD 閉環(huán)算法。
    的頭像 發(fā)表于 01-18 11:05 ?416次閱讀
    從記錄的傳感器數(shù)據(jù)中獲取駕駛<b class='flag-5'>場(chǎng)景</b>

    什么是像素送?像素送如何應(yīng)用?

    云渲染是我們時(shí)常聽(tīng)說(shuō)的名詞,隨著科技日新月異的進(jìn)步,像素送也不斷發(fā)展,進(jìn)入我們的生活,對(duì)于像素送的概念跟理解,很多人都不會(huì)理解,首先,那什么是像素送呢?像素送跟實(shí)時(shí)云渲染有什么
    的頭像 發(fā)表于 12-13 15:43 ?478次閱讀

    SL9008 3.6-60V輸入 LED降壓恒芯片 內(nèi)置MOS管 帶PWM調(diào)光

    的正負(fù)極,即可實(shí)現(xiàn)LED燈具的恒驅(qū)動(dòng)。 SL9008的應(yīng)用場(chǎng)景非常廣泛,包括但不限于LED照明、LED顯示屏、LED背光等領(lǐng)域。它適用于各種電源電壓和電池供電的應(yīng)用場(chǎng)景,如家用電器、汽車電子、工業(yè)控制等
    發(fā)表于 12-11 15:52

    什么是處理?為何選擇處理?

    是從生產(chǎn)者到消費(fèi)者的一系列無(wú)限事件。大量數(shù)據(jù)生成為金融交易、傳感器測(cè)量或 Web 服務(wù)器日志等事件處理是對(duì)接收到的新數(shù)據(jù)事件的連續(xù)處理。
    的頭像 發(fā)表于 12-05 09:22 ?1218次閱讀
    什么是<b class='flag-5'>流</b>處理?為何選擇<b class='flag-5'>流</b>處理?

    什么是芯片片?芯片片為什么這么貴?

    介紹了芯片片的原理同時(shí)介紹了首顆極大規(guī)模全異步電路芯片片成功。
    的頭像 發(fā)表于 11-30 10:30 ?2806次閱讀

    用于處理豐富輸入輸出數(shù)據(jù)的圖形和圖像處理工具

    電子發(fā)燒友網(wǎng)站提供《用于處理豐富輸入輸出數(shù)據(jù)的圖形和圖像處理工具.pdf》資料免費(fèi)下載
    發(fā)表于 11-15 14:12 ?0次下載
    用于處理豐富輸入輸出數(shù)據(jù)<b class='flag-5'>流</b>的圖形和<b class='flag-5'>圖像</b>處理工具

    洞悉 Omniverse:Marmoset 帶來(lái)渲染方面的突破,通過(guò)擴(kuò)展對(duì) OpenUSD 的支持改進(jìn) 3D 藝術(shù)創(chuàng)作

    的最新版 3D 軟件支持互操作性、實(shí)時(shí)降噪和 DLSS 圖像放大。 實(shí)時(shí)渲染、動(dòng)畫和紋理烘焙是 3D 藝術(shù)制作的基本工作。借助 Marmoset Toolbag 軟件,3D 藝術(shù)家可以在不影響生產(chǎn)力
    的頭像 發(fā)表于 10-27 19:55 ?447次閱讀
    洞悉 Omniverse:Marmoset 帶來(lái)渲染方面的突破,通過(guò)擴(kuò)展對(duì) OpenUSD 的支持改進(jìn) 3D 藝術(shù)創(chuàng)作<b class='flag-5'>流</b>

    labview 和 wincc 的區(qū)別 使用場(chǎng)景

    labview 和 wincc 的區(qū)別 使用場(chǎng)景 都是上位機(jī)軟件,都可以做監(jiān)控軟件 wincc的名氣也比較大 對(duì)比的資料較少 寫這些文章的人,從自己的從事的行業(yè)出發(fā),帶有自己的思維 使用的場(chǎng)景 肯定
    發(fā)表于 10-27 18:01