国产色视频网免费,欧美日韩视频高清一区

簡(jiǎn)單記一下最近看的六篇場(chǎng)景流論文~其中3篇是關(guān)于RGBD圖像的場(chǎng)景流，另外3篇是關(guān)于點(diǎn)云的場(chǎng)景流。
來(lái)源：https://zhuanlan.zhihu.com/p/85663856
作者：林小北

所謂場(chǎng)景流，就是光流的三維版本，表述了圖像/點(diǎn)云中每個(gè)點(diǎn)在前后兩幀的變化情況。目前對(duì)場(chǎng)景流的研究還局限在實(shí)驗(yàn)室階段，由于缺乏實(shí)際數(shù)據(jù)（打標(biāo)成本太高）以及客觀的評(píng)價(jià)指標(biāo)，離工程應(yīng)用還有不小的距離。此外，巨大的計(jì)算量也是一個(gè)瓶頸。以下論文可以在文末直接下載。

《Deep Rigid Instance Scene Flow》 CVPR 2019

輸入：雙目攝像頭的前后幀左右圖像

核心思想：把場(chǎng)景流分割成多個(gè)actor的運(yùn)動(dòng)，利用MaskRCNN進(jìn)行Instance Segmentation，每個(gè)Instance的Motion都應(yīng)該與深度和光流一致。

首先，利用三個(gè)預(yù)先訓(xùn)練好的子網(wǎng)絡(luò)提取視覺(jué)線索：

a. 利用MaskRCNN進(jìn)行Instance Segmentation
b. 利用PSM-Net計(jì)算深度圖（disparity map）
c. 利用PWC-Net計(jì)算光流

之后，采用高斯牛頓法最小化下面三個(gè)能量函數(shù)之和得到3D motion：

a. Photometric Error：前一幀左邊圖像的inlier像素點(diǎn)，與第二幀的投影位置的像素點(diǎn)必須盡量一致
b. Rigid Fitting：估計(jì)出的剛體運(yùn)動(dòng)必須與觀察到的深度和光流信息一致
c. Flow Consistency：估計(jì)出的剛體運(yùn)動(dòng)在2d上的投影必須和光流一致

《Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation》 ECCV 2018

輸入：前后幀圖像的RGBD信息

核心思想：把圖像分割為rigid/no-rigid區(qū)域，計(jì)算rigid區(qū)域的ego motion后再結(jié)合光流即可得到scene flow。

先利用兩個(gè)預(yù)先訓(xùn)練好的子網(wǎng)絡(luò)提取特征：

a. 利用PWCNet提取前后兩幀的光流
b. 利用 rigidity-transform network (RTN)預(yù)測(cè)ego-motion以及rigidity mask

之后，結(jié)合光流、rigidity mask對(duì)ego motioon進(jìn)行refine，保證rigity里面的像素點(diǎn)的光流與ego-motion一致。

最后，綜合利用光流、rigidity mask、ego motioon信息即可得到scene flow。

備注：本文的另一個(gè)貢獻(xiàn)是提出了一個(gè)用于場(chǎng)景流的數(shù)據(jù)庫(kù)REFRESH。在kitti的inference結(jié)果如下，不是很好。

《Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding》TPAMI

輸入：?jiǎn)文?雙目攝像頭的前后幀圖像

核心思想：先用三個(gè)子網(wǎng)絡(luò)估計(jì)光流、深度、camera motion，送入holistic 3D motion parser (HMP) 按照幾何關(guān)系即可計(jì)算出rigid background的motion和moving objects的motion。

三個(gè)子網(wǎng)絡(luò)先分別進(jìn)行預(yù)訓(xùn)練，再結(jié)合HMP考慮如下loss優(yōu)化三個(gè)子網(wǎng)絡(luò)：

a. Rigid-aware structural matching：按照3D motion投影后rigid部分的結(jié)構(gòu)特點(diǎn)應(yīng)該match
b. Edge-aware local smoothness：投影后的深度和光流的應(yīng)該保持smoothness
c. Rigid-aware 3D motion consistency：rigid background的moving object motion值應(yīng)該盡量小
d. Flow motion consistency in occluded regions：occluded regions的光流前后映射應(yīng)該一致
e. Multi-scale penalization：累加4個(gè)尺度的loss

備注：在雙目攝像頭的表現(xiàn)優(yōu)于單目。通過(guò)joint learning，光流、深度、camera motion的表現(xiàn)均有提升。

在Kitti上的表現(xiàn)如下，算是差強(qiáng)人意吧。

本文作者還有一篇工作《Every Pixel Counts: Unsupervised Geometry Learning with Holistic 3D Motion Understanding》，是關(guān)于估計(jì)ego motion的。

《FlowNet3D: Learning Scene Flow in 3D Point Clouds》 CVPR 2018

輸入：僅使用點(diǎn)云數(shù)據(jù)

核心思想：采用pointnet++作為基本模塊，提取前后兩幀點(diǎn)云特征并進(jìn)行融合、上采樣，直接擬合出scene flow

網(wǎng)絡(luò)結(jié)構(gòu)如下：

a. 4組set conv layer：pointnet++ 提取點(diǎn)云特征
b. 1組flow embedding layer：把前后兩幀的點(diǎn)云特征mix，第一幀的取中心點(diǎn)，其臨近點(diǎn)從第二幀取，再提取特征
c. 4組set upconv layer：上采樣，新增點(diǎn)從鄰近點(diǎn)獲取特征

loss為smooth L1 loss

備注：在合成數(shù)據(jù)集上訓(xùn)練的模型可以直接在kitti上work，但與圖像場(chǎng)景流的論文不同，沒(méi)有把background和moving object做區(qū)分，沒(méi)有考慮ego motion。

《HPLFlowNet: Hierarchical Permutohedral Lattice FlowNet for Scene Flow Estimation on Large-scale Point Clouds》 CVPR 2019

輸入：僅使用點(diǎn)云數(shù)據(jù)

核心思想：采用Bilateral Convolutional Layers作為基本模塊，提取前后兩幀點(diǎn)云特征并進(jìn)行融合、上采樣，直接擬合出scene flow。

備注：與FlowNet3D的整體結(jié)構(gòu)一樣，都是下采樣-融合-上采樣。Bilateral Convolutional Layers能夠快速處理高維稀疏數(shù)據(jù)，是不同于PointNet的一種濾波操作。

《PointFlowNet: Learning Representations for Rigid Motion Estimation from Point Clouds》 CVPR 2019

輸入：僅使用點(diǎn)云數(shù)據(jù)

核心思想：利用點(diǎn)云數(shù)據(jù)提取特征后，分別生成ego motion、scene flow、rigid motion、objection location，再整合結(jié)果輸出

細(xì)節(jié)如下：

a. 采用VolexNet作為feature encoder
b. 把前后兩幀的特征進(jìn)行concate，接入context encoder
c. 之后，接入三個(gè)分支：

i. ego-miotion regressor
ii. sceneflow decoder -> rigid motion decoder（證明了rigid motion decoder 無(wú)法使用卷積層，故此處采用了fc）
iii. objection location decoder

d. 把檢測(cè)出的object和motion融合得到結(jié)果

loss為 Scene Flow Loss + Rigid Motion Loss + Ego-motion Loss + Detection Loss

備注：本文思路與圖像類方法很像，也是考慮各個(gè)instance的motion。

總結(jié)

Deep Rigid Instance Scene Flow：

輸入為雙目圖像，用MaskRCNN把動(dòng)靜態(tài)障礙物分開(kāi)。三個(gè)子網(wǎng)絡(luò)分別獨(dú)立訓(xùn)練并計(jì)算出Instance Segmentation、深度圖、光流，利用三個(gè)子網(wǎng)絡(luò)的結(jié)果計(jì)算motion，進(jìn)而得到scene flow。

Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation：

輸入為RGBD圖像，兩個(gè)子網(wǎng)絡(luò)分別獨(dú)立訓(xùn)練并算出光流、ego-motion&rigid mask，refine ego motion后算出scene flow。

Every Pixel Counts ++：

輸入為單目/雙目攝像頭，先用三個(gè)子網(wǎng)絡(luò)估計(jì)光流、深度、camera motion，再按照幾何關(guān)系計(jì)算出rigid background的motion和moving objects的motion，之后根據(jù)一致性對(duì)三個(gè)子網(wǎng)絡(luò)進(jìn)行優(yōu)化。

FlowNet3D 以及 HPLFlowNet：

分別對(duì)前后兩幀點(diǎn)云下采樣提取特征并進(jìn)行融合、上采樣，直接擬合出scene flow。

PointFlowNet（思路類似Deep Rigid Instance Scene Flow）：

采用volexnet提取前后兩幀點(diǎn)云特征并融合，先檢測(cè)出object、計(jì)算出ego motion、scene flow，再去回歸各個(gè)object的motion。

審核編輯：符乾江

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴