0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器視覺(jué)技術(shù)有一大進(jìn)步谷歌實(shí)現(xiàn)了對(duì)移動(dòng)鏡頭下移動(dòng)人物的深度預(yù)測(cè)

電子工程師 ? 來(lái)源:未知 ? 2019-06-01 11:35 ? 次閱讀

人類的視覺(jué)神經(jīng)是一套神奇的系統(tǒng)。

作為三維生物的視覺(jué)系統(tǒng),我們可以輕易地把三維空間的二維投影(照片/視頻)在大腦里重新還原成三維空間。換句話說(shuō),當(dāng)我們看到一個(gè)平面上的兩個(gè)物體時(shí),我們知道這兩個(gè)物體并非重疊,而是一前一后。我們甚至可以估算出這兩者之間的大致距離。

對(duì)于試圖超越人類視覺(jué)能力的計(jì)算機(jī)視覺(jué)技術(shù)來(lái)說(shuō),重建三維空間時(shí)的深度預(yù)測(cè)這一技能卻是一個(gè)繞不開(kāi)的難題。畢竟,機(jī)器的輸入只是一個(gè)二維平面上的像素分布數(shù)據(jù),而利用兩個(gè)觀測(cè)點(diǎn)進(jìn)行三角測(cè)量卻需要多相機(jī)陣列或?qū)ο蟊3朱o止。面對(duì)“人機(jī)皆動(dòng)”的動(dòng)態(tài)場(chǎng)景,當(dāng)下的計(jì)算機(jī)視覺(jué)算法就無(wú)能為力了。

當(dāng)然,任何技術(shù)突破需要的只是時(shí)間。這不,GoogleAI 的研究人員根據(jù)運(yùn)動(dòng)視差(MotionParallax)的原理,成功的訓(xùn)練出了一個(gè)深度學(xué)習(xí)的沙漏模型,有效地解決了移動(dòng)鏡頭下移動(dòng)人物的深度預(yù)測(cè)問(wèn)題。

圖 |輸入鏡頭和人物都在自由移動(dòng)的普通視頻(左)得到深度圖(右),此深度圖中越亮表示離相機(jī)越近。(來(lái)源:Tali Dekel,et al./Google AI)

我們的世界并不是二維平面,雖然人類視覺(jué)系統(tǒng)可以輕易地將看到的 2D 圖像轉(zhuǎn)化為 3D,但機(jī)器該如何知曉深度呢?目前的主流方法是利用三角測(cè)量(Triangulation),三角測(cè)量理論是通過(guò)兩點(diǎn)觀測(cè)來(lái)確定對(duì)象的位置,即兩個(gè)觀測(cè)點(diǎn)和對(duì)象處于同一平面,通過(guò)兩個(gè)觀測(cè)點(diǎn)的距離和兩個(gè)夾角來(lái)計(jì)算對(duì)象的位置。完成三角測(cè)量需要有多個(gè)相機(jī)組成陣列,如 Google’sJump,若一個(gè)鏡頭的話,就要在鏡頭移動(dòng)的時(shí)候?qū)ο蟊3朱o止。

而在鏡頭和場(chǎng)景里的對(duì)象都在自由移動(dòng)的情況下,不確定的位置使三角測(cè)量算法感到迷惑迷茫甚至絕望,于是大多現(xiàn)存的深度預(yù)測(cè)方法就會(huì)開(kāi)始“瞎算”,要么過(guò)濾掉移動(dòng)對(duì)象,將他們視為噪音,直接標(biāo)記為 0,要么假裝目標(biāo)沒(méi)有移動(dòng),計(jì)算出不正確的深度值。

圖 | 傳統(tǒng)立體測(cè)量場(chǎng)景是利用同時(shí)的兩點(diǎn)觀測(cè)數(shù)據(jù),即目標(biāo)物靜止(左);鏡頭和對(duì)象在同時(shí)移動(dòng)的測(cè)量場(chǎng)景,三角測(cè)量理論無(wú)法適用(右)。(來(lái)源:Tali Dekel,et al./Google AI)

面對(duì)這種不科學(xué)的做法,GoogleAI 的研究人員創(chuàng)造了首個(gè)針對(duì)于鏡頭和人體同時(shí)移動(dòng)情況的深度學(xué)習(xí)模型,并不是傳統(tǒng)針對(duì)靜止對(duì)象的深度預(yù)測(cè)模型,無(wú)需 3D 三角測(cè)量,僅利用鏡頭和人物都在移動(dòng)的普通視頻數(shù)據(jù),完美輸出深度圖(一種三維場(chǎng)景的信息表達(dá)方式,圖的像素值反映場(chǎng)景中物體到相機(jī)的距離)。這與現(xiàn)實(shí)世界大多數(shù)物體都在運(yùn)動(dòng)的情況契合,并且模型表現(xiàn)優(yōu)于現(xiàn)有最佳深度預(yù)測(cè)模型,能真實(shí)還原移動(dòng)人物的位置,如此,一些視頻里動(dòng)態(tài)人物的扣除、遮擋鏡頭的還原,一些 3D 效果渲染,都不在話下。

訓(xùn)練數(shù)據(jù)的收集

此深度預(yù)測(cè)模型利用有監(jiān)督的方式進(jìn)行訓(xùn)練,即需要自然場(chǎng)景下的有移動(dòng)鏡頭的視頻,并且有精準(zhǔn)的深度數(shù)據(jù)。那么如何得到有標(biāo)注的訓(xùn)練數(shù)據(jù)集呢?這就要從 2016 年 11 月開(kāi)始風(fēng)靡互聯(lián)網(wǎng)的 YouTube 人體模特挑戰(zhàn)(Mannequin Challenge)說(shuō)起了。

在這個(gè)挑戰(zhàn)中,人靜止于各種姿勢(shì),如同模特,鏡頭移動(dòng)過(guò)整個(gè)場(chǎng)景拍成視頻,素材里整個(gè)場(chǎng)景靜止,只有相機(jī)在移動(dòng),所以基于三角測(cè)量的一些 3D 重建方法,如 multi-view-stereo (MVS),可以精準(zhǔn)地計(jì)算出整個(gè)場(chǎng)景包括人物的深度,從而得到深度標(biāo)注。整個(gè)數(shù)據(jù)集約有 2000 個(gè)視頻,涵蓋各種真實(shí)場(chǎng)景下的各種造型各種姿勢(shì)的人類。

畢竟,如果合成數(shù)據(jù)的話需要大量的各種場(chǎng)景和人類動(dòng)作進(jìn)行逼真的模擬和渲染,不太現(xiàn)實(shí),并且這種模擬數(shù)據(jù)所訓(xùn)練出來(lái)的模型可能也難以遷移到真實(shí)場(chǎng)景;如果換用 RGBD(RGB+depth)相機(jī),如 Microsoft 的 Kinect,來(lái)記錄真實(shí)場(chǎng)景產(chǎn)生數(shù)據(jù),也會(huì)受到深度相機(jī)本身限制,比如物體材質(zhì)影響反射導(dǎo)致深度值缺失,并且深度相機(jī)一般也受限于室內(nèi)場(chǎng)景。

故,風(fēng)靡一時(shí)的 Mannequin Challenge 視頻,在此將做出卓越的貢獻(xiàn)。

圖|YouTube 上人體模特挑戰(zhàn)的視頻,視頻中人物以各種姿勢(shì)造型靜止,鏡頭劃過(guò)整個(gè)靜止場(chǎng)景,傳統(tǒng) 3D 重建算法 MVS 計(jì)算出所有視頻中的深度值作為訓(xùn)練數(shù)據(jù)集的標(biāo)注(來(lái)源:Tali Dekel,et al./Google AI)

預(yù)測(cè)移動(dòng)人物的深度

但新的問(wèn)題產(chǎn)生了,人體模特挑戰(zhàn)視頻里人物是靜止的,想要處理移動(dòng)鏡頭下的移動(dòng)人物,如何解決?

一個(gè)可能的解決方案:從視頻的每一幀來(lái)單獨(dú)推斷深度值,即僅將單個(gè)幀輸入模型。這種方案所訓(xùn)練的模型的確優(yōu)于現(xiàn)有的最佳單圖像深度預(yù)測(cè)方法,但考慮多幀圖像提供的信息,模型是否會(huì)進(jìn)一步提升呢?

這就是運(yùn)動(dòng)視差。由于透視,從不同位置觀察靜止畫(huà)面時(shí),近處物體比遠(yuǎn)處物體有更大視差,這種視差信息可以判斷深度信息。因此,研究者引入了每?jī)蓭?huà)面之間的 2D 光流圖,即兩幀圖像間像素位移信息,來(lái)輔助深度預(yù)測(cè)。光流(opticalflow)是指空間運(yùn)動(dòng)物體在觀察成像平面上的像素的瞬時(shí)速度,利用圖像序列中像素在時(shí)間上的變化以及相鄰幀之間相關(guān)性,根據(jù)視差原理可以計(jì)算出相鄰幀物體的運(yùn)動(dòng)信息。

光流一般是由于目標(biāo)本身的移動(dòng)、相機(jī)的移動(dòng)或兩者共同運(yùn)動(dòng)產(chǎn)生,所以場(chǎng)景深度、相機(jī)的相對(duì)位置自然會(huì)影響光流圖,相機(jī)位置是已知的(利用視覺(jué)慣性測(cè)距得到),故可以得到靜態(tài)場(chǎng)景的初始深度值,但人物同時(shí)也在運(yùn)動(dòng),所以在得到初始深度圖時(shí),人物會(huì)產(chǎn)生噪音,利用人體切割模型,將人物區(qū)域掩去,剩下的就是靜態(tài)的場(chǎng)景深度信息。故模型輸入為 RGB 圖像、人物掩蔽圖,和利用 SfM 對(duì)光流圖計(jì)算出的掩蔽人物后的深度圖。

圖|深度預(yù)測(cè)網(wǎng)絡(luò)模型的輸入輸出,模型的輸入包括:一張 RGB 圖像(Framet),一張掩去人物的圖像,和一張計(jì)算得到的無(wú)人物初始深度圖;模型的輸出是 Framet 圖像的深度圖。訓(xùn)練集的深度圖標(biāo)注是 MVA 方法計(jì)算的深度值。(來(lái)源:Tali Dekel,et al./Google AI)

最終模型

研究人員最終采用了沙漏模型(hourglass network)的一個(gè)變種作為模型結(jié)構(gòu),將最近鄰上采樣層變?yōu)殡p線性上采樣層。沙漏模型一般結(jié)構(gòu)如下,相同顏色的方塊為相同結(jié)構(gòu)的網(wǎng)絡(luò),H是卷積核 3x3 的卷積網(wǎng)絡(luò),所有其他網(wǎng)絡(luò)結(jié)構(gòu)是 Inception Module,Inception Module 是一種區(qū)別于傳統(tǒng)將卷積層串聯(lián),而將 1x1、3x3以及5x5的卷積層進(jìn)行并聯(lián)的結(jié)構(gòu)。

圖 |沙漏模型(hourgalss network)具體結(jié)構(gòu)。(來(lái)源:WeifengChen,et al./University of Michigan)

這個(gè)模型可以預(yù)測(cè)有移動(dòng)人類場(chǎng)景的深度,細(xì)化其他地方的深度,實(shí)現(xiàn)移動(dòng)人物的去除。由于人體有著大概一致的形狀和物理維度,所以可以通過(guò)訓(xùn)練數(shù)據(jù)來(lái)先驗(yàn)地學(xué)習(xí)到這些信息。因此,這個(gè)深度預(yù)估模型可以實(shí)現(xiàn)對(duì)任意移動(dòng)人類和任意移動(dòng)相機(jī)情況下的深度預(yù)測(cè)。

和一些業(yè)界現(xiàn)有最佳深度預(yù)測(cè)模型相比,此模型效果優(yōu)越,輸出的深度圖十分完美。

圖 |深度預(yù)測(cè)網(wǎng)絡(luò)模型表現(xiàn)對(duì)比:上層的 DORN 和 Chen 等人設(shè)計(jì)的模型都為單圖深度預(yù)估方法,下層的 DeMoN 為基于立體視覺(jué)的方法(來(lái)源:Tali Dekel,et al./Google AI)

該深度預(yù)測(cè)模型可以在一些視頻中形成3D感知的效果,比如合成散焦。下圖是利用模型將普通視頻合成散焦。

圖 |產(chǎn)生散景視頻特效,視頻由Wind Walk Travel Videos提供。(來(lái)源:Tali Dekel,et al./Google AI)

這個(gè)模型也可以用于將單目鏡頭視頻變成立體視頻,或者將場(chǎng)景中插入合成的 CG(ComputerGraphics)對(duì)象,或者實(shí)現(xiàn)一些被遮場(chǎng)景、缺失場(chǎng)景的填充。如下圖,通過(guò)利用視頻的其他幀出現(xiàn)的內(nèi)容,模型實(shí)現(xiàn)了相機(jī)擺動(dòng)時(shí)演員身后領(lǐng)域的填充。

圖 | 填充被遮擋的視頻。(來(lái)源:Tali Dekel, et al./Google AI)

這么強(qiáng)大的模型,這么優(yōu)秀的思路,在增強(qiáng)現(xiàn)實(shí)、3D 渲染等一些計(jì)算機(jī)視覺(jué)領(lǐng)域自然有其用武之地。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺(jué)
    +關(guān)注

    關(guān)注

    161

    文章

    4301

    瀏覽量

    119864
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29359

    瀏覽量

    267646
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    8

    文章

    1688

    瀏覽量

    45870

原文標(biāo)題:計(jì)算機(jī)視覺(jué)領(lǐng)域又一大突破!谷歌 AI 實(shí)現(xiàn)對(duì)移動(dòng)鏡頭下移動(dòng)人物的深度預(yù)測(cè)

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    機(jī)器視覺(jué)鏡頭選擇

    和測(cè)量方形、圓形和橢圓形物體。提高機(jī)器視覺(jué)系統(tǒng)的精確度,可以幫助保持統(tǒng)的包裝表面和顏色。盡管照相機(jī)、分析軟件和照明對(duì)于機(jī)器視覺(jué)系統(tǒng)都是十分
    發(fā)表于 10-22 15:57

    機(jī)器視覺(jué)技術(shù)

    實(shí)現(xiàn)信息集成,是實(shí)現(xiàn)計(jì)算機(jī)集成制造的基礎(chǔ)技術(shù)個(gè)典型的工業(yè)機(jī)器視覺(jué)系統(tǒng)包括:光源、
    發(fā)表于 01-17 07:56

    想設(shè)計(jì)炫酷的移動(dòng)機(jī)器人?視覺(jué)定位設(shè)計(jì)方案分享給你!

    針對(duì)移動(dòng)機(jī)器人的局部視覺(jué)定位問(wèn)題進(jìn)行了研究。首先通過(guò)移動(dòng)機(jī)器視覺(jué)定位與目標(biāo)跟蹤系統(tǒng)求出目標(biāo)質(zhì)心特征點(diǎn)的位置時(shí)間序列, 然后在分析二次成像法獲取目標(biāo)
    發(fā)表于 06-01 08:00

    【設(shè)計(jì)技巧】機(jī)器視覺(jué)設(shè)計(jì)者如何選擇合適的鏡頭

    `為了實(shí)現(xiàn)具有成本效益的機(jī)器視覺(jué)系統(tǒng),開(kāi)發(fā)人員必須從眾多可用的鏡頭中選擇最合適的產(chǎn)品。 對(duì)于機(jī)器視覺(jué)
    發(fā)表于 07-19 08:30

    CAD圖紙中如何才能在布局模式下移動(dòng)圖形?

    模式下移動(dòng)圖形的方法:1、首先打開(kāi)浩辰CAD軟件,然后切換至【布局1】視圖,當(dāng)前為【布局1】視圖。如下圖所示:2、此時(shí)為【圖紙】空間,點(diǎn)擊【圖紙】切換至【模型】。在【模型】空間下畫(huà)個(gè)矩形,通過(guò)該矩形
    發(fā)表于 03-24 14:26

    如何實(shí)現(xiàn)移動(dòng)機(jī)器人的設(shè)計(jì)?

     移動(dòng)機(jī)器人利用導(dǎo)航技術(shù),獲得機(jī)器人的目前所處的位置,結(jié)合傳感器技術(shù)對(duì)周圍外界環(huán)境(障礙物等)作實(shí)時(shí)探測(cè),并根據(jù)環(huán)境提供的信息規(guī)劃條可行路
    發(fā)表于 11-23 15:08

    請(qǐng)問(wèn)大家在LABVIEW表格控件中,如何實(shí)現(xiàn)點(diǎn)擊上移下移按鈕,表格中的數(shù)據(jù)能上下移動(dòng)?

    請(qǐng)問(wèn)大家在LABVIEW表格控件中,如何實(shí)現(xiàn)點(diǎn)擊上移下移按鈕,表格中的數(shù)據(jù)能上下移動(dòng)?
    發(fā)表于 12-01 08:50

    什么是移軸鏡頭

    什么是移軸鏡頭        移動(dòng)鏡頭光軸調(diào)
    發(fā)表于 02-01 10:56 ?886次閱讀

    PLC的漿液下移動(dòng)機(jī)器人控制系統(tǒng)

    PLC的漿液下移動(dòng)機(jī)器人控制系統(tǒng)   摘要:結(jié)合漿液下移動(dòng)機(jī)器人系統(tǒng)的功能要求及PLC的特點(diǎn),構(gòu)建了槳液下移動(dòng)機(jī)器人的控制系統(tǒng)。為提高該機(jī)器人系統(tǒng)的經(jīng)濟(jì)效
    發(fā)表于 04-21 17:58 ?799次閱讀
    PLC的漿液<b class='flag-5'>下移動(dòng)機(jī)器</b>人控制系統(tǒng)

    下移動(dòng)無(wú)線傳感器網(wǎng)絡(luò)拓?fù)?/a>

    論文,水下移動(dòng)無(wú)線傳感器網(wǎng)絡(luò)拓?fù)鋉何明,講述的是水下移動(dòng)無(wú)線傳感器網(wǎng)絡(luò)
    發(fā)表于 05-11 18:08 ?20次下載

    移動(dòng)機(jī)器人的視覺(jué)算法種類與深度相機(jī)傳感器的分類

    等功能,而視覺(jué)算法則是實(shí)現(xiàn)這些功能關(guān)鍵技術(shù)。 如果對(duì)移動(dòng)機(jī)器視覺(jué)算法進(jìn)行拆解,你就會(huì)發(fā)現(xiàn)獲取物體深度
    發(fā)表于 09-27 10:37 ?11次下載

    基于視頻深度學(xué)習(xí)的時(shí)空雙流人物動(dòng)作識(shí)別模型

    深度學(xué)習(xí)被運(yùn)用于圖片分類、人物臉部識(shí)別和人物位置預(yù)測(cè)等識(shí)別領(lǐng)域。視頻人物動(dòng)作識(shí)別可看作隨時(shí)間變化圖片的分類問(wèn)題,所以圖片識(shí)別的
    發(fā)表于 04-17 10:46 ?0次下載
    基于視頻<b class='flag-5'>深度</b>學(xué)習(xí)的時(shí)空雙流<b class='flag-5'>人物</b>動(dòng)作識(shí)別模型

    移動(dòng)機(jī)器人的關(guān)鍵技術(shù)哪些

    導(dǎo)航技術(shù)移動(dòng)機(jī)器人的項(xiàng)核心技術(shù)它是指移動(dòng)機(jī)器人通過(guò)傳感器感知環(huán)境信息和自身狀態(tài),
    發(fā)表于 07-20 17:16 ?17次下載
    <b class='flag-5'>移動(dòng)機(jī)器</b>人的關(guān)鍵<b class='flag-5'>技術(shù)</b><b class='flag-5'>有</b>哪些

    深度解析2023年機(jī)器視覺(jué)行業(yè)的十大預(yù)測(cè)

    高工機(jī)器人產(chǎn)業(yè)研究所(GGII)通過(guò)對(duì)機(jī)器視覺(jué)產(chǎn)業(yè)的梳理,結(jié)合宏觀數(shù)據(jù)和調(diào)研數(shù)據(jù)信息,秉承不悲觀、不樂(lè)觀,力求客觀的態(tài)度,深度解析2023年機(jī)器
    的頭像 發(fā)表于 11-29 11:18 ?2366次閱讀

    深度解析2023年移動(dòng)機(jī)器人行業(yè)的十大預(yù)測(cè)

    高工機(jī)器人產(chǎn)業(yè)研究所(GGII)通過(guò)對(duì)移動(dòng)機(jī)器人產(chǎn)業(yè)的梳理,結(jié)合宏觀數(shù)據(jù)和調(diào)研數(shù)據(jù)信息,秉承不悲觀、不樂(lè)觀,力求客觀的態(tài)度,深度解析2023年移動(dòng)機(jī)器人行業(yè)的十大
    發(fā)表于 12-02 11:15 ?730次閱讀