亚洲AV片不卡无码久久欣赏网,中文乱码字幕高清一区二区

人類的視覺(jué)神經(jīng)是一套神奇的系統(tǒng)。

作為三維生物的視覺(jué)系統(tǒng)，我們可以輕易地把三維空間的二維投影（照片/視頻）在大腦里重新還原成三維空間。換句話說(shuō)，當(dāng)我們看到一個(gè)平面上的兩個(gè)物體時(shí)，我們知道這兩個(gè)物體并非重疊，而是一前一后。我們甚至可以估算出這兩者之間的大致距離。

對(duì)于試圖超越人類視覺(jué)能力的計(jì)算機(jī)視覺(jué)技術(shù)來(lái)說(shuō)，重建三維空間時(shí)的深度預(yù)測(cè)這一技能卻是一個(gè)繞不開(kāi)的難題。畢竟，機(jī)器的輸入只是一個(gè)二維平面上的像素分布數(shù)據(jù)，而利用兩個(gè)觀測(cè)點(diǎn)進(jìn)行三角測(cè)量卻需要多相機(jī)陣列或?qū)ο蟊３朱o止。面對(duì)“人機(jī)皆動(dòng)”的動(dòng)態(tài)場(chǎng)景，當(dāng)下的計(jì)算機(jī)視覺(jué)算法就無(wú)能為力了。

當(dāng)然，任何技術(shù)突破需要的只是時(shí)間。這不，GoogleAI 的研究人員根據(jù)運(yùn)動(dòng)視差（MotionParallax）的原理，成功的訓(xùn)練出了一個(gè)深度學(xué)習(xí)的沙漏模型，有效地解決了移動(dòng)鏡頭下移動(dòng)人物的深度預(yù)測(cè)問(wèn)題。

圖 |輸入鏡頭和人物都在自由移動(dòng)的普通視頻（左）得到深度圖（右），此深度圖中越亮表示離相機(jī)越近。（來(lái)源：Tali Dekel,et al./Google AI）

我們的世界并不是二維平面，雖然人類視覺(jué)系統(tǒng)可以輕易地將看到的 2D 圖像轉(zhuǎn)化為 3D，但機(jī)器該如何知曉深度呢？目前的主流方法是利用三角測(cè)量（Triangulation），三角測(cè)量理論是通過(guò)兩點(diǎn)觀測(cè)來(lái)確定對(duì)象的位置，即兩個(gè)觀測(cè)點(diǎn)和對(duì)象處于同一平面，通過(guò)兩個(gè)觀測(cè)點(diǎn)的距離和兩個(gè)夾角來(lái)計(jì)算對(duì)象的位置。完成三角測(cè)量需要有多個(gè)相機(jī)組成陣列，如 Google’sJump，若一個(gè)鏡頭的話，就要在鏡頭移動(dòng)的時(shí)候?qū)ο蟊３朱o止。

而在鏡頭和場(chǎng)景里的對(duì)象都在自由移動(dòng)的情況下，不確定的位置使三角測(cè)量算法感到迷惑迷茫甚至絕望，于是大多現(xiàn)存的深度預(yù)測(cè)方法就會(huì)開(kāi)始“瞎算”，要么過(guò)濾掉移動(dòng)對(duì)象，將他們視為噪音，直接標(biāo)記為 0，要么假裝目標(biāo)沒(méi)有移動(dòng)，計(jì)算出不正確的深度值。

圖 | 傳統(tǒng)立體測(cè)量場(chǎng)景是利用同時(shí)的兩點(diǎn)觀測(cè)數(shù)據(jù)，即目標(biāo)物靜止（左）；鏡頭和對(duì)象在同時(shí)移動(dòng)的測(cè)量場(chǎng)景，三角測(cè)量理論無(wú)法適用（右）。（來(lái)源：Tali Dekel,et al./Google AI）

面對(duì)這種不科學(xué)的做法，GoogleAI 的研究人員創(chuàng)造了首個(gè)針對(duì)于鏡頭和人體同時(shí)移動(dòng)情況的深度學(xué)習(xí)模型，并不是傳統(tǒng)針對(duì)靜止對(duì)象的深度預(yù)測(cè)模型，無(wú)需 3D 三角測(cè)量，僅利用鏡頭和人物都在移動(dòng)的普通視頻數(shù)據(jù)，完美輸出深度圖（一種三維場(chǎng)景的信息表達(dá)方式，圖的像素值反映場(chǎng)景中物體到相機(jī)的距離）。這與現(xiàn)實(shí)世界大多數(shù)物體都在運(yùn)動(dòng)的情況契合，并且模型表現(xiàn)優(yōu)于現(xiàn)有最佳深度預(yù)測(cè)模型，能真實(shí)還原移動(dòng)人物的位置，如此，一些視頻里動(dòng)態(tài)人物的扣除、遮擋鏡頭的還原，一些 3D 效果渲染，都不在話下。

訓(xùn)練數(shù)據(jù)的收集

此深度預(yù)測(cè)模型利用有監(jiān)督的方式進(jìn)行訓(xùn)練，即需要自然場(chǎng)景下的有移動(dòng)鏡頭的視頻，并且有精準(zhǔn)的深度數(shù)據(jù)。那么如何得到有標(biāo)注的訓(xùn)練數(shù)據(jù)集呢？這就要從 2016 年 11 月開(kāi)始風(fēng)靡互聯(lián)網(wǎng)的 YouTube 人體模特挑戰(zhàn)（Mannequin Challenge）說(shuō)起了。

在這個(gè)挑戰(zhàn)中，人靜止于各種姿勢(shì)，如同模特，鏡頭移動(dòng)過(guò)整個(gè)場(chǎng)景拍成視頻，素材里整個(gè)場(chǎng)景靜止，只有相機(jī)在移動(dòng)，所以基于三角測(cè)量的一些 3D 重建方法，如 multi-view-stereo (MVS)，可以精準(zhǔn)地計(jì)算出整個(gè)場(chǎng)景包括人物的深度，從而得到深度標(biāo)注。整個(gè)數(shù)據(jù)集約有 2000 個(gè)視頻，涵蓋各種真實(shí)場(chǎng)景下的各種造型各種姿勢(shì)的人類。

畢竟，如果合成數(shù)據(jù)的話需要大量的各種場(chǎng)景和人類動(dòng)作進(jìn)行逼真的模擬和渲染，不太現(xiàn)實(shí)，并且這種模擬數(shù)據(jù)所訓(xùn)練出來(lái)的模型可能也難以遷移到真實(shí)場(chǎng)景；如果換用 RGBD（RGB+depth）相機(jī)，如 Microsoft 的 Kinect，來(lái)記錄真實(shí)場(chǎng)景產(chǎn)生數(shù)據(jù)，也會(huì)受到深度相機(jī)本身限制，比如物體材質(zhì)影響反射導(dǎo)致深度值缺失，并且深度相機(jī)一般也受限于室內(nèi)場(chǎng)景。

故，風(fēng)靡一時(shí)的 Mannequin Challenge 視頻，在此將做出卓越的貢獻(xiàn)。

圖|YouTube 上人體模特挑戰(zhàn)的視頻，視頻中人物以各種姿勢(shì)造型靜止，鏡頭劃過(guò)整個(gè)靜止場(chǎng)景，傳統(tǒng) 3D 重建算法 MVS 計(jì)算出所有視頻中的深度值作為訓(xùn)練數(shù)據(jù)集的標(biāo)注（來(lái)源：Tali Dekel,et al./Google AI）

預(yù)測(cè)移動(dòng)人物的深度

但新的問(wèn)題產(chǎn)生了，人體模特挑戰(zhàn)視頻里人物是靜止的，想要處理移動(dòng)鏡頭下的移動(dòng)人物，如何解決？

一個(gè)可能的解決方案：從視頻的每一幀來(lái)單獨(dú)推斷深度值，即僅將單個(gè)幀輸入模型。這種方案所訓(xùn)練的模型的確優(yōu)于現(xiàn)有的最佳單圖像深度預(yù)測(cè)方法，但考慮多幀圖像提供的信息，模型是否會(huì)進(jìn)一步提升呢？

這就是運(yùn)動(dòng)視差。由于透視，從不同位置觀察靜止畫(huà)面時(shí)，近處物體比遠(yuǎn)處物體有更大視差，這種視差信息可以判斷深度信息。因此，研究者引入了每?jī)蓭?huà)面之間的 2D 光流圖，即兩幀圖像間像素位移信息，來(lái)輔助深度預(yù)測(cè)。光流（opticalflow）是指空間運(yùn)動(dòng)物體在觀察成像平面上的像素的瞬時(shí)速度，利用圖像序列中像素在時(shí)間上的變化以及相鄰幀之間相關(guān)性，根據(jù)視差原理可以計(jì)算出相鄰幀物體的運(yùn)動(dòng)信息。

光流一般是由于目標(biāo)本身的移動(dòng)、相機(jī)的移動(dòng)或兩者共同運(yùn)動(dòng)產(chǎn)生，所以場(chǎng)景深度、相機(jī)的相對(duì)位置自然會(huì)影響光流圖，相機(jī)位置是已知的（利用視覺(jué)慣性測(cè)距得到），故可以得到靜態(tài)場(chǎng)景的初始深度值，但人物同時(shí)也在運(yùn)動(dòng)，所以在得到初始深度圖時(shí)，人物會(huì)產(chǎn)生噪音，利用人體切割模型，將人物區(qū)域掩去，剩下的就是靜態(tài)的場(chǎng)景深度信息。故模型輸入為 RGB 圖像、人物掩蔽圖，和利用 SfM 對(duì)光流圖計(jì)算出的掩蔽人物后的深度圖。

圖|深度預(yù)測(cè)網(wǎng)絡(luò)模型的輸入輸出，模型的輸入包括：一張 RGB 圖像（Framet），一張掩去人物的圖像，和一張計(jì)算得到的無(wú)人物初始深度圖；模型的輸出是 Framet 圖像的深度圖。訓(xùn)練集的深度圖標(biāo)注是 MVA 方法計(jì)算的深度值。（來(lái)源：Tali Dekel,et al./Google AI）

最終模型

研究人員最終采用了沙漏模型（hourglass network）的一個(gè)變種作為模型結(jié)構(gòu)，將最近鄰上采樣層變?yōu)殡p線性上采樣層。沙漏模型一般結(jié)構(gòu)如下，相同顏色的方塊為相同結(jié)構(gòu)的網(wǎng)絡(luò)，H是卷積核 3x3 的卷積網(wǎng)絡(luò)，所有其他網(wǎng)絡(luò)結(jié)構(gòu)是 Inception Module，Inception Module 是一種區(qū)別于傳統(tǒng)將卷積層串聯(lián)，而將 1x1、3x3以及5x5的卷積層進(jìn)行并聯(lián)的結(jié)構(gòu)。

圖 |沙漏模型（hourgalss network）具體結(jié)構(gòu)。（來(lái)源：WeifengChen,et al./University of Michigan）

這個(gè)模型可以預(yù)測(cè)有移動(dòng)人類場(chǎng)景的深度，細(xì)化其他地方的深度，實(shí)現(xiàn)移動(dòng)人物的去除。由于人體有著大概一致的形狀和物理維度，所以可以通過(guò)訓(xùn)練數(shù)據(jù)來(lái)先驗(yàn)地學(xué)習(xí)到這些信息。因此，這個(gè)深度預(yù)估模型可以實(shí)現(xiàn)對(duì)任意移動(dòng)人類和任意移動(dòng)相機(jī)情況下的深度預(yù)測(cè)。

和一些業(yè)界現(xiàn)有最佳深度預(yù)測(cè)模型相比，此模型效果優(yōu)越，輸出的深度圖十分完美。

圖 |深度預(yù)測(cè)網(wǎng)絡(luò)模型表現(xiàn)對(duì)比：上層的 DORN 和 Chen 等人設(shè)計(jì)的模型都為單圖深度預(yù)估方法，下層的 DeMoN 為基于立體視覺(jué)的方法（來(lái)源：Tali Dekel,et al./Google AI）

該深度預(yù)測(cè)模型可以在一些視頻中形成3D感知的效果，比如合成散焦。下圖是利用模型將普通視頻合成散焦。

圖 |產(chǎn)生散景視頻特效，視頻由Wind Walk Travel Videos提供。（來(lái)源：Tali Dekel,et al./Google AI）

這個(gè)模型也可以用于將單目鏡頭視頻變成立體視頻，或者將場(chǎng)景中插入合成的 CG（ComputerGraphics）對(duì)象，或者實(shí)現(xiàn)一些被遮場(chǎng)景、缺失場(chǎng)景的填充。如下圖，通過(guò)利用視頻的其他幀出現(xiàn)的內(nèi)容，模型實(shí)現(xiàn)了相機(jī)擺動(dòng)時(shí)演員身后領(lǐng)域的填充。

圖 | 填充被遮擋的視頻。（來(lái)源：Tali Dekel, et al./Google AI）

這么強(qiáng)大的模型，這么優(yōu)秀的思路，在增強(qiáng)現(xiàn)實(shí)、3D 渲染等一些計(jì)算機(jī)視覺(jué)領(lǐng)域自然有其用武之地。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器視覺(jué)

機(jī)器視覺(jué)

+關(guān)注

關(guān)注
161

文章
4301

瀏覽量
119864
AI

AI

+關(guān)注

關(guān)注
87

文章
29359

瀏覽量
267646
計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
8

文章
1688

瀏覽量
45870

原文標(biāo)題：計(jì)算機(jī)視覺(jué)領(lǐng)域又一大突破！谷歌 AI 實(shí)現(xiàn)對(duì)移動(dòng)鏡頭下移動(dòng)人物的深度預(yù)測(cè)

文章出處：【微信號(hào)：deeptechchina，微信公眾號(hào)：deeptechchina】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

機(jī)器視覺(jué)的鏡頭選擇

和測(cè)量方形、圓形和橢圓形物體。提高機(jī)器視覺(jué)系統(tǒng)的精確度，可以幫助保持統(tǒng)一的包裝表面和顏色。盡管照相機(jī)、分析軟件和照明對(duì)于機(jī)器視覺(jué)系統(tǒng)都是十分

發(fā)表于 10-22 15:57

機(jī)器視覺(jué)技術(shù)

實(shí)現(xiàn)信息集成，是實(shí)現(xiàn)計(jì)算機(jī)集成制造的基礎(chǔ)技術(shù)。一個(gè)典型的工業(yè)機(jī)器視覺(jué)系統(tǒng)包括：光源、

發(fā)表于 01-17 07:56

想設(shè)計(jì)炫酷的移動(dòng)機(jī)器人？視覺(jué)定位設(shè)計(jì)方案分享給你！

針對(duì)移動(dòng)機(jī)器人的局部視覺(jué)定位問(wèn)題進(jìn)行了研究。首先通過(guò)移動(dòng)機(jī)器人視覺(jué)定位與目標(biāo)跟蹤系統(tǒng)求出目標(biāo)質(zhì)心特征點(diǎn)的位置時(shí)間序列，然后在分析二次成像法獲取目標(biāo)

發(fā)表于 06-01 08:00

【設(shè)計(jì)技巧】機(jī)器視覺(jué)設(shè)計(jì)者如何選擇合適的鏡頭？

`為了實(shí)現(xiàn)具有成本效益的機(jī)器視覺(jué)系統(tǒng)，開(kāi)發(fā)人員必須從眾多可用的鏡頭中選擇最合適的產(chǎn)品。對(duì)于機(jī)器視覺(jué)

發(fā)表于 07-19 08:30

CAD圖紙中如何才能在布局模式下移動(dòng)圖形？

模式下移動(dòng)圖形的方法：1、首先打開(kāi)浩辰CAD軟件，然后切換至【布局1】視圖，當(dāng)前為【布局1】視圖。如下圖所示：2、此時(shí)為【圖紙】空間，點(diǎn)擊【圖紙】切換至【模型】。在【模型】空間下畫(huà)一個(gè)矩形，通過(guò)該矩形

發(fā)表于 03-24 14:26

如何實(shí)現(xiàn)移動(dòng)機(jī)器人的設(shè)計(jì)？

　移動(dòng)機(jī)器人利用導(dǎo)航技術(shù)，獲得機(jī)器人的目前所處的位置，結(jié)合傳感器技術(shù)對(duì)周圍外界環(huán)境（障礙物等）作實(shí)時(shí)探測(cè)，并根據(jù)環(huán)境提供的信息規(guī)劃一條可行路

發(fā)表于 11-23 15:08

請(qǐng)問(wèn)大家在LABVIEW表格控件中，如何實(shí)現(xiàn)點(diǎn)擊上移下移按鈕，表格中的數(shù)據(jù)能上下移動(dòng)？

請(qǐng)問(wèn)大家在LABVIEW表格控件中，如何實(shí)現(xiàn)點(diǎn)擊上移下移按鈕，表格中的數(shù)據(jù)能上下移動(dòng)？

發(fā)表于 12-01 08:50

什么是移軸鏡頭

什么是移軸鏡頭 移動(dòng)鏡頭光軸調(diào)

發(fā)表于 02-01 10:56 ?886次閱讀

PLC的漿液下移動(dòng)機(jī)器人控制系統(tǒng)

PLC的漿液下移動(dòng)機(jī)器人控制系統(tǒng) 　　摘要：結(jié)合漿液下移動(dòng)機(jī)器人系統(tǒng)的功能要求及PLC的特點(diǎn)，構(gòu)建了槳液下移動(dòng)機(jī)器人的控制系統(tǒng)。為提高該機(jī)器人系統(tǒng)的經(jīng)濟(jì)效

發(fā)表于 04-21 17:58 ?799次閱讀

水下移動(dòng)無(wú)線傳感器網(wǎng)絡(luò)拓?fù)?/a>

論文，水下移動(dòng)無(wú)線傳感器網(wǎng)絡(luò)拓?fù)鋉何明，講述的是水下移動(dòng)無(wú)線傳感器網(wǎng)絡(luò)

發(fā)表于 05-11 18:08 ?20次下載

 移動(dòng)機(jī)器人的視覺(jué)算法種類與深度相機(jī)傳感器的分類

等功能，而視覺(jué)算法則是實(shí)現(xiàn)這些功能關(guān)鍵技術(shù)。如果對(duì)移動(dòng)機(jī)器人視覺(jué)算法進(jìn)行拆解，你就會(huì)發(fā)現(xiàn)獲取物體深度

發(fā)表于 09-27 10:37 ?11次下載

基于視頻深度學(xué)習(xí)的時(shí)空雙流人物動(dòng)作識(shí)別模型

深度學(xué)習(xí)被運(yùn)用于圖片分類、人物臉部識(shí)別和人物位置預(yù)測(cè)等識(shí)別領(lǐng)域。視頻人物動(dòng)作識(shí)別可看作隨時(shí)間變化圖片的分類問(wèn)題，所以圖片識(shí)別的

發(fā)表于 04-17 10:46 ?0次下載

移動(dòng)機(jī)器人的關(guān)鍵技術(shù)有哪些

導(dǎo)航技術(shù)是移動(dòng)機(jī)器人的一項(xiàng)核心技術(shù)之一它是指移動(dòng)機(jī)器人通過(guò)傳感器感知環(huán)境信息和自身狀態(tài)，

發(fā)表于 07-20 17:16 ?17次下載

深度解析2023年機(jī)器視覺(jué)行業(yè)的十大預(yù)測(cè)

高工機(jī)器人產(chǎn)業(yè)研究所（GGII）通過(guò)對(duì)機(jī)器視覺(jué)產(chǎn)業(yè)的梳理，結(jié)合宏觀數(shù)據(jù)和調(diào)研數(shù)據(jù)信息，秉承不悲觀、不樂(lè)觀，力求客觀的態(tài)度，深度解析2023年機(jī)器

發(fā)表于 11-29 11:18 ?2366次閱讀

深度解析2023年移動(dòng)機(jī)器人行業(yè)的十大預(yù)測(cè)

高工機(jī)器人產(chǎn)業(yè)研究所（GGII）通過(guò)對(duì)移動(dòng)機(jī)器人產(chǎn)業(yè)的梳理，結(jié)合宏觀數(shù)據(jù)和調(diào)研數(shù)據(jù)信息，秉承不悲觀、不樂(lè)觀，力求客觀的態(tài)度，深度解析2023年移動(dòng)機(jī)器人行業(yè)的十大

發(fā)表于 12-02 11:15 ?730次閱讀