不卡日韩AV无码国产精品,亚洲学生妹高清AV,精品一区二区三区视频m

Facebook 的博客詳細介紹了其在 3D 內容理解領域的研究進展。

要想解釋現(xiàn)實世界，AI 系統(tǒng)必須理解三維視覺場景。而這需要機器人學、導航，甚至增強現(xiàn)實應用等等。2D 圖像和視頻所描述的場景和對象本身仍是三維的，而真正智能的內容理解系統(tǒng)必須能夠從杯子的視頻中識別出手柄的幾何情況，或者識別出照片前景和背景中的對象。

不久之前，F(xiàn)acebook 發(fā)布博客介紹了多個新研究項目的詳情，這些項目以不同卻互補的方式推進 3D 圖像理解領域的當前最優(yōu)水平。相關研究已被 ICCV 2019 接收，它利用不同類型和數(shù)量的訓練數(shù)據(jù)和輸入，解決了大量用例和環(huán)境中的 3D 內容理解問題。

Mesh R-CNN 是一種新型的當前最優(yōu)方法，可基于大量 2D 現(xiàn)實世界圖像預測出最準確的 3D 形狀。該方法利用目標實例分割任務的通用 Mask R-CNN 框架，能夠檢測出復雜的對象，如椅子腿或者重疊的家具。利用 Mesh R-CNN 的替代和補充性方法 C3DPO，F(xiàn)acebook 通過解釋三維幾何，首次在三個基準數(shù)據(jù)集（涉及超過 14 種對象類別）上實現(xiàn)了大規(guī)模非剛性三維形狀重建。而該成果的實現(xiàn)僅使用了 2D 關鍵點，未使用 3D 標注。 Facebook 提出了一種新方法來學習圖像和 3D 形狀之間的關聯(lián)，同時大幅減少對標注訓練樣本的需求。這向著為更多對象類別創(chuàng)建 3D 表征的自監(jiān)督系統(tǒng)邁出了一步。 Facebook 開發(fā)了一種新技術 VoteNet，可對激光雷達等傳感器輸出的 3D 圖像執(zhí)行目標檢測。大部分傳統(tǒng)的目標檢測系統(tǒng)依賴 2D 圖像信號，而 VoteNet 僅基于 3D 點云，且取得了高于之前研究的精度。

這些研究基于使用深度學習預測和定位圖像中對象的近期進展，以及執(zhí)行 3D 形狀理解（如體素、點云和網(wǎng)格）的新工具和架構。計算機視覺領域覆蓋大量任務，而 3D 理解將對推進 AI 系統(tǒng)更準確地理解、解釋現(xiàn)實世界并在其中運行起到核心作用。

在預測無約束受遮擋對象的 3D 形狀任務中達到當前最優(yōu)

感知系統(tǒng)（如 Mask R-CNN）是理解圖像的強大通用工具。但是，這些系統(tǒng)只能對 2D 圖像執(zhí)行預測，忽略了世界的 3D 結構。Facebook 利用 2D 感知領域的進展，設計了一個 3D 目標重建模型，該模型可以基于無約束現(xiàn)實世界圖像預測 3D 對象形狀，而這些圖像包含大量視覺難題，如對象被遮擋、雜亂，以及多樣化的拓撲結構。向對此類復雜性具備穩(wěn)健性的目標檢測系統(tǒng)添加第三個維度，需要更強大的工程能力，而目前的工程框架阻礙了該領域的進步。

Mesh R-CNN 預測輸入圖像中的對象實例，并推斷其 3D 形狀。為了捕捉幾何和拓撲的多樣性，Mesh R-CNN 首先預測粗糙的體素，然后細化以執(zhí)行準確的網(wǎng)格預測。

為了解決這些挑戰(zhàn)，F(xiàn)acebook 為 Mask R-CNN 的 2D 目標分割系統(tǒng)添加了網(wǎng)格預測部分，從而構建了 Torch3d。這是一個 PyTorch 庫，具備高度優(yōu)化的 3D 算子以實現(xiàn)該系統(tǒng)。Mesh R-CNN 使用 Mask R-CNN 來檢測和分類圖像中的不同對象，然后利用新的網(wǎng)格預測器推斷對象的 3D 形狀，該預測器由體素預測和網(wǎng)格細化兩個步驟構成，這個兩階段流程可以實現(xiàn)優(yōu)于之前細粒度 3D 結構預測研究的結果。Torch3d 保證 chamfer distance、可微網(wǎng)格采樣和可微渲染器等復雜操作的高效、靈活和模塊化實現(xiàn)，從而使得上述流程得以順利進行。

Facebook 利用 Detectron2 實現(xiàn) Mesh R-CNN，它使用 RGB 圖像作為輸入，既能檢測對象，也能預測 3D 形狀。與 Mask R-CNN 利用監(jiān)督學習獲得強大的 2D 感知能力類似，新方法 Mesh R-CNN 利用完全監(jiān)督學習（即圖像和網(wǎng)格對）學習 3D 預測。在訓練階段中，F(xiàn)acebook 研究人員使用 Pix3D 數(shù)據(jù)集（包含一萬個圖像和網(wǎng)格對），該數(shù)據(jù)集的規(guī)模遠遠小于通常包含數(shù)十萬圖像和對象標注的 2D 基準數(shù)據(jù)集。

Facebook 在兩個數(shù)據(jù)集上評估 Mesh R-CNN 的性能，均獲得了優(yōu)秀的結果。在 Pix3D 數(shù)據(jù)集上，Mesh R-CNN 是首個能夠同時檢測出所有對象類別，并基于多樣、雜亂、被遮擋的家具場景估計其完整 3D 形狀的系統(tǒng)。之前的研究主要關注在完美剪裁、未受遮擋的圖像分割部分上訓練得到的模型。在 ShapeNet 數(shù)據(jù)集上，將體素預測和網(wǎng)格細化結合起來的 Mesh R-CNN 方法的性能比之前的研究高出 7%。

Mesh R-CNN 系統(tǒng)概覽。研究人員用 3D 形狀推斷增強了 Mask R-CNN。

在現(xiàn)實世界中準確預測和重建無約束場景的形狀是提升新體驗的重要一步，如虛擬現(xiàn)實以及其他形式的遠程呈現(xiàn)。不過，收集標注 3D 圖像數(shù)據(jù)要比 2D 圖像更加復雜、耗時，這也是 3D 形狀預測數(shù)據(jù)集落后于 2D 數(shù)據(jù)集的原因。因而，F(xiàn)acebook 探索了不同的方法，嘗試利用監(jiān)督和自監(jiān)督學習重建 3D 對象。

Mesh R-CNN 相關論文，參見：https://arxiv.org/abs/1906.02739

利用 2D 關鍵點重建 3D 對象類別

當訓練過程中無法獲得網(wǎng)格及其對應圖像時，對靜態(tài)對象或場景執(zhí)行完整重建則無必要，而 Facebook 開發(fā)出一種替代方法——C3DPO 系統(tǒng)（Canonical 3D Pose Networks）。該系統(tǒng)構建 3D 關鍵點模型重建，重建結果堪比使用充足 2D 關鍵點監(jiān)督信號獲得的當前最優(yōu)結果。C3DPO 幫助我們用弱監(jiān)督的方式理解 3D 幾何，該系統(tǒng)適合大規(guī)模部署。

對于廣泛的對象類別，C3DPO 能夠基于檢測出的 2D 關鍵點生成 3D 關鍵點，并準確區(qū)分視角變化和形狀變化。

2D 關鍵點追蹤對象類別的特定部分（如人體關節(jié)或鳥類翅膀），為對象幾何及其變形或視角變化提供完整的線索。得到的 3D 關鍵點很有用，比如可用于建模 3D 人臉和全身網(wǎng)格，以輸出更逼真的 VR 頭像圖。與 Mesh R-CNN 類似，C3DPO 使用具備遮擋和缺失值的無約束圖像重建 3D 對象。

C3DPO 是首個利用數(shù)千個 2D 關鍵點，重建包含數(shù)十萬圖像的數(shù)據(jù)集的方法。該模型在三個數(shù)據(jù)集（超過 14 種不同非剛性對象類別）上獲得了當前最優(yōu)的重建準確率。

代碼地址：https://github.com/facebookresearch/c3dpo_nrsfm

該模型有兩個重要創(chuàng)新。首先，給定一組單目 2D 關鍵點，C3DPO 可以預測對應攝像機視角的參數(shù)，以及 3D 關鍵點的標準位置。其次，F(xiàn)acebook 提出了一種新型正則化技術 canonicalization，它包含一個輔助深度網(wǎng)絡，可以與 3D 重建網(wǎng)絡一道學習。該技術解決了對 3D 視角和形狀執(zhí)行因式分解導致的模糊性。這兩個創(chuàng)新促使更優(yōu)秀數(shù)據(jù)統(tǒng)計模型的誕生。

以前，這樣的 3D 重建是不可實現(xiàn)的，原因在于之前基于矩陣分解的方法會帶來內存限制。與深度網(wǎng)絡不同，之前方法無法以「minibatch」機制運行。之前方法在建模變形時利用了多個同步圖像，并構建圖像與即時 3D 重建結果之間的對應關系，這對硬件有很高要求，此類硬件通常出現(xiàn)在特殊實驗室中。而 C3DPO 使得在無法部署 3D 捕捉硬件時也能實現(xiàn) 3D 重建。

C3DPO 相關論文，參見：https://research.fb.com/publications/c3dpo-canonical-3d-pose-networks-for-non-rigid-structure-from-motion/

從圖像集中學習像素-表面映射（pixel-to-surf ace mapping）

該系統(tǒng)學得一個參數(shù)化卷積神經(jīng)網(wǎng)絡（CNN），該網(wǎng)絡以圖像作為輸入，并預測像素級標準表面圖（per-pixel canonical surface map，表示像素在模板形狀上的對應位置點）。2D 圖像和 3D 形狀之間的標準表面圖中的類似顏色表示對應關系。

Facebook 進一步減少了開發(fā)通用對象類別 3D 理解系統(tǒng)所需的監(jiān)督信號。研究人員提出一種利用無標注圖像集的方法，這些圖像僅具備恰當?shù)淖詣訉嵗指?。他們沒有顯式地預測圖像的底層 3D 結構，轉而處理一個補充性任務：將圖像中的像素映射至類別級 3D 形狀模板的表面。

該映射不僅可以幫助我們在類別級 3D 形狀背景下理解圖像，還提供泛化同類對象之間對應關系的能力。例如，人們在看到下圖左側突出顯示的鳥喙時，可以很輕松地在右圖中找出對應點的位置。

這是因為我們直觀上理解這些實例之間的共享 3D 結構。Facebook 提出的將圖像像素映射至標準 3D 表面的新方法幫助學得系統(tǒng)也具備這種能力。對該方法在不同實例上遷移對應關系的效果進行評估后，研究人員發(fā)現(xiàn)其準確率是之前未利用圖像底層 3D 結構的自監(jiān)督方法的 2 倍。

使得模型在監(jiān)督信號大量減少的情況下還能學習的關鍵要素是：從像素到 3D 表面的映射，輔以從 3D 表面到像素的逆運算，可形成一個完整循環(huán)。Facebook 提出的新方法使這一關鍵要素得以運行，且學習過程中僅需使用免費無標注、具備恰當實例分割結果的公共圖像集。得到的系統(tǒng)還可即拿即用，與其他自上而下的 3D 預測方法一道應用，提供像素級 3D 理解。

代碼地址：https://github.com/nileshkulkarni/csm/

上述視頻中移動車輛的顏色是一致的，這表面該系統(tǒng)對正在移動和旋轉的對象生成不變的像素級嵌入。這種一致性可擴展到特定實例，也可用于需要理解不同對象共性的場景中。

Facebook 提出的方法沒有直接學習兩張圖像之間的 2D 對應關系，而是學習 2D 到 3D 的對應，并確保 3D 到 2D 重新投影的一致性，這種一致性循環(huán)可作為學習 2D 到 3D 對應關系的監(jiān)督信號。

例如，如果我們訓練一個系統(tǒng)去學習坐在椅子上的正確位置或者握杯子的合適位置，則學到的表征應在系統(tǒng)理解坐在另外一把椅子的合適位置或如何握住另一只杯子的時候依然有用。此類任務不僅能夠深化對傳統(tǒng) 2D 圖像和視頻內容的理解，還可以通過遷移對象表征提升 AR/VR 體驗。關于標準表面映射的更多信息，參見：https://research.fb.com/publications/canonical-surface-mapping-via-geometric-cycle-consistency/

在目前的 3D 系統(tǒng)中，改進目標檢測的基礎要素

隨著前沿技術（如掃描 3D 空間的自動智能體和系統(tǒng)）的發(fā)展，我們需要推進針對 3D 數(shù)據(jù)的目標檢測機制。在這些案例中，3D 場景理解系統(tǒng)需要了解場景中有哪些對象以及它們的位置，以支持導航等高級任務。Facebook 對已有系統(tǒng)進行了改進，提出了高度準確的端到端 3D 目標檢測網(wǎng)絡 VoteNet，該網(wǎng)絡專為點云設計，相關論文《Deep Hough Voting for 3D Object Detection in Point Clouds》獲得了 ICCV 2019 最佳論文提名。與依賴 2D 圖像信號的傳統(tǒng)系統(tǒng)不同，VoteNet 是首批僅依賴 3D 點云數(shù)據(jù)的系統(tǒng)。該方法比之前研究更加高效，識別準確率也更高。

VoteNet 開源地址：https://github.com/facebookresearch/votenet

VoteNet 在 3D 目標檢測任務上的性能超過了之前所有方法，獲得了當前最優(yōu) 3D 檢測結果，在 SUN RGB-D 和 ScanNet 數(shù)據(jù)集上的性能較之之前方法至少提升了 3.7 和 18.4 mAP。VoteNet 優(yōu)于之前方法的原因是：僅使用幾何信息，不依賴標準彩色圖像。

VoteNet 設計簡單，模型緊湊，效率高，對全景圖像的處理速度約為 100 毫秒，內存占用也比之前方法小。該方法以深度相機獲得的 3D 點云作為輸入，返回對象的 3D 邊界框，且標明對象的語義類別。

VoteNet 架構圖示。

受經(jīng)典 Hough voting 算法啟發(fā)，F(xiàn)acebook 提出了一種投票機制。利用該機制可生成緊鄰對象中心的新點，將這些點分組并聚合以生成邊界框候選。使用通過深度神經(jīng)網(wǎng)絡學得的投票基本思路，一組 3D 種子點投票競爭對象中心，以恢復對象的位置和類別。

隨著 3D 掃描儀在現(xiàn)實中的使用，尤其是在自動駕駛汽車、生物醫(yī)學等領域的普遍應用，通過定位和分類 3D 場景中的對象來實現(xiàn)對 3D 內容的語義理解變得尤為重要。向 2D 攝像頭補充一些更先進的深度相機傳感器以方便 3D 識別，這可以幫助我們捕捉到任意給定場景的更穩(wěn)健視圖。使用 VoteNet，系統(tǒng)可以更好地識別出場景中的主要對象，并支持放置虛擬對象、導航和 LiveMap 構建等任務。

開發(fā)對現(xiàn)實世界具備更多了解的系統(tǒng)

3D 計算機視覺領域存在很多開放性研究問題，F(xiàn)acebook 正在試驗多個問題陳述、技術和監(jiān)督方法，正如過去探索推動 2D 理解的最佳方式一樣。隨著數(shù)字世界更多地使用 3D 圖像和浸入式 AR/VR 體驗等產品，我們需要持續(xù)推進更準確理解視覺場景并與其中對象互動的復雜系統(tǒng)的開發(fā)。當 AI 系統(tǒng)與其他感官結合起來時，如觸覺和自然語言理解，這些系統(tǒng)（如虛擬助手）可以更加無縫地發(fā)揮作用。這一前沿研究幫助我們向著構建和人類一樣更直觀理解三維世界的 AI 系統(tǒng)更進了一步。

本文介紹的研究論文已被 ICCV 2019 接收，還有一些新的計算機視覺工作，包括：

SlowFast：使用不同幀率的輸入從視頻中提取信息的方法。

TensorMask：使用密集的滑動窗口技術執(zhí)行目標分割的方法。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Facebook

Facebook

+關注

關注
3

文章
1429

瀏覽量
54582
計算機視覺

計算機視覺

+關注

關注
8

文章
1688

瀏覽量
45872
3D視覺

3D視覺

+關注

關注
4

文章
425

瀏覽量
27457

原文標題：一文看盡 Facebook 3D視覺技術研究進展

文章出處：【微信號：vision263com，微信公眾號：新機器視覺】歡迎添加關注！文章轉載請注明出處。

探索3D視覺技術在活塞桿自動化抓取中的應用

隨著工業(yè)4.0時代的到來，智能制造成為工業(yè)發(fā)展的重要趨勢。作為智能制造的關鍵技術之一，3D視覺技術在活塞桿抓取領域的應用前景十分廣闊。

發(fā)表于 09-07 15:38 ?207次閱讀

3D視覺技術廣闊的應用前景

隨著工業(yè)自動化領域的迅猛進步，對制造過程中抓取作業(yè)的精度與效率提出了更為嚴苛的要求。作為機械構造中的核心組件，活塞桿的精準抓取成為了保障產品質量、提升生產效率的關鍵環(huán)節(jié)。在此背景下，3D視覺技

發(fā)表于 07-29 15:56 ?238次閱讀

奧比中光3D相機打造高質量、低成本的3D動作捕捉與3D動畫內容生成方案

? 在過去幾十年里，動作捕捉（MoCap）技術經(jīng)歷了顯著的發(fā)展，廣泛被應用于電影、游戲、虛擬現(xiàn)實、醫(yī)療等多個領域。近期，奧比中光合作客戶Moverse使用Orbbec Femto系列3D相機，打造出

發(fā)表于 06-25 16:37 ?930次閱讀

3D建模的重要內容和應用

3D建模是一種技術，通過計算機軟件創(chuàng)建虛擬三維模型，模擬現(xiàn)實世界中的物體或場景。這項技術廣泛應用于建筑設計、電影制作、游戲開發(fā)、工程仿真等領域。下面古河云科技將介紹一些與

發(fā)表于 06-21 14:48 ?463次閱讀

蘇州吳中區(qū)多色PCB板元器件3D視覺檢測技術

3D視覺檢測相較于2D視覺檢測，有其獨特的優(yōu)勢，不受產品表面對比度影響，精確檢出產品形狀，可以測出高度（厚度）、體積、平整度等。在實際應用中可以與2

發(fā)表于 06-14 15:02 ?305次閱讀

VIVERSE 推行實時3D渲染：探索Polygon Streaming技術力量與應用

在商業(yè)領域和娛樂行業(yè)中，3D渲染技術一直是推動視覺體驗革新的關鍵力量。隨著技術的進步，實時3D渲

發(fā)表于 05-31 15:49 ?2223次閱讀

3D視覺技術在慣性環(huán)上料領域的未來發(fā)展

隨著制造業(yè)的智能化和自動化水平不斷提升，慣性環(huán)作為汽車發(fā)動機減震器中的核心組件，其精準、高效的上料過程顯得尤為關鍵。作為實現(xiàn)這一目標的重要技術手段，3D視覺技術在慣性環(huán)上料

發(fā)表于 05-21 16:06 ?250次閱讀

3D視覺技術無序抓取引導活塞桿

隨著工業(yè)4.0時代的到來，智能制造成為工業(yè)發(fā)展的重要趨勢。作為智能制造的關鍵技術之一，3D視覺技術在活塞桿抓取領域的應用前景十分廣闊。

發(fā)表于 05-13 13:40 ?198次閱讀

3C薄片自動化上料，3D視覺技術如何賦能？

隨著制造業(yè)的快速發(fā)展，3C行業(yè)對薄片類零件的上料需求日益增長。傳統(tǒng)的上料方式往往依賴于人工操作，效率低下且存在誤差。為了解決這一問題，3D視覺技術應運而生，為

發(fā)表于 04-17 14:29 ?355次閱讀

Nullmax提出多相機3D目標檢測新方法QAF2D

今天上午，計算機視覺領域頂會CVPR公布了最終的論文接收結果，Nullmax感知部門的3D目標檢測研究《Enhancing 3D Objec

發(fā)表于 02-27 16:38 ?1003次閱讀

技術基因＋自主創(chuàng)新，光鑒科技塑造3D視覺感知新范式

感知技術已經(jīng)滲透到智能汽車、工業(yè)機器人、服務機器人、智慧城市、新零售和智能家居等廣泛領域，憑借精度高、速度快、適配性強、抗干擾能力強等突出優(yōu)勢，3D視覺感知

發(fā)表于 01-16 00:22 ?1203次閱讀

一文了解3D視覺和2D視覺的區(qū)別

一文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D

發(fā)表于 12-25 11:15 ?2588次閱讀

2D與3D視覺技術的比較

作為一個多年經(jīng)驗的機器視覺工程師，我將詳細介紹2D和3D視覺技術的不同特點、應用場景以及它們能夠解決的問題。在這個

發(fā)表于 12-21 09:19 ?1004次閱讀

3D視覺的三大優(yōu)勢

康耐視的In-Sight 3D-L4000憑借突破性的3D視覺技術、無斑點藍色激光照明系統(tǒng)和小巧外形重新定義了3D

發(fā)表于 12-07 10:53 ?1107次閱讀

先進激光雷達探測技術研究進展

電子發(fā)燒友網(wǎng)站提供《先進激光雷達探測技術研究進展.pdf》資料免費下載

發(fā)表于 10-31 11:10 ?0次下載