0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌AI研發(fā)TensorFlow3D操作速度竟提高二十倍

新機(jī)器視覺 ? 來源:Google AI ? 作者:Google AI ? 2021-03-12 09:33 ? 次閱讀

導(dǎo)讀

Google AI發(fā)布了TensorFlow 3D,將3D深度學(xué)習(xí)能力引入TensorFlow,加入3D稀疏卷積網(wǎng)絡(luò),在Waymo Open數(shù)據(jù)集上的實驗表明,這種實現(xiàn)比預(yù)先設(shè)計好的TensorFlow操作提速「20倍」。隨著自動駕駛汽車與機(jī)器人的深入發(fā)展,激光雷達(dá)、深度傳感攝像機(jī)、雷達(dá)等3D傳感器已經(jīng)成為了獲取道路數(shù)據(jù)的必要設(shè)備。而利用這些傳感器的機(jī)器學(xué)習(xí)系統(tǒng)則顯得尤為重要,因為它可以幫助硬件在現(xiàn)實世界中進(jìn)行導(dǎo)航等操作。

近期,包括目標(biāo)檢測、透明目標(biāo)檢測等模型的3D場景理解方面取得了很大進(jìn)展,但是由于3D數(shù)據(jù)可用的工具和資源有限,這個領(lǐng)域仍面臨挑戰(zhàn)。

TensorFlow 3D:TensorFlow與3D深度學(xué)習(xí)合體

為了進(jìn)一步提高對3D場景的建模,簡化研究人員的工作,Google AI發(fā)布了TensorFlow 3D (TF 3D) ,一個高度模塊化、高效的庫,旨在將3D深度學(xué)習(xí)能力引入TensorFlow. TF 3D提供了一系列當(dāng)下常用的操作、損失函數(shù)、數(shù)據(jù)處理工具、模型和度量,使更多的研究團(tuán)隊能夠開發(fā)、培訓(xùn)和部署最先進(jìn)的3D場景理解模型。TF 3D包含用于最先進(jìn)的3D語義分割、3D目標(biāo)檢測和3D實例分割的培訓(xùn)和評估任務(wù),還支持分布式訓(xùn)練。

另外,TF 3D還支持其他潛在的應(yīng)用,如三維物體形狀預(yù)測、點(diǎn)云配準(zhǔn)和點(diǎn)云增密。此外,它提供了一個統(tǒng)一的數(shù)據(jù)集規(guī)范和訓(xùn)練、評價標(biāo)準(zhǔn)三維場景理解數(shù)據(jù)集的配置。

目前,TF 3D支持Waymo Open、 ScanNet和Rio數(shù)據(jù)集。然而,用戶可以自由地將其他流行的數(shù)據(jù)集,如NuScenes和Kitti,轉(zhuǎn)換成類似的格式,并將其用于已有或自定義的pipeline模型中,還可以利用TF 3D進(jìn)行各種3D深度學(xué)習(xí)研究和應(yīng)用,從快速原型設(shè)計到部署實時推理系統(tǒng)。

左邊顯示的是TF 3D中3D物體檢測模型在Waymo Open Dataset的一幀畫面上的輸出示例。右邊是ScanNet數(shù)據(jù)集上3D實例分割模型的輸出示例。

在這里,我們將介紹在TF 3D中提供的高效且可配置的稀疏卷積骨干,這是在各種3D場景理解任務(wù)中獲得最先進(jìn)結(jié)果的關(guān)鍵。此外,我們將逐一介紹TF 3D目前支持的3個流水線任務(wù): 3D語義分割、3D目標(biāo)檢測分割和3D實例分割。

3D稀疏卷積網(wǎng)絡(luò)

傳感器采集到的3D數(shù)據(jù)通常包含一個場景,該場景包含一組感興趣的物體(如汽車、行人等),其周圍大多是開放空間。所以,3D數(shù)據(jù)本質(zhì)上是稀疏的。在這樣的環(huán)境中,卷積的標(biāo)準(zhǔn)實現(xiàn)將需要大量的計算、消耗大量的內(nèi)存。因此,在TF 3D 中,我們采用了流形稀疏卷積(submanifold sparse convolution)和池操作,這些操作可以更有效地處理3D稀疏數(shù)據(jù)。稀疏卷積模型是大多數(shù)戶外自動駕駛(如Waymo,NuScenes)和室內(nèi)基準(zhǔn)測試(如 ScanNet)中應(yīng)用的sota方法的關(guān)鍵。

谷歌還應(yīng)用了各種CUDA技術(shù)來加快計算速度(如hash、在共享內(nèi)存中分區(qū)/緩存過濾器以及使用位操作)。在Waymo Open數(shù)據(jù)集上的實驗表明,這種實現(xiàn)比預(yù)先設(shè)計好的TensorFlow操作要快「20倍」左右。

圖源:Waymo Open Dataset on GitHub

然后,TF 3D使用3D流形稀疏U-Net架構(gòu)來提取每個voxel的特征。通過讓網(wǎng)絡(luò)提取粗細(xì)特征并將它們組合起來進(jìn)行預(yù)測,U-Net架構(gòu)已被證明是有效的。

U-Net網(wǎng)絡(luò)由編碼器、瓶頸和解碼器三個模塊組成,每個模塊都由許多稀疏卷積塊組成,并可能進(jìn)行池化或非池化操作。

一個3D稀疏體素U-Net架構(gòu)。注意,一個水平的箭頭接收體素特征,并對其應(yīng)用流形稀疏卷積。向下移動的箭頭會執(zhí)行流形稀疏池化。向上移動的箭頭將收集池化的特征,與水平方向箭頭的特征進(jìn)行concat,并對concat后的特征進(jìn)行流形稀疏卷積。

上述稀疏卷積網(wǎng)絡(luò)是TF 3D提供的3D場景理解pipeline模型的backbone。

下面描述的每個模型使用這個骨干網(wǎng)絡(luò)提取稀疏體素特征,然后添加一個或多個額外的預(yù)測頭來推斷感興趣的任務(wù)。

用戶可以通過改變編碼器/解碼器層數(shù)和每層卷積的數(shù)量來配置U-Net網(wǎng)絡(luò),并通過修改卷積濾波器的尺寸,從而能夠通過不同的網(wǎng)絡(luò)配置來權(quán)衡的速度和精度。

三維語義分割

三維語義分割模型只有一個輸出,用于預(yù)測每一個點(diǎn)的語義分?jǐn)?shù),將其映射回點(diǎn),預(yù)測每一個點(diǎn)的語義標(biāo)簽。從ScanNet數(shù)據(jù)集對室內(nèi)場景進(jìn)行3D語義分割。

三維實例分割

在三維實例分割中,除了要預(yù)測語義,更重要的是將同一對象的體素組合在一起。在TF 3D中使用的3D實例分割算法是基于用深度度量學(xué)習(xí)方法進(jìn)行的2D圖像分割工作。這種模型預(yù)測能預(yù)測每個體素的實例嵌入向量以及每個體素的語義評分。

實例嵌入向量將體素映射到一個嵌入空間,其中對應(yīng)于同一對象實例的體素相距很近,而對應(yīng)于不同對象的體素相距很遠(yuǎn)。在這種情況下,輸入是一個點(diǎn)云而不是一個圖像,并且他將使用一個三維稀疏網(wǎng)絡(luò)而不是一個二維圖像網(wǎng)絡(luò)。在推理過程中利用貪心算法選取實例種子,并利用體素嵌入的距離函數(shù)將不同的體素聚合到對應(yīng)的實例上去。

三維目標(biāo)檢測

目標(biāo)檢測模型可以預(yù)測每個體素的大小、中心和旋轉(zhuǎn)矩陣以及對象的語義評分。在推理時,推選機(jī)制將給出的多個候選框處理為少數(shù)幾個精確的3D目標(biāo)框。在訓(xùn)練時使用了預(yù)測與GT間的Huber Loss距離來計算損失。由于利用大小、中心和旋轉(zhuǎn)矩陣估算框邊角是可差分過程,損失可以自然地傳遞到預(yù)測過程的權(quán)重中。研究人員利用動態(tài)框分類損失來對預(yù)測的框進(jìn)行正例和負(fù)例進(jìn)行區(qū)分。

ScanNet數(shù)據(jù)集上的3D物體檢測結(jié)果

TF 3D只是市場上的3D深度學(xué)習(xí)擴(kuò)展之一。2020年,F(xiàn)acebook推出了PyTorch3D,專注于3D渲染和虛擬現(xiàn)實。另一個是英偉達(dá)的Kaolin,這是一個模塊化的可分辨渲染的應(yīng)用,如高分辨率模擬環(huán)境。

從這個概述來看,TF 3D應(yīng)用程序似乎更專注于機(jī)器人感知和映射,而其他選項則更專注于3D模擬和渲染。為了實現(xiàn)3D渲染,Google推出了TensorFlow Graphics.

參考資料

https://ai.googleblog.com/2021/02/3d-scene-understanding-with-tensorflow.html

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2843

    瀏覽量

    107183
  • tensorflow
    +關(guān)注

    關(guān)注

    13

    文章

    328

    瀏覽量

    60444

原文標(biāo)題:提速20倍!谷歌AI發(fā)布TensorFlow 3D,智能汽車場景親測好用

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    中興通訊全場景AI終端應(yīng)用與裸眼3D新品亮相

    ”的產(chǎn)品戰(zhàn)略與理念,終端業(yè)務(wù)六大AI主題展示吸引了眾多關(guān)注,內(nèi)容覆蓋全球領(lǐng)先的AI裸眼3D、AI同聲傳譯和方言互譯、AI安全反詐、
    的頭像 發(fā)表于 10-15 10:00 ?450次閱讀

    谷歌Gemini 1.5 Flash模型升級,AI聊天速度飆升50%

    谷歌近期對其Gemini AI系列進(jìn)行了重大更新,推出了Gemini 1.5 Flash模型。此次升級的核心亮點(diǎn)在于顯著提升了AI聊天的響應(yīng)速度,官方宣稱最高可達(dá)50%的增速,為用戶帶
    的頭像 發(fā)表于 09-06 18:06 ?601次閱讀

    stm32mp135d的板子可不可以跑tensorflow的模型啊?

    請問是stm32mp135d的板子可不可以跑tensorflow的模型???
    發(fā)表于 07-18 06:49

    tensorflow和pytorch哪個更簡單?

    TensorFlow和PyTorch都是用于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的開源框架。TensorFlow由Google Brain團(tuán)隊開發(fā),而PyTorch由Facebook的AI研究團(tuán)隊開發(fā)。 易用性:
    的頭像 發(fā)表于 07-05 09:45 ?609次閱讀

    TensorFlow的定義和使用方法

    TensorFlow是一個由谷歌人工智能團(tuán)隊谷歌大腦(Google Brain)開發(fā)和維護(hù)的開源機(jī)器學(xué)習(xí)庫。它基于數(shù)據(jù)流編程(dataflow programming)的概念,將復(fù)雜的數(shù)學(xué)運(yùn)算表示為
    的頭像 發(fā)表于 07-02 14:14 ?604次閱讀

    谷歌推出Trillium AI芯片,性能提高近5倍

    谷歌推出了其最新的人工智能數(shù)據(jù)中心芯片——Trillium。這款芯片是谷歌的第六代產(chǎn)品,與上一代TPU v5e相比,Trillium在每個芯片上的峰值計算性能提高了4.7倍,節(jié)能67%以上。
    的頭像 發(fā)表于 05-16 10:39 ?669次閱讀

    谷歌錢包提高適配門檻,部分舊機(jī)型無法使用

    谷歌錢包是谷歌專為安卓設(shè)備研發(fā)的支付應(yīng)用,用戶可借助NFC和商店通行證/門票實現(xiàn)快捷支付功能。目前,谷歌錢包要求設(shè)備至少搭載Android 9及以上版本
    的頭像 發(fā)表于 05-13 15:31 ?418次閱讀

    谷歌DeepMind推出新一代藥物研發(fā)AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發(fā)AI模型,這一創(chuàng)新技術(shù)將為科學(xué)家們提供前所未有的幫助,使他們能更精確地理解疾病機(jī)制,進(jìn)而開發(fā)出更高效的
    的頭像 發(fā)表于 05-10 09:35 ?334次閱讀

    谷歌模型框架是什么軟件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌開發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架,其中最著名的是TensorFlow。TensorFlow是一個開源的機(jī)器學(xué)習(xí)框架,由
    的頭像 發(fā)表于 03-01 16:25 ?728次閱讀

    谷歌模型合成工具怎么用

    谷歌模型合成工具主要是指Dreamfusion,這是Google的大型AI圖像模型Imagen與NeRF的3D功能相結(jié)合的一種技術(shù)。Dreamfusion是Dream Fields的演變,Dream Fields是
    的頭像 發(fā)表于 02-29 17:33 ?700次閱讀

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺

    據(jù)報道,谷歌公司的DeepMind團(tuán)隊近期發(fā)布了AI模型Genie,此模型擁有多達(dá)110億個參數(shù),能夠依據(jù)用戶提供的圖片及提示詞創(chuàng)建出相當(dāng)完整的2D游戲場景。
    的頭像 發(fā)表于 02-27 14:53 ?680次閱讀

    谷歌推出AI擴(kuò)散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴(kuò)散模型Lumiere,這款模型基于谷歌自主研發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu),旨在實現(xiàn)視頻生成的一次性完成,同時保證視頻的真實性和動作
    的頭像 發(fā)表于 02-04 13:49 ?919次閱讀

    AMD發(fā)布適用于Linux系統(tǒng)的XDNA驅(qū)動,助力APU AI引擎

    AMD于去年推出了Ryzen 7040“鳳凰城”系列APU,其中首次搭載了基于Xilinx IP的XDNA架構(gòu)AI引擎。借助此引擎,PyTorch和TensorFlow等機(jī)器學(xué)習(xí)框架的運(yùn)行速度得以顯著
    的頭像 發(fā)表于 01-30 14:04 ?832次閱讀

    新火種AI|谷歌裁員計劃曝光,3萬人或遭AI取代,科技業(yè)何去何從?

    。 在這個月的部門會議上,負(fù)責(zé)美洲大客戶廣告銷售的肖恩·唐尼表示,谷歌計劃重組由3萬名員工組成的廣告銷售部,原因是AI已經(jīng)在廣告應(yīng)用方面取得了巨大進(jìn)展。而這也導(dǎo)致該部門的所有員工都面臨著被裁員,被
    的頭像 發(fā)表于 12-27 00:16 ?357次閱讀
    新火種<b class='flag-5'>AI</b>|<b class='flag-5'>谷歌</b>裁員計劃曝光,<b class='flag-5'>3</b>萬人或遭<b class='flag-5'>AI</b>取代,科技業(yè)何去何從?

    Style3D與英特爾攜手亮相進(jìn)博會 AI+3D技術(shù)引領(lǐng)時尚產(chǎn)業(yè)數(shù)字變革

    11月5日至10日,第六屆中國國際進(jìn)口博覽會(以下簡稱“進(jìn)博會”)在上?;馃崤e行。凌迪科技Style3D應(yīng)合作伙伴英特爾邀約,攜自主研發(fā)AI+3D服裝數(shù)字化解決方案亮相本次進(jìn)博會,共同展示其在
    的頭像 發(fā)表于 11-12 13:14 ?535次閱讀
    Style<b class='flag-5'>3D</b>與英特爾攜手亮相進(jìn)博會 <b class='flag-5'>AI+3D</b>技術(shù)引領(lǐng)時尚產(chǎn)業(yè)數(shù)字變革