近日,卡內(nèi)基·梅隆大學(xué)、臉書等機構(gòu)的研究人員提出了一個新的AI環(huán)境探索模型。這個新模型綜合了傳統(tǒng)環(huán)境探索模型和基于學(xué)習(xí)方法的環(huán)境探索模型的優(yōu)點,更簡單和不易出錯。
這項研究已經(jīng)發(fā)表在學(xué)術(shù)網(wǎng)站arXiv上,論文標題為《利用主動神經(jīng)SLAM學(xué)習(xí)探索環(huán)境(Learning To Explore Using Active Neural SLAM)》。
論文鏈接:https://arxiv.org/pdf/2004.05155.pdf
一、ANS模型:真實模擬探索環(huán)境
導(dǎo)航能力是智能代理的核心能力之一。導(dǎo)航任務(wù)有許多形式,比如點目標任務(wù)指導(dǎo)航到特定的坐標,語義導(dǎo)航任務(wù)指導(dǎo)航到去特定場景或?qū)ο蟮穆窂健?/p>
不論哪一種任務(wù),在未知環(huán)境中導(dǎo)航的核心問題都是如何高效地探索盡可能多的環(huán)境。這樣才能擴大在未知環(huán)境中找到目標的機會,或者在有限的時間里有效地預(yù)映射環(huán)境。
傳統(tǒng)的探索模型原理是用傳感器觀察幾何體。之后有研究者提出了基于學(xué)習(xí)的導(dǎo)航模型,該模型依據(jù)RGB圖像直接推測出幾何體。
基于學(xué)習(xí)的導(dǎo)航策略通過端到端(end-to-end)訓(xùn)練神經(jīng)網(wǎng)絡(luò)實現(xiàn),可以處理原始的傳感器數(shù)據(jù),直接輸出代理該執(zhí)行的操作。這種策略有3個優(yōu)勢:
1、提高了輸入方式選擇的靈活性;
2、提高顯式狀態(tài)估計誤差的穩(wěn)健性;
3、通過學(xué)習(xí)掌握真實世界的結(jié)構(gòu)規(guī)律性,使代理更有目的性地行動
理論上端到端的學(xué)習(xí)策略有上述優(yōu)勢,但也有局限性。
首先,純粹從數(shù)據(jù)中學(xué)習(xí)映射、狀態(tài)評估、路徑規(guī)劃可能會非常昂貴。因此,以往的端到端學(xué)習(xí)依賴于模仿學(xué)習(xí)和以百萬計的經(jīng)驗框架。
其次,以往針對端到端學(xué)習(xí)策略的研究缺乏真實性。比如使用的是合成室內(nèi)環(huán)境數(shù)據(jù)庫SUNC、簡化了代理動作、運行環(huán)境去除了傳感器噪音等。
從表現(xiàn)來說,端到端的學(xué)習(xí)策略也往往比不需要任何學(xué)習(xí)的傳統(tǒng)方法差。
為了解決全面端到端學(xué)習(xí)的局限性,卡內(nèi)基·梅隆大學(xué)、臉書、伊利諾大學(xué)厄巴納-香檳分校的研究人員推出了“主動神經(jīng)即時定位與地圖構(gòu)建(ANS,Active Neural SLAM)模型”。
實驗設(shè)計上,研究人員盡量使模型訓(xùn)練環(huán)境更真實,用到了生境模擬器和兩個基于真實情景的數(shù)據(jù)庫(Gibson和Matterport),不限制代理的動作,還模擬了傳感器噪音。
二、縮小搜索范圍,兼顧搜索性能和效率
本項研究中,導(dǎo)航模型的任務(wù)是在固定時間內(nèi)覆蓋最大范圍。覆蓋范圍定義為地圖中已知被穿越的總面積。
ANS模型包括一個學(xué)習(xí)神經(jīng)即時定位與地圖構(gòu)建(SLAM,Simultaneous localization and mapping)模塊,一個全局策略(global policy)和一個局部策略(local policy)。它們通過地圖和一個分析路徑規(guī)劃器相連。
層次化和模塊化的設(shè)計和分析規(guī)劃的使用,大大減小了訓(xùn)練過程中的搜索范圍,同時提高了性能和樣本效率。
▲模型示意圖
訓(xùn)練過程中,學(xué)習(xí)神經(jīng)SLAM模塊產(chǎn)生自由空間地圖,并依據(jù)輸入的RGB圖像和運動傳感器數(shù)據(jù)預(yù)測代理的姿勢。SLAM模塊的學(xué)習(xí)提升了輸入方式的靈活性。
全局策略利用代理的姿勢來占據(jù)自由空間地圖,并把學(xué)習(xí)現(xiàn)實世界環(huán)境布局的結(jié)構(gòu)性規(guī)則作為長期目標。全局策略可以探索真實世界環(huán)境的布局。
長期目標可以為局部策略生成短期目標。局部策略通過學(xué)習(xí),直接從RGB圖像中映射出代理應(yīng)該做出的動作,呈現(xiàn)可視化反饋。
▲模型運行過程示意圖
三、ANS模型能探索更大范圍,比基線模型性能優(yōu)秀
利用Gibson訓(xùn)練集,研究人員完成了對ANS模型的訓(xùn)練,運行了1000萬幀探索任務(wù)的所有基線。結(jié)果如下表。
運行結(jié)果基于模型在14個未知場景中994次運行的結(jié)果進行平均。與最佳基線的24.863m^2/0.789相比,模型的覆蓋率為32.701m^2/0.948。這個數(shù)值說明,與基線相比,ANS模型在窮盡探索上更有效。
研究人員還對比了模型和基線在較大訓(xùn)練集、較小訓(xùn)練集、全部Gibson訓(xùn)練集中的運行效果。
較小訓(xùn)練集中,ANS模型能在500步探索完未知環(huán)境,而基線運行1000步后仍只探索了位置環(huán)境的85~90%(上圖中)。
較大訓(xùn)練集中,隨著情節(jié)的發(fā)展,ANS模型與基線之間的差距會擴大(上圖左)。
基線模型中,代理經(jīng)常只探索局部區(qū)域,這說明它們無法記住長期視野的探索區(qū)域,不能進行長期規(guī)劃。相比之下,ANS采用全局策略,可以記憶探索過的區(qū)域,有效地規(guī)劃并實現(xiàn)長期目標。
受到結(jié)果鼓舞,研究人員用ANS模型部署了一個環(huán)境探索機器人。通過調(diào)整攝相機的高度和垂直視野,并匹配棲息地模擬器,機器人成功探索出一個公寓的生活區(qū)域。
結(jié)語:ANS模型效率更高,未來或有更多應(yīng)用
ANS導(dǎo)航模型克服了之前的基于端對端學(xué)習(xí)策略的缺陷,基于更真實的數(shù)據(jù)庫進行訓(xùn)練,最終探索效率有所提升。
研究人員認為這個模型在未來或許會有更多應(yīng)用?!拔磥?,ANS模型可以擴展到復(fù)雜的語義任務(wù),比如語義目標導(dǎo)航和回答具體問題,這將創(chuàng)建出一個能捕獲對象語義屬性的地圖?!?/p>
另外,這個模型也可以與先前的本地化工作結(jié)合,在此前創(chuàng)建的地圖中重新定位,使之后的導(dǎo)航更高效。
責(zé)任編輯:PSY
-
AI
+關(guān)注
關(guān)注
87文章
29400瀏覽量
267696 -
搜索
+關(guān)注
關(guān)注
0文章
69瀏覽量
16639 -
模型
+關(guān)注
關(guān)注
1文章
3065瀏覽量
48577 -
SLAM
+關(guān)注
關(guān)注
23文章
411瀏覽量
31739
發(fā)布評論請先 登錄
相關(guān)推薦
評論