0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器人視覺聽覺融合的感知操作系統(tǒng)

新機器視覺 ? 來源:智能系統(tǒng)學(xué)報 ? 2023-04-18 09:58 ? 次閱讀

摘要:智能機器人面對復(fù)雜環(huán)境的操作能力一直是機器人應(yīng)用領(lǐng)域研究的前沿問題,指稱表達是人類對指定對象定位通用的表述方式,因此這種方式常被利用到機器人的交互當(dāng)中,但是單一視覺模態(tài)并不足以滿足現(xiàn)實世界中的所有任務(wù)。因此本文構(gòu)建了一種基于視覺和聽覺融合的機器人感知操作系統(tǒng),該系統(tǒng)利用深度學(xué)習(xí)算法的模型實現(xiàn)了機器人的視覺感知和聽覺感知,捕獲自然語言操作指令和場景信息用于機器人的視覺定位,并為此收集了12類的聲音信號數(shù)據(jù)用于音頻識別。實驗結(jié)果表明:該系統(tǒng)集成在UR機器人上有良好的視覺定位和音頻預(yù)測能力,并最終實現(xiàn)了基于指令的視聽操作任務(wù),且驗證了視聽數(shù)據(jù)優(yōu)于單一模態(tài)數(shù)據(jù)的表達能力。

機器人正在逐漸進入人類的生活當(dāng)中,為了有效地幫助人類,機器人必須盡可能地學(xué)習(xí)人類的各項能力,包括用視覺感知去觀察世界、理解人類的自然語言指令,甚至借助聽覺、觸覺等獲取多模態(tài)的信息感受物理世界以進行更多復(fù)雜的任務(wù)。隨著人工智能技術(shù)的不斷發(fā)展,在視覺識別[1-2]、自然語言系統(tǒng)[3-4]、三維場景建模[5-6]、操作抓取以及運動規(guī)劃[7-8]方面都取得了極大的進展,使得各種先進的計算模型能夠部署在機器人上幫助其更加智能化,從而高效穩(wěn)定地輔助人類完成更加復(fù)雜困難的任務(wù)。如最先進的具身指示表達的機器人導(dǎo)航任務(wù)(REVERIE)[9],該系統(tǒng)將視覺、語言和機器人的行為共同進行學(xué)習(xí)以幫助機器人探索環(huán)境來找到目標(biāo)對象。這是一種十分具有挑戰(zhàn)性的任務(wù),因為它不僅需要對具體目標(biāo)進行定位,還需要對目標(biāo)和其位置關(guān)系進行高層次的語義理解,用以幫助區(qū)分正確的物體和不相關(guān)的指示物體。在此基礎(chǔ)上,文獻[10]開發(fā)了一種混合控制的機器人系統(tǒng),它賦予了機器人更加復(fù)雜的操作能力,該系統(tǒng)能夠根據(jù)自然語言的操作指令對目標(biāo)物體進行拾取和放置。對于有歧義的操作指令或者任務(wù)場景,文獻[11]設(shè)計了一種部分可觀測的馬爾可夫模型 ( POMDP)用于觀察歷史操作記錄以幫助機器人排除有歧義的目標(biāo)。為了方便人與機器人更加有效直觀的交互,文獻[12]設(shè)計了一種不受限制的自然語言交互架構(gòu),能夠在沒有輔助信息的支持的情況下實現(xiàn)自然語言的消歧和查詢。

然而,單純依靠視覺信息并不足以支持機器人完成所有類型的任務(wù)。對于現(xiàn)實的物理世界,機器人需要配備不同類型的傳感器獲取更多的模態(tài)信息,如聽覺信息[13-15]、觸覺信息[16-17]、雷達信息[18-19]、多傳感器融合信息[20-21]。為了提升機器人的自主導(dǎo)航探索能力,文獻[22]在捕獲視覺信息的基礎(chǔ)上,結(jié)合音頻感官信息嵌入到機器人的路徑規(guī)劃器當(dāng)中,提高了機器人的導(dǎo)航精度。文獻[23]通過給實際機器人配備聽覺傳感器,操作目標(biāo)物體收集聽覺數(shù)據(jù),實現(xiàn)了對視覺上難以區(qū)分的目標(biāo)的判別。在此基礎(chǔ)上,文獻[24-25]增加了觸覺傳感器,采集了不同材質(zhì)的電壓值信息作為觸覺感知,構(gòu)建了一個觸覺和聽覺融合的機器人分類系統(tǒng),大大提高了機器人的工作能力。

上述研究雖然取得了很大的進步,但是缺少了部分與人的交互能力,如何讓機器人接收人的操作指令,利用多模態(tài)信息共同決策操作行為還是一個很大的挑戰(zhàn)。為使配備多傳感器的機器人系統(tǒng)能夠適應(yīng)更加復(fù)雜的操作環(huán)境,本文借助于視覺傳感器和聽覺傳感器,構(gòu)建了一個視聽融合的指稱表達的機器人自主操作系統(tǒng)。該系統(tǒng)能夠接收人類的自然語言操作指令,理解指令中的高級語義信息,結(jié)合視覺目標(biāo)進行定位,并且根據(jù)聽覺信息進一步判別目標(biāo)類別。在真實的物理環(huán)境中,該系統(tǒng)能夠在設(shè)計的實驗下穩(wěn)定地發(fā)揮性能。主要貢獻如下:

1)本文提出了一個新的視聽操作任務(wù),利用視覺信息和音頻信息用于解釋指示表達的操作指令。

2)本文在構(gòu)建的數(shù)據(jù)集下,實現(xiàn)了機器人的視覺定位和音頻識別,用于完成目標(biāo)操作任務(wù)。

3)本文將實驗系統(tǒng)應(yīng)用在實際機器人中并進行實驗驗證,實驗結(jié)果表明本多模態(tài)數(shù)據(jù)對于機器人操作效率有著顯著的提升。

01 機器人視聽系統(tǒng)

本文利用UR機械臂作為機器人平臺構(gòu)建了視聽融合的具身操作系統(tǒng),整個系統(tǒng)架構(gòu)如圖1所示。

a5e3827a-dd7a-11ed-bfe3-dac502259ad0.jpg

圖1 本文實驗系統(tǒng)架構(gòu)

其中機器人的任務(wù)目標(biāo)是根據(jù)復(fù)雜的自然語言指令完成操作任務(wù),并且結(jié)合視覺信息定位任務(wù)目標(biāo),利用音頻信息判別目標(biāo)物體。當(dāng)機器人接收到給定的自然語言指令,如“拿起帶有膠囊的瓶子,并且放置在左邊的盒子”。這就需要機器人通過捕捉視覺信息定位場景中的瓶子和盒子,并且理解帶有位置關(guān)系的語句找到左邊的盒子。對于視覺上相同的瓶子,機器人通過選擇不同的操作行為,采集瓶子晃動的聲音信息,進行判別,最終找到帶有膠囊的目標(biāo)瓶子。整個系統(tǒng)要求機器人能夠正確地理解給定的指令,并且結(jié)合指示表達定位目標(biāo)從而實現(xiàn)相應(yīng)的操作。

本系統(tǒng)的架構(gòu)主要分為3個模塊,分別是視覺語言感知模塊、音頻感知模塊以及機器人操作模塊。首先,將文本指令和視覺信息輸入到視覺語言模塊當(dāng)中,對可能的目標(biāo)對象進行定位。當(dāng)視覺信息不足以判斷目標(biāo)物體的類別時,機器人的操作模塊會產(chǎn)生不同的動作搖晃目標(biāo),聲音傳感器記錄下聲音信息,音頻感知模塊進行分析,識別指令中涉及的目標(biāo)對象,完成相應(yīng)的操作任務(wù)。

02 機器人視聽模型

對于不同的感知模塊,利用深度學(xué)習(xí)算法設(shè)計相應(yīng)的網(wǎng)絡(luò)構(gòu)建整個系統(tǒng)。本文的模型分為指示表達模型、音頻分類模型以及機器人的操作模型。

2.1 指示表達模型

不同于基礎(chǔ)的目標(biāo)檢測,本文利用操作指令中涉及到的物體指稱關(guān)系與視覺信息進行匹配,利用高級語義關(guān)系定位目標(biāo)物體。

對于給定的圖像I,任務(wù)目標(biāo)是定位圖像I中的一個子區(qū)域,該子區(qū)域?qū)?yīng)操作指令中的語義信息。對于操作指令,首先對其每個單詞進行編碼轉(zhuǎn)成獨熱向量,然后利用循環(huán)神經(jīng)網(wǎng)絡(luò)提取其編碼后的文本特征。

對于圖像部分,利用在ImageNET上預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)提取其圖像特征和YOLO提取圖像內(nèi)的候選目標(biāo)。對于完整的操作指令,分為3個組成部分,分別是主體描述、位置描述和關(guān)系描述,對于不同的句子部分,利用語言注意力機制網(wǎng)絡(luò)提取其相應(yīng)的權(quán)重與圖像特征進行匹配。

本文指示表達模型如圖2所示,圖像編碼部分利用Darknet53和特征金字塔網(wǎng)絡(luò)提取原始圖像I不同尺度的特征a5f140b8-dd7a-11ed-bfe3-dac502259ad0.png

a5f54686-dd7a-11ed-bfe3-dac502259ad0.jpg

圖2 指示表達模型

在指令編碼部分,利用獨熱編碼的方式將操作指令a5fe0f14-dd7a-11ed-bfe3-dac502259ad0.png轉(zhuǎn)化成獨熱碼的形式:

a60c0ec0-dd7a-11ed-bfe3-dac502259ad0.png

將編碼后的詞向量a61c6a2c-dd7a-11ed-bfe3-dac502259ad0.png以正序和逆序的方式送入雙向GRU網(wǎng)絡(luò)中獲取相應(yīng)文本的特征:

a627822c-dd7a-11ed-bfe3-dac502259ad0.png

將提取的文本特征相連以獲取上下文語義特征向量a631c4f8-dd7a-11ed-bfe3-dac502259ad0.png。利用上采樣過程將文本特征映射到與圖像特征相同的維度進行融合:

a6362c8c-dd7a-11ed-bfe3-dac502259ad0.png

式中:a643ff56-dd7a-11ed-bfe3-dac502259ad0.png為激活函數(shù),a65190c6-dd7a-11ed-bfe3-dac502259ad0.pnga65e48ac-dd7a-11ed-bfe3-dac502259ad0.png為對應(yīng)的參數(shù)矩陣, a66bbfd2-dd7a-11ed-bfe3-dac502259ad0.png為點乘。利用多模態(tài)融合特征a6763336-dd7a-11ed-bfe3-dac502259ad0.png與目標(biāo)檢測器生成的候選區(qū)域a6806a36-dd7a-11ed-bfe3-dac502259ad0.png進行匹配得到候選區(qū)域:

a68d9292-dd7a-11ed-bfe3-dac502259ad0.png

其中:a69c728a-dd7a-11ed-bfe3-dac502259ad0.pnga6b7f2f8-dd7a-11ed-bfe3-dac502259ad0.png是相應(yīng)的學(xué)習(xí)參數(shù),a6cbe5b0-dd7a-11ed-bfe3-dac502259ad0.pnga6d7bf84-dd7a-11ed-bfe3-dac502259ad0.png是對應(yīng)的偏置系數(shù),a6e275a0-dd7a-11ed-bfe3-dac502259ad0.png是矩陣相乘。最終目標(biāo)區(qū)域選取兩者得分最高的區(qū)域a6f3b8e2-dd7a-11ed-bfe3-dac502259ad0.png作為最終預(yù)測位置,該區(qū)域用一個組合向量a7007a64-dd7a-11ed-bfe3-dac502259ad0.png表示,分別代表了預(yù)測框的坐標(biāo)及尺寸。

2.2 音頻分類模型

對于機器人的聽覺感知部分,本文設(shè)計了一個音頻分類模型,用于對收集的聲音信號進行預(yù)測分類。為了將結(jié)構(gòu)化的聲音輸入進模型中,需要提取聲音信號中特有的梅爾倒頻譜系數(shù)(Mel-frequency cepstral coefficients, MFCC)特征,首先將時域上的信號a7093028-dd7a-11ed-bfe3-dac502259ad0.png進行預(yù)加重處理,通過濾波系數(shù)a7137664-dd7a-11ed-bfe3-dac502259ad0.png=0.97過濾掉其中的低頻噪聲,保留高頻分量的信息:

a720305c-dd7a-11ed-bfe3-dac502259ad0.png

接著將處理后的特征進行N幀分割,利用漢明窗a729fbdc-dd7a-11ed-bfe3-dac502259ad0.png提取局部穩(wěn)定的信號:

a7370a3e-dd7a-11ed-bfe3-dac502259ad0.png

對分割后的信號進行短時傅里葉變換和梅爾濾波獲取對數(shù)頻率上的尺度的特征a741884c-dd7a-11ed-bfe3-dac502259ad0.png。為了減少特征之間的線性相關(guān)性,取低頻系數(shù)進行離散余弦變換:

a74e622e-dd7a-11ed-bfe3-dac502259ad0.png

式中:M為梅爾濾波器個數(shù);L為階數(shù),最后將變換后的特征進行歸一化以增加音頻信號的信噪比,得到最終可以輸入模型的MFCC特征。

音頻分類模型的網(wǎng)絡(luò)主要結(jié)構(gòu)如圖3所示,將不同機械臂動作產(chǎn)生的音頻信號提取MFCC特征進行拼接,為了保證聲音信號的連續(xù)性,采用了雙向GRU作為主要的特征處理網(wǎng)絡(luò),同樣,在雙向GRU網(wǎng)路中添加了殘差邊結(jié)構(gòu),緩解梯度爆炸的問題,保證整個音頻分類模型的準(zhǔn)確率。作為分類模型,添加了全連接層和softmax函數(shù)作為最終分類結(jié)果的預(yù)測。

a75bf1e6-dd7a-11ed-bfe3-dac502259ad0.jpg

圖3 音頻分類模型

2.3 機器人操作模型

機器人的操作模型主要是控制機械臂的各個軸的旋轉(zhuǎn)從而產(chǎn)生機器人的各個行為動作,各個行為如圖4所示,具體命名方式為:拿(Pick)、放(Place)、旋轉(zhuǎn)(Roll)、搖晃1(Yaw)、搖晃2(Pitch)、搖晃3(Shake)。分別包含了機器人對單個物體操作時的拿起與放置行為,以及操控對應(yīng)機械手末端(x, y, z)軸不同的旋轉(zhuǎn)角獲取對應(yīng)的搖晃動作。因此在設(shè)計的操控任務(wù)中,規(guī)劃了機器人的操作動作空間為{Pick, Roll, Yaw, Pitch, Shake , Place}。對于本文的抓取目標(biāo)統(tǒng)一設(shè)定為單一類別,因此設(shè)定固定的旋轉(zhuǎn)角獲取最佳的抓握姿勢。根據(jù)不同的任務(wù)需求,機器人選擇相應(yīng)的動作完成操作命令。

a76a083a-dd7a-11ed-bfe3-dac502259ad0.jpg

圖4 機器臂行為動作

當(dāng)機器人在接收具體的控制指令后,經(jīng)過視覺分析獲取可以操控的目標(biāo)點位,執(zhí)行相應(yīng)的控制行為。機械臂的具體流程圖如圖5所示,以當(dāng)前場景的狀態(tài)為初始狀態(tài),通過順序決策依次執(zhí)行動作空間中的各個動作,并判斷任務(wù)是否完成,當(dāng)執(zhí)行為最后一個放置動作時,結(jié)束當(dāng)前操作模型的行為。其中,任務(wù)操作坐標(biāo)以及目標(biāo)任務(wù)的坐標(biāo)由視覺感知模塊提供,即通過指示表達模型生成機械臂可以操作的目標(biāo)位置;對于操作任務(wù)完成狀態(tài),需要得到正確的容器內(nèi)的目標(biāo)物品,音頻感知模塊可以將搜集的音頻信號進行分類,一旦將操作指令中涉及到的目標(biāo)物品進行正確分類時,則設(shè)定下一個狀態(tài)為放置狀態(tài),否則放回原處,重新操作下一個目標(biāo)物體。

a7859ba4-dd7a-11ed-bfe3-dac502259ad0.jpg

圖5 機器人操作流程

03 實驗

3.1 實驗平臺

本實驗采用UR5機械臂和五指靈巧手作為整個實驗平臺的抓取設(shè)備,其中靈巧手采用5指設(shè)計和連桿傳動的方式,并且具備6自由度,可以保障瓶子的固定抓取。視覺上利用Kinect相機捕獲RGB圖像和深度圖像,聽覺上利用RODE麥克風(fēng)固定在機械臂的末端下收集接收晃動瓶子的聲音信號,這樣可以縮短聲源和采集設(shè)備的距離,更方便捕獲聲音特征。整個實驗數(shù)據(jù)的分析在帶有NVIDIA 2070的PC機上進行處理。整個實驗平臺如圖6所示。

a7a2505a-dd7a-11ed-bfe3-dac502259ad0.jpg

圖6 數(shù)據(jù)差異性分析

3.2 數(shù)據(jù)集采集

3.2.1 操作指令設(shè)計

本文設(shè)計的操作指令在機器人的行為動作上主要分為兩類,分別是{抓,放};對于物體之間的位置關(guān)系,由{左邊,右邊,中間,前面,后面}組成;對于物體的自身屬性,主要選擇了顏色屬性,包含{綠色、藍色、紅色}。操作指令根據(jù)物體的類別、屬性、位置關(guān)系模板交叉組合生成,符合實際的操作需求,例句如“拿起中間的瓶子,放進綠色的碗中”、“拿起帶有山楂的瓶子,放進左邊的碗中”。機器人通過這些操作指令完成人類布置的操作任務(wù)。

3.2.2 交互聽覺數(shù)據(jù)采集

根據(jù)各類中藥材的不同特質(zhì),本實驗選取了常見的12類藥用物品,如圖7所示,分別是膠囊、酒精、紅棗、藥片、生山楂、藥丸、決明子、生牡蠣、蠟丸、蟬蛻、顆粒以及空瓶。為了獲取數(shù)據(jù)的多樣性,選取了1/4、1/2、2/3瓶子含量的數(shù)據(jù)。通過結(jié)合機械臂的運動特性,選擇{Roll, Yaw, Pitch, Shake} 4種不同的動作分別對每類物品進行20次采樣。每個聲音信號以44.1 kHz進行采樣,根據(jù)機械臂的運動時長,設(shè)定采集單個目標(biāo)種類的音頻時長為6000 ms,一共采集了960組數(shù)據(jù)作為聲音數(shù)據(jù)集。

a7b3be94-dd7a-11ed-bfe3-dac502259ad0.jpg

圖7 硬件架構(gòu)

對于不同類型的聲音數(shù)據(jù),選取了具有代表性的物品的聲音信號繪制了時域圖和頻譜圖進行了對比。如圖8所示,在4種機器人的動作下,山楂和藥片的聲音具有相當(dāng)大的差異性。對于相似的聲音信號,在轉(zhuǎn)化成頻譜圖后,也在不同的區(qū)域表現(xiàn)出明暗不一的差異,這為在后處理時送入循環(huán)神經(jīng)網(wǎng)絡(luò)進行分類提供了有效的保障。

a7d2d9a0-dd7a-11ed-bfe3-dac502259ad0.jpg

圖8 數(shù)據(jù)集種類

3.2.3 對交互聽覺數(shù)據(jù)進行預(yù)處理

在實際采集聲音數(shù)據(jù)的過程中,機械臂在執(zhí)行4種動作時有著不同的運動時長以及自身的運動噪聲,這些噪聲與運動的幅度、速度、加速度有關(guān),會對采集的聲音數(shù)據(jù)和實驗結(jié)果產(chǎn)生一定的影響,為了減少來自非目標(biāo)對象的聲音的影響。本文采取了噪聲抑制過程,如圖9(a)所示,對于音頻信號沒有超過閾值的區(qū)域標(biāo)記為黃色區(qū)域,這部分區(qū)域?qū)⒈惶蕹?,而綠色的區(qū)域用于訓(xùn)練,通過利用信號包絡(luò)線設(shè)定閾值,如圖9(b)所示,這樣能夠有效提供目標(biāo)分類精度。

a7edaeb0-dd7a-11ed-bfe3-dac502259ad0.jpg

圖9 信號區(qū)域選擇

3.3 實驗設(shè)置及評估指標(biāo)

根據(jù)設(shè)計的操作指令和目標(biāo)物體關(guān)系布置實驗場景,場景操作任務(wù)結(jié)合視覺和聽覺識別難易程度總共分為3類:第1類場景探索物體不同的位置關(guān)系,指令如“找到膠囊,放在左邊的碗中”;第2類場景探索物體的屬性關(guān)系,指令如“找到所有放膠囊的瓶子,放在綠色的碗中”;第3類探索物體的類別關(guān)系,指令如“找到放膠囊的瓶子,放在蘋果旁邊的碗中”。實驗?zāi)康氖歉鶕?jù)給定的操作指令,整個機器人系統(tǒng)能夠理解指令,并且定位出帶有指示關(guān)系的物體,利用聽覺系統(tǒng)進行分類預(yù)測目標(biāo),并且放置成功,完成最終的實驗。本文定義了一種離線實驗機制,設(shè)定場景狀態(tài){bottle1, bottle2, bottle3, bowl1, bowl2},機械手的狀態(tài){Pick, Roll, Yaw, Pick, Shake, Place},通過設(shè)定執(zhí)行機械臂的動作序列,如{move bottle1》pick bottle1》check bottle1》place bowl1},結(jié)合視聽感知模型依次更新目標(biāo)狀態(tài)池{bottle1:Tablet》bowl1:left}完成操作任務(wù)。根據(jù)實驗任務(wù),定義3種實驗指標(biāo):

· 目標(biāo)識別率(target recognition accuracy, TRA):是否檢測到正確操作的目標(biāo)物體

· 音頻識別率(audio recognition accuracy, ARA):是否正確識別了指令中的目標(biāo)物體

· 整體任務(wù)準(zhǔn)確率(overall task success rate, OTSR):是否完成了指令中的位置關(guān)系的檢測。

通過對設(shè)計以上3種準(zhǔn)確率指標(biāo)來驗證本文的視聽系統(tǒng)的可行性。

04 實驗結(jié)果

4.1 視覺檢測結(jié)果

本文選取了部分操作指令在指定場景中進行檢測,對于顏色形狀大小相同的bottle,本文選擇用音頻感知判別種類,對于bowl類別使用視覺指示表達來定位目標(biāo)物體。操作指令主要包含目標(biāo)的位置關(guān)系、顏色屬性關(guān)系以及和其他目標(biāo)的方位關(guān)系。準(zhǔn)確率保持在70%以上,并且繪制了相應(yīng)的可視化結(jié)果,如圖10,在3類測試場景下紅色框為對應(yīng)操作指令的正確結(jié)果,藍色框為本文的視聽模型在實際機械人系統(tǒng)下的檢驗結(jié)果。

a7fb6d3e-dd7a-11ed-bfe3-dac502259ad0.jpg

圖10 視覺檢測結(jié)果

4.2 聽覺分類結(jié)果

為了使整個機器人聽覺系統(tǒng)能夠有效地工作,驗證每種音頻類別的精度是很有必要的。根據(jù)本文采集的12類音頻數(shù)據(jù),在設(shè)計的循環(huán)神經(jīng)網(wǎng)絡(luò)模型上,對分類結(jié)果進行計算,得到最終的模型分類的混淆矩陣,如圖11所示。

a80b488a-dd7a-11ed-bfe3-dac502259ad0.jpg

圖11 對所有類別計算混淆矩陣

從圖11結(jié)果可知,不同的藥用物品準(zhǔn)確率有所區(qū)別,對于聲音信號較為明顯的藥片和蠟丸類物品,在我們設(shè)計的分類模型下,保持了90%以上的準(zhǔn)確率;而對于牡蠣和空瓶而言,由于這兩類瓶內(nèi)物體與瓶臂碰撞的聲音較小,更多的是環(huán)境噪聲,因此預(yù)測的實驗結(jié)果準(zhǔn)確性相對較低,但也保持70%以上的準(zhǔn)確率。因此,本文設(shè)計的音頻識別模型能夠?qū)Σ煌悇e的材料進行識別預(yù)測。

4.3 總體任務(wù)結(jié)果

對于整個系統(tǒng)的操作任務(wù),本文根據(jù)4.2節(jié)設(shè)計的評估指標(biāo)進行了驗證。對于每個實驗場景,根據(jù)物體的類別、屬性關(guān)系、方位關(guān)系進行測試,并且單獨測試目標(biāo)準(zhǔn)確率和音頻識別準(zhǔn)確率,當(dāng)兩者都識別成功的情況下,計算總體任務(wù)成功率結(jié)果如表1所示。

a8192cde-dd7a-11ed-bfe3-dac502259ad0.png

表1 總體實驗結(jié)果

根據(jù)實驗結(jié)果進行分析,由于3種類型的測試場景整體比較干凈清晰,因此對于視覺上的指示表達關(guān)系來說,目標(biāo)準(zhǔn)確率的結(jié)果相對較高。音頻識別準(zhǔn)確率根據(jù)不同的指令需求,識別率也相對不一,因此整個任務(wù)的總體成功率出現(xiàn)了不同的情況。在第1種操作指令下,只需定位到單一類別目標(biāo),不需要檢索所有候選目標(biāo),因此相對于第2種操作指令,音頻識別的準(zhǔn)確率較高。而對于第3種探索性的指令,由于物體種類增加,場景的復(fù)雜度提高,整個視覺的識別率相對下降,而操作任務(wù)簡單,因此整個音頻識別率相對提高。

為了進一步驗證本文的機器人視聽操作系統(tǒng)的實用性,在相同的場景和指令下,設(shè)計了無聽覺檢測的模塊如圖12所示,選取物品的方式依照均勻采樣的規(guī)則完成操作任務(wù)。因為實驗的目的是驗證整個系統(tǒng),而抓取任務(wù)不是研究的重點,當(dāng)機械臂的五指靈巧手抓取失敗時,選擇把目標(biāo)物體放在手掌以保證實驗的順利進行。在對比實驗中,本文選取了相同的場景進行了測試,并且計算了OTSR指數(shù),視聽框架的準(zhǔn)確率可以達到45.4%,而無音頻模塊的只有24.7%??梢园l(fā)現(xiàn),在結(jié)合多模態(tài)數(shù)據(jù)的情況下,機器人感知目標(biāo)更加準(zhǔn)確,能夠有效提升任務(wù)成功率。

a82602f6-dd7a-11ed-bfe3-dac502259ad0.jpg

圖12 多模態(tài)系統(tǒng)實驗對比流程

05 結(jié)束語

為了給機器人提供更復(fù)雜的操作能力,本文構(gòu)建了一個能夠接收自然語言指令并具有視覺、聽覺的多模態(tài)融合的機器人操作系統(tǒng)。其中視覺感知模塊能夠分析指令中的指示關(guān)系,并且定位到目標(biāo)物體,聽覺感知模塊能夠預(yù)測目標(biāo)物體類別。對于每個感知模塊,在構(gòu)建的多模態(tài)數(shù)據(jù)集中進行了實驗驗證,結(jié)果表明本文的實驗系統(tǒng)在接收多模態(tài)數(shù)據(jù)的情況下比單一模態(tài)的表現(xiàn)能力更強。然而目前本文設(shè)計的操作指令和場景單一,在未來的工作中,將繼續(xù)增加目標(biāo)物品的種類,以及設(shè)計更復(fù)雜且?guī)в衅缌x的場景和操作指令,構(gòu)建一個端對端的機器人行為框架。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    210

    文章

    28003

    瀏覽量

    205568
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4726

    瀏覽量

    100318

原文標(biāo)題:機器人視覺聽覺融合的感知操作系統(tǒng)

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機器人視覺——機器人的“眼睛”

    目前產(chǎn)業(yè)機器人僅能在嚴(yán)格定義的結(jié)構(gòu)化環(huán)境中執(zhí)行預(yù)定指令動作,缺乏對環(huán)境的感知與應(yīng)變能力,這極大地限制了機器人的應(yīng)用。利用機器人視覺控制,
    發(fā)表于 01-23 15:02

    工業(yè)機器人經(jīng)典好書籍——《工業(yè)機器人

    的作用?! 「鶕?jù)工業(yè)機器人的發(fā)展趨勢,本書在編寫內(nèi)容上略有偏重。對工業(yè)機器人的運動學(xué)、動力學(xué)、基本控制系統(tǒng)等傳統(tǒng)內(nèi)容的介紹比較簡潔;對機器視覺
    發(fā)表于 02-03 10:51

    《工業(yè)機器人》,蔣剛編著的,附下載。

    ,對工業(yè)機器人的運動學(xué)、動力學(xué)、基本控制系統(tǒng)等傳統(tǒng)內(nèi)容的介紹比較簡潔,對機器視覺、機器聽覺和移動
    發(fā)表于 06-01 13:12

    視覺機器人的發(fā)展現(xiàn)狀與趨勢

    安全,對一些特殊工種,如噴涂,鑄造等通過勞動法強制采用工業(yè)機器人來代替,這樣可以大大增加工業(yè)機器人的需求數(shù)量。視覺機器人我國的機器人產(chǎn)業(yè)化必
    發(fā)表于 09-08 10:34

    機器人操作系統(tǒng)淺析

    機器人操作系統(tǒng)淺析
    發(fā)表于 09-28 11:43

    關(guān)于機器人主控操作系統(tǒng)

    大家有知道廣州數(shù)控的機器人的主控操作系統(tǒng)是基于什么做的嗎?還有珞石機器人?或者我去哪可以查到呢?想做個簡單的調(diào)查~謝謝
    發(fā)表于 12-25 20:57

    機器人主控操作系統(tǒng)

    有知道廣數(shù)或者珞石機器人的主控操作系統(tǒng)的嗎?做個小小的調(diào)查,可是一直沒問到,
    發(fā)表于 12-25 20:59

    機器人視覺系統(tǒng)組成及定位算法分析

    技術(shù)的迅速發(fā)展,越來越多的研究者采用攝像機作為全自主用移動機器人感知傳感器。這主要是因為原來的超聲或紅外傳感器感知信息量有限,魯棒性差,而視覺系統(tǒng)則可以彌補這些缺點。而現(xiàn)實世界是三維
    發(fā)表于 06-08 08:30

    入門必備的機器人操作系統(tǒng)

    機器人操作系統(tǒng)入門:四(中科大&&重德智能)
    發(fā)表于 06-11 07:20

    嵌入式在機器人視覺系統(tǒng)的應(yīng)用

    現(xiàn)有的大多數(shù)機器人,都采用單片機作為控制單元,以8位和16位最為常見,其處理速度較低,沒有操作系統(tǒng),無法實現(xiàn)豐富的多任務(wù)功能,系統(tǒng)的潛力沒有得到充分的發(fā)掘和應(yīng)用。隨著科技的發(fā)展和更多業(yè)務(wù)需求的增長
    發(fā)表于 08-05 08:17

    基于圖像的機器人視覺伺服系統(tǒng)該怎么設(shè)計?

      制造出像一樣具有智能的能替代人類勞動的機器人,一直是人類的夢想,人類獲取的信息80%以上是通過視覺。因此,在智能機器人的研究中,具有視覺
    發(fā)表于 09-27 08:07

    服務(wù)機器人視覺系統(tǒng)怎么設(shè)計?

    隨著計算機科學(xué)和自動控制技術(shù)的發(fā)展,越來越多的不同種類的智能機器人出現(xiàn)在工廠、生活當(dāng)中,機器人視覺系統(tǒng)作為智能機器人系統(tǒng)中一個重要的子
    發(fā)表于 04-07 07:27

    機器人是通過什么技術(shù)感知外部世界

    人類因有眼睛、鼻子、耳朵等感覺器官,而獲得了視覺聽覺、味覺、嗅覺等不同的外部感覺,機器人也因有傳感器而看見、聽見……這個世界。
    發(fā)表于 08-05 07:55

    機器人操作系統(tǒng)ROS詳細介紹

    機器人操作系統(tǒng)ROS詳細介紹 ROS( 機器人 操作系統(tǒng),RobotOperatingSystem),是專為機器人軟件開發(fā)所設(shè)計出來的一套電
    發(fā)表于 11-18 18:09 ?2314次閱讀

    基于鴻道(Intewell?)操作系統(tǒng)研發(fā)的農(nóng)業(yè)機器人操作系統(tǒng)

    江蘇大學(xué)與科東軟件聯(lián)合研發(fā)“農(nóng)業(yè)機器人操作系統(tǒng)”,并成立“農(nóng)業(yè)機器人操作系統(tǒng)”聯(lián)合實驗室,奮力推進農(nóng)業(yè)智能化,推動農(nóng)業(yè)科技創(chuàng)新?!稗r(nóng)業(yè)機器人
    的頭像 發(fā)表于 04-30 11:09 ?336次閱讀