如何從混雜的背景噪音中過(guò)濾出特定的聲音,這一“經(jīng)典雞尾酒會(huì)問(wèn)題”有望在AI的幫助下得以解決。
因?yàn)槲覀兊拇竽X可以專注于想聽(tīng)到的內(nèi)容,所以人耳可以準(zhǔn)確地從嘈雜聲中分辨出特定的聲音。然而,基于機(jī)器的“聲源分離”技術(shù)多年來(lái)卻一直讓工程師們束手無(wú)策。麻省理工學(xué)院的研究人員正在利用MV(音樂(lè)短片)訓(xùn)練神經(jīng)網(wǎng)絡(luò),以便更好地定位聲音來(lái)源。
該團(tuán)隊(duì)的深度學(xué)習(xí)系統(tǒng)可以“直接通過(guò)一些未經(jīng)標(biāo)記的YouTube視頻進(jìn)行學(xué)習(xí),分辨出每種物體對(duì)應(yīng)的聲音,”麻省理工學(xué)院研究人員Hang Zhao說(shuō)道。他也曾是NVIDIA研究部門的實(shí)習(xí)生。
Zhao認(rèn)為,該技術(shù)極具突破性,在語(yǔ)音、聽(tīng)力學(xué)、音樂(lè)和機(jī)器人學(xué)領(lǐng)域均有廣泛的應(yīng)用。
通過(guò)“刷視頻”來(lái)學(xué)習(xí)
麻省理工學(xué)院開(kāi)發(fā)出了一種新方法,即通過(guò)YouTube視頻中的圖像和聲音來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。他們的目標(biāo)是讓神經(jīng)網(wǎng)絡(luò)能夠精確定位視頻中圖像的位置(精確到像素級(jí))。
該團(tuán)隊(duì)將其系統(tǒng)稱為PixelPlayer,并通過(guò)YouTube上的MV對(duì)PixelPlayer進(jìn)行了60個(gè)小時(shí)的訓(xùn)練。到目前為止,該系統(tǒng)已經(jīng)可以識(shí)別20多種樂(lè)器。
該團(tuán)隊(duì)在麻省理工學(xué)院的計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室 (Computer Science and Artificial Intelligence Lab) 開(kāi)展了這項(xiàng)研究,共開(kāi)發(fā)出了三個(gè)卷積神經(jīng)網(wǎng)絡(luò),它們可協(xié)同工作以生成相應(yīng)結(jié)果。其中一個(gè)卷積神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)對(duì)視覺(jué)輸入進(jìn)行編碼,一個(gè)負(fù)責(zé)對(duì)音頻輸入進(jìn)行編碼,第三個(gè)則負(fù)責(zé)基于視覺(jué)和音頻輸入合成輸出。
PixelPlayer訓(xùn)練數(shù)據(jù)集由714個(gè)YouTube視頻組成?!坝捎谖覀兪褂昧怂膲KNVIDIA GPU,卷積神經(jīng)網(wǎng)絡(luò)才能夠以非??斓乃俣忍幚頂?shù)據(jù),”Zhao表示,“它大約用了一天的時(shí)間便學(xué)會(huì)了。”
PixelPlayer是一個(gè)自我監(jiān)督型(self-supervised)的系統(tǒng)。這意味著該系統(tǒng)不需要人類對(duì)樂(lè)器或樂(lè)器聲音進(jìn)行任何標(biāo)注,也可以識(shí)別出大號(hào)和小號(hào)等樂(lè)器的外觀、樂(lè)器聲音以及發(fā)聲方式。
吹響勝利的號(hào)角
對(duì)視頻中的聲源進(jìn)行定位后,PixelPlayer即可分離出其波形。目前,PixelPlayer在識(shí)別兩種或三種不同樂(lè)器時(shí)表現(xiàn)最佳,但該團(tuán)隊(duì)的目標(biāo)是盡快擴(kuò)大其識(shí)別范圍。在談到分離樂(lè)器聲音的過(guò)程時(shí),Zhao說(shuō)道:“我們正在努力將一個(gè)MP3文件分離為多個(gè)MP3文件?!?/p>
PixelPlayer在音樂(lè)領(lǐng)域有諸多用途。據(jù)Zhao介紹,音頻工程師可以應(yīng)用此款A(yù)I工具增強(qiáng)某些音量較低的樂(lè)器聲音,或去除某種背景噪音。此外,它還可以幫助音頻工程師改善現(xiàn)場(chǎng)錄音或重新灌錄音樂(lè)的效果。
改善助聽(tīng)器功能也是研究人員為“雞尾酒會(huì)問(wèn)題”開(kāi)發(fā)深度學(xué)習(xí)解決方案的目的。
不僅是音樂(lè)和聽(tīng)力學(xué)領(lǐng)域,其應(yīng)用范圍還可用于識(shí)別我們周圍的聲音。例如,聆聽(tīng)森林中珍稀鳥(niǎo)類的鳴叫聲?!皺C(jī)器人也可以借助該系統(tǒng)理解周圍環(huán)境中的聲音?!盳hao補(bǔ)充道。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4726瀏覽量
100332 -
人工智能
+關(guān)注
關(guān)注
1789文章
46397瀏覽量
236612 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5442瀏覽量
120800
原文標(biāo)題:讓音樂(lè)更悅耳:AI助力解決“雞尾酒會(huì)問(wèn)題”
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論