0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓音樂(lè)更柔和 MIT用AI過(guò)濾音源

jmiy_worldofai ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-07-11 17:05 ? 次閱讀

一般利用均衡器可以將音樂(lè)中的低音部分調(diào)出來(lái),但是麻省理工學(xué)院的計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(Computer Science and Artificial Intelligence Lab,CSAIL)的研究人員發(fā)現(xiàn)了更好的解決方案。他們所研發(fā)的新系統(tǒng) PixelPlayer,能夠利用人工智能來(lái)區(qū)分和過(guò)濾聲音,讓音樂(lè)聽(tīng)起來(lái)更洪亮或更柔和。

將指定視頻錄入經(jīng)過(guò)充分訓(xùn)練的 PixelPlayer,系統(tǒng)隨機(jī)能夠過(guò)濾伴奏,同時(shí)識(shí)別音源,接著計(jì)算圖像中每個(gè)像素的音量,然后通過(guò)“空間定位”確定產(chǎn)生相似音波的片段。

今年9月,德國(guó)慕尼黑即將舉行歐洲計(jì)算機(jī)視覺(jué)會(huì)議(European Conference on Computer Vision),會(huì)議中要發(fā)表的一篇新論文則詳細(xì)論述了“像素的聲音(The Sound of Pixels)”。麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的博士生,同時(shí)也是這篇論文的合著者 Zhao Hang 同學(xué)表示,“最好的情況就是,我們能識(shí)別出哪種樂(lè)器發(fā)出怎樣的聲音。”

PixelPlayer 的核心是一種基于樂(lè)器組合多模態(tài)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)集采用了 Youtube 上 714 條未經(jīng)修剪且未經(jīng)標(biāo)記的視頻。其中,總時(shí)長(zhǎng)為 60 小時(shí)的 500 條視頻用于訓(xùn)練,剩余的則用于驗(yàn)證和測(cè)試。在訓(xùn)練過(guò)程中,研究人員分別根據(jù)原聲吉他、大提琴、單簧管、長(zhǎng)笛和其他樂(lè)器向系統(tǒng)饋入了算法。

這只是 PixelPlayer 多重機(jī)器學(xué)習(xí)框架的一個(gè)部分。經(jīng)過(guò)訓(xùn)練后的視頻分析算法將從剪輯幀中提取出視覺(jué)特征,這就是系統(tǒng)的第二個(gè)神經(jīng)網(wǎng)絡(luò),即音頻分析網(wǎng)絡(luò)。音頻分析網(wǎng)絡(luò)將聲音拆分為片段,并從中提取特征。最后,音頻合成網(wǎng)絡(luò)將把上述兩個(gè)網(wǎng)絡(luò)輸出的特定像素和聲波關(guān)聯(lián)起來(lái)。

PixelPlayer 進(jìn)行完全自監(jiān)督的學(xué)習(xí),人們無(wú)需對(duì)數(shù)據(jù)注釋,而且系統(tǒng)目前已經(jīng)能識(shí)別 20 種樂(lè)器。Zhao Hang 說(shuō),較大的數(shù)據(jù)集增強(qiáng)了系統(tǒng)的識(shí)別量,但識(shí)別樂(lè)器子類的能力卻不佳。系統(tǒng)也可以識(shí)別音樂(lè)元素,例如小提琴的諧波頻率。

研究人員認(rèn)為 PixelPlayer 可以進(jìn)行聲音剪輯,或者幫助機(jī)器人理解動(dòng)物、車輛和其他物體所制造的環(huán)境聲音。他們寫到,“我們希望我們的工作能夠開(kāi)辟新的研究途徑,從視覺(jué)和聽(tīng)覺(jué)信號(hào)角度實(shí)現(xiàn)聲源分離”。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4726

    瀏覽量

    100335
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29435

    瀏覽量

    267752
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    253

    瀏覽量

    23332

原文標(biāo)題:MIT實(shí)現(xiàn)用AI過(guò)濾音源 讓音樂(lè)更悅耳

文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TPA3110功放一接上音源就保護(hù),為什么?

    TPA3110做的功放板,客戶退了幾個(gè)壞板子回來(lái) 實(shí)測(cè)大部分都是左聲道輸入端的耦合電容(1uf)損壞,一接音源就進(jìn)入保護(hù) 還有一個(gè)是耦合電容正常,但也是一接音源就進(jìn)入保護(hù) 還有一個(gè)播放
    發(fā)表于 10-24 08:27

    TAS5805M是否支持mono音頻格式的音源

    1、TAS5805M是否支持mono音頻格式的音源?(TAS5805MEVM播放mono格式的掃頻音源沒(méi)有聲音,直接用電腦播放有聲音,示波器量測(cè)data有信號(hào)) 2、若要使TAS
    發(fā)表于 10-16 06:46

    PCM6360-Q1 MIC輸入的音源如何播放?

    我在調(diào)試EVB的時(shí)候如何把MIC入的音源播放出去,目前我是使用示波器觀察的TDM信號(hào),可以通過(guò)模擬或者USB的方式把錄入的音源播放出來(lái)么?用來(lái)確認(rèn)輸入和輸出的音源匹配 謝謝
    發(fā)表于 09-30 08:03

    昆侖萬(wàn)維發(fā)布全球首個(gè)AI流媒體音樂(lè)平臺(tái)Melodio

    昆侖萬(wàn)維在科技創(chuàng)新領(lǐng)域再次邁出重要一步,正式推出了全球首個(gè)AI流媒體音樂(lè)平臺(tái)——Melodio,以及配套的AI音樂(lè)商用創(chuàng)作平臺(tái)Mureka。這兩款創(chuàng)新產(chǎn)品的問(wèn)世,標(biāo)志著
    的頭像 發(fā)表于 08-14 17:44 ?751次閱讀

    音樂(lè)大模型掀起AI音樂(lè)創(chuàng)作熱潮,AI“一語(yǔ)成歌”成為可能

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)隨著大模型技術(shù)的發(fā)展,AI音樂(lè)生成悄然而生。音樂(lè)生成是一個(gè)結(jié)合了人工智能技術(shù)和音樂(lè)創(chuàng)作的領(lǐng)域,它涵蓋了從基本的音頻信號(hào)模擬到復(fù)雜的
    的頭像 發(fā)表于 05-30 01:01 ?3881次閱讀

    谷歌推新AI音樂(lè)工具,發(fā)布第六代TPU芯片

    谷歌近日宣布與YouTube合作,推出全新音樂(lè)工具M(jìn)usic AI Sandbox。這款AI音樂(lè)創(chuàng)作工具將與傳統(tǒng)AI
    的頭像 發(fā)表于 05-16 09:44 ?337次閱讀

    全球AI音樂(lè)會(huì),第一次聽(tīng)見(jiàn)中國(guó)聲音

    全球AI音樂(lè)盛宴中,中國(guó)首個(gè)音樂(lè)AIGC SOTA 的獨(dú)特旋律
    的頭像 發(fā)表于 04-19 11:01 ?341次閱讀
    全球<b class='flag-5'>AI</b><b class='flag-5'>音樂(lè)</b>會(huì),第一次聽(tīng)見(jiàn)中國(guó)聲音

    一鍵消原音智能AI芯片PTN1118芯片簡(jiǎn)介

    PTN1118植入帕特納微AI(SVS),實(shí)現(xiàn)將任意音源中人聲部分消除,并在極大程度上保留伴奏,配合PTN 卡拉OK系列芯片,使傳統(tǒng)音頻設(shè)備富娛樂(lè)性。 支持模擬與數(shù)字輸入輸出,數(shù)字接口支持從模式 人聲消除深淺度可調(diào)(比如,保留
    發(fā)表于 04-12 17:40

    BGP路由過(guò)濾、引入與缺省路由的配置實(shí)踐

    第一個(gè) AS-Path進(jìn)行路由過(guò)濾 利用 AS-Path 進(jìn)行路由過(guò)濾 R3只接收來(lái)自AS 100的 做正則表達(dá)式
    發(fā)表于 04-08 10:47 ?963次閱讀
    BGP路由<b class='flag-5'>過(guò)濾</b>、引入與缺省路由的配置實(shí)踐

    音頻功放原理:音樂(lè)重現(xiàn)原貌

    在音響設(shè)備的世界里,音頻功放器是一個(gè)至關(guān)重要的組成部分。它負(fù)責(zé)將輸入的模擬信號(hào)轉(zhuǎn)換為足夠的電流,驅(qū)動(dòng)揚(yáng)聲器的振動(dòng),從而讓我們能夠欣賞到豐富多彩的音樂(lè)。那么,音頻功放器是如何實(shí)現(xiàn)這一功能的呢?一、音頻
    的頭像 發(fā)表于 03-28 15:57 ?676次閱讀
    音頻功放原理:<b class='flag-5'>讓</b><b class='flag-5'>音樂(lè)</b>重現(xiàn)原貌

    智慧路燈桿AI監(jiān)測(cè)應(yīng)用,高速出行安全

    針對(duì)更好監(jiān)測(cè)和管理高速公路上的交通狀況,可以基于智慧路燈桿打造AI交通監(jiān)測(cè)應(yīng)用,通過(guò)智能感知高速路段的路況、車況、環(huán)境狀況,實(shí)現(xiàn)實(shí)時(shí)風(fēng)險(xiǎn)感知、風(fēng)險(xiǎn)預(yù)警和協(xié)同處置,高速出行安全。
    的頭像 發(fā)表于 03-11 17:20 ?402次閱讀
    智慧路燈桿<b class='flag-5'>AI</b>監(jiān)測(cè)應(yīng)用,<b class='flag-5'>讓</b>高速出行<b class='flag-5'>更</b>安全

    FPGA末日計(jì)算器PC1500煥發(fā)數(shù)碼新春

    FPGA如何PC1500古董計(jì)算器實(shí)現(xiàn)vgm音樂(lè)格式播放以及國(guó)產(chǎn)全能語(yǔ)音芯片和國(guó)產(chǎn)全能音源芯片控制和編程。
    發(fā)表于 12-01 13:46

    精密信號(hào)鏈設(shè)計(jì)容易

    電子發(fā)燒友網(wǎng)站提供《精密信號(hào)鏈設(shè)計(jì)容易.pdf》資料免費(fèi)下載
    發(fā)表于 11-23 15:54 ?0次下載
    <b class='flag-5'>讓</b>精密信號(hào)鏈設(shè)計(jì)<b class='flag-5'>更</b>容易

    各種智能能源應(yīng)用智能

    電子發(fā)燒友網(wǎng)站提供《各種智能能源應(yīng)用智能.pdf》資料免費(fèi)下載
    發(fā)表于 11-17 10:29 ?0次下載
    <b class='flag-5'>讓</b>各種智能能源應(yīng)用<b class='flag-5'>更</b>智能

    AI技術(shù)助力網(wǎng)絡(luò)革新,企業(yè)智能

    代表了網(wǎng)絡(luò)通信的未來(lái)。它是一種專門為滿足企業(yè)需求而設(shè)計(jì)的網(wǎng)絡(luò)連接,利用AI技術(shù)來(lái)提供智能、更高效的網(wǎng)絡(luò)服務(wù)。這些服務(wù)包括自動(dòng)化網(wǎng)絡(luò)優(yōu)化、實(shí)時(shí)數(shù)據(jù)分析用戶體驗(yàn)的顯著改進(jìn)。 二、AI
    的頭像 發(fā)表于 10-27 17:56 ?502次閱讀
    <b class='flag-5'>AI</b>技術(shù)助力網(wǎng)絡(luò)革新,<b class='flag-5'>讓</b>企業(yè)<b class='flag-5'>更</b>智能