0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

利用機器學習算法中的深度神經(jīng)網(wǎng)絡,識別音樂類型等聽覺任務上模擬人類表現(xiàn)的模型

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-04-30 16:57 ? 次閱讀

麻省理工學院(MIT)的研究人員利用機器學習算法中的深度神經(jīng)網(wǎng)絡,創(chuàng)造出了第一個可以在識別音樂類型等聽覺任務上模擬人類表現(xiàn)的模型。

該模型由許多信息處理單元組成,通過輸入大量的數(shù)據(jù)來訓練此模型,以完成特定的任務。研究人員利用該模型來闡明人腦是如何執(zhí)行同樣的任務的。

Josh McDermott說:“這些模型第一次給我們提供一個能夠執(zhí)行對人類有意義的感官任務的機器系統(tǒng),并且是在人類的水平等級上進行這項工作?!彼锹槭±砉W院大腦和認知科學系的神經(jīng)科學Frederick A.和Carole J. Middleton的助理教授,也是這項研究的資深作者。 “從歷史上看,這種感官的處理方式很難理解,部分原因是我們沒有一個非常明確的理論基礎,也沒有一個很好的方法來對可能正在發(fā)生的事情進行開發(fā)建模?!?/p>

這項研究發(fā)表在4月19日的《Neuron》雜志上,這項研究也證明了人類的聽覺皮層排列在在一個等級分明的組織中,就像視覺皮質(zhì)一樣。在這種類型的排列中,感官信息經(jīng)過連續(xù)的處理,基本信息處理得更早,而像單詞含義一樣的更高級特征在后期處理。

麻省理工學院研究生Alexander Kell和斯坦福大學助理教授Daniel Yamins是論文的主要作者。其他作者是麻省理工學院前訪問學生Erica Shook和前麻省理工學院博士后Sam Norman Haignere。

大腦建模:模型學會了像人類一樣準確地執(zhí)行任務

當神經(jīng)網(wǎng)絡在20世紀80年代首次出現(xiàn)時,神經(jīng)科學家們希望這種系統(tǒng)可以用來模擬人腦。然而,來自那個時代的計算機不夠強大,無法建立足夠大的模型來進行一些實際任務,如物體識別或語音識別等。

在過去的五年里,隨著計算能力和神經(jīng)網(wǎng)絡技術的進步,使用神經(jīng)網(wǎng)絡來執(zhí)行這些困難的現(xiàn)實任務已經(jīng)成為一種可能,而且它們已經(jīng)成為許多工程應用程序中的標準方法。與此同時,一些神經(jīng)科學家對這些系統(tǒng)是否能夠來模擬人腦進行了重新審視。

Kell說:“這對于神經(jīng)科學來說是一個激動人心的機會,因為我們可以創(chuàng)造出可以代替人類來執(zhí)行某些工作的系統(tǒng),然后我們可以對這些模型進行測試并將它們與大腦進行比較?!?/p>

麻省理工學院的研究人員訓練他們的神經(jīng)網(wǎng)絡來執(zhí)行兩個聽覺任務,一個涉及語音,另一個涉及音樂。在語音任務中,研究人員給模型提供了成千上萬的兩秒鐘長的錄音。任務是識別音頻中單詞。在音樂任務中,該模型被要求識別那些兩秒鐘音樂片段的類型。每個片段還包括背景噪音,使任務更加現(xiàn)實也更加困難。

在完成了成千上萬的數(shù)據(jù)訓練之后,模型學會了像人類一樣準確地執(zhí)行任務。

Kell說:“這個想法是隨著時間的推移,模型在任務中變得越來越好。希望它正在學習一些一般的東西,所以如果你給模型輸入一種它以前從未聽過的新聲音,它會做得很好,這已經(jīng)在實驗中得到了證明?!?/p>

該模型還傾向于在人類最容易犯錯誤的片段上犯錯誤。

組成神經(jīng)網(wǎng)絡的處理單元可以以多種方式組合在一起,形成可以影響模型的性能的不同模型結構。

麻省理工研究團隊發(fā)現(xiàn),這兩項任務的最佳模型是將處理分為兩組階段。第一階段是在任務之間共享的,但在此之后,它分成兩個分支,用于進一步的分析:一個用于語音處理任務,另一個用于音樂處理任務。

分級的證據(jù):初級聽覺皮層和其他有區(qū)別

然后,研究人員用他們的模型對一個長期存在的關于聽覺皮層結構的問題進行了探索:它是否分級。

在分級系統(tǒng)中,一系列的大腦區(qū)域在流經(jīng)系統(tǒng)的感官信息上執(zhí)行不同類型的計算。有證據(jù)表明,視覺皮層有相同類型的組織結構。前期的區(qū)域,被稱為初級視覺皮質(zhì),對簡單的特征如顏色或方向做出反應。后端的區(qū)域則執(zhí)行更復雜的任務,如對象識別。

然而,很難測試這種類型的組織是否也存在于聽覺皮層中,部分原因是沒有一個好的模型來對人類的聽覺行為進行復制。

McDermott說:“我們認為,如果我們可以構建一個和人類執(zhí)行同樣任務的模型,我們就能夠比較將模型不同階段的不同部分與大腦進行比價,這樣可以得到一些證據(jù)來證明大腦中的一些部分是否是分級的組織?!?/p>

研究人員發(fā)現(xiàn),在他們的模型中聲音的基本特征,如頻率在早期階段更容易被提取。當信息在神經(jīng)網(wǎng)上不斷向后傳輸?shù)倪^程中,一些基本特征越來越難提取,而更高層次的信息,例如詞的含義變得更容易提取。

為了驗證模型階段是否可以復制人類聽覺皮層處理聲音信息的方式,研究人員使用了功能性磁共振成像(fMRI)來測量大腦處理真實聲音時聽覺皮層的不同區(qū)域。然后,他們比較了在處理相同的聲音時,大腦和模型的區(qū)別。

他們發(fā)現(xiàn),模型的中間階段與大腦初級聽覺皮層的活動相似性最高,隨后的網(wǎng)絡與初級皮質(zhì)以外的活動相呼應。研究人員說,這為聽覺皮層以一種類似于視覺皮層的分級方式排列提供了證據(jù)。

McDermott說:“我們非常清楚地看到,初級聽覺皮層和其他所有東西之間的區(qū)別?!?/p>

作者現(xiàn)在打算開發(fā)一種可以執(zhí)行其他類型的聽覺任務的模型,例如特定聲音的發(fā)聲位置定位,來探討這些任務是否可以通過本文中發(fā)現(xiàn)的思路來完成,或者說其他的一些任務通過對人腦進行研究,以獲得新的思路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:MIT開發(fā)聽覺神經(jīng)網(wǎng)絡模型,學會從2秒片段識別音樂類型

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于深度神經(jīng)網(wǎng)絡的嬰兒哭聲識別算法

    語音識別中使用的機器學習類型可以在嬰兒的哭聲識別研究重復,前提是不同
    發(fā)表于 05-20 19:20

    人臉識別、語音翻譯、無人駕駛...這些高科技都離不開深度神經(jīng)網(wǎng)絡了!

    ,如何用一個神經(jīng)網(wǎng)絡,寫出一套機器學習算法,來自動識別未知的圖像。一個 4 層的神經(jīng)網(wǎng)絡輸入層經(jīng)
    發(fā)表于 05-11 11:43

    深度學習與數(shù)據(jù)挖掘的關系

    理解,但是在其高冷的背后,卻有深遠的應用場景和未來。深度學習是實現(xiàn)機器學習的一種方式或一條路徑。其動機在于建立、模擬人腦進行分析
    發(fā)表于 07-04 16:07

    基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡實現(xiàn)設計

    FPGA 實現(xiàn)卷積神經(jīng)網(wǎng)絡 (CNN)。CNN 是一類深度神經(jīng)網(wǎng)絡,在處理大規(guī)模圖像識別任務
    發(fā)表于 06-19 07:24

    卷積神經(jīng)網(wǎng)絡模型發(fā)展及應用

    network,DBN)[24], 從此拉開了深度學習大幕。隨著深度學習理論的研究和發(fā)展,研究人員提 出了一系列卷積神經(jīng)網(wǎng)絡
    發(fā)表于 08-02 10:39

    什么是深度學習?使用FPGA進行深度學習的好處?

    什么是深度學習為了解釋深度學習,有必要了解神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡是一種
    發(fā)表于 02-17 16:56

    卷積神經(jīng)網(wǎng)絡簡介:什么是機器學習?

    通過網(wǎng)絡訓練來確定才能使模型工作。這將在后續(xù)文章“訓練卷積神經(jīng)網(wǎng)絡:什么是機器學習?—第 2 部分”
    發(fā)表于 02-23 20:11

    淺析三種主流深度神經(jīng)網(wǎng)絡

    來源:青榴實驗室1、引子深度神經(jīng)網(wǎng)絡(DNNs)最近在圖像分類或語音識別復雜機器學習
    的頭像 發(fā)表于 05-17 09:59 ?2364次閱讀
    淺析三種主流<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡</b>

    什么是深度學習算法?深度學習算法的應用

    。 在深度學習,使用了一些快速的算法,比如卷積神經(jīng)網(wǎng)絡以及深度
    的頭像 發(fā)表于 08-17 16:03 ?2012次閱讀

    卷積神經(jīng)網(wǎng)絡算法流程 卷積神經(jīng)網(wǎng)絡模型工作流程

    卷積神經(jīng)網(wǎng)絡算法流程 卷積神經(jīng)網(wǎng)絡模型工作流程? 卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)是一種廣泛
    的頭像 發(fā)表于 08-21 16:50 ?2670次閱讀

    基于神經(jīng)網(wǎng)絡算法模型構建方法

    神經(jīng)網(wǎng)絡是一種強大的機器學習算法,廣泛應用于各種領域,如圖像識別、自然語言處理、語音識別
    的頭像 發(fā)表于 07-02 11:21 ?390次閱讀

    卷積神經(jīng)網(wǎng)絡的基本結構及其功能

    。 引言 深度學習機器學習的一個分支,它通過模擬人腦神經(jīng)網(wǎng)絡的結構和功能,實現(xiàn)對數(shù)據(jù)的自動學習
    的頭像 發(fā)表于 07-02 14:45 ?835次閱讀

    神經(jīng)網(wǎng)絡算法的優(yōu)缺點有哪些

    神經(jīng)網(wǎng)絡算法是一種模擬人腦神經(jīng)元結構的計算模型,廣泛應用于機器學習
    的頭像 發(fā)表于 07-03 09:47 ?836次閱讀

    神經(jīng)網(wǎng)絡算法的結構有哪些類型

    神經(jīng)網(wǎng)絡算法深度學習的基礎,它們在許多領域都有廣泛的應用,如圖像識別、自然語言處理、語音識別
    的頭像 發(fā)表于 07-03 09:50 ?337次閱讀

    不同類型神經(jīng)網(wǎng)絡在回歸任務的應用

    神經(jīng)網(wǎng)絡是一種強大的機器學習模型,可以用于各種任務,包括回歸。在本文中,我們將討論不同類型
    的頭像 發(fā)表于 07-11 10:27 ?820次閱讀