0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于音樂知識(shí)的旋律和編曲生成框架,稱為小冰樂隊(duì)

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-08-22 10:05 ? 次閱讀

上周日,第24屆 ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING(知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘會(huì)議,以下簡(jiǎn)稱 KDD)在倫敦正式召開。KDD 是數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,全球的華人學(xué)者在這一研究領(lǐng)域有著舉足輕重的角色,近幾年國(guó)內(nèi)也在不斷孕育出實(shí)力強(qiáng)勁的研究團(tuán)隊(duì)。

據(jù)統(tǒng)計(jì),今年 KDD 接收論文近 300 篇,而華人與中國(guó)作者的論文占比達(dá) 近 64.5%。在 KDD 2018 大會(huì)上揭曉的獎(jiǎng)項(xiàng)中,由中國(guó)科學(xué)技術(shù)大學(xué)、蘇州大學(xué)與微軟小冰團(tuán)隊(duì)合作的論文《XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music》(《小冰樂隊(duì):流行音樂的旋律與編曲框架》 )獲得了 Research Track 最佳學(xué)生論文。接下來給大家分享這篇論文重點(diǎn)內(nèi)容的解讀。

小冰樂隊(duì):流行音樂的旋律與編曲生成框架

摘要

隨著音樂創(chuàng)作知識(shí)的發(fā)展和近期需求的增加,越來越多的公司和研究機(jī)構(gòu)開始研究音樂的自動(dòng)生成。然而,以前的模型在應(yīng)用于歌曲生成時(shí)具有局限性,因?yàn)樗枰珊途幥4送?,許多與歌曲質(zhì)量相關(guān)的關(guān)鍵因素,如和弦進(jìn)行和節(jié)奏型,都沒有得到很好的解決。特別是,如何確保多軌音樂和諧的問題仍未得到充分探索。為此,這篇論文聚焦在流行音樂生成,其中考慮了和弦和節(jié)奏對(duì)旋律生成的影響以及音樂編曲的和諧。提出了一個(gè)端到端的旋律和編曲生成框架,稱為小冰樂隊(duì),它生成一個(gè)旋律軌道,再生成不同的樂器來進(jìn)行伴奏。具體來說,通過設(shè)計(jì)了一個(gè)基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG)來產(chǎn)生帶有和弦進(jìn)行的旋律。然后,提出了一種多樂器聯(lián)合編曲模型(MICA),它使用多任務(wù)學(xué)習(xí)來進(jìn)行多軌音樂編曲。最后,通過對(duì)現(xiàn)實(shí)世界的數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn), 結(jié)果證明了小冰樂隊(duì)的有效性。

貢獻(xiàn)

本文的貢獻(xiàn)總結(jié)如下:

提出了一種端到端的多軌音樂生成系統(tǒng),包括旋律和編曲。

基于音樂知識(shí),提出用和弦進(jìn)行來指導(dǎo)旋律和通過節(jié)奏型來學(xué)習(xí)歌曲的結(jié)構(gòu)。然后,使用節(jié)奏和旋律交叉生成方法進(jìn)行音樂生成。

在解碼器層的每一步使用其他任務(wù)狀態(tài)開發(fā)多任務(wù)聯(lián)合生成網(wǎng) 絡(luò),這提高了生成質(zhì)量并確保了多軌音樂的和諧。

通過提供的大量實(shí)驗(yàn),我們的系統(tǒng)與其他模型表現(xiàn)更好的性能,人工評(píng)估也得到一致的結(jié)論。

工作與方法

小冰樂隊(duì)的相關(guān)工作可以分為兩類,即音樂生成和多任務(wù)學(xué)習(xí)。

最近,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)通過端到端方法被應(yīng)用于音樂生成,解決一些問題。雖然已經(jīng)對(duì)音樂創(chuàng)作進(jìn)行了廣泛的研究,但還沒有工作針對(duì)流行音樂的特性來進(jìn)行研究。對(duì)于流行音樂的產(chǎn)生,以前的作品不考慮和弦進(jìn)行和節(jié)奏型。而且,和弦進(jìn)行通常引導(dǎo)旋律生成,節(jié)奏型決定該歌曲是否適合于歌唱。此外,流行音樂也應(yīng)保留樂器特性。最后,和諧在多軌音樂中起著重要作用,但在之前的研究中并未得到很好的解決。

將小冰樂隊(duì)與幾個(gè)相關(guān)模型進(jìn)行比較,結(jié)果顯示在下表中。

而多任務(wù)學(xué)習(xí)多任務(wù)學(xué)習(xí)通常用于共享特征的相關(guān)任務(wù),因?yàn)閺囊粋€(gè)任務(wù)中學(xué)習(xí)的特征可能對(duì)其他任務(wù)有用。在以前的工作中,多任務(wù)學(xué)習(xí)已成功應(yīng)用于機(jī)器學(xué)習(xí)的所有應(yīng)用,從自然語(yǔ)言處理到計(jì)算機(jī)視覺。

接下來重點(diǎn)為大家介紹小冰樂隊(duì)的模型與方法。首先形式化定義音樂生成問題,然后介紹基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG)的單軌音樂的結(jié)構(gòu)和技術(shù)細(xì)節(jié),以及用于多軌音樂的多樂器聯(lián)合編曲模型(MICA)。

▌問題定義:由于每個(gè)流行音樂都有特定的和弦進(jìn)行,我們考慮在給定和弦進(jìn)行條件下生成流行音樂的場(chǎng)景。因此,音樂生成任務(wù)的輸入是給定的和弦進(jìn)行

注意,Ci是和弦的向量表示,lc是序列的長(zhǎng)度。我們的目標(biāo)是生成合適的節(jié)奏

和旋律

。為此,我們提出CRMCG用于單軌音樂,以及MICA用于多軌音樂來解決 這個(gè)問題。

圖4顯示了小冰樂隊(duì)的整體框架,它可以分為四個(gè)部分:

1)數(shù)據(jù)處理部分;

2)用于旋律生成的CRMCG部分(單軌);

3)用于編曲生成的MICA部分(多軌道);

4)顯示部分。

▌基于和弦的節(jié)奏和旋律交叉生成模型——CRMCG

旋律由一系列音符和相應(yīng)的持續(xù)時(shí)間組成。這是流行音樂的基本組成部分。然而,生成和諧的旋律仍然具有挑戰(zhàn)性。此外,音符級(jí)別生成方法使得暫停具有更多隨機(jī)性,使音樂很難唱出來。因此,我們提出CRMCG來解決問題并生成合適的歌唱節(jié)奏。圖5給出了CRMCG架構(gòu)。

給定和弦進(jìn)行

。在樂段pi中生成的節(jié)奏Ri和旋律Mi與和弦ci密切相關(guān)。我們利用編碼器-解碼器框架作為我們的基本框架,因?yàn)樗梢造`活地使用不同的神經(jīng)網(wǎng)絡(luò),例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)來有效地處理序列。

為了更好地理解和弦進(jìn)行并模擬這些和弦的相互作用和關(guān)系,我們利用門控遞歸單元(GRU)來處理和弦的低維表示。它們可以表述如下:

這里,Ec是和弦的嵌入矩陣,隱藏狀態(tài)對(duì)每個(gè)和弦和序列上下文進(jìn)行編碼。然后我們可以使用這些隱藏的狀態(tài)來幫助生成節(jié)奏和旋律。

具體來說,我們的生成處理可以分為兩部分:節(jié)奏生成(生成的節(jié)奏與現(xiàn)有的音樂部分相協(xié)調(diào)至關(guān)重要,因此,在這部分中,我們考慮了音樂的前一部分)和旋律生成(在生成當(dāng)前節(jié)奏之后,我們可以利用該信息來生成旋律)。

由于生成過程可以分為兩部分,我們?yōu)槊總€(gè)部分設(shè)計(jì)兩個(gè)損失函數(shù)。損失函數(shù)都是交叉熵函數(shù)。根據(jù)模型的特點(diǎn),我們可以通過參數(shù)相關(guān)性來交替更新參數(shù)。

▌多任務(wù)編曲模型

1)多樂器聯(lián)合編曲模型。在實(shí)際應(yīng)用中,音樂包含多個(gè)音軌,例如鼓,貝斯,弦樂和吉他。為此,我們制定了一對(duì)多序列生成(OMSG)任務(wù)。與傳統(tǒng)的多序列學(xué)習(xí)不同,OSMG中生成的序列密切相關(guān)。當(dāng)生成其中 一個(gè)序列時(shí),我們應(yīng)該考慮其與其他序列的和諧,節(jié)奏匹配和樂器特性。我們的目標(biāo)是在音樂生成過程中模擬不同軌道之間的信息流,因而設(shè)計(jì)提出基于CRMCG的多樂器聯(lián)合編曲模型(MICA)。

給定旋律,我們著重生成更多的音軌來給旋律進(jìn)行伴奏。如圖6(a)所示, 解碼器的隱藏狀態(tài)包含序列信息。因此,當(dāng)為其中一個(gè)軌道生成音符時(shí),它自然地引入了其他軌道的隱藏狀態(tài),但是如何有效地集成它們?nèi)匀皇且粋€(gè)挑戰(zhàn)。

為此,我們?cè)诮獯a器的隱藏層之間設(shè)計(jì)了兩個(gè)單元:注意力單元和 MLP單元 (多層感知機(jī)單元)來解決這 個(gè)問題。

注意力單元:受注意力機(jī)制的啟發(fā),可以幫助模型關(guān)注輸入的最相關(guān)部分,我們?cè)O(shè)計(jì)了 一個(gè)創(chuàng)意性的注意力單元;

MLP單元:我們考慮每個(gè)樂器的個(gè)體隱藏狀態(tài),并通過它們對(duì)整個(gè)音樂的重 要性進(jìn)行整合,這是由門單元實(shí)現(xiàn)的。因此,模型可以選擇每個(gè)儀 器信息中最相關(guān)的部分來提高整性能。

2)損失函數(shù):優(yōu)化了若干條件概率項(xiàng)的總和,這些條件概率項(xiàng)以來自同一編碼器的表示為條件。

這里

m是任務(wù)數(shù)。θsrc是源編碼器的參數(shù)集合,是第?Tk?個(gè)目標(biāo)軌道的參數(shù)集。Np?是第?p?個(gè)序列對(duì)的平行訓(xùn)練語(yǔ)料庫(kù)的大小。

3)生成:在生成部分,安排CRMCG生成的旋律。

實(shí)驗(yàn)

為了研究CRMCG和MICA的有效性,我們對(duì)收集的數(shù)據(jù)集進(jìn)行了兩個(gè)任務(wù)的實(shí)驗(yàn):旋律生成和編曲生成。

▌數(shù)據(jù)描述

在本文中,我們?cè)谡鎸?shí)世界數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集由超過五萬個(gè)MIDI(數(shù)字分?jǐn)?shù)格式)文件組成,并且為了避免偏差,那些不完整的 MIDI 文件,例如沒有聲道的音樂都被刪除。最后,我們的數(shù)據(jù)集中保存了14,077個(gè)MIDI文件。具體來說,每個(gè)MIDI文件包含各種類型的音軌,如旋律, 鼓,貝司和弦樂。

為了保證實(shí)驗(yàn)結(jié)果的可靠性,我們對(duì)數(shù)據(jù)集進(jìn)行了如下預(yù)處理。首先,我們將所有MIDI文件轉(zhuǎn)換為C大調(diào)或A小調(diào),以保持所有音樂在同一曲調(diào)上。然后我們將所有音樂的BPM(每分鐘節(jié)拍)設(shè)置為60,這確保所有音符都是整數(shù)節(jié)拍。最后,我們將每2個(gè)小節(jié)并為一個(gè)樂段。下表中總結(jié)了修剪數(shù)據(jù)集的一些基本統(tǒng)計(jì)數(shù)據(jù)。

▌?dòng)?xùn)練細(xì)節(jié)

我們從數(shù)據(jù)集中隨機(jī)選擇9,855個(gè)實(shí)例作為訓(xùn)練數(shù)據(jù),另外2,815個(gè)用于 調(diào)整參數(shù),最后1,407個(gè)作為測(cè)試數(shù)據(jù)來驗(yàn)證性能以及更多生成的音樂。在我們的模型中,對(duì)于編碼器和解碼器中的每個(gè)GRU層,循環(huán)隱藏單元的數(shù)量設(shè)置為256。用于計(jì)算注意力單元和MLP單元中的隱藏向量的參數(shù)的維度被設(shè)置為256。使用隨機(jī)梯度下降算法更新模型,其中批量大小設(shè)置為64,并且根據(jù)驗(yàn)證集上的交叉熵?fù)p失選擇最終模型。

▌旋律生成,CRMCG模型的性能

我們僅使用從原始MIDI音樂中提取的旋律軌跡來訓(xùn)練模型并評(píng)估旋律軌跡生成結(jié)果的美學(xué)質(zhì)量?;€方法選擇Magenta(RNN)&GANMidi(GAN),除了提出的CRMCG模型,我們還評(píng)估了模型的兩個(gè)變體,以驗(yàn)證和弦進(jìn)行和交叉訓(xùn)練方法對(duì)旋律生成的重要性:CRMCG(有/無和弦進(jìn)行)&CRMCG(有/無交叉訓(xùn)練)

韻律(Rhythm): 音樂聽起來流暢而適當(dāng)暫停嗎?

旋律(Melody): 音樂識(shí)別關(guān)系是否自然而和諧?

完整(Integrity): 音樂結(jié)構(gòu)是否完整而不是突然中斷?

可唱性(Singability): 音樂適合用歌詞唱歌嗎?

▌編曲生成,MICA模型的性能

我們選擇多軌音樂生成中的五個(gè)最重要的任務(wù),即旋律,鼓,貝斯,弦樂和吉他。基線方法為了驗(yàn)證兩個(gè) MICA 模型的性能,選擇相關(guān)模型HRNN 作為基線方法

性能如圖9所示。根據(jù)結(jié)果,通常,我們基于MLP單元的MICA模 型在所有指標(biāo)上都實(shí)現(xiàn)了最佳性能。而且,從圖9(a)可以得出結(jié)論,鼓的任務(wù)具有最大的音符準(zhǔn)確度,這證實(shí)鼓比其他樂器更容易學(xué)習(xí)。并且,如圖9(b)所示,與HRNN相比,我們基于MLP單元的MICA模型平均可以提高6.9%的質(zhì)量。同時(shí),從圖9(c)中,我們觀察到,我們基于MLP單元的MICA模型對(duì)音符分布均方誤差具有最穩(wěn)定的效果,這證明 我們的模型可以更好地學(xué)習(xí)樂器特性。最后,圖9(d)說明了我們基于MLP單元的MICA模型的穩(wěn)健性,該模型可以保持高水平的生成結(jié)果。

結(jié)論

在本文中,我們提出了一種基于音樂知識(shí)的旋律和編曲生成框架,稱為小冰樂隊(duì),它生成了同時(shí)伴隨的幾種樂器的旋律。對(duì)于旋律生成,我們?cè)O(shè)計(jì)了基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG),其利用和弦進(jìn)行來指導(dǎo)旋律進(jìn)行,以及通過節(jié)奏型來學(xué)習(xí)歌曲的結(jié)構(gòu)。對(duì)于編曲生成,在多任務(wù)學(xué)習(xí)的推動(dòng)下,我們提出了一種用于多音軌音樂編曲的多樂器聯(lián)合編曲模型(MICA),它在解碼器層的每一步使用其他任務(wù)狀態(tài)來提高整個(gè)的性能并確保多軌音樂的和諧。通過大量實(shí)驗(yàn),無論是會(huì)自動(dòng)指標(biāo)還是人工評(píng)估,我們的系統(tǒng)與其他模型相比均表現(xiàn)出更好的性能,并且我們已經(jīng)完成了圖靈測(cè)試并取得了良好的效果。此外,我們?cè)诨ヂ?lián)網(wǎng)上制作了流行音樂示例,展示了我們模型的應(yīng)用價(jià)值。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1128

    瀏覽量

    40586
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4726

    瀏覽量

    100315

原文標(biāo)題:KDD 2018 | 中科大、蘇州大學(xué)與微軟的合作論文獲最佳學(xué)生論文獎(jiǎng)

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    新秀樂隊(duì)貓頭音完美處女作《誰的你》專輯強(qiáng)勢(shì)來襲

    。尤其是主唱柒柒,作詞作曲的靈感從未間斷。柒柒始終堅(jiān)持,音樂是自己唯的表達(dá)方式。用鋼琴編曲,抓住每個(gè)觸動(dòng)心靈的瞬間,將每個(gè)美妙的音符連
    發(fā)表于 11-09 13:44

    如何去實(shí)現(xiàn)一種ThreadX內(nèi)核框架的設(shè)計(jì)呢

    ThreadX內(nèi)核模板框架是怎樣去設(shè)計(jì)的?如何去實(shí)現(xiàn)一種ThreadX內(nèi)核框架的設(shè)計(jì)呢?
    發(fā)表于 11-29 07:08

    韻律操音樂旋律的語(yǔ)音電路

    “韻律操”語(yǔ)音電路  該電路的電原理圖見圖4。IC為內(nèi)儲(chǔ)首10秒韻律操音樂旋律的語(yǔ)音
    發(fā)表于 11-02 18:11 ?889次閱讀
    韻律操<b class='flag-5'>音樂</b><b class='flag-5'>旋律</b>的語(yǔ)音電路

    音樂旋律匹配算法的改進(jìn)研究

    本內(nèi)容提出了音樂旋律匹配算法的改進(jìn)研究,希望對(duì)大家學(xué)習(xí)上有所幫助
    發(fā)表于 05-26 15:56 ?47次下載
    <b class='flag-5'>音樂</b><b class='flag-5'>旋律</b>匹配算法的改進(jìn)研究

    自制編曲音樂門鈴

    本文介紹款可以自己編曲音樂門鈴電路,它能按順序發(fā)出9個(gè)音符,適合喜歡追求個(gè)性的電子愛好者實(shí)驗(yàn)制作。
    發(fā)表于 07-07 11:27 ?4317次閱讀
    自制<b class='flag-5'>編曲</b><b class='flag-5'>音樂</b>門鈴

    一種無電解電容的單級(jí)復(fù)合LED驅(qū)動(dòng)電路_吳南

    一種無電解電容的單級(jí)復(fù)合LED驅(qū)動(dòng)電路_吳南
    發(fā)表于 01-08 10:47 ?3次下載

    一種成分取證的理論分析模式的分類框架

    一種成分取證的理論分析模式的分類框架
    發(fā)表于 03-20 11:04 ?0次下載

    一種多尺度多視點(diǎn)特性視圖生成方法的研究和應(yīng)用_謝

    一種多尺度多視點(diǎn)特性視圖生成方法的研究和應(yīng)用_謝
    發(fā)表于 03-15 09:27 ?0次下載

    制作可以自己編曲音樂門鈴電路資料免費(fèi)下載

    本文介紹款可以自己編曲音樂門鈴電路,它能按順序發(fā)出9個(gè)音符,適合喜歡追求個(gè)性的電子愛好者實(shí)驗(yàn)制作。
    的頭像 發(fā)表于 08-17 10:14 ?3407次閱讀
    制作可以自己<b class='flag-5'>編曲</b>的<b class='flag-5'>音樂</b>門鈴電路資料免費(fèi)下載

    研究人員開發(fā)出了一種稱為LB-WayPtNav-DH的機(jī)器人導(dǎo)航新框架

    加州大學(xué)伯克利分校的研究人員最近開發(fā)了一種新的框架,該框架可以增強(qiáng)辦公室,房屋或博物館等室內(nèi)環(huán)境中人類的機(jī)器人導(dǎo)航能力。他們的模型在arXiv上預(yù)先發(fā)表的篇論文中提出,并在
    發(fā)表于 04-09 11:18 ?916次閱讀

    OpenAI推出Jukebox機(jī)器學(xué)習(xí)框架,可自動(dòng)生成音樂

    近日,由諸多硅谷大亨聯(lián)合建立的人工智能非營(yíng)利組織OpenAI,推出了款可自動(dòng)生成音樂的機(jī)器學(xué)習(xí)框架Jukebox。
    發(fā)表于 05-07 08:41 ?2156次閱讀

    一種基于框架特征的共指消解方法

    基于框架語(yǔ)義的推理是實(shí)現(xiàn)語(yǔ)篇理解、冋答系統(tǒng)等任務(wù)中語(yǔ)義理解的一種有效手段,框架語(yǔ)乂推理通過構(gòu)建漢語(yǔ)篇章句子框架之間的聯(lián)系尋找推理路徑,但框架
    發(fā)表于 03-19 11:35 ?7次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一種具有語(yǔ)義區(qū)域風(fēng)格約束的圖像生成框架

    。文中提出了具有語(yǔ)義區(qū)域風(fēng)格約東的圖像生成框架,利用條件對(duì)抗生成網(wǎng)絡(luò)實(shí)現(xiàn)了圖像分區(qū)域的自適應(yīng)風(fēng)格控制。具體而言,首先獲得圖像的語(yǔ)義分割圖,并使用風(fēng)格編碼器提取岀圖像中不同語(yǔ)乂區(qū)域的風(fēng)
    發(fā)表于 04-13 15:47 ?5次下載
    <b class='flag-5'>一種</b>具有語(yǔ)義區(qū)域風(fēng)格約束的圖像<b class='flag-5'>生成</b><b class='flag-5'>框架</b>

    一種Keil MDK生成BIN文件的簡(jiǎn)易方法。

    一種Keil MDK生成BIN文件的簡(jiǎn)易方法。
    發(fā)表于 01-13 10:18 ?2次下載

    一種新的音樂交互方式開源分享

    電子發(fā)燒友網(wǎng)站提供《一種新的音樂交互方式開源分享.zip》資料免費(fèi)下載
    發(fā)表于 11-03 11:36 ?0次下載
    <b class='flag-5'>一種</b>新的<b class='flag-5'>音樂</b>交互方式開源分享