0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

速度提升270倍!微軟和浙大聯(lián)合推出全新語(yǔ)音合成系統(tǒng)FastSpeech

WpOh_rgznai100 ? 來(lái)源:yxw ? 2019-06-06 14:09 ? 次閱讀

目前,基于神經(jīng)網(wǎng)絡(luò)的端到端文本到語(yǔ)音合成技術(shù)發(fā)展迅速,但仍面臨不少問(wèn)題——合成速度慢、穩(wěn)定性差、可控性缺乏等。為此,微軟亞洲研究院機(jī)器學(xué)習(xí)組和微軟(亞洲)互聯(lián)網(wǎng)工程院語(yǔ)音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了一種基于Transformer的新型前饋網(wǎng)絡(luò)FastSpeech,兼具快速、魯棒、可控等特點(diǎn)。與自回歸的Transformer TTS相比,F(xiàn)astSpeech將梅爾譜的生成速度提高了近270倍,將端到端語(yǔ)音合成速度提高了38倍,單GPU上的語(yǔ)音合成速度達(dá)到了實(shí)時(shí)語(yǔ)音速度的30倍。

近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的端到端文本到語(yǔ)音合成(Text-to-Speech,TTS)技術(shù)取了快速發(fā)展。與傳統(tǒng)語(yǔ)音合成中的拼接法(concatenative synthesis)和參數(shù)法(statistical parametric synthesis)相比,端到端語(yǔ)音合成技術(shù)生成的聲音通常具有更好的聲音自然度。但是,這種技術(shù)依然面臨以下幾個(gè)問(wèn)題:

合成語(yǔ)音的速度較慢:端到端模型通常以自回歸(Autoregressive)的方式生成梅爾譜(Mel-Spectrogram),再通過(guò)聲碼器(Vocoder)合成語(yǔ)音,而一段語(yǔ)音的梅爾譜通常能到幾百上千幀,導(dǎo)致合成速度較慢;

合成的語(yǔ)音穩(wěn)定性較差:端到端模型通常采用編碼器-注意力-解碼器(Encoder-Attention-Decoder)機(jī)制進(jìn)行自回歸生成,由于序列生成的錯(cuò)誤傳播(Error Propagation)以及注意力對(duì)齊不準(zhǔn),導(dǎo)致出現(xiàn)重復(fù)吐詞或漏詞現(xiàn)象;

缺乏可控性:自回歸的神經(jīng)網(wǎng)絡(luò)模型自動(dòng)決定一條語(yǔ)音的生成長(zhǎng)度,無(wú)法顯式地控制生成語(yǔ)音的語(yǔ)速或者韻律停頓等。

為了解決上述的一系列問(wèn)題,微軟亞洲研究院機(jī)器學(xué)習(xí)組和微軟(亞洲)互聯(lián)網(wǎng)工程院語(yǔ)音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了一種基于Transformer的新型前饋網(wǎng)絡(luò)FastSpeech,可以并行、穩(wěn)定、可控地生成高質(zhì)量的梅爾譜,再借助聲碼器并行地合成聲音。

在LJSpeech數(shù)據(jù)集上的實(shí)驗(yàn)表明,F(xiàn)astSpeech除了在語(yǔ)音質(zhì)量方面可以與傳統(tǒng)端到端自回歸模型(如Tacotron2和Transformer TTS)相媲美,還具有以下幾點(diǎn)優(yōu)勢(shì):

快速:與自回歸的Transformer TTS相比,F(xiàn)astSpeech將梅爾譜的生成速度提高了近270倍,將端到端語(yǔ)音合成速度提高了近38倍,單GPU上的語(yǔ)音合成速度是實(shí)時(shí)語(yǔ)音速度的30倍;

魯棒:幾乎完全消除了合成語(yǔ)音中重復(fù)吐詞和漏詞問(wèn)題;

可控:可以平滑地調(diào)整語(yǔ)音速度和控制停頓以部分提升韻律。

模型框架

圖1. FastSpeech網(wǎng)絡(luò)架構(gòu)

前饋Transformer架構(gòu)

FastSpeech采用一種新型的前饋Transformer網(wǎng)絡(luò)架構(gòu),拋棄掉傳統(tǒng)的編碼器-注意力-解碼器機(jī)制,如圖1(a)所示。其主要模塊采用Transformer的自注意力機(jī)制(Self-Attention)以及一維卷積網(wǎng)絡(luò)(1D Convolution),我們將其稱之為FFT塊(Feed-Forward Transformer Block, FFT Block),如圖1(b)所示。前饋Transformer堆疊多個(gè)FFT塊,用于音素(Phoneme)到梅爾譜變換,音素側(cè)和梅爾譜側(cè)各有N個(gè)FFT塊。特別注意的是,中間有一個(gè)長(zhǎng)度調(diào)節(jié)器(Length Regulator),用來(lái)調(diào)節(jié)音素序列和梅爾譜序列之間的長(zhǎng)度差異。

長(zhǎng)度調(diào)節(jié)器

長(zhǎng)度調(diào)節(jié)器如圖1(c)所示。由于音素序列的長(zhǎng)度通常小于其梅爾譜序列的長(zhǎng)度,即每個(gè)音素對(duì)應(yīng)于幾個(gè)梅爾譜序列,我們將每個(gè)音素對(duì)齊的梅爾譜序列的長(zhǎng)度稱為音素持續(xù)時(shí)間。長(zhǎng)度調(diào)節(jié)器通過(guò)每個(gè)音素的持續(xù)時(shí)間將音素序列平鋪以匹配到梅爾譜序列的長(zhǎng)度。我們可以等比例地延長(zhǎng)或者縮短音素的持續(xù)時(shí)間,用于聲音速度的控制。此外,我們還可以通過(guò)調(diào)整句子中空格字符的持續(xù)時(shí)間來(lái)控制單詞之間的停頓,從而調(diào)整聲音的部分韻律。

音素持續(xù)時(shí)間預(yù)測(cè)器

音素持續(xù)時(shí)間預(yù)測(cè)對(duì)長(zhǎng)度調(diào)節(jié)器來(lái)說(shuō)非常重要。如圖1(d)所示,音素持續(xù)時(shí)間預(yù)測(cè)器包括一個(gè)2層一維卷積網(wǎng)絡(luò),以及疊加一個(gè)線性層輸出標(biāo)量用以預(yù)測(cè)音素的持續(xù)時(shí)間。這個(gè)模塊堆疊在音素側(cè)的FFT塊之上,使用均方誤差(MSE)作為損失函數(shù),與FastSpeech模型協(xié)同訓(xùn)練。我們的音素持續(xù)時(shí)間的真實(shí)標(biāo)簽信息是從一個(gè)額外的基于自回歸的Transformer TTS模型中抽取encoder-decoder之間的注意力對(duì)齊信息得到的,詳細(xì)信息可查閱文末論文。

實(shí)驗(yàn)評(píng)估

為了驗(yàn)證FastSpeech模型的有效性,我們從聲音質(zhì)量、生成速度、魯棒性和可控制性幾個(gè)方面來(lái)進(jìn)行了評(píng)估。

聲音質(zhì)量

我們選用LJSpeech數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),LJSpeech包含13100個(gè)英語(yǔ)音頻片段和相應(yīng)的文本,音頻的總長(zhǎng)度約為24小時(shí)。我們將數(shù)據(jù)集分成3組:300個(gè)樣本作為驗(yàn)證集,300個(gè)樣本作為測(cè)試集,剩下的12500個(gè)樣本用來(lái)訓(xùn)練。

我們對(duì)測(cè)試樣本作了MOS測(cè)試,每個(gè)樣本至少被20個(gè)英語(yǔ)母語(yǔ)評(píng)測(cè)者評(píng)測(cè)。MOS指標(biāo)用來(lái)衡量聲音接近人聲的自然度和音質(zhì)。我們將FastSpeech方法與以下方法進(jìn)行對(duì)比:1) GT, 真實(shí)音頻數(shù)據(jù);2) GT (Mel + WaveGlow), 用WaveGlow作為聲碼器將真實(shí)梅爾譜轉(zhuǎn)換得到的音頻;3) Tacotron 2 (Mel + WaveGlow);4) Transformer TTS (Mel + WaveGlow);5) Merlin (WORLD), 一種常用的參數(shù)法語(yǔ)音合成系統(tǒng),并且采用WORLD作為聲碼器。

從表1中可以看出,我們的音質(zhì)幾乎可以與自回歸的Transformer TTS和Tacotron 2相媲美。

FastSpeech合成的聲音Demo:

文字:“The result of the recommendation of the committee of 1862 was the Prison Act of 1865”

合成速度

我們比較FastSpeech與具有近似參數(shù)量的Transformer TTS的語(yǔ)音合成速度。從表2可以看出,在梅爾譜的生成速度上,F(xiàn)astSpeech比自回歸的Transformer TTS提速將近270倍;在端到端(合成語(yǔ)音)的生成速度上,F(xiàn)astSpeech比自回歸的Transformer TTS提速將近38倍。FastSpeech平均合成一條語(yǔ)音的時(shí)間為0.18s,由于我們的語(yǔ)音平均時(shí)長(zhǎng)為6.2s,我們的模型在單GPU上的語(yǔ)音合成速度是實(shí)時(shí)語(yǔ)音速度的30倍(6.2/0.18)。

圖2展示了測(cè)試集上生成語(yǔ)音的耗時(shí)和生成的梅爾譜長(zhǎng)度(梅爾譜長(zhǎng)度與語(yǔ)音長(zhǎng)度成正比)的可視化關(guān)系圖??梢钥闯觯S著生成語(yǔ)音長(zhǎng)度的增大,F(xiàn)astSpeech的生成耗時(shí)并沒(méi)有發(fā)生較大變化,而Transformer TTS的速度對(duì)長(zhǎng)度非常敏感。這也表明我們的方法非常有效地利用了GPU的并行性實(shí)現(xiàn)了加速。

圖2. 生成語(yǔ)音的耗時(shí)與生成的梅爾譜長(zhǎng)度的可視化關(guān)系圖

魯棒性

自回歸模型中的編碼器-解碼器注意力機(jī)制可能導(dǎo)致音素和梅爾譜之間的錯(cuò)誤對(duì)齊,進(jìn)而導(dǎo)致生成的語(yǔ)音出現(xiàn)重復(fù)吐詞或漏詞。為了評(píng)估FastSpeech的魯棒性,我們選擇微軟(亞洲)互聯(lián)網(wǎng)工程院語(yǔ)音團(tuán)隊(duì)產(chǎn)品線上使用的50個(gè)較難的文本對(duì)FastSpeech和基準(zhǔn)模型Transformer TTS魯棒性進(jìn)行測(cè)試。從下表可以看出,Transformer TTS的句級(jí)錯(cuò)誤率為34%,而FastSpeech幾乎可以完全消除重復(fù)吐詞和漏詞。

語(yǔ)速調(diào)節(jié)

FastSpeech可以通過(guò)長(zhǎng)度調(diào)節(jié)器很方便地調(diào)節(jié)音頻的語(yǔ)速。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),從0.5x到1.5x變速,F(xiàn)astSpeech生成的語(yǔ)音清晰且不失真。

消融對(duì)比實(shí)驗(yàn)

我們也比較了FastSpeech中一些重要模塊和訓(xùn)練方法(包括FFT中的一維卷積、序列級(jí)別的知識(shí)蒸餾技術(shù)和參數(shù)初始化)對(duì)生成音質(zhì)效果的影響,通過(guò)CMOS的結(jié)果來(lái)衡量影響程度。由下表可以看出,這些模塊和方法確實(shí)有助于我們模型效果的提升。

未來(lái),我們將繼續(xù)提升FastSpeech模型在生成音質(zhì)上的表現(xiàn),并且將會(huì)把該模型應(yīng)用到其它語(yǔ)言(例如中文)、多說(shuō)話人和低資源場(chǎng)景中。我們還會(huì)嘗試將FastSpeech與并行神經(jīng)聲碼器結(jié)合在一起訓(xùn)練,形成一個(gè)完全端到端訓(xùn)練的語(yǔ)音到文本并行架構(gòu)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6537

    瀏覽量

    103818
  • 互聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    54

    文章

    11040

    瀏覽量

    102449
  • 語(yǔ)音合成系統(tǒng)

    關(guān)注

    0

    文章

    3

    瀏覽量

    6351

原文標(biāo)題:速度提升270倍!微軟和浙大聯(lián)合推出全新語(yǔ)音合成系統(tǒng)FastSpeech

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Commvault與Pure Storage聯(lián)合推出網(wǎng)絡(luò)就緒解決方案

    混合云網(wǎng)絡(luò)彈性和數(shù)據(jù)保護(hù)解決方案的領(lǐng)先提供商Commvault(納斯達(dá)克代碼:CVLT)宣布與Pure Storage聯(lián)合推出一項(xiàng)網(wǎng)絡(luò)就緒解決方案。該解決方案能夠在幫助企業(yè)遵守不斷變化的嚴(yán)格法規(guī)方面發(fā)揮關(guān)鍵作用。
    的頭像 發(fā)表于 10-15 09:16 ?316次閱讀

    微軟和日立達(dá)成價(jià)值數(shù)十億美元的戰(zhàn)略合作

    微軟和日本知名公司日立近日宣布了一項(xiàng)價(jià)值數(shù)十億美元的戰(zhàn)略合作計(jì)劃,旨在未來(lái)三年內(nèi)共同推動(dòng)生成式人工智能服務(wù)的廣泛應(yīng)用。根據(jù)合作協(xié)議,日立將深度整合微軟云、Azure開(kāi)放人工智能服務(wù)、Dynamics
    的頭像 發(fā)表于 06-06 09:47 ?416次閱讀

    微軟網(wǎng)頁(yè)版PPT新增語(yǔ)音識(shí)別及字幕生成功能

    據(jù)報(bào)道,微軟計(jì)劃于今年六月份推出網(wǎng)頁(yè)版PowerPoint全新語(yǔ)音識(shí)別功能。此項(xiàng)功能將能夠監(jiān)控PowerPoint視頻中的聲音,進(jìn)而自動(dòng)生成字幕。
    的頭像 發(fā)表于 05-16 14:36 ?322次閱讀

    共享充電寶語(yǔ)音芯片ic方案支持遠(yuǎn)程4g無(wú)線更新語(yǔ)音

    共享充電寶語(yǔ)音芯片ic方案支持遠(yuǎn)程4g無(wú)線wifi藍(lán)牙更新語(yǔ)音 共享充電寶已經(jīng)是遍布在大街小巷的好產(chǎn)品,解決了攜帶充電寶麻煩的痛點(diǎn) 但是很多的共享充電寶在人機(jī)交互方便,還做得不夠好,比如:借、還設(shè)備沒(méi)有語(yǔ)音提示,相關(guān)的狀態(tài)也
    的頭像 發(fā)表于 05-13 10:29 ?434次閱讀
    共享充電寶<b class='flag-5'>語(yǔ)音</b>芯片ic方案支持遠(yuǎn)程4g無(wú)線更<b class='flag-5'>新語(yǔ)音</b>

    微軟和OpenAI計(jì)劃投資1000億美元建造“星際之門(mén)”AI超級(jí)計(jì)算機(jī)

    微軟和OpenAI計(jì)劃投資1000億美元建造“星際之門(mén)”AI超級(jí)計(jì)算機(jī)這一消息屬實(shí)。
    的頭像 發(fā)表于 04-11 10:14 ?459次閱讀

    微軟和Quantinum宣布在量子計(jì)算領(lǐng)域?qū)崿F(xiàn)重大突破

    微軟和Quantinum日前表示,他們通過(guò)提高量子計(jì)算的可靠性,在實(shí)現(xiàn)量子計(jì)算商業(yè)化方面邁出了關(guān)鍵一步。
    的頭像 發(fā)表于 04-07 10:53 ?538次閱讀

    安富利聯(lián)合TE Connectivity推出全新WiFi 6E天線解決方案

    隨著WiFi 6E技術(shù)的興起,網(wǎng)絡(luò)連接體驗(yàn)正迎來(lái)一場(chǎng)革新。安富利與TE Connectivity(TE)近日聯(lián)合推出全新的WiFi 6E天線解決方案,該方案以其卓越的頻段覆蓋和增強(qiáng)的頻率帶寬,為用戶、企業(yè)以及服務(wù)提供商帶來(lái)了前所未有的連接價(jià)值。
    的頭像 發(fā)表于 03-07 09:15 ?811次閱讀

    Wipro與Nokia聯(lián)合推出5G專用無(wú)線解決方案,加速企業(yè)數(shù)字化轉(zhuǎn)型

    領(lǐng)先的技術(shù)服務(wù)和咨詢公司W(wǎng)ipro Limited (NYSE: WIT, BSE: 507685, NSE: WIPRO) 今天宣布與Nokia (NYSE: NOK) 聯(lián)合推出專用無(wú)線解決方案
    的頭像 發(fā)表于 02-27 14:02 ?307次閱讀

    人形機(jī)器人初創(chuàng)公司Figure AI與微軟和OpenAI展開(kāi)融資談判

    近日,人形機(jī)器人初創(chuàng)公司Figure AI Inc.正與微軟和OpenAI展開(kāi)融資談判,目標(biāo)籌集高達(dá)5億美元的資金。據(jù)悉,微軟和OpenAI可能分別投資9500萬(wàn)美元和500萬(wàn)美元。如果談判成功,這筆資金將使Figure AI的估值達(dá)到約19億美元,不包括新資金。
    的頭像 發(fā)表于 02-04 11:00 ?834次閱讀

    微軟和OpenAI洽談注資人形機(jī)器人公司

    微軟和OpenAI正在與領(lǐng)先的人形機(jī)器人公司Figure洽談新一輪融資事宜。據(jù)透露,本輪融資金額最高可能達(dá)到5億美元。
    的頭像 發(fā)表于 02-02 10:41 ?636次閱讀

    語(yǔ)音合成技術(shù)在智能駕駛中的創(chuàng)新與應(yīng)用

    的發(fā)展趨勢(shì)。 二、語(yǔ)音合成技術(shù)的創(chuàng)新 語(yǔ)音質(zhì)量的提升:隨著深度學(xué)習(xí)等技術(shù)的不斷發(fā)展,語(yǔ)音合成技術(shù)
    的頭像 發(fā)表于 02-01 18:09 ?568次閱讀

    語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用與展望

    體驗(yàn)。本文將探討語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用、優(yōu)勢(shì)以及未來(lái)發(fā)展趨勢(shì)。 二、語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用 導(dǎo)航與路線指引:通過(guò)語(yǔ)音
    的頭像 發(fā)表于 02-01 17:50 ?461次閱讀

    WT588F02B語(yǔ)音芯片:在線更新語(yǔ)音內(nèi)容的應(yīng)用優(yōu)勢(shì)

    隨著科技的飛速發(fā)展,人機(jī)交互技術(shù)在電子產(chǎn)品中的應(yīng)用越來(lái)越廣泛。其中,語(yǔ)音芯片作為實(shí)現(xiàn)人機(jī)交互的關(guān)鍵組件,發(fā)揮著重要的作用。唯創(chuàng)知音推出的WT588F02B語(yǔ)音芯片,以其出色的性能和創(chuàng)新的功能,成為
    的頭像 發(fā)表于 12-19 08:38 ?331次閱讀
    WT588F02B<b class='flag-5'>語(yǔ)音</b>芯片:在線更<b class='flag-5'>新語(yǔ)音</b>內(nèi)容的應(yīng)用優(yōu)勢(shì)

    SiC晶圓劃片工藝:速度提升100,芯片增加13%

    近日,一家日本廠商發(fā)布了一種全新的SiC晶圓劃片工藝,與傳統(tǒng)工藝相比,這項(xiàng)技術(shù)可將劃片速度提升100,而且可以幫助SiC廠商增加13%的芯片數(shù)量。
    的頭像 發(fā)表于 11-21 18:15 ?2193次閱讀
    SiC晶圓劃片工藝:<b class='flag-5'>速度</b><b class='flag-5'>提升</b>100<b class='flag-5'>倍</b>,芯片增加13%

    科普語(yǔ)音芯片和語(yǔ)音合成芯片的不同之處

     可發(fā)聲芯片分為語(yǔ)音芯片和語(yǔ)音合成芯片,二者在技術(shù)和用途上不同。語(yǔ)音合成芯片能將任意文字實(shí)時(shí)轉(zhuǎn)換并朗讀出來(lái),支持所有中文文本
    的頭像 發(fā)表于 10-31 15:42 ?515次閱讀