神經(jīng)網(wǎng)絡(luò)的調(diào)參無疑是一個巨大的工程。
如何在調(diào)參之前擁有更佳的表現(xiàn)?千辛萬苦調(diào)好了但卻過擬合,如何擁有更好的泛化能力?這無疑是人肉調(diào)參的必經(jīng)之痛。一個通用的認(rèn)知是,訓(xùn)練數(shù)據(jù)會限制模型表現(xiàn)的上限,能擁有更好的訓(xùn)練數(shù)據(jù),無疑成功了一大截兒。
近日,Daniel S. Park 等人在自動語音識別(Automatic Speech Recognition,ASR)模型訓(xùn)練上,找到了一種簡單卻強(qiáng)大的數(shù)據(jù)增強(qiáng)方法——SpecAugment。該操作另辟蹊徑,將原始語音數(shù)據(jù)生成的梅爾倒譜圖直接進(jìn)行圖像變換,擴(kuò)增訓(xùn)練數(shù)據(jù),化腐朽為神奇,結(jié)果很棒。
啥是自動語音識別
自動語音識別,即依托深度神經(jīng)網(wǎng)絡(luò)模型將語音自動識別為文本輸入,無論是 Siri 助手還是微軟小冰,抑或占據(jù)生活一部分的微信,都有它的身影,相信這個時代的你也早已習(xí)慣用語音轉(zhuǎn)輸入解放雙手。
傳統(tǒng) ASR 模型的原始輸入數(shù)據(jù)一般先經(jīng)過預(yù)處理,將收集的音波轉(zhuǎn)化為頻譜圖如梅爾倒頻譜,也即梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC,一定程度上模擬了人耳對聲音的處理特點(diǎn))的譜圖。
圖 | 音波轉(zhuǎn)化為梅爾倒頻譜圖結(jié)果示意圖(來源:Daniel S. Park,et al./ Google Brain)
梅爾倒譜的一般流程是將聲音信號進(jìn)行傅立葉轉(zhuǎn)換得到頻譜,再進(jìn)行取對數(shù)以及取逆傅立葉變換。
傳統(tǒng) ASR 模型擴(kuò)增數(shù)據(jù)一般是將收集到的音波進(jìn)行改變加速、減速、加背景噪音等變換來進(jìn)行數(shù)據(jù)集的豐富,最后,這種擴(kuò)增后的音頻也要轉(zhuǎn)化為頻譜圖。
然而,直接改變頻譜圖進(jìn)行數(shù)據(jù)擴(kuò)增,能否提升模型表現(xiàn)?畢竟,圖像領(lǐng)域的擴(kuò)增手段十分豐富,直接將頻譜作為圖像用一定手段進(jìn)行變換結(jié)果如何?
Daniel S. Park 等人的 SpecAugment 方法證明,這是一個簡單易行的好路子,可以實(shí)現(xiàn)在線訓(xùn)練,計(jì)算成本低廉無需額外數(shù)據(jù),還能使 ASR 任務(wù) LibriSpeech 960h(語音識別技術(shù)的最權(quán)威主流的開源數(shù)據(jù)集,包括近 1000 小時的英文發(fā)音和對應(yīng)文字)和 Switchboard 300h(交換機(jī)電話語音語料庫)比目前最佳模型的表現(xiàn)更好。
SpecAugment 的“出彩”之處
首先,在模型訓(xùn)練之前將輸入數(shù)據(jù)——音頻數(shù)據(jù)的梅爾倒譜,進(jìn)行圖像處理,這也是 SpecAugment 這條野路出彩的基礎(chǔ)。即對梅爾倒頻譜的橫軸一段時間步長的頻譜進(jìn)行左或右扭轉(zhuǎn)翹曲、或者掩蔽一段時長的譜圖(時間屏蔽,對縱向進(jìn)行掩蔽)、或是某些梅爾頻率的信號(頻率屏蔽,對橫向進(jìn)行掩蔽),得到了一系列的擴(kuò)增樣本。
這樣的處理使得模型能夠?qū)W習(xí)到時間軸上發(fā)生損失變形的音頻、部分頻率缺失的音頻,以及丟失部分語音片段的音頻的特點(diǎn),增加了訓(xùn)練模型對這些信息的處理能力,也增強(qiáng)模型的泛化能力。
圖 | 梅爾倒頻譜的擴(kuò)增變換手段:從上到下依次為沒有應(yīng)用增強(qiáng)、一定時間步長的扭曲,頻率屏蔽和時間屏蔽。(來源:Daniel S. Park,et al/ Google Brain)
模型訓(xùn)練
輸入數(shù)據(jù)處理完畢后,訓(xùn)練語音識別模型,這里采用 LAS(Listen Attend and Spell networks)模型。LAS 模型主要是由 Listener 和 Speller 兩個子模型組成,其中 Listener 是一個聲學(xué)編碼器(Encoder,收集數(shù)據(jù),相當(dāng)于“聽”),Speller 是一個基于注意力機(jī)制的解碼器(Decoder,將收集的特征翻譯成字符,相當(dāng)于“說”)
訓(xùn)練 SpecAugment 的 Listener 子模型:輸入的梅爾倒譜首先經(jīng)兩層卷積神經(jīng)網(wǎng)絡(luò)(CNN),經(jīng)最大池化且步幅為 2,得到的結(jié)果輸入到 BLSTM(雙向長短期交替記憶模型)中,產(chǎn)生尺寸為 d x w 的基于注意力機(jī)制的特征。
訓(xùn)練 SpecAugment 的 Speller 子模型:將上一步驟中基于注意力機(jī)制產(chǎn)生的特征向量輸入到一個二層 RNN(Recurrent Neural Network)模型中,訓(xùn)練集中的文本已用 WPM(Word Piece Model)進(jìn)行了 token 處理,利用集束搜索(Beam Search),集束寬為 8,得到 token 表示的預(yù)測文本(token 處理即分詞處理,之后進(jìn)行詞嵌入,自然語言處理利用詞嵌入來將詞向量化表示)。至此,實(shí)現(xiàn)語音轉(zhuǎn)文本過程。
提升表現(xiàn)
比較訓(xùn)練集擴(kuò)增前后訓(xùn)練出的 LAS 模型在測試集上的詞錯誤率(Word Error Rate,WER),不改變?nèi)魏纬瑓?shù),測試結(jié)果錯詞率顯著降低,可見無需調(diào)參,擴(kuò)增訓(xùn)練集效果明顯。
圖 | 擴(kuò)增訓(xùn)練集與否的兩個模型在數(shù)據(jù)集 LibriSpeech 上有噪音測試集和無噪音測試集的表現(xiàn)。(來源:Daniel S. Park,et al/ Google Brain)
對于過擬合問題,雖然訓(xùn)練集上利用擴(kuò)增的模型表現(xiàn)與無擴(kuò)增相差并不是很多,但在開發(fā)集上,WER 有明顯的降低,說明模型泛化能力提升,可以預(yù)測未訓(xùn)練過的數(shù)據(jù),過擬合得到解決。
圖 | 擴(kuò)增訓(xùn)練集與否的兩個模型在訓(xùn)練集、有噪音開發(fā)集和無噪音開發(fā)集集上的表現(xiàn)(來源:Daniel S. Park,et al/ Google Brain)
這個模型啥水平?
1)優(yōu)于現(xiàn)有最佳 ASR 模型
擴(kuò)增訓(xùn)練集后調(diào)整模型參數(shù)以及適當(dāng)訓(xùn)練迭代,使得模型表現(xiàn)達(dá)到最佳,在數(shù)據(jù)集 LibriSpeech 960h 和 Switchboard 300h 有無噪音的測試集上,擴(kuò)增模型表現(xiàn)與現(xiàn)有最佳模型的錯詞率結(jié)果對比發(fā)現(xiàn),擴(kuò)增方法明顯取勝。無論是傳統(tǒng) ASR 模型(如 HMM)還是端到端的神經(jīng)網(wǎng)絡(luò)模型(如 CTC/ASG),采用 SpecAugment 方法訓(xùn)練后的 LAS 模型表現(xiàn)都明顯更好。
圖 | LibriSpeech 960h 和 Switchboard 300h 數(shù)據(jù)集上不同模型的表現(xiàn)(來源:Daniel S. Park,et al/ Google Brain)
2)優(yōu)于利用語言模型的 ASR 模型
引入利用大量純文本語料庫訓(xùn)練的語言模型(Language Models,LMs)能夠使 ASR 模型效果大大提升,因?yàn)榭梢杂谜Z料庫中的大量信息使模型功能更強(qiáng),這也是 ASR 任務(wù)的一個通用做法。語言模型一般是獨(dú)立訓(xùn)練的,使用 ASR 模型時需要占據(jù)一定內(nèi)存進(jìn)行存儲,這使其難以在小型設(shè)備上應(yīng)用。而 SpecAugment 模型的優(yōu)勢是,即使不利用語言模型也優(yōu)于現(xiàn)有引入語言模型的 ASR 模型。這意味著語言模型的大內(nèi)存問題,有了解決之路。
圖 | LibriSpeech 960h 和 Switchboard 300h 數(shù)據(jù)集上不同 ASR 模型引入語言模型有否的表現(xiàn)(來源:Daniel S. Park,et al/ Google Brain)
總結(jié),利用改變頻譜圖的方式擴(kuò)增音頻數(shù)據(jù)樣本,訓(xùn)練出的 ASR 模型表現(xiàn)極佳,優(yōu)于現(xiàn)有最好模型,甚至超過引入語言模型,很好用。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4726瀏覽量
100311 -
語音識別
+關(guān)注
關(guān)注
38文章
1703瀏覽量
112421 -
圖像變換
+關(guān)注
關(guān)注
0文章
5瀏覽量
1507
原文標(biāo)題:簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論