少妇把腿扒开让我添69式,亚洲欧美精品在线看,欧美成人极品资源在线观看

神經(jīng)網(wǎng)絡(luò)的調(diào)參無疑是一個巨大的工程。

如何在調(diào)參之前擁有更佳的表現(xiàn)？千辛萬苦調(diào)好了但卻過擬合，如何擁有更好的泛化能力？這無疑是人肉調(diào)參的必經(jīng)之痛。一個通用的認(rèn)知是，訓(xùn)練數(shù)據(jù)會限制模型表現(xiàn)的上限，能擁有更好的訓(xùn)練數(shù)據(jù)，無疑成功了一大截兒。

近日，Daniel S. Park 等人在自動語音識別（Automatic Speech Recognition，ASR）模型訓(xùn)練上，找到了一種簡單卻強(qiáng)大的數(shù)據(jù)增強(qiáng)方法——SpecAugment。該操作另辟蹊徑，將原始語音數(shù)據(jù)生成的梅爾倒譜圖直接進(jìn)行圖像變換，擴(kuò)增訓(xùn)練數(shù)據(jù)，化腐朽為神奇，結(jié)果很棒。

啥是自動語音識別

自動語音識別，即依托深度神經(jīng)網(wǎng)絡(luò)模型將語音自動識別為文本輸入，無論是 Siri 助手還是微軟小冰，抑或占據(jù)生活一部分的微信，都有它的身影，相信這個時代的你也早已習(xí)慣用語音轉(zhuǎn)輸入解放雙手。

傳統(tǒng) ASR 模型的原始輸入數(shù)據(jù)一般先經(jīng)過預(yù)處理，將收集的音波轉(zhuǎn)化為頻譜圖如梅爾倒頻譜，也即梅爾頻率倒譜系數(shù)（Mel Frequency Cepstrum Coefficient，MFCC，一定程度上模擬了人耳對聲音的處理特點(diǎn)）的譜圖。

簡單粗暴而有效的改圖：自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | 音波轉(zhuǎn)化為梅爾倒頻譜圖結(jié)果示意圖（來源：Daniel S. Park，et al./ Google Brain）

梅爾倒譜的一般流程是將聲音信號進(jìn)行傅立葉轉(zhuǎn)換得到頻譜，再進(jìn)行取對數(shù)以及取逆傅立葉變換。

傳統(tǒng) ASR 模型擴(kuò)增數(shù)據(jù)一般是將收集到的音波進(jìn)行改變加速、減速、加背景噪音等變換來進(jìn)行數(shù)據(jù)集的豐富，最后，這種擴(kuò)增后的音頻也要轉(zhuǎn)化為頻譜圖。

然而，直接改變頻譜圖進(jìn)行數(shù)據(jù)擴(kuò)增，能否提升模型表現(xiàn)？畢竟，圖像領(lǐng)域的擴(kuò)增手段十分豐富，直接將頻譜作為圖像用一定手段進(jìn)行變換結(jié)果如何？

Daniel S. Park 等人的 SpecAugment 方法證明，這是一個簡單易行的好路子，可以實(shí)現(xiàn)在線訓(xùn)練，計(jì)算成本低廉無需額外數(shù)據(jù)，還能使 ASR 任務(wù) LibriSpeech 960h（語音識別技術(shù)的最權(quán)威主流的開源數(shù)據(jù)集，包括近 1000 小時的英文發(fā)音和對應(yīng)文字）和 Switchboard 300h（交換機(jī)電話語音語料庫）比目前最佳模型的表現(xiàn)更好。

SpecAugment 的“出彩”之處

首先，在模型訓(xùn)練之前將輸入數(shù)據(jù)——音頻數(shù)據(jù)的梅爾倒譜，進(jìn)行圖像處理，這也是 SpecAugment 這條野路出彩的基礎(chǔ)。即對梅爾倒頻譜的橫軸一段時間步長的頻譜進(jìn)行左或右扭轉(zhuǎn)翹曲、或者掩蔽一段時長的譜圖（時間屏蔽，對縱向進(jìn)行掩蔽）、或是某些梅爾頻率的信號（頻率屏蔽，對橫向進(jìn)行掩蔽），得到了一系列的擴(kuò)增樣本。

這樣的處理使得模型能夠?qū)W習(xí)到時間軸上發(fā)生損失變形的音頻、部分頻率缺失的音頻，以及丟失部分語音片段的音頻的特點(diǎn)，增加了訓(xùn)練模型對這些信息的處理能力，也增強(qiáng)模型的泛化能力。

簡單粗暴而有效的改圖：自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | 梅爾倒頻譜的擴(kuò)增變換手段：從上到下依次為沒有應(yīng)用增強(qiáng)、一定時間步長的扭曲，頻率屏蔽和時間屏蔽。（來源：Daniel S. Park，et al/ Google Brain）

模型訓(xùn)練

輸入數(shù)據(jù)處理完畢后，訓(xùn)練語音識別模型，這里采用 LAS（Listen Attend and Spell networks）模型。LAS 模型主要是由 Listener 和 Speller 兩個子模型組成，其中 Listener 是一個聲學(xué)編碼器（Encoder，收集數(shù)據(jù)，相當(dāng)于“聽”），Speller 是一個基于注意力機(jī)制的解碼器（Decoder，將收集的特征翻譯成字符，相當(dāng)于“說”）

訓(xùn)練 SpecAugment 的 Listener 子模型：輸入的梅爾倒譜首先經(jīng)兩層卷積神經(jīng)網(wǎng)絡(luò)（CNN），經(jīng)最大池化且步幅為 2，得到的結(jié)果輸入到 BLSTM（雙向長短期交替記憶模型）中，產(chǎn)生尺寸為 d x w 的基于注意力機(jī)制的特征。

訓(xùn)練 SpecAugment 的 Speller 子模型：將上一步驟中基于注意力機(jī)制產(chǎn)生的特征向量輸入到一個二層 RNN（Recurrent Neural Network）模型中，訓(xùn)練集中的文本已用 WPM（Word Piece Model）進(jìn)行了 token 處理，利用集束搜索（Beam Search），集束寬為 8，得到 token 表示的預(yù)測文本（token 處理即分詞處理，之后進(jìn)行詞嵌入，自然語言處理利用詞嵌入來將詞向量化表示）。至此，實(shí)現(xiàn)語音轉(zhuǎn)文本過程。

提升表現(xiàn)

比較訓(xùn)練集擴(kuò)增前后訓(xùn)練出的 LAS 模型在測試集上的詞錯誤率（Word Error Rate，WER），不改變?nèi)魏纬瑓?shù)，測試結(jié)果錯詞率顯著降低，可見無需調(diào)參，擴(kuò)增訓(xùn)練集效果明顯。

簡單粗暴而有效的改圖：自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | 擴(kuò)增訓(xùn)練集與否的兩個模型在數(shù)據(jù)集 LibriSpeech 上有噪音測試集和無噪音測試集的表現(xiàn)。（來源：Daniel S. Park，et al/ Google Brain）

對于過擬合問題，雖然訓(xùn)練集上利用擴(kuò)增的模型表現(xiàn)與無擴(kuò)增相差并不是很多，但在開發(fā)集上，WER 有明顯的降低，說明模型泛化能力提升，可以預(yù)測未訓(xùn)練過的數(shù)據(jù)，過擬合得到解決。

簡單粗暴而有效的改圖：自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | 擴(kuò)增訓(xùn)練集與否的兩個模型在訓(xùn)練集、有噪音開發(fā)集和無噪音開發(fā)集集上的表現(xiàn)（來源：Daniel S. Park，et al/ Google Brain）

這個模型啥水平？

1）優(yōu)于現(xiàn)有最佳 ASR 模型

擴(kuò)增訓(xùn)練集后調(diào)整模型參數(shù)以及適當(dāng)訓(xùn)練迭代，使得模型表現(xiàn)達(dá)到最佳，在數(shù)據(jù)集 LibriSpeech 960h 和 Switchboard 300h 有無噪音的測試集上，擴(kuò)增模型表現(xiàn)與現(xiàn)有最佳模型的錯詞率結(jié)果對比發(fā)現(xiàn)，擴(kuò)增方法明顯取勝。無論是傳統(tǒng) ASR 模型（如 HMM）還是端到端的神經(jīng)網(wǎng)絡(luò)模型（如 CTC/ASG），采用 SpecAugment 方法訓(xùn)練后的 LAS 模型表現(xiàn)都明顯更好。

簡單粗暴而有效的改圖：自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | LibriSpeech 960h 和 Switchboard 300h 數(shù)據(jù)集上不同模型的表現(xiàn)（來源：Daniel S. Park，et al/ Google Brain）

2）優(yōu)于利用語言模型的 ASR 模型

引入利用大量純文本語料庫訓(xùn)練的語言模型（Language Models，LMs）能夠使 ASR 模型效果大大提升，因?yàn)榭梢杂谜Z料庫中的大量信息使模型功能更強(qiáng)，這也是 ASR 任務(wù)的一個通用做法。語言模型一般是獨(dú)立訓(xùn)練的，使用 ASR 模型時需要占據(jù)一定內(nèi)存進(jìn)行存儲，這使其難以在小型設(shè)備上應(yīng)用。而 SpecAugment 模型的優(yōu)勢是，即使不利用語言模型也優(yōu)于現(xiàn)有引入語言模型的 ASR 模型。這意味著語言模型的大內(nèi)存問題，有了解決之路。

簡單粗暴而有效的改圖：自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | LibriSpeech 960h 和 Switchboard 300h 數(shù)據(jù)集上不同 ASR 模型引入語言模型有否的表現(xiàn)（來源：Daniel S. Park，et al/ Google Brain）

總結(jié)，利用改變頻譜圖的方式擴(kuò)增音頻數(shù)據(jù)樣本，訓(xùn)練出的 ASR 模型表現(xiàn)極佳，優(yōu)于現(xiàn)有最好模型，甚至超過引入語言模型，很好用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4726

瀏覽量
100311
語音識別

語音識別

+關(guān)注

關(guān)注
38

文章
1703

瀏覽量
112421
圖像變換

圖像變換

+關(guān)注

關(guān)注
0

文章
5

瀏覽量
1507

原文標(biāo)題：簡單粗暴而有效的改圖：自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”

文章出處：【微信號：deeptechchina，微信公眾號：deeptechchina】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

車載語音識別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例

的作用。一般來說，車載語音識別系統(tǒng)主要分為前端和后端兩個部分，本文將針對前端語音信號數(shù)據(jù)采集標(biāo)注進(jìn)行實(shí)例講解。

發(fā)表于 06-19 15:52 ?287次閱讀

車載<b class='flag-5'>語音</b><b class='flag-5'>識別</b>系統(tǒng)<b class='flag-5'>語音</b><b class='flag-5'>數(shù)據(jù)</b>采集標(biāo)注案例

車載語音識別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例

發(fā)表于 06-19 15:49 ?401次閱讀

“大模型”釋放數(shù)據(jù)要素價值，軟通動力喚醒企業(yè)沉睡的積累

釋放數(shù)據(jù)要素價值的路徑不止有一條。有一條路相對較短，但多數(shù)企業(yè)學(xué)不來；另一條路正在修，未來可期；

發(fā)表于 05-22 11:36 ?410次閱讀

車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的價值與應(yīng)用

車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的價值與應(yīng)用一、引言隨著智能駕駛技術(shù)的不斷發(fā)展，車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的應(yīng)用越來越廣泛。車內(nèi)

發(fā)表于 02-19 11:47 ?487次閱讀

語音數(shù)據(jù)集：智能駕駛中車內(nèi)語音識別技術(shù)的基石

一、引言在智能駕駛中，車內(nèi)語音識別技術(shù)發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集作為這一技術(shù)的基石，其

發(fā)表于 01-31 16:07 ?443次閱讀

車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的應(yīng)用與挑戰(zhàn)

一、引言隨著智能駕駛技術(shù)的不斷發(fā)展，車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的應(yīng)用越來越廣泛。車內(nèi)語音識別技術(shù)為駕駛員提供了更加便捷和安全的駕駛體驗(yàn)，

發(fā)表于 01-26 18:14 ?1031次閱讀

UCB_SWAP配置信息共16條，寫入一條有效配置后，上一條需寫1使配置無效是為什么？

UCB_SWAP配置信息共16條，寫入一條有效配置后，上一條需寫1使配置無效。經(jīng)過實(shí)測發(fā)現(xiàn)配置是從下至上檢索，取最后一條

發(fā)表于 01-24 08:31

面朝歐洲，邁上“云橋”，走一條無憂絲路

在云橋上走一條無憂絲路，去到歐羅巴的春天

發(fā)表于 01-10 09:44 ?1279次閱讀

面朝歐洲，邁上“云橋”，走<b class='flag-5'>一條</b>無憂絲路

數(shù)據(jù)庫編程大賽：一條SQL計(jì)算撲克牌24點(diǎn)

參加NineData舉辦的數(shù)據(jù)庫編程大賽，展示你的技術(shù)才華！用一條SQL語句解決撲克牌24點(diǎn)的計(jì)算表達(dá)式。這場比賽面向數(shù)據(jù)庫愛好者、開發(fā)者、程序員、DBA等，展示你的編程技能，并有機(jī)會贏得豐厚獎勵。歡迎大家來挑戰(zhàn)！

發(fā)表于 12-21 15:24 ?665次閱讀

<b class='flag-5'>數(shù)據(jù)</b>庫編程大賽：<b class='flag-5'>一條</b>SQL計(jì)算撲克牌24點(diǎn)

離線語音識別與在線語音識別有什么不一樣？

離線語音識別與在線語音識別有什么不一樣？離線語音識別

發(fā)表于 12-12 14:36 ?1091次閱讀

離線語音識別及控制是怎樣的技術(shù)？

了對網(wǎng)絡(luò)依賴的程度。　二、離線語音識別技術(shù)的優(yōu)勢　離線語音識別的優(yōu)勢主要體現(xiàn)在以下幾個方面：　1. 隱私保護(hù)：離線語音

發(fā)表于 11-24 17:41

情感語音識別的研究方法與實(shí)踐

一、引言情感語音識別是指通過計(jì)算機(jī)技術(shù)和人工智能算法自動識別和理解人類語音中的情感信息。為了提高情感語

發(fā)表于 11-16 16:26 ?756次閱讀

車內(nèi)語音識別數(shù)據(jù)：駕駛體驗(yàn)升級與智能出行的未來

車內(nèi)語音識別數(shù)據(jù)是指在汽車內(nèi)部通過語音識別技術(shù)對駕駛員和乘客的語音指令進(jìn)行處理和響應(yīng)的數(shù)據(jù)。隨著

發(fā)表于 11-08 17:01 ?359次閱讀

離線語音識別和控制的工作原理及應(yīng)用

神經(jīng)網(wǎng)絡(luò)（RNN）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）是最常用的兩種技術(shù)。RNN 適用于處理時間序列數(shù)據(jù)，如語音信號，而 CNN 則適用于處理具有網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)，如圖像。通過深度學(xué)習(xí)技術(shù)，可以有效

發(fā)表于 11-07 18:01

語音識別技術(shù)在在線教育領(lǐng)域的應(yīng)用與挑戰(zhàn)

識別技術(shù)，在線教育平臺可以為學(xué)生提供實(shí)時的學(xué)習(xí)輔導(dǎo)。學(xué)生可以通過語音與機(jī)器人老師進(jìn)行互動，提問并獲得解答。這種方式可以有效地解決學(xué)生在學(xué)習(xí)中遇到的問題。2.個性化推薦：結(jié)合語音

發(fā)表于 10-26 14:42 ?390次閱讀

搜索歷史

簡單粗暴而有效的改圖：自動語音識別數(shù)據(jù)擴(kuò)增的“一條野路”

評論

車載語音識別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例

車載語音識別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例

“大模型”釋放數(shù)據(jù)要素價值，軟通動力喚醒企業(yè)沉睡的積累

車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的價值與應(yīng)用

語音數(shù)據(jù)集：智能駕駛中車內(nèi)語音識別技術(shù)的基石

車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的應(yīng)用與挑戰(zhàn)

UCB_SWAP配置信息共16條，寫入一條有效配置后，上一條需寫1使配置無效是為什么？

面朝歐洲，邁上“云橋”，走一條無憂絲路

數(shù)據(jù)庫編程大賽：一條SQL計(jì)算撲克牌24點(diǎn)

離線語音識別與在線語音識別有什么不一樣？

離線語音識別及控制是怎樣的技術(shù)？

情感語音識別的研究方法與實(shí)踐

車內(nèi)語音識別數(shù)據(jù)：駕駛體驗(yàn)升級與智能出行的未來

離線語音識別和控制的工作原理及應(yīng)用

語音識別技術(shù)在在線教育領(lǐng)域的應(yīng)用與挑戰(zhàn)