日本按摩高潮a级中文片免费,人人综合亚洲无线码另类

自動(dòng)語(yǔ)音識(shí)別（ ASR ）研究通常側(cè)重于高資源語(yǔ)言，如英語(yǔ)，它由數(shù)十萬(wàn)小時(shí)的語(yǔ)音支持。最近的文獻(xiàn)重新關(guān)注更復(fù)雜的語(yǔ)言，如日語(yǔ)。與其他亞洲語(yǔ)言一樣，日語(yǔ)有大量的基本字符集（普通白話中使用了 3000 多個(gè)獨(dú)特的字符），并提出了獨(dú)特的挑戰(zhàn)，例如多個(gè)詞序。

這篇文章討論了最近提高日語(yǔ) ASR 準(zhǔn)確性和速度的工作。首先，我們改進(jìn)了 Conformer ，這是一種最先進(jìn)的 ASR 神經(jīng)網(wǎng)絡(luò)架構(gòu)，在訓(xùn)練和推理速度方面取得了顯著的改進(jìn)，并且沒有精度損失。其次，我們?cè)鰪?qiáng)了一個(gè)具有多頭部自我注意機(jī)制的純深度卷積網(wǎng)絡(luò)，以豐富輸入語(yǔ)音波形的全局上下文表示的學(xué)習(xí)。

語(yǔ)音識(shí)別中的深度稀疏整合器

Conformer 是一種神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)，廣泛應(yīng)用于多種語(yǔ)言的 ASR 系統(tǒng)中，并取得了較高的精度。然而， Conformer 在訓(xùn)練和推斷方面都相對(duì)較慢，因?yàn)樗褂昧硕囝^自我注意，對(duì)于輸入音頻波的長(zhǎng)度，其時(shí)間/內(nèi)存復(fù)雜度為 quadratic 。

這妨礙了它對(duì)長(zhǎng)音頻序列的高效處理，因?yàn)樵谟?xùn)練和推斷過程中需要相對(duì)較高的內(nèi)存占用。這些激勵(lì)了稀疏關(guān)注高效 Conformer 構(gòu)建。此外，由于注意力較少，內(nèi)存成本相對(duì)較低，我們能夠構(gòu)建一個(gè)更深的網(wǎng)絡(luò)，可以處理由大規(guī)模語(yǔ)音數(shù)據(jù)集提供的長(zhǎng)序列。

圖 1.深度稀疏 Conformer 的編碼器模型架構(gòu)

如圖 1 所示，我們?cè)趦蓚€(gè)方向上改進(jìn)了 Conformer 長(zhǎng)序列表示能力：稀疏和深入。我們使用一個(gè)排名標(biāo)準(zhǔn)，只選擇一小部分占主導(dǎo)地位的查詢，而不是整個(gè)查詢集，以節(jié)省計(jì)算注意力得分的時(shí)間。

在執(zhí)行剩余連接時(shí)，使用深度規(guī)范化策略，以確保百級(jí) Conformer 塊的訓(xùn)練。該策略包括使用一個(gè)函數(shù)來貼現(xiàn)編碼器和解碼器部分的參數(shù)，該函數(shù)分別與編碼器層和解碼器層的數(shù)量相關(guān)。

此外，這種深度規(guī)范化策略可確保成功構(gòu)建 10 到 100 層，從而使模型更具表現(xiàn)力。相比之下，與普通 Conformer 相比，深度稀疏 Conformer 的時(shí)間和內(nèi)存成本降低了 10% 到 20% 。

用于語(yǔ)音識(shí)別的注意力增強(qiáng)型 Citrinet

NVIDIA 研究人員提出的 Citrinet 是一種基于端到端卷積連接時(shí)態(tài)分類（ CTC ）的 ASR 模型。為了捕獲本地和全局上下文信息， Citrinet 使用 1D 時(shí)間通道可分離卷積與子字編碼、壓縮和激勵(lì)（ SE ）相結(jié)合，使整個(gè)體系結(jié)構(gòu)與基于變壓器的同類產(chǎn)品相比達(dá)到最先進(jìn)的精度。

將 Citrinet 應(yīng)用于日本 ASR 涉及幾個(gè)挑戰(zhàn)。具體來說，與類似的深度神經(jīng)網(wǎng)絡(luò)模型相比，它的收斂速度相對(duì)較慢，并且更難訓(xùn)練出具有類似精度的模型?？紤]到影響 Citrinet 收斂速度的卷積層多達(dá) 235 個(gè)，我們旨在通過在 Citrinet 塊的卷積模塊中引入多頭部注意來減少 CNN 層，同時(shí)保持 SE 和剩余模塊不變。

圖 2.Citrinet 端到端架構(gòu)和主要構(gòu)建塊

如圖 2 所示，加快訓(xùn)練時(shí)間需要在每個(gè)注意力增強(qiáng)的 Citrinet 塊中減少八個(gè)卷積層。此外，考慮到自我注意對(duì)輸入音頻波的長(zhǎng)度具有二次的時(shí)間/記憶復(fù)雜性，我們將原來的 23 個(gè) Jasper 塊縮減為 8 個(gè)塊，模型尺寸顯著減小。這種設(shè)計(jì)確保了注意力增強(qiáng)的 Citrinet 對(duì)于從 20 秒到 100 秒的長(zhǎng)語(yǔ)音序列達(dá)到了可比的推理時(shí)間。

初步實(shí)驗(yàn)表明，基于注意力的模型收斂于 100 到 200 個(gè)時(shí)間點(diǎn)，而 Citrinet 收斂到最佳錯(cuò)誤率需要 500 到 1000 個(gè)時(shí)間點(diǎn)。在日本 CSJ-500-hour 數(shù)據(jù)集上的實(shí)驗(yàn)表明，與 Citrinet （ 80% 的訓(xùn)練時(shí)間）和 Conformer （ 40% 的訓(xùn)練時(shí)間和 18.5% 的模型大小）相比， Citrinet 的注意力需要更少的塊層，收斂速度更快，字符錯(cuò)誤率更低。

總結(jié)

通常，我們提出兩種新的架構(gòu)來構(gòu)建端到端的日本 ASR 模型。在一個(gè)方向上，我們改進(jìn)了基于變壓器的 Conformer 訓(xùn)練和推斷速度，并保持了其準(zhǔn)確性。我們成功地構(gòu)建了更稀疏和更深入的 Conformer 模型。我們還通過引入多頭部自我注意機(jī)制和修剪 80% 的 CNN 層，提高了基于 CNN 的 Citrinet 收斂速度和準(zhǔn)確性。這些建議是通用的，適用于其他亞洲語(yǔ)言。

關(guān)于作者

吳顯超博士是 NVIDIA 的高級(jí)解決方案架構(gòu)師。他專注于語(yǔ)音處理和自然語(yǔ)言處理的研究領(lǐng)域。他支持客戶在 NVIDIA SDK （如威震天 LM 、 NeMo 和 Riva ）下構(gòu)建大規(guī)模預(yù)處理模型和對(duì)話人工智能平臺(tái)。

Somshubra Majumdar 是 NVIDIA NeMo 工具包的資深研究科學(xué)家。他于 2016 年獲得孟買大學(xué)計(jì)算機(jī)工程學(xué)士學(xué)位， 2018 年獲得芝加哥伊利諾伊大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位。他的研究興趣包括自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音分類、時(shí)間序列分類和深度學(xué)習(xí)的實(shí)際應(yīng)用。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
44

文章
3554

瀏覽量
133804
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1703

瀏覽量
112425
ASR

ASR

+關(guān)注

關(guān)注
2

文章
35

瀏覽量
18688

評(píng)論

相關(guān)推薦

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割以及自然語(yǔ)言處理等領(lǐng)域。首先分析了典型卷積神經(jīng)網(wǎng)絡(luò)模型為提高其性能增加網(wǎng)絡(luò)深度以及寬度的模型結(jié)構(gòu)，分析了采用注意力機(jī)制進(jìn)一步提升模型性能的網(wǎng)絡(luò)結(jié)構(gòu)，然后歸納

發(fā)表于 08-02 10:39

μC/OS-II 任務(wù)調(diào)度機(jī)制的改進(jìn)

介紹μC/OS-II 任務(wù)調(diào)度機(jī)制,并提出一種改進(jìn)方法,使μC/OS-II變成一個(gè)兼?zhèn)鋵?shí)時(shí)與分時(shí)任務(wù)調(diào)度機(jī)制的操作系統(tǒng)；論述改進(jìn)后系統(tǒng)的特點(diǎn)和要注

發(fā)表于 04-15 11:21 ?14次下載

Snort匹配機(jī)制的改進(jìn)

基于規(guī)則的模式匹配是Snort 檢測(cè)引擎的主要機(jī)制，本文在結(jié)合協(xié)議分析和模式匹配的基礎(chǔ)上,對(duì)Snort 匹配機(jī)制進(jìn)行了改進(jìn)。首先對(duì)從網(wǎng)絡(luò)中獲取的數(shù)據(jù)包進(jìn)行預(yù)先處理，利用協(xié)議分

發(fā)表于 12-18 17:35 ?14次下載

ASR控制系統(tǒng),ASR控制系統(tǒng)是什么意思

ASR控制系統(tǒng),ASR控制系統(tǒng)是什么意思如圖1所示為ASR控制系統(tǒng)的原理框圖。

發(fā)表于 03-11 17:40 ?1.7w次閱讀

維納濾波反卷積算法的改進(jìn)

應(yīng)用于相關(guān)辨識(shí)中的維納濾波反卷積算法對(duì)噪聲的適應(yīng)性不理想，辨識(shí)效果不佳。據(jù)此分析了維納濾波反卷積算法在對(duì)大地辨識(shí)的過程中對(duì)噪聲適應(yīng)性不理想的原因，并提出了相應(yīng)的改進(jìn)算法：根據(jù)檢測(cè)系統(tǒng)沖激響應(yīng)的頻譜

發(fā)表于 11-16 11:01 ?11次下載

卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值反向傳播機(jī)制和MATLAB的實(shí)現(xiàn)方法

降低了網(wǎng)絡(luò)需要訓(xùn)練的數(shù)量級(jí)。本文以MINST手寫體數(shù)據(jù)庫(kù)為訓(xùn)練樣本，討論卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值反向傳播機(jī)制和MATLAB的實(shí)現(xiàn)方法；對(duì)激活函數(shù)tanh和relu梯度消失問題進(jìn)行分析和優(yōu)化，對(duì)改進(jìn)后的激活函數(shù)進(jìn)行訓(xùn)練，得出最優(yōu)的修正參

發(fā)表于 12-06 15:29 ?14次下載

卷積神經(jīng)網(wǎng)絡(luò)的七個(gè)注意事項(xiàng)

卷積神經(jīng)網(wǎng)絡(luò)的七個(gè)注意事項(xiàng)

發(fā)表于 08-24 16:09 ?3802次閱讀

結(jié)合改進(jìn)Fisher判別準(zhǔn)則與GRV模塊的卷積神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)（CNN）在建模過程中由于數(shù)據(jù)樣本量不足容易岀現(xiàn)過擬合現(xiàn)象，且對(duì)隨機(jī)數(shù)據(jù)泛化能力較差。為此，設(shè)計(jì)一種結(jié)合改進(jìn) Fisher判別準(zhǔn)則與GRⅤ模塊的卷積神經(jīng)網(wǎng)絡(luò)（ FDCN

發(fā)表于 03-17 11:11 ?4次下載

基于通道注意力機(jī)制的SSD目標(biāo)檢測(cè)算法

為提升原始SSD算法的小目標(biāo)檢測(cè)精度及魯棒性，提出一種基于通道注意力機(jī)制的SSD目標(biāo)檢測(cè)算法。在原始SSD算法的基礎(chǔ)上對(duì)高層特征圖進(jìn)行全局池化操作，結(jié)合通道注意力

發(fā)表于 03-25 11:04 ?20次下載

結(jié)合注意力機(jī)制的改進(jìn)深度學(xué)習(xí)光流網(wǎng)絡(luò)

為提升基于編解碼架構(gòu)的U型網(wǎng)絡(luò)在深度學(xué)習(xí)光流估計(jì)中的精度，提岀了一種結(jié)合注意力機(jī)制的改進(jìn)有監(jiān)督深度學(xué)習(xí)光流網(wǎng)絡(luò)。網(wǎng)絡(luò)由收縮和擴(kuò)張兩部分組成，收縮部分利用一系列

發(fā)表于 04-07 13:56 ?4次下載

基于循環(huán)卷積注意力模型的文本情感分類方法

和全局信息。文中針對(duì)單標(biāo)記和多標(biāo)記情感分類任務(wù)，提出一種循環(huán)卷積注意力模型（ LSTM-CNN-ATT，LCA）。該模型利用注意力機(jī)制融合卷積

發(fā)表于 04-14 14:39 ?10次下載

結(jié)合注意力機(jī)制的跨域服裝檢索方法

針對(duì)跨域服裝檢索中服裝商品圖像拍攝嚴(yán)格約束光照、背景等條件，而用戶圖像源自復(fù)雜多變的日常生活場(chǎng)景，難以避免背景干擾以及視角、姿態(tài)引起的服裝形變等問題。提出一種結(jié)合注意力機(jī)制的跨域服裝檢索方法。利用

發(fā)表于 05-12 14:19 ?2次下載

改進(jìn)膠囊網(wǎng)絡(luò)優(yōu)化分成卷積的亞健康識(shí)別

針對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)（CNN）為獲得高準(zhǔn)確率不斷堆疊卷積層、池化層致使模型結(jié)構(gòu)復(fù)雜、訓(xùn)練時(shí)間長(zhǎng)且數(shù)據(jù)處理方式單一的問題，提出改進(jìn)膠囊網(wǎng)絡(luò)優(yōu)化分層卷積的亞健康識(shí)別算法。首先，對(duì)原始振動(dòng)數(shù)

發(fā)表于 06-03 16:16 ?7次下載

如何透徹理解卷積的數(shù)據(jù)原理與機(jī)制

作者以拋球?qū)嶒?yàn)為例講解了許多卷積的數(shù)學(xué)原理和機(jī)制，并通過卷積來表述卷積神經(jīng)網(wǎng)絡(luò)。文章附有大量圖片解釋，幫助大家更容易理解。拋球?qū)嶒?yàn) -- Ball drop experiment 想

發(fā)表于 06-16 16:43 ?1867次閱讀

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制 卷積神經(jīng)網(wǎng)絡(luò)中常用的Attention 參考注意力機(jī)制簡(jiǎn)介與分類注意

發(fā)表于 05-22 09:46 ?0次下載