欧美欲妇激情视频在线,男人的天堂va在线无码,97一区二区三区四区久久

以下研究成果來(lái)自“云知聲—上海師范大學(xué)自然人機(jī)交互聯(lián)合實(shí)驗(yàn)室”。

目前，深度學(xué)習(xí)已經(jīng)在機(jī)器學(xué)習(xí)應(yīng)用的各個(gè)領(lǐng)域取得了非常出色的表現(xiàn)，其成功在很大程度上取決于大數(shù)據(jù)和與之匹配的計(jì)算能力。深度學(xué)習(xí)的特性決定了它需要很多的數(shù)據(jù)進(jìn)行學(xué)習(xí)，從而得出模型來(lái)完成特定任務(wù)，比如，大詞匯量連續(xù)語(yǔ)音識(shí)別上的成功就取決于海量的用于聲學(xué)模型(acoustic model, AM) 訓(xùn)練的帶標(biāo)注的語(yǔ)料庫(kù)，借助GPU集群，使得深度學(xué)習(xí)算法和數(shù)據(jù)得到高效完美的結(jié)合，從而帶來(lái)了語(yǔ)音識(shí)別性能的顯著提升，也推動(dòng)了語(yǔ)音識(shí)別技術(shù)的實(shí)際產(chǎn)品落地。

通常，我們把需要在大量帶標(biāo)注的語(yǔ)料庫(kù)上進(jìn)行的聲學(xué)模型訓(xùn)練稱為“有監(jiān)督的AM訓(xùn)練”。然而，眾所周知，用人工來(lái)標(biāo)注大量的數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的代價(jià)非常大，需要耗費(fèi)大量的人力和財(cái)力，同時(shí)還伴隨著高昂的時(shí)間成本，繁瑣的校驗(yàn)流程。因此，無(wú)監(jiān)督或半監(jiān)督AM訓(xùn)練成為當(dāng)前語(yǔ)音識(shí)別的研究前沿和熱點(diǎn)。下面借用頂級(jí)語(yǔ)音專家、騰訊AI Lab杰出科學(xué)家俞棟老師的話（頂級(jí)語(yǔ)音專家、MSR首席研究員俞棟：語(yǔ)音識(shí)別的四大前沿研究）簡(jiǎn)單科普一下有監(jiān)督，半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別。

“有監(jiān)督學(xué)習(xí)是比較 well-defined，有比較明確的任務(wù)。目前來(lái)講，深度學(xué)習(xí)對(duì)這一類問(wèn)題效果比較好。無(wú)監(jiān)督學(xué)習(xí)的目的是要尋找數(shù)據(jù)中的潛在規(guī)律。很多情況下，它試圖尋找某種特征變換和相對(duì)應(yīng)的生成模型來(lái)表達(dá)原始數(shù)據(jù)。但無(wú)監(jiān)督學(xué)習(xí)不僅本身困難，對(duì)無(wú)監(jiān)督學(xué)習(xí)系統(tǒng)的評(píng)價(jià)也很難。原因是通過(guò)無(wú)監(jiān)督學(xué)習(xí)找到的規(guī)律不一定對(duì)你將來(lái)的任務(wù)有幫助，或者它對(duì)某一任務(wù)有幫助，換一個(gè)任務(wù)就沒(méi)有幫助了。半監(jiān)督學(xué)習(xí)介于兩者中間。因?yàn)槟阋呀?jīng)有一部分標(biāo)注信息了，所以你的任務(wù)是明確的，不存在不知如何評(píng)估的問(wèn)題?！?/p>

目前，在語(yǔ)音識(shí)別的聲學(xué)模型無(wú)監(jiān)督學(xué)習(xí)方面，工業(yè)界和學(xué)術(shù)界的想法都不少，但尚未有成功的案列。我們知道，在有大量標(biāo)注數(shù)據(jù)集的前提下，最新的有監(jiān)督模型總是表現(xiàn)得比無(wú)監(jiān)督訓(xùn)練模型更好。但鑒于有監(jiān)督模型訓(xùn)練所需的高昂成本，因此，如何充分利用少量的帶標(biāo)注數(shù)據(jù)來(lái)挖掘大量無(wú)標(biāo)注數(shù)據(jù)中的有用信息的半監(jiān)督AM學(xué)習(xí)受到研究者的關(guān)注。

下面是我們?cè)诮梃b傳統(tǒng)語(yǔ)音識(shí)別半監(jiān)督AM訓(xùn)練算法的基礎(chǔ)上，提出的半監(jiān)督AM學(xué)習(xí)方案：

簡(jiǎn)述大數(shù)據(jù)的半監(jiān)督聲學(xué)模型訓(xùn)練操作方法

圖1. Unisound半監(jiān)督AM學(xué)習(xí)架構(gòu)圖

傳統(tǒng)的半監(jiān)督AM學(xué)習(xí)大多是基于GMM-HMM的self-training的學(xué)習(xí)方式, 即用來(lái)對(duì)無(wú)標(biāo)注數(shù)據(jù)進(jìn)行解碼的種子模型與目標(biāo)模型相同。自深度學(xué)習(xí)成功引入到語(yǔ)音識(shí)別中以來(lái)，雖然也出現(xiàn)了其他算法，但目前仍然以self-training思想為主流。然而，我們知道，通過(guò)self-training方式獲得的可用無(wú)標(biāo)注數(shù)據(jù)容易存在與訓(xùn)練種子模型(seed model) 的人工標(biāo)注數(shù)據(jù)“同質(zhì)”的問(wèn)題，最終通過(guò)這種半監(jiān)督方式訓(xùn)練的AM獲得的收益遠(yuǎn)遠(yuǎn)低于我們的預(yù)期。另外，由于訓(xùn)練數(shù)據(jù)量的大大增加，使得AM訓(xùn)練時(shí)所需的計(jì)算資源也相應(yīng)增加。

因此，如圖1所示，我們提出采用多種子模型并行解碼的策略，這種策略可充分挖據(jù)海量無(wú)監(jiān)督數(shù)據(jù)中的有用信息，在很大程度上避免self-training方法帶來(lái)的數(shù)據(jù)同質(zhì)問(wèn)題。由于各種子模型采用不同的聲學(xué)模型結(jié)構(gòu)，且所用種子模型的結(jié)構(gòu)與最后半監(jiān)督的AM結(jié)構(gòu)也不同，這些種子模型能從多個(gè)不同角度學(xué)習(xí)到海量無(wú)標(biāo)注數(shù)據(jù)的特性，從而使得從無(wú)標(biāo)注數(shù)據(jù)中挑選出來(lái)的可用數(shù)據(jù)與人工標(biāo)注數(shù)據(jù)之間存在很強(qiáng)的互補(bǔ)特性，最終體現(xiàn)在半監(jiān)督AM模型性能上。如最終AM結(jié)構(gòu)為CNN+LSTM+DNN (convolutional, long short-term memory, deep neural network) 的級(jí)聯(lián)結(jié)構(gòu)，那么種子模型可選用TDNN (time delay neural network), E2E (end-to-end system), DNN-HMM (deep neural network, hidden Markov model), RNN-BLSTM (recurrent neural network with bidirectional long short-term memory) 的聲學(xué)模型結(jié)構(gòu)。

通過(guò)種子模型對(duì)無(wú)標(biāo)注數(shù)據(jù)解碼獲得標(biāo)注后，如何從這些海量數(shù)據(jù)中挑選出有用的數(shù)據(jù)一直是半監(jiān)督AM學(xué)習(xí)中的一個(gè)難題。我們除了在語(yǔ)音幀層面采用多種子模型解碼結(jié)果投票策略之外，還在多種子模型解碼lattice層面進(jìn)行了confidence calibration，以在自動(dòng)標(biāo)注質(zhì)量(ASR decoding結(jié)果) 和數(shù)據(jù)的有用性(informative)方面取得好的平衡為目標(biāo)函數(shù)進(jìn)行自動(dòng)數(shù)據(jù)挑選(data filtering)。

另外，我們?cè)诖罅繉?shí)驗(yàn)中發(fā)現(xiàn)，海量的無(wú)標(biāo)注語(yǔ)音數(shù)據(jù)中，不同來(lái)源的數(shù)據(jù)都有其自身的音頻屬性，比如帶口音，低信噪比，合成語(yǔ)音等等，不同屬性的音頻添加到AM模型訓(xùn)練數(shù)據(jù)集中會(huì)嚴(yán)重影響最終AM特性，從而影響其在不同測(cè)試集合上的泛化能力。因此，我們提出通過(guò)在無(wú)標(biāo)注數(shù)據(jù)集上設(shè)計(jì)合適開發(fā)集(development data)，結(jié)合多種子模型并行解碼的策略來(lái)自動(dòng)獲取無(wú)監(jiān)督音頻數(shù)據(jù)的屬性(unlabeled data properties), 然后將這些音頻屬性作為“正則化項(xiàng)”加入到最終聲學(xué)模型訓(xùn)練的目標(biāo)函數(shù)中，有效指導(dǎo)最終AM的訓(xùn)練。

采用如圖1的半監(jiān)督AM學(xué)習(xí)架構(gòu)，我們?cè)诖笤~匯量中英文混合連續(xù)語(yǔ)音識(shí)別任務(wù)上，當(dāng)人工標(biāo)注語(yǔ)音數(shù)據(jù)量為1000小時(shí)，通過(guò)我們的半監(jiān)督學(xué)習(xí)方法從無(wú)標(biāo)注語(yǔ)音中挑選出1000小時(shí)加入到人工標(biāo)注訓(xùn)練數(shù)據(jù)集合中，實(shí)驗(yàn)結(jié)果表明，在測(cè)試集合上能獲得15% 的字/詞錯(cuò)誤率(word error rate, WER)的相對(duì)降低。當(dāng)人工標(biāo)注語(yǔ)音數(shù)據(jù)量增加到數(shù)萬(wàn)小時(shí)時(shí)，加入我們半監(jiān)督AM學(xué)習(xí)方法挑出的大量語(yǔ)音后，WER仍然有約5% 的相對(duì)降低。

特別值得一提的是，我們針對(duì)各種訓(xùn)練集合和測(cè)試集合做過(guò)大量實(shí)驗(yàn)，發(fā)現(xiàn)若通過(guò)半監(jiān)督學(xué)習(xí)獲取的大量無(wú)標(biāo)注數(shù)據(jù)的音頻屬性與測(cè)試集合接近，那么最終訓(xùn)練出的AM在該測(cè)試集合上就能取得非常大的收益，相比整體測(cè)試集上 5% 的相對(duì) WER 降低，在車載導(dǎo)航和音樂(lè)相關(guān)的測(cè)試集合上能夠獲取12% 左右的相對(duì)WER降低。這間接說(shuō)明了無(wú)標(biāo)注數(shù)據(jù)音頻屬性的重要性，同時(shí)也說(shuō)明，在無(wú)標(biāo)注數(shù)據(jù)屬性指導(dǎo)下的半監(jiān)督學(xué)習(xí)方法能通過(guò)靈活調(diào)整其目標(biāo)函數(shù)的正則化項(xiàng)來(lái)達(dá)到我們的預(yù)期目標(biāo)，使得訓(xùn)練出來(lái)的AM能靈活適應(yīng)于各種不同的應(yīng)用場(chǎng)合。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1703

瀏覽量
112422
人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46348

瀏覽量
236516
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8832

瀏覽量
137138

評(píng)論

相關(guān)推薦

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相

發(fā)表于 05-07 17:10

簡(jiǎn)述二氧化硫試驗(yàn)機(jī)的操作方法

　　原文來(lái)源：簡(jiǎn)述二氧化硫試驗(yàn)機(jī)的操作方法 小編：林頻儀器　　二氧化硫試驗(yàn)機(jī)是利用二氧化硫氣體對(duì)材料或是產(chǎn)品進(jìn)行加速腐蝕試驗(yàn)的設(shè)備，能夠重現(xiàn)材料或產(chǎn)品在一定時(shí)間范圍內(nèi)遭受到的破壞程度。該設(shè)備可以用

發(fā)表于 09-05 16:11

Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

本教程以實(shí)際應(yīng)用、工程開發(fā)為目的，著重介紹模型訓(xùn)練過(guò)程中遇到的實(shí)際問(wèn)題和方法。在機(jī)器學(xué)習(xí)模型開發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、

發(fā)表于 12-21 09:18

RK3288的GPIO操作方法是什么

GPIO寄存器的操作方法有哪幾種呢？RK3288的GPIO操作方法是什么？

發(fā)表于 03-09 07:38

基于聲學(xué)分段模型的無(wú)監(jiān)督語(yǔ)音樣例檢測(cè)

基于聲學(xué)分段模型的無(wú)監(jiān)督語(yǔ)音樣例檢測(cè)_李勃昊

發(fā)表于 01-07 16:24 ?0次下載

半監(jiān)督極限學(xué)習(xí)機(jī)分類模型

當(dāng)數(shù)據(jù)集中包含的訓(xùn)練信息不充分時(shí)，監(jiān)督的極限學(xué)習(xí)機(jī)較難應(yīng)用，因此將半監(jiān)督學(xué)習(xí)應(yīng)用到極限學(xué)習(xí)機(jī)，提出一種半

發(fā)表于 12-23 11:24 ?0次下載

基于半監(jiān)督學(xué)習(xí)框架的識(shí)別算法

問(wèn)題，對(duì)半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法進(jìn)行改進(jìn)，提出了一種基于多學(xué)習(xí)器協(xié)同訓(xùn)練模型的人體行為識(shí)別方法．這是一種基于

發(fā)表于 01-21 10:41 ?1次下載

如何約束半監(jiān)督分類方法的詳細(xì)資料概述

假設(shè)聯(lián)合成對(duì)約束半監(jiān)督分類方法（ ACA-JPC-S3VM）。一方面，它將單個(gè)未標(biāo)記樣本到數(shù)據(jù)分布邊界的距離融入到模型的學(xué)習(xí)中，能夠一定程度

發(fā)表于 11-15 11:32 ?4次下載

電子測(cè)力計(jì)的操作方法

電子測(cè)力計(jì)正確操作方法

發(fā)表于 04-17 15:57 ?2492次閱讀

最基礎(chǔ)的半監(jiān)督學(xué)習(xí)

標(biāo)記數(shù)據(jù)訓(xùn)練的監(jiān)督學(xué)習(xí)技術(shù)得到更好的結(jié)果。這是半監(jiān)督學(xué)習(xí)系列文章的第1部分，對(duì)這個(gè)機(jī)器學(xué)習(xí)的重要子領(lǐng)域進(jìn)行了簡(jiǎn)要的介紹。區(qū)分

發(fā)表于 11-02 16:08 ?2574次閱讀

半監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個(gè)概念

有趣的方法，用來(lái)解決機(jī)器學(xué)習(xí)中缺少標(biāo)簽數(shù)據(jù)的問(wèn)題。SSL利用未標(biāo)記的數(shù)據(jù)和標(biāo)記的數(shù)據(jù)集來(lái)學(xué)習(xí)任務(wù)。SSL的目標(biāo)是得到比單獨(dú)使用標(biāo)記數(shù)據(jù)

發(fā)表于 11-02 16:14 ?2899次閱讀

基于主動(dòng)學(xué)習(xí)的半監(jiān)督圖神經(jīng)網(wǎng)絡(luò)模型來(lái)對(duì)分子性質(zhì)進(jìn)行預(yù)測(cè)方法

總體來(lái)講，本文使用教師模型和學(xué)生模型來(lái)迭代訓(xùn)練。每個(gè)模型都是一個(gè)圖神經(jīng)網(wǎng)絡(luò)。在教師模型中，使用半

發(fā)表于 11-24 09:59 ?4017次閱讀

基于特征組分層和半監(jiān)督學(xué)習(xí)的鼠標(biāo)軌跡識(shí)別方法

傳統(tǒng)時(shí)間序列分類方法存在鼠標(biāo)軌跡特征挖掘不充分、數(shù)據(jù)不平衡與標(biāo)記樣本量少等問(wèn)題，造成識(shí)別效果較差。結(jié)合特征組分層和半監(jiān)督學(xué)習(xí)，提出一種鼠標(biāo)軌跡識(shí)別方

發(fā)表于 05-13 15:41 ?9次下載

AD18操作方法

AD18操作方法

發(fā)表于 03-28 15:04 ?0次下載

基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎：大量數(shù)據(jù)究竟是福還是禍？

大型語(yǔ)言模型如 ChatGPT 的成功彰顯了海量數(shù)據(jù)在捕捉語(yǔ)言模式和知識(shí)方面的巨大潛力，這也推動(dòng)了基于大量數(shù)據(jù)的視覺(jué)模型研究。在計(jì)算視覺(jué)領(lǐng)域，標(biāo)注數(shù)

發(fā)表于 07-24 16:55 ?475次閱讀