0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

百度端對(duì)端語(yǔ)音識(shí)別專利揭秘

汽車玩家 ? 來(lái)源: 愛(ài)集微 ? 作者: 愛(ài)集微 ? 2020-01-08 11:17 ? 次閱讀

百度公司提出的端對(duì)端神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行語(yǔ)音識(shí)別,成功的代替了手工工程化部件的流水線操作,這讓整個(gè)語(yǔ)音識(shí)別技術(shù)更加便捷,而使用神經(jīng)網(wǎng)絡(luò)來(lái)抽取輸入端的特征信息相當(dāng)于人功抽取特征則更加全面。

集微網(wǎng)消息,近年來(lái),語(yǔ)音識(shí)別技術(shù)得到了迅猛的發(fā)展,這得益于人工智能的快速發(fā)展,其中最為主要的學(xué)業(yè)界的各大神經(jīng)網(wǎng)絡(luò)的出現(xiàn),包括基礎(chǔ)的序列神經(jīng)網(wǎng)絡(luò)模型RNN、LSTM和GRU。語(yǔ)音識(shí)別技術(shù)也已經(jīng)進(jìn)入到各行各業(yè)中,如工業(yè)、家電、通信汽車電子等。于是,對(duì)于語(yǔ)音識(shí)別技術(shù)的要求也將更加嚴(yán)格了,更傾向于走向準(zhǔn)確化和便捷化。

以往,構(gòu)建語(yǔ)音識(shí)別模型主要是使用HMM的序列模型,再使用手工工程化部件來(lái)實(shí)現(xiàn)整個(gè)流水線操作,并且對(duì)于不同的語(yǔ)言的語(yǔ)音需要重新構(gòu)建模型的結(jié)果特征。對(duì)此,國(guó)內(nèi)語(yǔ)音識(shí)別技術(shù)第一梯隊(duì)公司百度便提出了使用端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行語(yǔ)音識(shí)別工作,該專利為“端對(duì)端語(yǔ)音識(shí)別”(專利號(hào):CN107408111A)。

首先,小編在這先介紹一下神經(jīng)網(wǎng)絡(luò)端對(duì)端的學(xué)習(xí)方式。對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō),端到端深度學(xué)習(xí)做的是,訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),輸入就是一段音頻,輸出直接是聽寫文本。其中這里的端表示輸入源數(shù)據(jù)端,另外一端是神經(jīng)網(wǎng)絡(luò)處理的結(jié)果也就是我們最終需要的目標(biāo)。這種訓(xùn)練學(xué)習(xí)的方式能應(yīng)對(duì)多種語(yǔ)言的語(yǔ)音識(shí)別的場(chǎng)景構(gòu)建,因?yàn)閮H僅是需要改變輸入端和輸出端,深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)并不需要根據(jù)語(yǔ)言的語(yǔ)音不同而改變。

專利中提出的端對(duì)端的深度學(xué)習(xí)模型的架構(gòu)圖如圖1所示。該架構(gòu)包括訓(xùn)練以攝取語(yǔ)譜并生成文本的遞歸神經(jīng)網(wǎng)絡(luò)模型。首先,使用一個(gè)或更多個(gè)卷積層對(duì)語(yǔ)譜進(jìn)行特征提取,緊接著,使用一個(gè)或多個(gè)遞歸層(雙向GRU神經(jīng)網(wǎng)絡(luò))對(duì)語(yǔ)譜的特征進(jìn)行時(shí)序建模。最后再使用全連接層將遞歸層獲取的語(yǔ)譜信息進(jìn)行全連接作為CTC(鏈結(jié)式時(shí)間分類算法:重點(diǎn)解決輸入數(shù)據(jù)與給定標(biāo)簽的對(duì)齊問(wèn)題)的輸入,經(jīng)過(guò)Softmax計(jì)算輸出各個(gè)文本標(biāo)簽的概率。

圖1端對(duì)端深度學(xué)習(xí)模型架構(gòu)圖

經(jīng)過(guò)上述端對(duì)端深度學(xué)習(xí)模型構(gòu)建后,專利中還給出了端對(duì)端深度學(xué)習(xí)模型的訓(xùn)練方法,如圖2所示。

百度端對(duì)端語(yǔ)音識(shí)別專利揭秘

圖2 端對(duì)端深度學(xué)習(xí)模型訓(xùn)練方法圖

首先需要為模型設(shè)置好,輸入端和輸出端,對(duì)于語(yǔ)音識(shí)別技術(shù)來(lái)說(shuō),輸入端為一時(shí)間序列頻譜幀的話語(yǔ)X,輸出端是與話語(yǔ)X具有相關(guān)聯(lián)的真實(shí)標(biāo)簽Y。

構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型(包括一個(gè)或多個(gè)卷積層和一個(gè)或多個(gè)遞歸層的模型)用來(lái)預(yù)測(cè)一個(gè)或多個(gè)字符也就是我們輸出端的標(biāo)簽。

根據(jù)網(wǎng)絡(luò)模型的輸出端的標(biāo)簽的概率分布與真實(shí)標(biāo)簽的誤差計(jì)算損失函數(shù),提供損失函數(shù)推出標(biāo)簽預(yù)測(cè)的誤差,再使用梯度反向傳播算法更新模型參數(shù)。從而達(dá)到網(wǎng)絡(luò)模型學(xué)習(xí)的目的。

百度公司提出的端對(duì)端神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行語(yǔ)音識(shí)別,成功的代替了手工工程化部件的流水線操作,這讓整個(gè)語(yǔ)音識(shí)別技術(shù)更加便捷,而使用神經(jīng)網(wǎng)絡(luò)來(lái)抽取輸入端的特征信息相當(dāng)于人功抽取特征則更加全面,這讓整個(gè)語(yǔ)音識(shí)別技術(shù)更加準(zhǔn)確。從這兩方面來(lái)看,端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型確實(shí)是讓語(yǔ)音識(shí)別技術(shù)走向了便捷化,準(zhǔn)確化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2242

    瀏覽量

    90119
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1703

    瀏覽量

    112425
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    百度舸AI計(jì)算平臺(tái)4.0震撼發(fā)布

    在2024年百度云智大會(huì)的璀璨舞臺(tái)上,百度智能云重磅推出了舸AI異構(gòu)計(jì)算平臺(tái)的全新力作——4.0版本。此次升級(jí),標(biāo)志著百度在AI基礎(chǔ)設(shè)施領(lǐng)域邁出了堅(jiān)實(shí)的一步,致力于為行業(yè)提供更為強(qiáng)大
    的頭像 發(fā)表于 09-26 14:46 ?311次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用

    (Recurrent Neural Networks, RNN)在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用日益廣泛,特別是在語(yǔ)音
    的頭像 發(fā)表于 07-08 11:09 ?393次閱讀

    http讀取百度返回的json數(shù)據(jù)時(shí)丟失數(shù)據(jù)怎么處理?

    我在使用百度ai開放平臺(tái)的語(yǔ)音識(shí)別功能,讀取返回的數(shù)據(jù)時(shí),使用esp_http_client_read(client, http_data, 1024);讀到的數(shù)據(jù)里沒(méi)有json的數(shù)據(jù),還是http
    發(fā)表于 06-24 07:00

    百度申請(qǐng)文小言商標(biāo)

    近日,百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司在知識(shí)產(chǎn)權(quán)領(lǐng)域有了新動(dòng)作。據(jù)天眼查知識(shí)產(chǎn)權(quán)信息顯示,百度已申請(qǐng)多枚“文小言”商標(biāo),這些商標(biāo)將涵蓋廣告銷售、網(wǎng)站服務(wù)、健身器材、機(jī)械設(shè)備等多個(gè)領(lǐng)域。
    的頭像 發(fā)表于 06-19 09:20 ?412次閱讀

    2024百度移動(dòng)生態(tài)萬(wàn)象大會(huì):百度新搜索11%內(nèi)容已AI生成

    2024百度移動(dòng)生態(tài)萬(wàn)象大會(huì):百度新搜索11%內(nèi)容已AI生成 今天2024百度移動(dòng)生態(tài)萬(wàn)象大會(huì)在江蘇蘇州舉辦,特別是AI搜索與百度文心一言的相關(guān)信息被市場(chǎng)極度關(guān)注,我們看到,在2024
    發(fā)表于 05-30 18:58 ?367次閱讀

    百度智能云推出“千帆行業(yè)增強(qiáng)版”

    在近日于北京舉辦的2024智能經(jīng)濟(jì)論壇上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖分享了百度在人工智能領(lǐng)域的最新進(jìn)展。他宣布,為了推動(dòng)行業(yè)大模型的廣泛應(yīng)用,百度智能云正式推出了“千
    的頭像 發(fā)表于 05-30 09:30 ?497次閱讀

    百度與特斯拉探討Robotaxi合作新機(jī)遇

    在特斯拉宣布計(jì)劃使用百度地圖提供的高精度地圖之后,百度與特斯拉之間的合作再度引起關(guān)注。百度自動(dòng)駕駛技術(shù)部總經(jīng)理徐寶強(qiáng)近日透露,百度正積極考慮與特斯拉在Robotaxi(共享出租車)項(xiàng)目
    的頭像 發(fā)表于 05-24 10:20 ?380次閱讀

    百度王海峰:百度人工智能專利申請(qǐng)量、授權(quán)量國(guó)內(nèi)第一

    2024年4月25日,在第24個(gè)世界知識(shí)產(chǎn)權(quán)日來(lái)臨之際,百度舉辦“專利運(yùn)用賦能AI產(chǎn)業(yè)高質(zhì)量發(fā)展”論壇。
    的頭像 發(fā)表于 04-26 09:32 ?342次閱讀

    百度文心一言用戶破2億,AI原生應(yīng)用開發(fā)數(shù)量達(dá)19萬(wàn)

    此外,李彥宏還提到,百度在去年 8 月宣布開放文心一言后,不僅在C借助大模型改造用戶產(chǎn)品,將AI功能融入旗下多款產(chǎn)品;同時(shí)在B,通過(guò)云業(yè)務(wù)推出企業(yè)級(jí)一站式大模型平臺(tái)——千帆大模型平臺(tái)。
    的頭像 發(fā)表于 04-16 15:05 ?542次閱讀

    百度智能云正式發(fā)布了《百度智能云水業(yè)大模型白皮書》

    3月28日,由E20環(huán)境平臺(tái)主辦的2024(第二十二屆)水業(yè)戰(zhàn)略論壇在北京召開。會(huì)上,百度智能云正式發(fā)布了《百度智能云水業(yè)大模型白皮書》(以下簡(jiǎn)稱《白皮書》)。
    的頭像 發(fā)表于 03-29 09:20 ?1253次閱讀
    <b class='flag-5'>百度</b>智能云正式發(fā)布了《<b class='flag-5'>百度</b>智能云水業(yè)大模型白皮書》

    百度將為蘋果新品提供AI功能

    據(jù)知情人士透露,百度已確定將為蘋果即將發(fā)布的iPhone16、Mac系統(tǒng)和iOS18提供AI功能。此前,蘋果曾與阿里等其他國(guó)內(nèi)大模型公司進(jìn)行過(guò)洽談,但最終選擇了百度作為合作伙伴。
    的頭像 發(fā)表于 03-26 09:15 ?465次閱讀

    漳州市長(zhǎng)魏東到訪百度,與百度智能云共商漳州新質(zhì)生產(chǎn)力發(fā)展

    3月19日,漳州市市長(zhǎng)魏東,人大常委會(huì)黨組成員、副主任蔡總平,副市長(zhǎng)洪泰偉一行到訪百度亦莊基地,與百度副總裁石清華,百度智能云南區(qū)總經(jīng)理段巍,百度智能云政務(wù)創(chuàng)新業(yè)務(wù)部總經(jīng)理李琴,圍繞漳
    的頭像 發(fā)表于 03-25 11:27 ?699次閱讀

    【有獎(jiǎng)】 百度智能云目推出首款多模態(tài) AI 模組,應(yīng)用場(chǎng)景有獎(jiǎng)?wù)骷?/a>

    他來(lái)了,他來(lái)了 大模型時(shí)代悄然到來(lái) 百度首款大模型落地的硬件產(chǎn)品 目多模態(tài)AI模組LUCA系列正式亮相 目LUCA深度集成百度語(yǔ)音芯片
    的頭像 發(fā)表于 02-26 15:19 ?481次閱讀

    華為智能座艙與百度地圖簽署生態(tài)合作協(xié)議 共創(chuàng)導(dǎo)航出行新體驗(yàn)

    此次簽約,百度地圖和華為智能座艙將在智能座艙領(lǐng)域共同打造車機(jī)版百度地圖,將手機(jī)百度地圖的豐富體驗(yàn)延伸到車,包括車道級(jí)導(dǎo)航、紅綠燈倒計(jì)時(shí)、
    的頭像 發(fā)表于 01-19 15:50 ?608次閱讀

    華為智能座艙與百度地圖簽署生態(tài)合作協(xié)議

    華為智能座艙與百度地圖正式簽署生態(tài)合作協(xié)議,共同在智能座艙領(lǐng)域打造車機(jī)版百度地圖。這一合作將手機(jī)百度地圖的豐富體驗(yàn)延伸至車,為用戶提供更
    的頭像 發(fā)表于 01-19 15:25 ?755次閱讀