0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音識(shí)別的技術(shù)原理是什么?

九芯電子語音芯片 ? 2022-05-10 16:40 ? 次閱讀

自動(dòng)語音辨認(rèn)技術(shù)(ASR,Automatic Speech Recognition)是一種經(jīng)過讓機(jī)器經(jīng)過辨認(rèn)和了解的過程,把人類的語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)文本的技術(shù)。我們先來看看語音辨認(rèn)的歷史,其實(shí)早在計(jì)算機(jī)創(chuàng)造之前,有關(guān)ASR技術(shù)的理念就曾經(jīng)降生了,而早期的聲碼器就能夠被視為是語音辨認(rèn)及合成的雛形。而1920年代消費(fèi)的"Radio Rex"玩具狗,可能是早的語音辨認(rèn)器,當(dāng)這只狗的名字被召喚的時(shí)分,它可以從底座上彈出來。這么看來論輩分它是阿爾法狗的爺爺……但毫無疑問60年代計(jì)算機(jī)的開展推進(jìn)了語音辨認(rèn)技術(shù)技術(shù),這其中重要的一個(gè)里程碑就是動(dòng)態(tài)規(guī)劃技術(shù)(DP)和線性預(yù)測剖析技術(shù)(LP),后者又開展出了更成熟的動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW),包括矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。但這些還都只是單調(diào)又晦澀的算法,換句話說,工程師看到這些玩意也一頭霧水,基本沒方法疾速在應(yīng)用到理論里。所以在80年代時(shí),著名的AT&T Bell實(shí)驗(yàn)室經(jīng)過努力,把本來深?yuàn)W無比的HMM純數(shù)學(xué)模型工程化,為應(yīng)用開發(fā)打下了重要的基石。到90年代時(shí),深度神經(jīng)網(wǎng)絡(luò)技術(shù)的打破性開展,終于把語音辨認(rèn)技術(shù)本來的難關(guān)攻破了。所以在我們會(huì)發(fā)現(xiàn),從21世紀(jì)后語音辨認(rèn)技術(shù)的開展就疾速加快了。其實(shí)看起來高大上的語音辨認(rèn)技術(shù),原理并沒有多么復(fù)雜。不管是微軟家的Cortana、三星家的S-voice蘋果家的Siri,還是國內(nèi)一些獨(dú)立做語音辨認(rèn)的比方訊飛、Rokid,在原理在實(shí)質(zhì)上沒有幾差別:就是語音輸入后,停止特征提取,將提取的特征值放進(jìn)模型庫里,再不時(shí)地停止鍛煉和匹配,終解碼得到結(jié)果。

假如要細(xì)說的話就比擬復(fù)雜了,比方模型庫中又分為聲學(xué)模型和言語模型。其中言語模型是依據(jù)不同品種的言語,對詞串停止統(tǒng)計(jì)建模,目前普遍采用的是基于(n-1)階馬爾可夫鏈統(tǒng)計(jì)的n元語法模型。這里細(xì)致說下聲學(xué)建模吧。首先經(jīng)過前端特征提取取得聲學(xué)特征,再進(jìn)一步對聲學(xué)特征停止統(tǒng)計(jì)建模。建模運(yùn)用到的貝葉斯統(tǒng)計(jì)建模框架,也就是大后驗(yàn)概率決策原則。這里算法這種深?yuàn)W的東西就不說了,除非深度開發(fā),否則直接套用就行了,我本人也是博古通今,還是念書的時(shí)分學(xué)的。說說提取聲學(xué)特征該如何完成:當(dāng)語音輸入之后,首先停止模電轉(zhuǎn)換,將模仿信號(hào)轉(zhuǎn)變?yōu)?a target="_blank">數(shù)字信號(hào),再停止靜音切除去掉無關(guān)噪音,然后停止分幀。將此時(shí)的信號(hào)分紅一幀一幀之后(每一幀并不是獨(dú)立存在的而是相互關(guān)聯(lián)的),還要停止一系列的信號(hào)處置,包括預(yù)加重、加窗之后,再停止FFT變換之后,再經(jīng)過Mel參數(shù)的濾波和取對數(shù)、離散余弦變換等一系列算法處置后,能夠停止用梅爾頻率倒譜系數(shù)(MFCC)停止特征提取,得到聲學(xué)特征。覺得越說越復(fù)雜了……后面簡單點(diǎn)說吧。前面說了言語模型,而聲學(xué)模型就是將聲學(xué)特征統(tǒng)計(jì)建模后得到的。得到了模型庫之后就能夠停止模型鍛煉和形式匹配了。所謂模型鍛煉就是指依照一定的原則,從大量已知語音形式中獲取一個(gè)具特征的模型參數(shù)。而形式匹配則相反,是依據(jù)一定原則,將未知語音形式與模型庫中的某一個(gè)模型取得佳匹配后的解碼過程又能夠分紅動(dòng)態(tài)解碼網(wǎng)絡(luò)和靜態(tài)解碼網(wǎng)絡(luò)兩種:動(dòng)態(tài)網(wǎng)絡(luò)會(huì)編譯一個(gè)狀態(tài)網(wǎng)絡(luò)并構(gòu)成搜索空間,把單詞轉(zhuǎn)換成一個(gè)個(gè)的音素后將其依照語序拆分紅狀態(tài)序列,再依據(jù)音素上下文分歧性準(zhǔn)繩將狀態(tài)序列停止銜接。而靜態(tài)網(wǎng)絡(luò)普通是針對一些特殊詞(孤立詞)的辨認(rèn)網(wǎng)絡(luò),它的構(gòu)造就簡單多了:先將每條特殊詞擴(kuò)展成HMM狀態(tài)序列,然后再計(jì)算得分,選擇得分大的作為辨認(rèn)輸出結(jié)果。由于靜態(tài)網(wǎng)絡(luò)是依據(jù)聲學(xué)概率計(jì)算權(quán)重,不需求查詢言語模型概率,因而解碼速度很快。 這樣的一個(gè)流程大致上就是語音辨認(rèn)技術(shù)的主要原理。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1703

    瀏覽量

    112421
收藏 人收藏

    評論

    相關(guān)推薦

    語音識(shí)別的技術(shù)歷程及工作原理

    語音識(shí)別的本質(zhì)是一種基于語音特征參數(shù)的模式識(shí)別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?2566次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識(shí)別的</b><b class='flag-5'>技術(shù)</b>歷程及工作原理

    語音數(shù)據(jù)集:智能駕駛中車內(nèi)語音識(shí)別技術(shù)的基石

    一、引言 在智能駕駛中,車內(nèi)語音識(shí)別技術(shù)發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集作為這一技術(shù)的基石,其質(zhì)量和規(guī)模對
    的頭像 發(fā)表于 01-31 16:07 ?444次閱讀

    情感語音識(shí)別的挑戰(zhàn)與未來趨勢

    一、引言 情感語音識(shí)別是一種通過分析和理解人類語音中的情感信息來實(shí)現(xiàn)智能交互的技術(shù)。盡管近年來取得了顯著的進(jìn)步,但情感語音
    的頭像 發(fā)表于 11-30 11:24 ?453次閱讀

    情感語音識(shí)別的應(yīng)用與挑戰(zhàn)

    一、引言 情感語音識(shí)別是一種通過分析人類語音中的情感信息實(shí)現(xiàn)智能化和個(gè)性化人機(jī)交互的技術(shù)。本文將探討情感語音
    的頭像 發(fā)表于 11-30 10:40 ?550次閱讀

    情感語音識(shí)別技術(shù)前沿與未來趨勢

    一、引言 情感語音識(shí)別是當(dāng)前人工智能領(lǐng)域的前沿技術(shù),它通過分析人類語音中的情感信息,實(shí)現(xiàn)更加智能化和個(gè)性化的人機(jī)交互。本文將探討情感語音
    的頭像 發(fā)表于 11-28 18:35 ?496次閱讀

    情感語音識(shí)別的現(xiàn)狀與未來趨勢

    情感語音識(shí)別是一種涉及多個(gè)學(xué)科領(lǐng)域的前沿技術(shù),包括心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)等。它通過分析人類語音中的情感信息,實(shí)現(xiàn)更加智能化和個(gè)性化的人機(jī)交互。本文將探討情感
    的頭像 發(fā)表于 11-28 17:22 ?665次閱讀

    離線語音識(shí)別及控制是怎樣的技術(shù)?

    引言:隨著人工智能的飛速發(fā)展,離線語音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語音識(shí)別技術(shù)能夠?qū)⑷?/div>
    的頭像 發(fā)表于 11-24 17:44 ?1025次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>及控制是怎樣的<b class='flag-5'>技術(shù)</b>?

    離線語音識(shí)別及控制是怎樣的技術(shù)?

    引言:  隨著人工智能的飛速發(fā)展,離線語音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語音識(shí)別技術(shù)能夠
    發(fā)表于 11-24 17:41

    情感語音識(shí)別:現(xiàn)狀、挑戰(zhàn)與解決方案

    一、引言 情感語音識(shí)別是人工智能領(lǐng)域的前沿研究課題,它通過分析人類語音中的情感信息,實(shí)現(xiàn)更加智能化和個(gè)性化的人機(jī)交互。然而,在實(shí)際應(yīng)用中,情感語音識(shí)
    的頭像 發(fā)表于 11-23 11:30 ?697次閱讀

    情感語音識(shí)別的研究方法與實(shí)踐

    一、引言 情感語音識(shí)別是指通過計(jì)算機(jī)技術(shù)和人工智能算法自動(dòng)識(shí)別和理解人類語音中的情感信息。為了提高情感
    的頭像 發(fā)表于 11-16 16:26 ?756次閱讀

    情感語音識(shí)別技術(shù)的發(fā)展趨勢與前景

    的發(fā)展趨勢 深度學(xué)習(xí)技術(shù)的進(jìn)一步應(yīng)用:情感語音識(shí)別技術(shù)的發(fā)展得益于深度學(xué)習(xí)技術(shù)的不斷進(jìn)步。未來,隨著深度學(xué)習(xí)算法的不斷完善和改進(jìn),情感
    的頭像 發(fā)表于 11-16 16:13 ?602次閱讀

    情感語音識(shí)別的前世今生

    的支持。本文將探討情感語音識(shí)別的前世今生,包括其發(fā)展歷程、應(yīng)用場景、面臨的挑戰(zhàn)以及未來發(fā)展趨勢。 二、情感語音識(shí)別的發(fā)展歷程 起步階段:早期的情感
    的頭像 發(fā)表于 11-12 17:33 ?550次閱讀

    情感語音識(shí)別的技術(shù)挑戰(zhàn)與解決方案

    探討這些挑戰(zhàn)以及可能的解決方案。 二、情感語音識(shí)別的技術(shù)挑戰(zhàn) 情感表達(dá)的復(fù)雜性:人的情感表達(dá)是復(fù)雜且多變的,受到文化、個(gè)人經(jīng)歷、語言習(xí)慣等多種因素的影響。這使得準(zhǔn)確識(shí)別和理解人的情感狀
    的頭像 發(fā)表于 11-12 17:31 ?435次閱讀

    離線語音識(shí)別和控制的工作原理及應(yīng)用

    。本文將深入探討離線語音識(shí)別的工作原理,以及其所使用的技術(shù)。一、離線語音識(shí)別的工作原理離線語音
    的頭像 發(fā)表于 11-07 18:04 ?832次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>和控制的工作原理及應(yīng)用

    離線語音識(shí)別和控制的工作原理及應(yīng)用

    的應(yīng)用越來越廣泛。本文將深入探討離線語音識(shí)別的工作原理,以及其所使用的技術(shù)。   一、離線語音識(shí)別的工作原理   離線
    發(fā)表于 11-07 18:01