0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎

NXP客棧 ? 來源:NXP客棧 ? 2024-01-26 09:15 ? 次閱讀

恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎。本文將探討開發(fā)人員在嵌入式語音控制設(shè)計(jì)中面臨的挑戰(zhàn)、恩智浦新的Speech to Intent引擎,以及您如何在應(yīng)用中使用它。

嵌入式系統(tǒng)中語音命令的挑戰(zhàn)

隨著亞馬遜、谷歌和蘋果等公司推出了具有革命性意義的智能揚(yáng)聲器,嵌入式語音控制的設(shè)備已經(jīng)成為了當(dāng)下的熱門趨勢,而這種技術(shù)其實(shí)已經(jīng)存在了很多年。通過這些智能揚(yáng)聲器,終端用戶第一次體驗(yàn)到了語音優(yōu)先設(shè)備的便捷性、實(shí)用性和直觀性。語音是這些設(shè)備的用戶界面(UI),也是它們最重要或唯一的交互方式。借助云端的自然語言理解技術(shù),智能揚(yáng)聲器可以讓語音優(yōu)先設(shè)備的終端用戶用自然語言與智能設(shè)備進(jìn)行溝通,無論是請求、查詢還是命令,都可以得到理解和響應(yīng)。

為了實(shí)現(xiàn)自然語言處理,設(shè)計(jì)人員和終端用戶需要面對一些挑戰(zhàn),比如要求有穩(wěn)定、可靠的網(wǎng)絡(luò)連接,以及要承受始終在線、始終聆聽的設(shè)備的高耗電,更別提這種聯(lián)網(wǎng)設(shè)備可能帶來的隱私風(fēng)險(xiǎn)了。

針對嵌入式設(shè)計(jì)中的語音引擎難題,恩智浦推出了其智能語音技術(shù)(VIT)產(chǎn)品組合的最新產(chǎn)品VIT Speech to Intent (VIT S2I) 引擎,了解該技術(shù)詳情,點(diǎn)擊這里>>

本地語音控制vs.云語音控制

為了讓設(shè)備具備語音控制功能,工程師通常有三種選擇:本地處理、在云端處理或兩者的組合,我們稱之為“混合處理”。

通過本地語音控制,終端設(shè)備在邊緣本地處理所有語音,而無需連接到云端或遠(yuǎn)程服務(wù)器進(jìn)行二次處理?;谠频奶幚砭褪抢迷贫说挠?jì)算能力來處理語音音頻,然后把云端生成的響應(yīng)通過網(wǎng)絡(luò)傳回設(shè)備。在混合處理的情況下,通常會使用本地喚醒詞引擎來喚醒設(shè)備(如“Hey NXP”),然后將該喚醒詞之后的所有語音命令流式傳輸?shù)皆贫嘶蜻h(yuǎn)程服務(wù)器進(jìn)行處理。

本地處理具有低延遲、低功耗和獨(dú)立于網(wǎng)絡(luò)等優(yōu)點(diǎn),但它通常只支持需要精確措辭的基本關(guān)鍵詞和命令。例如,開燈可能需要準(zhǔn)確的短語“Hey, NXP(喚醒詞),開燈(語音命令)”,并且不能有任何變化。

對于云端處理和混合系統(tǒng),云服務(wù)的使用增加了延遲,但提供了能夠運(yùn)行極其復(fù)雜的算法的優(yōu)勢,包括自然語言理解模型。重溫剛才說的開燈示例,使用任何詞語組合,系統(tǒng)都可以理解所要求操作的環(huán)境,例如“這里很黑,請開燈”。

如前所述,基于云的自然語言處理的一個(gè)主要缺點(diǎn)是安全和隱私問題。簡單地說,這種方式的原理是把語音音頻流通過網(wǎng)絡(luò)傳送到遠(yuǎn)程服務(wù)器進(jìn)行處理,但是這也可能導(dǎo)致系統(tǒng)誤啟動并把無關(guān)的音頻流傳輸?shù)皆贫恕_@些音頻流可能包括個(gè)人對話、憑證或其他敏感信息

恩智浦VIT S2I引擎介紹

針對嵌入式設(shè)計(jì)中的語音引擎難題,恩智浦推出了其智能語音技術(shù)(VIT)產(chǎn)品組合的最新產(chǎn)品VIT Speech to Intent引擎。S2I引擎是VIT產(chǎn)品組合的高端產(chǎn)品,其中還包括免費(fèi)的喚醒詞引擎 (WWE) 和語音命令引擎 (VCE)。

與依賴遠(yuǎn)程云服務(wù)的系統(tǒng)不同,VIT S2I能夠在本地確定自然語言的意圖。這一功能要?dú)w功于恩智浦針對嵌入式系統(tǒng)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)算法和機(jī)器學(xué)習(xí)模型的最新開發(fā)成果。因此,要實(shí)現(xiàn)“開燈”的目的,可以用很多不同的方式來表達(dá),比如“開燈”、“太暗了”和“你能讓光線更亮嗎”等。

觀看視頻,進(jìn)一步了解基于RW61x上的本地語音控制功能——

這種Speech to Intent功能使用戶能夠更自然地與嵌入式系統(tǒng)進(jìn)行交互,同時(shí)降低了系統(tǒng)延遲和云連接系統(tǒng)的功耗。此外,消除云服務(wù)也有助于提高安全性和隱私,因?yàn)樗姓Z音都在設(shè)備上本地處理。此外,如果搭配恩智浦喚醒詞引擎,可以開發(fā)超低功耗設(shè)計(jì),只有在聽到特定的喚醒詞后,才會啟動VIT S2I引擎來處理語音命令。

支持VIT S2I的恩智浦器件包括:Arm Cortex-M (i.MX RT跨界MCU和RW61x MCU),以及Cortex A (i.MX 8M Mini、i.MX 8MPlus和i.MX 9x應(yīng)用處理器)。VIT S2I目前支持英語、普通話和韓語,于2023年底推出。用于創(chuàng)建自定義命令和訓(xùn)練模型的在線開發(fā)工具計(jì)劃將于2024年發(fā)布。

052f8c90-bbdf-11ee-8b88-92fbcf53809c.jpg

VIT Speech to Intent框圖

VIT S2I為您的下一個(gè)設(shè)計(jì)增加語音功能

物聯(lián)網(wǎng)領(lǐng)域日新月異,VIT S2I能夠適應(yīng)各種應(yīng)用場景,無論是家居自動化、可穿戴電子產(chǎn)品,還是汽車遠(yuǎn)程信息處理和樓宇門禁等,都能發(fā)揮其優(yōu)勢。消費(fèi)者喜歡用自然語言來免手動控制設(shè)備的基本功能,消除邊緣語音處理的云服務(wù)不僅減少了系統(tǒng)延遲,還減少了隱私和安全問題。

對于那些需要使用語音優(yōu)先用戶界面的設(shè)備,VIT S2I系統(tǒng)是一個(gè)不可或缺的部分,它可以應(yīng)用在智能恒溫器、智能電器、家居自動化、燈光控制、遮陽控制等領(lǐng)域。VIT S2I也適用于可穿戴設(shè)備和健身設(shè)備,一些用例包括設(shè)置提醒、控制藍(lán)牙設(shè)備和監(jiān)測健康狀況。

使用恩智浦的VIT產(chǎn)品組合增強(qiáng)您的應(yīng)用

如果您想要使用恩智浦智能語音技術(shù)組合進(jìn)行開發(fā),歡迎使用我們免費(fèi)的VIT喚醒詞和語音命令引擎,通過MCUXpresso SDK和在線模型工具即可獲得。這些引擎可以讓您方便地定制喚醒詞和基本的語音控制,適用于那些不涉及自然語言理解的快速原型制作和開發(fā)周期。

如果您的應(yīng)用需要更多自然語言理解功能,請聯(lián)系當(dāng)?shù)氐亩髦瞧执恚_始使用VIT Speech to Intent。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19032

    瀏覽量

    228442
  • mcu
    mcu
    +關(guān)注

    關(guān)注

    146

    文章

    16796

    瀏覽量

    349324
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4722

    瀏覽量

    100307
  • 恩智浦
    +關(guān)注

    關(guān)注

    14

    文章

    5806

    瀏覽量

    105930
  • 語音識別
    +關(guān)注

    關(guān)注

    38

    文章

    1703

    瀏覽量

    112410

原文標(biāo)題:將意圖轉(zhuǎn)化為行動:恩智浦新一代語音識別引擎,開啟嵌入式語音控制新時(shí)代!

文章出處:【微信號:NXP客棧,微信公眾號:NXP客棧】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    發(fā)布專為新一代工業(yè)和物聯(lián)網(wǎng)設(shè)備智能互聯(lián)而打造的無線MCU

    MCX W系列的可擴(kuò)展無線MCU是首款具有藍(lán)牙信道探測功能的無線MCU,進(jìn)步擴(kuò)展了MCX產(chǎn)品組合豐富的連接功能,可最大限度地提高新一代
    的頭像 發(fā)表于 04-12 12:15 ?1447次閱讀

    車內(nèi)語音識別技術(shù)智能駕駛中的應(yīng)用與前景

    、引言 隨著智能駕駛技術(shù)的快速發(fā)展,車內(nèi)語音識別技術(shù)逐漸成為
    的頭像 發(fā)表于 02-19 11:46 ?701次閱讀

    車內(nèi)語音識別技術(shù)智能駕駛的核心要素

    、引言 隨著科技的飛速發(fā)展,智能駕駛已經(jīng)成為未來出行的趨勢。作為智能駕駛的關(guān)鍵技術(shù),車內(nèi)語音
    的頭像 發(fā)表于 02-19 11:42 ?648次閱讀

    車內(nèi)語音識別技術(shù)智能駕駛的革新之源

    、引言 隨著科技的飛速發(fā)展,智能駕駛已經(jīng)成為現(xiàn)代交通領(lǐng)域的熱門話題。作為智能駕駛的關(guān)鍵技術(shù),車內(nèi)
    的頭像 發(fā)表于 02-19 10:10 ?369次閱讀

    語音數(shù)據(jù)集:智能駕駛中車內(nèi)語音識別技術(shù)的基石

    、引言 在智能駕駛中,車內(nèi)語音識別技術(shù)發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集作為這
    的頭像 發(fā)表于 01-31 16:07 ?441次閱讀

    語音數(shù)據(jù)集:開啟智能語音技術(shù)的新篇章

    。 、語音數(shù)據(jù)集的重要性 語音數(shù)據(jù)集是智能語音技術(shù)的基石。通過收集大量的
    的頭像 發(fā)表于 12-29 11:06 ?547次閱讀

    離線語音識別與在線語音識別有什么不樣?

    離線語音識別與在線語音識別有什么不樣? 離線語音識別
    的頭像 發(fā)表于 12-12 14:36 ?1087次閱讀

    離線語音識別及控制是怎樣的技術(shù)

    引言:隨著人工智能的飛速發(fā)展,離線語音識別技術(shù)成為了項(xiàng)備受矚目的創(chuàng)新。離線語音
    的頭像 發(fā)表于 11-24 17:44 ?1019次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>及控制是怎樣的<b class='flag-5'>技術(shù)</b>?

    離線語音識別及控制是怎樣的技術(shù)?

    引言:  隨著人工智能的飛速發(fā)展,離線語音識別技術(shù)成為了項(xiàng)備受矚目的創(chuàng)新。離線語音
    發(fā)表于 11-24 17:41

    情感語音識別技術(shù)的現(xiàn)狀與未來

    、引言 情感語音識別技術(shù)是近年來人工智能領(lǐng)域的研究熱點(diǎn)之,它通過分析人類
    的頭像 發(fā)表于 11-15 16:36 ?573次閱讀

    情感語音識別技術(shù)的應(yīng)用與未來發(fā)展

    、引言 隨著科技的飛速發(fā)展,情感語音識別技術(shù)已經(jīng)成為人機(jī)交互的重要發(fā)展方向。情感語音識別
    的頭像 發(fā)表于 11-12 17:30 ?666次閱讀

    離線語音識別和控制的工作原理及應(yīng)用

    引言   離線語音識別是指在沒有網(wǎng)絡(luò)連接的情況下,通過在本地設(shè)備上進(jìn)行語音信號處理和識別,實(shí)現(xiàn)語音命令的轉(zhuǎn)化和執(zhí)行。隨著
    發(fā)表于 11-07 18:01

    語音識別技術(shù)在教育領(lǐng)域的應(yīng)用與挑戰(zhàn)

    、引言 隨著人工智能技術(shù)的不斷發(fā)展,教育領(lǐng)域也開始應(yīng)用語音識別技術(shù)來提高教學(xué)質(zhì)量和學(xué)習(xí)效果。本文將探討
    的頭像 發(fā)表于 11-02 18:44 ?624次閱讀

    語音識別技術(shù)智能家居領(lǐng)域的應(yīng)用與前景

    、引言 隨著人工智能和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,智能家居成為了人們?nèi)粘I畹闹匾糠帧?b class='flag-5'>語音識別
    的頭像 發(fā)表于 10-26 14:27 ?1143次閱讀

    語音識別技術(shù)智能客服領(lǐng)域的應(yīng)用與挑戰(zhàn)

    、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能客服成為了許多行業(yè)的重要應(yīng)用。語音識別技術(shù)作為
    的頭像 發(fā)表于 10-25 10:37 ?599次閱讀