0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是無聲語音接口?

SSDFans ? 來源:SSDFans ? 2023-04-28 10:16 ? 次閱讀

可穿戴設(shè)備依賴于具有標準物理能力的人機界面,如語音、觸摸或運動。雖然這種形式的機器交互適用于大多數(shù)消費者,但殘疾人可能很難或無法操作標準的可穿戴設(shè)備。為了使更多人能夠使用可穿戴設(shè)備,研究人員正在研究新的人機界面。

最近,康奈爾大學的一個團隊發(fā)表了一篇論文,描述了一副為不能發(fā)聲的用戶配備了無聲語音接口(SSI)的智能眼鏡。本文將討論無聲語音接口和來自康奈爾大學的可穿戴原型。

什么是無聲語音接口?

無聲語音接口(Silent speech interface,簡稱SSI)允許人們無需發(fā)聲就能與機器互動。雖然AI助手(如蘋果的Siri)等技術(shù)是通過聲音交流工作的,但SSI通過與語音相關(guān)的動作來完成交流。

SSI技術(shù)通過嘴巴和舌頭的運動而不是聲音來識別語音。為了做到這一點,SSI依賴于各種不同的傳感器,包括放置在嘴巴附近的振動傳感器,用于檢測人們嘴巴的振動,以及跟蹤和分類與語音相關(guān)運動的攝像頭。在許多情況下,這些信息會被機器學習算法處理,該算法會解釋嘴巴的動作,并將其翻譯成文字。

雖然大多數(shù)人可能找不到SSI的用途,但這項技術(shù)對于因疾病或受傷而失聲的人來說是必不可少的,可以讓他們更容易地交流。例如,患有聲帶損傷或影響語言的神經(jīng)系統(tǒng)疾病的患者可以從SSI中獲益良多。

康奈爾大學開發(fā)無攝像頭SSI眼鏡

最近,康奈爾大學的研究人員在SSI技術(shù)方面取得了重大進展,發(fā)明了基于SSI的智能眼鏡。

該系統(tǒng)被稱為EchoSpeech,是一種新穎的、侵入性最小的SSI技術(shù),它使用低功率有源聲學傳感來捕捉由無聲語音引起的細微皮膚變形,并將這些信息轉(zhuǎn)換為可操作的數(shù)據(jù)。這款智能眼鏡的原型建立在康奈爾大學之前對一種類似的聲學傳感可穿戴設(shè)備(“EarIO”)的研究基礎(chǔ)上,EarIO可以從耳朵內(nèi)追蹤面部運動。

cf967ebe-e4fb-11ed-ab56-dac502259ad0.png

該系統(tǒng)依靠安裝在眼鏡框架上的一系列揚聲器和麥克風向皮膚發(fā)射聽不見的聲波。發(fā)出的聲波產(chǎn)生沿多條路徑傳播的回聲,并被系統(tǒng)解釋推斷為佩戴者的無聲語音。EchoSpeech完全可以在標準的智能手機上運行,只需要1到6分鐘的訓練數(shù)據(jù),并以73.3 mW的低功耗實時運行。該團隊的深度學習算法可以實時分析回聲,準確率約為95%。

該系統(tǒng)通過12名用戶研究進行了評估,成功展示了識別31個獨立命令和三到六位連接數(shù)字的能力,單詞錯誤率(WER)分別為4.5%(標準3.5%)和6.1%(標準4.2%)。此外,在行走和噪聲注入等場景中測試了系統(tǒng)的魯棒性。

更私密、低功耗、易使用

大多數(shù)SSI技術(shù)使用面部攝像頭,從用戶和與其交流的人那里收集數(shù)據(jù)。除了造成隱私問題外,可穿戴攝像頭還會收集高帶寬視頻數(shù)據(jù)。

由于EchoSpeech不需要可穿戴攝像機,設(shè)備只捕捉音頻數(shù)據(jù),這比圖像或視頻數(shù)據(jù)需要的帶寬要少得多,并且可以通過藍牙實時發(fā)送到手機。隱私信息永遠不會脫離用戶的控制,因為數(shù)據(jù)是在智能手機上本地處理的(不用在云中處理)。研究人員表示,純音頻傳感器的電池效率也更高:音頻傳感器可以工作10個小時,而攝像頭只能工作30分鐘。

康奈爾大學的研究小組表示,他們發(fā)現(xiàn)EchoSpeech在很多應用中都有應用價值,從默念密碼來解鎖智能手機,到跳過播放列表中的歌曲。該設(shè)備還可以與智能手機配對,在說話不方便的地方與他人交談,比如嘈雜的餐廳或安靜的圖書館。研究人員表示,該界面與手寫筆和CAD等設(shè)計軟件兼容,從而消除了對鼠標和鍵盤的需求。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人機界面
    +關(guān)注

    關(guān)注

    5

    文章

    521

    瀏覽量

    44061
  • SSI
    SSI
    +關(guān)注

    關(guān)注

    0

    文章

    38

    瀏覽量

    19186
  • 可穿戴設(shè)備
    +關(guān)注

    關(guān)注

    55

    文章

    3798

    瀏覽量

    166727

原文標題:什么?無聲語音接口?

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TMS320C6000 MCBSP轉(zhuǎn)語音帶音頻處理器(VBAP)接口

    電子發(fā)燒友網(wǎng)站提供《TMS320C6000 MCBSP轉(zhuǎn)語音帶音頻處理器(VBAP)接口.pdf》資料免費下載
    發(fā)表于 10-26 10:17 ?0次下載
    TMS320C6000 MCBSP轉(zhuǎn)<b class='flag-5'>語音</b>帶音頻處理器(VBAP)<b class='flag-5'>接口</b>

    tas5711 EVM配置以后無聲音輸出是怎么回事?

    tas5711 EVM DEMO板按照文檔配置以后無聲音輸出 麻煩幫忙分析, 謝謝 。 配置如下圖: 硬件連接圖如下:
    發(fā)表于 10-25 14:25

    TAS2552+AM4379為什么無聲音輸出?

    上開發(fā)的,直接編譯會不成功,將相關(guān)的接口修改移植到3.12.10版本上后,編譯OK,運行正常。 4、目前在調(diào)試聲卡情況如下: A、 I2C控制正常,讀,寫寄存口信息正確; B、 GPIO使能管腳正確
    發(fā)表于 10-25 06:20

    請問PCM1795輸出無聲音是怎么解決?

    PCM1795輸出無聲問題,附件是原理圖請幫忙看一下有什么問題
    發(fā)表于 10-16 06:59

    TLV320AIC23B-Q1無聲音輸出的原因?

    目前我們配置這個codec,無聲音傳輸。 背景:codec做slave設(shè)備,使用I2S接口,采樣頻率48k,16bit,選擇I2C配置 已經(jīng)確認進入codec的I2S信號沒有問題,引線外接一個
    發(fā)表于 10-09 08:00

    LM4916規(guī)格書中的BTL方案接后無聲音輸出,是什么問題呢?

    在應用lm4916產(chǎn)品提,規(guī)格書中的BTL方案接后無聲音輸出,是什么問題呢? 應用立體聲輸出,聲音聽起來有失真,請各高手指教,謝謝??!
    發(fā)表于 09-20 14:42

    LM4991 WSON封裝手工搭建的電路,通電后揚聲器無聲音,為什么?

    LM4991 WSON封裝,手工搭建的電路,5.2V供電,通電后,揚聲器無聲音。 測量2腳bypass有2.4V的電壓,說明整個芯片已經(jīng)開始工作,但就是沒有聲音。 不知道電路在什么地方出問題?相同的電路我換上SOIC封裝的LM4991工作正常。
    發(fā)表于 08-27 06:32

    谷歌AI新突破:為無聲視頻智能配音

    近日,谷歌DeepMind團隊公布了一項革命性的技術(shù)——利用AI為無聲視頻生成背景音樂的“video-to-audio”技術(shù)。這一技術(shù)的出現(xiàn),不僅為視頻創(chuàng)作領(lǐng)域帶來了新的可能,也為觀眾帶來了更加豐富的視聽體驗。
    的頭像 發(fā)表于 06-21 10:50 ?432次閱讀

    MCU配對簡化了語音控制接口設(shè)計

    攜手合作,為STM32微控制器的嵌入式語音識別創(chuàng)建了一個完整的軟件、硬件和許可包,并使添加語音接口變得簡單。 它還將使設(shè)計工程師能夠在沒有編程,數(shù)據(jù)科學和機器學習專業(yè)知識的情況下部署以人工智能(AI)為中心的邊緣
    的頭像 發(fā)表于 05-06 16:21 ?2056次閱讀

    微軟發(fā)布視頻編輯新功能:自動消除無聲片段

    用戶只需要在Clipchamp工具欄中啟用人工智能建議,軟件即可自動掃描視頻并識別其中的靜音片段。用戶可以選擇單獨或批量刪除這些無聲音節(jié)。
    的頭像 發(fā)表于 04-19 14:42 ?547次閱讀

    未來之聲 | 人形機器人說話篇:無聲!

    隨著一個個有關(guān)人形機器人的“核彈式”新聞的出現(xiàn),機器人技術(shù)肉眼可見地快速發(fā)展。或許,與人們預想的“像人一樣說話”不同,未來人形機器人說話方式是:無聲!
    的頭像 發(fā)表于 04-13 08:00 ?177次閱讀
    未來之聲 | 人形機器人說話篇:<b class='flag-5'>無聲</b>!

    ZR模組:智能制造背后的無聲英雄

    ZR模組:智能制造背后的無聲英雄 在智能制造的浪潮中,無數(shù)創(chuàng)新技術(shù)和產(chǎn)品競相涌現(xiàn)。其中,ZR模組以其卓越的性能和獨特的設(shè)計,成為了驅(qū)動智能制造高效運轉(zhuǎn)的強大引擎。ZR模組廠家將帶您深入了解ZR模組
    的頭像 發(fā)表于 04-11 14:22 ?584次閱讀

    什么是單片機語音芯片?

    芯片的定義。1、單片機,又稱為微控制器,是一個將微處理器、存儲器、I/O接口等集成在一塊芯片上的計算機系統(tǒng)。它具有體積小、功耗低、集成度高等特點。2、語音芯片,主要
    的頭像 發(fā)表于 12-07 08:53 ?680次閱讀
    什么是單片機<b class='flag-5'>語音</b>芯片?

    WT588FM04語音芯片:融合鍵盤掃描與LED驅(qū)動,打造智能化語音播報解決方案

    隨著科技的飛速發(fā)展,人機交互已經(jīng)成為了電子產(chǎn)品不可或缺的一部分。為了滿足這一需求,一款名為WT588FM04的語音芯片應運而生。這款芯片不僅集成了鍵盤掃描接口和LED驅(qū)動控制,還具備強大的語音播報
    的頭像 發(fā)表于 12-02 09:47 ?346次閱讀
    WT588FM04<b class='flag-5'>語音</b>芯片:融合鍵盤掃描與LED驅(qū)動,打造智能化<b class='flag-5'>語音</b>播報解決方案

    ADA4075在使用過程中出現(xiàn)有時無聲、有時有聲的現(xiàn)象是怎么回事?

    ADA4075在使用過程中出現(xiàn)有時無聲、有時有聲現(xiàn)象 ADA4075在使用中出現(xiàn)了類似受潮的現(xiàn)象,溫度高時芯片正常工作,溫度低時會出現(xiàn)無聲。但是芯片本身防潮等級MSL1,實際儲存中也不存在高潮
    發(fā)表于 11-17 07:26