0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高通語(yǔ)音識(shí)別系統(tǒng)近乎完美

機(jī)器人技術(shù)與應(yīng)用 ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-05-30 09:37 ? 次閱讀

近日,在美國(guó)波士頓舉行的Re-Work深度學(xué)習(xí)峰會(huì)上,美國(guó)高通公司人工智能研究人員克里斯·洛特(Chris Lott)展示了其團(tuán)隊(duì)在語(yǔ)音識(shí)別系統(tǒng)方面的新進(jìn)展。

新語(yǔ)音識(shí)別系統(tǒng)識(shí)別單詞和短語(yǔ)的準(zhǔn)確率達(dá)到了95%,可在智能手機(jī)或其他便攜設(shè)備上運(yùn)行,包含兩個(gè)神經(jīng)網(wǎng)絡(luò):循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)利用其內(nèi)存來(lái)處理輸入信息,而卷積神經(jīng)網(wǎng)絡(luò)則模仿人類大腦中神經(jīng)元之間的聯(lián)系方式來(lái)處理信息。

洛特稱,現(xiàn)在大多數(shù)語(yǔ)音識(shí)別系統(tǒng)在云端進(jìn)行運(yùn)算過(guò)程。手機(jī)中的麥克風(fēng)和芯片智能音箱如谷歌Home和亞馬遜Echo,以及配置微軟Cortana 語(yǔ)音助手的Windows電腦,可以讓語(yǔ)音識(shí)別系統(tǒng)接傾聽(tīng)一些熱門詞匯,例如“OK Google”或Hey Cortana,從而接受一系列語(yǔ)音指令。但是,它們不會(huì)分析這些指令,而只是將這些指令傳輸?shù)竭\(yùn)行復(fù)雜機(jī)器學(xué)習(xí)算法的強(qiáng)大遠(yuǎn)程服務(wù)器上。

對(duì)于某些用戶來(lái)說(shuō),將其語(yǔ)音數(shù)據(jù)上傳到云端,這樣會(huì)讓他們擔(dān)心隱私方面的問(wèn)題。亞馬遜Alexa和谷歌Assistant均會(huì)錄制語(yǔ)音片段,然后將它們發(fā)送出去進(jìn)行分析。它們會(huì)一直保留這些語(yǔ)音片段,直到用戶選擇刪除它們。這兩家公司均表示,它們錄制語(yǔ)音是為了改善其服務(wù),提供更加個(gè)性化的語(yǔ)音回答。

但是,在某些情況下,錄制語(yǔ)音無(wú)法保護(hù)用戶的隱私。在2016年,亞利桑那州調(diào)查一宗謀殺案的偵探在被告人的同意下訪問(wèn)了一臺(tái)亞馬遜Echo智能音箱中的語(yǔ)音數(shù)據(jù)。

洛特稱,高通的這種語(yǔ)音識(shí)別系統(tǒng)直接在設(shè)備上處理數(shù)據(jù),這樣做除了可以保護(hù)用戶的隱私之外,還具有多方面的好處。由于它不必將數(shù)據(jù)上傳到云端,它對(duì)于指令的反應(yīng)速度更快。由于它不需要連接互聯(lián)網(wǎng),因此它變得更加穩(wěn)定。

“我們努力按照某種神經(jīng)網(wǎng)絡(luò)的形式來(lái)處理整個(gè)端到端系統(tǒng)?!彼f(shuō),“這樣可以讓用戶與設(shè)備的互動(dòng)變得更加自然?!?/p>

洛特的話不無(wú)道理。在2016年,谷歌開(kāi)發(fā)了一款離線語(yǔ)音識(shí)別系統(tǒng),它的速度是同時(shí)期其在線語(yǔ)音識(shí)別系統(tǒng)的7倍。這個(gè)離線語(yǔ)音識(shí)別系統(tǒng)利用語(yǔ)音數(shù)據(jù)進(jìn)行了大約2000個(gè)小時(shí)的訓(xùn)練,它的大小為20.3兆,在智能手機(jī)上運(yùn)行,準(zhǔn)確率為86.5%。

當(dāng)然,這種設(shè)備端語(yǔ)音識(shí)別系統(tǒng)也有自身的局限性。離線工作的算法無(wú)法連接互聯(lián)網(wǎng),并搜索問(wèn)題的答案。而且,它們無(wú)法像云端系統(tǒng)那樣隨著數(shù)據(jù)的積累不斷地改進(jìn)。

但是,洛特認(rèn)為,高通的解決方案是面向未來(lái)的?!艾F(xiàn)在很多計(jì)算過(guò)程發(fā)生在云端,但是我們認(rèn)為這個(gè)過(guò)程應(yīng)該直接在設(shè)備上進(jìn)行。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:高通宣稱其語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確率高達(dá)95%

文章出處:【微信號(hào):robotmagazine,微信公眾號(hào):機(jī)器人技術(shù)與應(yīng)用】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語(yǔ)音識(shí)別方案_離線語(yǔ)音識(shí)別芯片分析

    01 物聯(lián)網(wǎng)系統(tǒng)中為什么要使用離線語(yǔ)音識(shí)別芯片 物聯(lián)網(wǎng)系統(tǒng)中使用離線語(yǔ)音識(shí)別芯片的原因主要基于以
    的頭像 發(fā)表于 09-26 17:56 ?301次閱讀
    物聯(lián)網(wǎng)<b class='flag-5'>系統(tǒng)</b>智能控制產(chǎn)品的<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>方案_離線<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片分析

    智能玩具用離線語(yǔ)音識(shí)別芯片有什么優(yōu)勢(shì)

    語(yǔ)音識(shí)別系統(tǒng),應(yīng)用場(chǎng)景相對(duì)單一。典型應(yīng)用:智能家電、語(yǔ)音遙控器、智能玩具、車載聲控、智能家居等當(dāng)離線語(yǔ)音識(shí)別芯片應(yīng)用在智能玩具中,能夠提供
    的頭像 發(fā)表于 09-20 10:00 ?173次閱讀
    智能玩具用離線<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片有什么優(yōu)勢(shì)

    什么是離線語(yǔ)音識(shí)別芯片?與在線語(yǔ)音識(shí)別的區(qū)別

    離線語(yǔ)音識(shí)別芯片適用于智能家電等,特點(diǎn)為小詞匯量、低成本、安全性、響應(yīng)快,無(wú)需聯(lián)網(wǎng)。在線語(yǔ)音識(shí)別功能更廣泛、
    的頭像 發(fā)表于 07-22 11:33 ?319次閱讀

    基于FPGA的指紋識(shí)別系統(tǒng)設(shè)計(jì)

    隨著人們對(duì)安全問(wèn)題的日益重視,指紋識(shí)別作為一種高效、可靠的生物識(shí)別技術(shù),在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于FPGA的嵌入式指紋識(shí)別系統(tǒng),該系統(tǒng)利用FPGA的
    的頭像 發(fā)表于 07-17 16:33 ?1086次閱讀

    多目標(biāo)智能識(shí)別系統(tǒng)

    智慧華盛恒輝多目標(biāo)智能識(shí)別系統(tǒng)是一種利用現(xiàn)代計(jì)算機(jī)視覺(jué)技術(shù)和人工智能算法,從圖像或視頻中同時(shí)識(shí)別和分類多個(gè)目標(biāo)物體的系統(tǒng)。這種系統(tǒng)廣泛應(yīng)用于自動(dòng)駕駛、智能監(jiān)控、人機(jī)交互、軍事偵察、災(zāi)害
    的頭像 發(fā)表于 07-16 10:42 ?1.2w次閱讀

    基于OpenCV的人臉識(shí)別系統(tǒng)設(shè)計(jì)

    基于OpenCV的人臉識(shí)別系統(tǒng)是一個(gè)復(fù)雜但功能強(qiáng)大的系統(tǒng),廣泛應(yīng)用于安全監(jiān)控、人機(jī)交互、智能家居等多個(gè)領(lǐng)域。下面將詳細(xì)介紹基于OpenCV的人臉識(shí)別系統(tǒng)的基本原理、實(shí)現(xiàn)步驟,并附上具體的代碼示例。
    的頭像 發(fā)表于 07-11 15:37 ?1.1w次閱讀

    基于GIS的SAR多目標(biāo)智能識(shí)別系統(tǒng)

    智慧華盛恒輝基于GIS的SAR多目標(biāo)智能識(shí)別系統(tǒng)是一個(gè)集成了合成孔徑雷達(dá)(SAR)和地理信息系統(tǒng)(GIS)技術(shù)的先進(jìn)系統(tǒng),旨在實(shí)現(xiàn)高分辨率雷達(dá)圖像中的多目標(biāo)智能識(shí)別。以下是該
    的頭像 發(fā)表于 06-26 14:26 ?368次閱讀

    車載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

    車載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語(yǔ)言處理技術(shù),載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)、語(yǔ)速和音量,將所聽(tīng)到的語(yǔ)音轉(zhuǎn)化成可讀取的語(yǔ)
    的頭像 發(fā)表于 06-19 15:52 ?292次閱讀
    車載<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別系統(tǒng)</b><b class='flag-5'>語(yǔ)音</b>數(shù)據(jù)采集標(biāo)注案例

    車載語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音數(shù)據(jù)采集標(biāo)注案例

    車載語(yǔ)音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語(yǔ)言處理技術(shù),載語(yǔ)音識(shí)別系統(tǒng)通過(guò)辨別聲音的語(yǔ)調(diào)、語(yǔ)速和音量,將所聽(tīng)到的語(yǔ)音轉(zhuǎn)化成可讀取的語(yǔ)
    的頭像 發(fā)表于 06-19 15:49 ?401次閱讀

    解決方案:智能公交識(shí)別系統(tǒng)無(wú)線傳輸方案

    無(wú)線傳輸識(shí)別系統(tǒng)
    北京東用科技有限公司
    發(fā)布于 :2023年12月13日 11:59:34

    FPGA-PC1500的數(shù)碼創(chuàng)新作品-數(shù)碼音樂(lè)和語(yǔ)音識(shí)別

    數(shù)據(jù)處理,并生成識(shí)別結(jié)果。 8. 將識(shí)別結(jié)果輸出到FPGA的外部接口(如顯示器或串口)或存儲(chǔ)在內(nèi)部存儲(chǔ)器中供后續(xù)處理使用。 在FPGA開(kāi)發(fā)語(yǔ)音識(shí)別系統(tǒng)時(shí),使用的語(yǔ)言是硬件描述語(yǔ)言,有
    發(fā)表于 12-01 14:15

    離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)?

    進(jìn)行處理。  離線語(yǔ)音識(shí)別能夠在設(shè)備上實(shí)現(xiàn)實(shí)時(shí)的語(yǔ)音識(shí)別響應(yīng),具有響應(yīng)速度快、隱私保護(hù)好、穩(wěn)定可靠等優(yōu)勢(shì)。它廣泛應(yīng)用于移動(dòng)設(shè)備、智能音箱、嵌入式系統(tǒng)
    發(fā)表于 11-24 17:41

    基于DSP的車載語(yǔ)音識(shí)別系統(tǒng)方案設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《基于DSP的車載語(yǔ)音識(shí)別系統(tǒng)方案設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 11-08 09:14 ?2次下載
    基于DSP的車載<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別系統(tǒng)</b>方案設(shè)計(jì)

    離線語(yǔ)音識(shí)別和控制的工作原理及應(yīng)用

    :   1.信號(hào)采集   離線語(yǔ)音識(shí)別系統(tǒng)的第一步是信號(hào)采集。聲音信號(hào)通過(guò)麥克風(fēng)(傳感器)以電信號(hào)的形式被捕捉到,這是后續(xù)處理的基礎(chǔ)。   2.預(yù)處理   預(yù)處理階段包括去除噪聲、回聲消除、降噪等處理
    發(fā)表于 11-07 18:01

    遠(yuǎn)程RFID自動(dòng)識(shí)別系統(tǒng)的研究

    電子發(fā)燒友網(wǎng)站提供《遠(yuǎn)程RFID自動(dòng)識(shí)別系統(tǒng)的研究.pdf》資料免費(fèi)下載
    發(fā)表于 11-06 10:24 ?0次下載
    遠(yuǎn)程RFID自動(dòng)<b class='flag-5'>識(shí)別系統(tǒng)</b>的研究