0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

揭秘語音交互:個性化AI打造“數(shù)字化的你”

章鷹觀察 ? 來源:高通 ? 作者:侯紀磊博士 ? 2018-07-18 15:42 ? 次閱讀

從更精美的照片、更高的安全性到更自然的用戶界面(UI),人工智能AI)正以無縫的方式更多地豐富我們的生活。高能效和個性化是Qualcomm AI Research的核心研究領(lǐng)域,因為它們對于下一代無處不在的智能用戶體驗而言不可或缺。終端側(cè)AI正在支持虛擬助理的發(fā)展,而個性化正成為今天的虛擬助理和未來真正個人助理之間的主要差異。

AI驅(qū)動語音交互革命

語音是我們一直期盼的變革性交互方式,它可以提供用戶與終端間的自然交互,而無需任何手部操作。先進的語音交互具有始終開啟、對話式、個性化和私密的特征,可支持我們進行高效且自然的對話。從智能手機智能音箱到擴展現(xiàn)實(XR)設(shè)備和汽車,語音交互正在眾多產(chǎn)品種類中日益發(fā)展和普及。

要實現(xiàn)端到端的語音交互體驗,其中需要多個組件的支持(見圖1)。語音交互的流程是這樣的:首先麥克風(fēng)采集語音信號,然后是語音預(yù)處理、語音激活、語音識別和自然語言理解,最終是終端通過語音合成的方式響應(yīng)用戶。由此可見,端到端的語音交互是個多步驟的復(fù)雜流程。

圖1:語音交互的功能組件。

為什么今天語音交互變得如此普及?一個重要因素是,機器學(xué)習(xí)已經(jīng)點燃了語音交互的革命。機器語音識別的準確率正不斷逼近95%,達到與人類準確率相當(dāng)?shù)乃?。?dāng)機器準確率不能達到人類的水平,整個語音交互過程就沒法做到對話式的自然高效交流,因此用戶體驗會有顯著下降。機器學(xué)習(xí)技術(shù)可應(yīng)用于幾乎所有的語音交互組件之上,從而提升各方面及整體的交互體驗。

終端側(cè)的語音交互至關(guān)重要

因計算、內(nèi)存和功率的限制,主要語音交互組件(如自動語音識別和自然語言處理)傳統(tǒng)上都由云端AI所支持。但是,終端側(cè)處理具有眾多獨特的優(yōu)勢,包括更快的響應(yīng)速度、更高的可靠性和更好的隱私保護。尤其是在私密性方面,今天的消費者渴望把數(shù)據(jù)掌握在自己手中,并且有權(quán)選擇是否將數(shù)據(jù)發(fā)到云端進行處理或存儲。因此,更多在終端上進行處理并為云端功能提供補充,這是目前行業(yè)的重要趨勢之一。而其中的主要挑戰(zhàn)在于,需要在移動終端的功耗和散熱限制下運行并實現(xiàn)復(fù)雜的語音交互功能。

圖2:語音交互的主要組件正向終端側(cè)遷移。

Qualcomm正積極應(yīng)對這項挑戰(zhàn),并把低功耗的終端側(cè)AI應(yīng)用于語音交互組件之上。以下是幾個例子:

1、語音降噪將帶噪語音處理成清晰語音并輸出,這在嘈雜環(huán)境中尤其重要。Qualcomm AI Research正在開發(fā)一個降噪深度學(xué)習(xí)模型,該模型與傳統(tǒng)方法相比有顯著的性能提升,并具有較高效率可在助聽器這樣非常受限的處理能力、功耗和散熱條件下運行。

2、 自動語音識別將語音轉(zhuǎn)錄為文本。測試表明,深度學(xué)習(xí)技術(shù)可在移動終端上實現(xiàn)頂級的語音識別準確率。Qualcomm AI Research已經(jīng)完成了一個深度學(xué)習(xí)聲學(xué)模型的訓(xùn)練并使其適應(yīng)每個用戶的口音和環(huán)境,從而提高個性化程度。

今天,終端側(cè)的語音交互已經(jīng)成為現(xiàn)實。Qualcomm AI Research已經(jīng)可以在終端側(cè)實現(xiàn)整體的端到端語音交互處理,并在2018年的CES大會上演示了智能家居中的端到端語音交互體驗。在適應(yīng)口音和環(huán)境后,這項演示對特定領(lǐng)域的指令集已經(jīng)可以實現(xiàn)超過95%的意圖理解準確率。

個性化成就真正的虛擬助理

真正的虛擬助理是在終端里面有一個“數(shù)字化的我”。因此,它需要分析個人信息并不斷學(xué)習(xí)用戶偏好,從而成為真正了解用戶的數(shù)字助理。情境式智能是實現(xiàn)個性化的必備條件,而實現(xiàn)情景式智能需要融合多種終端側(cè)傳感器的數(shù)據(jù)(如麥克風(fēng)、攝像頭和陀螺儀)及其他終端側(cè)和終端外數(shù)據(jù)(見圖3)。

圖3:情境式智能融合多種傳感器和個人信息。

增強個性化的一大好處在于,它能夠推動個人助理進一步發(fā)展并兼具響應(yīng)性和主動性。真正的個人助理不僅能夠在用戶提問時提供個性化的答案,還能基于情境分析進行自主決策和無提示對話。

為進一步提升虛擬助理的個性化程度,Qualcomm AI Research正對終端側(cè)的“AI agent”展開研究,它有望從所有傳感器數(shù)據(jù)中不斷學(xué)習(xí)個人信息,最終實現(xiàn)直觀行動。AI agent的關(guān)鍵功能包括情境式融合及學(xué)習(xí),這最終將支持個性化響應(yīng)并豐富我們的生活。初步研究結(jié)果已展現(xiàn)出終端側(cè)個性化的遠大前景。個性化不僅將提升虛擬個人助理的用戶體驗,而且將豐富我們生活的方方面面。這項技術(shù)將變革眾多行業(yè),不斷推動行業(yè)創(chuàng)新。

(本文內(nèi)容來自Qualcomm高級總監(jiān)兼AI研究項目負責(zé)人侯紀磊博士的署名博客)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2542

    文章

    50260

    瀏覽量

    750135
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29382

    瀏覽量

    267664
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8323

    瀏覽量

    132165
  • 語音交互
    +關(guān)注

    關(guān)注

    3

    文章

    282

    瀏覽量

    27951
收藏 人收藏

    評論

    相關(guān)推薦

    高速數(shù)字化儀的技術(shù)原理和應(yīng)用場景

    高速數(shù)字化儀是一種用于采集高速模擬信號,并將其轉(zhuǎn)換為數(shù)字信號進行處理和儲存的設(shè)備。以下是對其技術(shù)原理和應(yīng)用場景的詳細介紹:一、技術(shù)原理 采樣:高速數(shù)字化儀的采樣率是指每秒鐘采樣多少次,采樣率越高
    發(fā)表于 10-21 14:34

    高校轉(zhuǎn)型數(shù)字化的原因有哪些

    作為知識傳播和創(chuàng)新的重要場所,必須緊跟科技發(fā)展的步伐,通過數(shù)字化轉(zhuǎn)型來適應(yīng)這一趨勢,確保自身在激烈的競爭中保持領(lǐng)先地位。 提升教學(xué)質(zhì)量與效率: 數(shù)字化技術(shù)為教學(xué)提供了更加豐富、靈活和個性化的手段。通過在線課程、
    的頭像 發(fā)表于 09-26 10:39 ?176次閱讀

    Meta發(fā)布Imagine Yourself AI模型,重塑個性化圖像生成未來

    Meta公司近日在人工智能領(lǐng)域邁出了重要一步,隆重推出了其創(chuàng)新之作——“Imagine Yourself”AI模型,這一突破性技術(shù)為個性化圖像生成領(lǐng)域帶來了前所未有的變革。在社交媒體與虛擬現(xiàn)實技術(shù)
    的頭像 發(fā)表于 08-26 10:59 ?400次閱讀

    亞馬遜推出個性化AI歌單功能Maestro,進軍音樂市場

    據(jù)亞馬遜公司透露,其音樂應(yīng)用程序 Amazon Music 已開始向少量美國用戶推出 AI 生成歌單功能 Maestro 的測試版服務(wù)。這項服務(wù)允許用戶利用多樣的提示信息(如文本、表情符號及其組合等),迅速生成個性化的歌單。
    的頭像 發(fā)表于 04-17 16:48 ?558次閱讀

    激光打標機:精準定位,實現(xiàn)個性化標識需求

    激光打標機:精準定位,實現(xiàn)個性化標識需求激光打標機,以其精準定位的特性,成為實現(xiàn)個性化標識需求的得力工具。在現(xiàn)代制造業(yè)中,個性化標識已成為產(chǎn)品差異化、品牌塑造和提升附加值的重要手段。激光打標機通過其
    的頭像 發(fā)表于 03-19 19:43 ?434次閱讀
    激光打標機:精準定位,實現(xiàn)<b class='flag-5'>個性化</b>標識需求

    打造專屬高清視頻轉(zhuǎn)換器:滿足個性化視頻轉(zhuǎn)換需求

    隨著視頻技術(shù)的不斷進步和多樣,用戶對視頻格式轉(zhuǎn)換的需求也日益增長。標準的視頻轉(zhuǎn)換器雖然能夠滿足大部分用戶的需求,但對于那些有特定需求或希望實現(xiàn)更高效、更個性化轉(zhuǎn)換的用戶來說,打造專屬的高清視頻
    的頭像 發(fā)表于 02-22 14:29 ?249次閱讀

    個性化定制,提升運營效率:SAP二次開發(fā)引領(lǐng)企業(yè)數(shù)字化轉(zhuǎn)型

    的解決方案,助力其實現(xiàn)數(shù)字化轉(zhuǎn)型,提高運營效率,迎接不斷變化的業(yè)務(wù)需求。 提升企業(yè)運營效率,打造個性化管理工具 SAP二次開發(fā)服務(wù)可以根據(jù)企業(yè)的特定需求,深入定制現(xiàn)有的SAP系統(tǒng),為企業(yè)提供
    的頭像 發(fā)表于 02-18 13:29 ?323次閱讀

    數(shù)字化IP網(wǎng)絡(luò)廣播在教育領(lǐng)域的應(yīng)用與影響

    ,提供更加多元個性化的教學(xué)服務(wù)。通過數(shù)字化技術(shù),IP網(wǎng)絡(luò)廣播可以實現(xiàn)音頻信號的高質(zhì)量傳輸和播放,提供清晰、穩(wěn)定的音頻效果。同時,IP網(wǎng)絡(luò)廣播還可以支持多種音頻格式和傳輸協(xié)議,滿足不同教學(xué)場景的需求。 其次,
    的頭像 發(fā)表于 01-23 15:00 ?402次閱讀
    <b class='flag-5'>數(shù)字化</b>IP網(wǎng)絡(luò)廣播在教育領(lǐng)域的應(yīng)用與影響

    如何借助數(shù)字化技術(shù)打造TPM管理新模式?

    在企業(yè)運營中,數(shù)字化技術(shù)具有不可替代的作用。尤其在設(shè)備管理領(lǐng)域,借助數(shù)字化技術(shù)打造全新的TPM(全員生產(chǎn)維護)管理模式已經(jīng)成為企業(yè)發(fā)展的必經(jīng)之路。那么,如何借助數(shù)字化技術(shù)
    的頭像 發(fā)表于 01-02 10:12 ?386次閱讀

    企業(yè)數(shù)字化轉(zhuǎn)型的三個層次:需求側(cè)、供應(yīng)側(cè)和生產(chǎn)側(cè)數(shù)字化

    用戶對信息獲取和消費的方式發(fā)生了根本性的變化,他們更傾向于使用數(shù)字化工具和平臺進行信息檢索、產(chǎn)品購買和社交互動,這使得企業(yè)需要重新思考營銷和銷售策略。用戶在數(shù)字化時代更加注重個性化和定
    的頭像 發(fā)表于 12-10 11:14 ?3164次閱讀
    企業(yè)<b class='flag-5'>數(shù)字化</b>轉(zhuǎn)型的三個層次:需求側(cè)、供應(yīng)側(cè)和生產(chǎn)側(cè)<b class='flag-5'>數(shù)字化</b>

    WT588F02B-C015語音芯片:內(nèi)置豐富資源,助力個性化功能產(chǎn)品定制

    隨著科技的飛速發(fā)展,語音芯片在眾多領(lǐng)域中扮演著越來越重要的角色。作為一款備受矚目的語音芯片,WT588F02B-C015(IO擴展)語音芯片憑借其內(nèi)置豐富的資源和功能,成為了客戶個性化
    的頭像 發(fā)表于 12-01 09:29 ?350次閱讀

    WT588F02B-C015語音芯片:內(nèi)置豐富資源,助力個性化功能產(chǎn)品定制

    隨著科技的飛速發(fā)展,語音芯片在眾多領(lǐng)域中扮演著越來越重要的角色。作為一款備受矚目的語音芯片,WT588F02B-C015(IO擴展)語音芯片憑借其內(nèi)置豐富的資源和功能,成為了客戶個性化
    的頭像 發(fā)表于 12-01 09:18 ?384次閱讀
    WT588F02B-C015<b class='flag-5'>語音</b>芯片:內(nèi)置豐富資源,助力<b class='flag-5'>個性化</b>功能產(chǎn)品定制

    基于數(shù)字化語音存儲回放及GSM語音傳輸系統(tǒng)設(shè)計

    電子發(fā)燒友網(wǎng)站提供《基于數(shù)字化語音存儲回放及GSM語音傳輸系統(tǒng)設(shè)計.pdf》資料免費下載
    發(fā)表于 11-17 16:48 ?0次下載
    基于<b class='flag-5'>數(shù)字化</b><b class='flag-5'>語音</b>存儲回放及GSM<b class='flag-5'>語音</b>傳輸系統(tǒng)設(shè)計

    情感語音識別在人機交互中的應(yīng)用與挑戰(zhàn)

    一、引言 情感語音識別是近年來人工智能領(lǐng)域的研究熱點之一,它能夠通過分析人類語音中的情感信息實現(xiàn)更加智能個性化的人機交互。本文將探討情感
    的頭像 發(fā)表于 11-15 15:42 ?490次閱讀

    情感語音識別技術(shù)在人機交互中的應(yīng)用與挑戰(zhàn)

    ?一、引言 隨著人工智能技術(shù)的不斷發(fā)展,人機交互已經(jīng)成為了研究的熱點之一。情感語音識別技術(shù)作為人機交互中的重要組成部分,能夠通過識別人的語音情感,實現(xiàn)更加智能
    的頭像 發(fā)表于 11-09 15:27 ?731次閱讀