0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

思必馳積淀許久的one-shot功能也終于揭開神秘面紗

思必馳 ? 來源:djl ? 作者:思必馳 ? 2019-08-06 11:55 ? 次閱讀

人工智能的熱潮驅動了整個行業(yè)的發(fā)展,智能語音作為最天然的交互手段,自然備受關注。在語音交互引起傳統(tǒng)交互變革的今天,智能車載領域成為了變革的先鋒,尤其是后裝市場,智能語音似乎已經(jīng)成為了車載場景交互的標配。

國內專注智能語音的企業(yè)競爭越來越膠著。阿里,語音客服儼然已成為剛需;百度,強大的搜索資源庫成為了百度語音的后備力量;科大訊飛,依托政府項目,在教育、醫(yī)療、智慧城市等領域也占據(jù)著市場優(yōu)勢;樂視推出樂樂語音,改變著樂視超級電視的交互方式;愛奇藝、360、等也都在紛紛涉足語音技術。專業(yè)的語音公司更是憑借著特色的解決方案,風頭正盛。在這其中,交互方式的簡單便捷,成為幾乎所有語音交互方案追求的一大效果。

講到語音交互的簡單與便捷,思必馳于2016年10月20日升級版的AIO3.1新增的one-shot功能吸引了行業(yè)極大的關注。AIOS For Car是思必馳于2015年10月針對智能車載后裝市場推出的一款對話操作系統(tǒng),主要應用在車機、智能后視鏡、HUD,以及互聯(lián)網(wǎng)汽車等產(chǎn)品上。2016年6月,思必馳將其升級至AIOS3.0版本,新增7大功能, 10月20日,思必馳再次發(fā)力,升級至AIOS3.1版本,積淀許久的one-shot功能也終于揭開神秘面紗。

one-shot一語即達

思必馳將one-shot功能描述為“一把說”,這一描述也十分的生動形象,貼近實際。

圖1 思必馳one-shot一把說

one-shot一把說,采用“喚醒詞+語音語義識別”一體化方式,實現(xiàn)喚醒詞與語音操控之間零間隔、零延遲、無縫對接,摒棄傳統(tǒng)的一問一答的形式,極大減少用戶語音操控的步驟,實現(xiàn)信息反饋,化繁為簡,實現(xiàn)簡便操作,但這樣的簡便在設計之初卻并不簡單。

one-shot的一大特點是識別喚醒與語義理解一體化,保證語音交互的統(tǒng)一性與連貫性,完成操控。舉個簡單的例子來講,過去智能語音的交互方式為一問一答,用戶發(fā)出喚醒詞指令,需要設備反饋待機信息,然后才能開始交互,例如:

用戶:你好小馳(喚醒詞指令)

設備:有什么可以幫您?(設備反饋,表示處于信息接收狀態(tài))

用戶:我要去機場

設備:開始為您導航去機場

one-shot功能卻可以一語即中,實現(xiàn)“喚醒詞+語音語義識別”一體化,比如實現(xiàn)這樣的交互:

用戶:你好小馳,我要去機場

設備:開始為您導航去機場

相比傳統(tǒng),這樣的體驗似乎更具效率?;蛟S未來,在人機交互中,機器通過采集用戶的行為習慣數(shù)據(jù),追蹤用戶意圖,實現(xiàn)如下的對話,也并非不可能:

甲:我一直有個問題想問你

乙:愛過….

系統(tǒng)響應速度及精準度始終是用戶關心的一大問題。AIOS3.1中的one-shot功能采用本地+云端混合引擎模式。語音喚醒和常用的語音指令識別存儲在本地,系統(tǒng)接收反應靈敏,語音識別能夠準確及時的響應。與此同時,連續(xù)語音識別和語義理解進行云端處理,基于場景,收集用戶習慣數(shù)據(jù),通過深度學習,分析并追蹤用戶意圖,保證語義理解精準性。本地加云端的混合引擎處理,既保證了響應速度也確保了交互的精準,即使在沒有網(wǎng)絡的情況下,依然可以使用基本語音交互功能。

GUI圖形交互界面必然會繼續(xù)前進變革,VUI語音交互界面是一大發(fā)展趨勢。思必馳one-shot功能的發(fā)布,展示了其在VUI產(chǎn)品交互設計的深度思考。相信,通過不斷的提升語音交互體驗,VUI必然會在未來IOT行業(yè)的人機交互中引起越來越多的變革。

用技術說話:研發(fā)實力是關鍵

很多車載后裝產(chǎn)品用戶反映一個問題,就是使用車載語音時,說“我要去天安門”,系統(tǒng)可以響應,但是說“去天安門”時,系統(tǒng)無反應,這是為什么呢?實際上,這是因為一些語音方案商將“我要去”三個字固化為喚醒詞,而“去”、“我想去”這類詞與“我要去”不完全匹配,所以系統(tǒng)自然無法識別。這種交互方式,表面上被宣傳為“免喚醒”,實際上恰恰相反,系統(tǒng)通過采用大量喚醒詞來實現(xiàn),這樣做導致誤喚醒率極高、增加系統(tǒng)資源占用、可擴展性差,同時強迫用戶記憶,為用戶的安全駕駛帶來隱患。

就此問題,思必馳產(chǎn)品總監(jiān)雷雄國表示“思必馳用one-shot功能來解決這一問題,用戶想怎么說系統(tǒng)都可以理解,基于對應用場景的深度學習,系統(tǒng)能夠通過后臺用戶數(shù)據(jù)采集,分析用戶行為習慣,準確追蹤用戶意圖,克服刻板的關鍵詞識別,通過大詞匯數(shù)據(jù),實現(xiàn)場景的流暢交互”。

實然,語音技術企業(yè)的核心競爭力在語音技術研發(fā)實力、產(chǎn)品化落地及市場應用著陸,成為企業(yè)生存之道。一些企業(yè)堅持自主研發(fā),一些企業(yè)善于使用國際開源工具,比如,Google開源深度學習系統(tǒng)Tensor Flow。該系統(tǒng)支持支持CNN、RNN和LSTM算法等流行的深度神經(jīng)網(wǎng)絡模型,大大降低深度學習的應用難度,提升開發(fā)速度。但通用的開源工具有其效率和權限上的局限性,既無法滿足特定的前沿算法需求,也常常無法滿足用戶基于場景的個性化需求,不同專業(yè)領域的算法、數(shù)據(jù)、架構等都要依托實際應用進行搭建及優(yōu)化。

目前國內智能語音行業(yè)中,深耕技術研發(fā)的企業(yè)并不多,比如在深度學習方面,百度研究院推出Deep Speech系統(tǒng),科大訊飛推出FSMNN算法模型,思必馳與上海交大聯(lián)合實驗室則獨立擁有VDCNN算法模型和PSD解碼架構。擁有獨立自主研發(fā)實力,才能結合產(chǎn)品特性、應用場景,深度定制交互方案。

圖2 思必馳one-shot一語即達

無論是新奇的one-shot功能,還是說傳統(tǒng)的語音交互,在人工智能時代,只有技術落地轉化為良好的產(chǎn)品體驗才能更好的繪出未來智能生活的景象,我們期待著更多新技術的發(fā)布,也期待著新技術給我們帶來的驚喜。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1789

    文章

    46368

    瀏覽量

    236559
  • 智能車載
    +關注

    關注

    0

    文章

    51

    瀏覽量

    9061
  • 語音交互
    +關注

    關注

    3

    文章

    282

    瀏覽量

    27952
收藏 人收藏

    評論

    相關推薦

    [分享]揭開zzz 手機神秘面紗

    揭開zzz 手機神秘面紗zzz 手機的基礎模型可與諾基亞的 N95 相媲美,歐美的客戶都為該手機奇妙的個性化功能興奮不已。個性化手機從外殼的顏色到硬件的配置都可由客戶自行設定,甚至會在
    發(fā)表于 05-31 09:25

    【AWorks試用體驗】+揭開AWorks神秘面紗(開箱貼)

    按耐不住激動的心情,輕輕放平快遞包裹,開始欣賞AWorks,且看仔細分解。原始未開封的AWorks包裝,接下來讓我一層層地撥開她,揭開神秘面紗。打開外層,映入眼簾的是AWorks的外包裝盒,標示很
    發(fā)表于 08-19 15:22

    【MiCOKit試用體驗】開箱——千喚萬呼始出來, 神秘面紗終于揭開

    ` 本帖最后由 DXK123~ 于 2015-9-16 11:07 編輯 開箱——千喚萬呼始出來,神秘面紗終于揭開收到板子已經(jīng)幾天了,遇上了一年一季的數(shù)學建模大賽,樓主跟上小學弟
    發(fā)表于 09-16 10:18

    請問采樣保持芯片AD783的ONE-SHOT是什么電路

    您好! 有倆個問題請教!附件里是AD783的Datasheet里推薦的一個采樣電路。我的問題是:1.這個電路里的ONE-SHOT 是什么電路, 2.那個觸發(fā)器使用的是什么型號的觸發(fā)器呢? 謝謝了!附件AD783.png48.8 KB
    發(fā)表于 12-03 09:19

    揭開深記憶示波器的神秘面紗

    揭開深記憶示波器的神秘面紗
    發(fā)表于 09-23 07:56

    如何使用的方案做語音識別功能并且不影響普通的麥克風錄音功能?

    如何使用的方案做語音識別功能并且不影響普通的麥克風錄音功能?
    發(fā)表于 03-04 06:46

    蘋果iPhone手機神秘面紗揭開

    蘋果iPhone手機神秘面紗揭開       據(jù)國外媒體報道,日前,BoyGeniusReport網(wǎng)站公布了號稱是下一代iPhone手機所用背蓋的照
    發(fā)表于 04-17 16:22 ?486次閱讀

    上市了嗎_ 股票代碼是什么

    蘇州信息科技有限公司 是一家語音技術公司。2007年,創(chuàng)立在英國劍橋高新區(qū)。
    的頭像 發(fā)表于 03-09 12:28 ?1.4w次閱讀

    揭開vivo APEX全面屏的神秘面紗

    vivo 官方終于向外界揭開了24日預告的 APEX 全面屏概念機的神秘面紗。我們可以用一個詞來形容:驚艷。如果一個詞不夠用,那我們再加一個詞:黑科技滿滿。
    發(fā)表于 03-21 10:12 ?2113次閱讀

    Duskers - 揭開科幻生存游戲中的神秘面紗

    飛行員無人駕駛太空船,找到生存的手段,揭開宇宙如何成為這個科幻生存游戲中的巨大墓地的神秘面紗。
    的頭像 發(fā)表于 11-08 06:37 ?3049次閱讀

    一個單路徑One-Shot模型,以解決訓練過程中面對的主要挑戰(zhàn)

    One-Shot 是一種新范式。它定義了超網(wǎng)絡,并以相似的方式做權重復用。但是并沒有將模型結構分布參數(shù)化。模型搜索從超網(wǎng)絡訓練中解耦,并且解決步驟是獨立的。因此,One-Shot 具有序列性。它結合了上述嵌套式和聯(lián)合式優(yōu)化方法的優(yōu)點,因此靈活而高效。
    的頭像 發(fā)表于 04-04 16:46 ?4174次閱讀
    一個單路徑<b class='flag-5'>One-Shot</b>模型,以解決訓練過程中面對的主要挑戰(zhàn)

    “聲象”揭開神秘面紗

    語音輸入板,展示云端的大段連續(xù)語音轉文字的技術,實時轉錄,識別率高達96%;多輪對話,功能升級的“小”將更加能說回到,體貼知心;語音世界,實時對錄入聲音進行合成化處理,模仿林志玲、郭德綱、葛優(yōu)、童聲、標準男女聲等聲音;語音活動導覽,講述參展企業(yè)的品牌歷程。
    的頭像 發(fā)表于 08-06 09:57 ?2445次閱讀

    揭開數(shù)字健康應用的AI和機器學習的神秘面紗

    在本文中,我們將仔細研究用于處理生理信號的算法的整體架構,并揭開其操作的神秘面紗。
    的頭像 發(fā)表于 12-01 15:17 ?575次閱讀

    揭開快充芯片的神秘面紗

    UFP芯片是一種用于USB快充技術的關鍵元件,它在移動設備和充電器之間進行通信和協(xié)調,以實現(xiàn)高效、安全、快速的充電過程。下面我們將揭開快充芯片的神秘面紗,深入探討UFP快充芯片的工作原理和功能
    的頭像 發(fā)表于 04-15 12:51 ?514次閱讀

    用智能DAC揭開醫(yī)療報警設計的神秘面紗

    電子發(fā)燒友網(wǎng)站提供《用智能DAC揭開醫(yī)療報警設計的神秘面紗.pdf》資料免費下載
    發(fā)表于 09-14 10:50 ?0次下載
    用智能DAC<b class='flag-5'>揭開</b>醫(yī)療報警設計的<b class='flag-5'>神秘</b><b class='flag-5'>面紗</b>