0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

汽車多模態(tài)交互研究:大模型及多模態(tài)融合,推進(jìn)AI Agent上車

佐思汽車研究 ? 來源:佐思汽車研究 ? 2023-11-24 16:12 ? 次閱讀

佐思汽研發(fā)布《2023年中國汽車多模態(tài)交互發(fā)展研究報告》,主要梳理了主流座艙交互方式、2023年上市的重點(diǎn)車型交互方式應(yīng)用、供應(yīng)商座艙交互方案,以及多模交互融合趨勢。

通過梳理最近一年新上市車型的交互方式和功能來看,主動式、擬人化、自然化交互成為主要方向。從交互方式來看:單一模態(tài)交互,如觸覺、語音等主流交互的控制范圍從車內(nèi)拓展至車外,指紋、肌電等新型交互方式的上車案例開始增多;多模態(tài)融合交互下,語音+頭姿/人臉/唇語、面部+情緒/嗅覺等多種融合交互不斷上車,旨在打造更加主動、自然的人車交互。

單一模態(tài)的縱深發(fā)展

觸覺交互方面:座艙大屏化、多屏化趨勢加劇,同時智能表面材料在艙內(nèi)的擴(kuò)展應(yīng)用,讓觸覺感知范圍向車門、車窗、座椅等部件擴(kuò)展,并逐步引入觸覺反饋技術(shù);

語音交互方面:語音交互在AI大模型的賦能下,功能愈加智能化、情感化。唇動識別、聲紋識別等技術(shù)的上車,使語音交互精準(zhǔn)度得到進(jìn)一步提升,控制范圍也從車內(nèi)拓展至車外;

視覺交互方面:基于視覺技術(shù)的面部/手勢識別范圍開始逐漸向肢體識別擴(kuò)展,包括頭部姿勢、手臂動作,以及身體行為等;

嗅覺交互方面:原主要用于凈化空氣、祛除異味的嗅覺交互功能,現(xiàn)今可實(shí)現(xiàn)座艙殺菌消毒、并支持香氛系統(tǒng)與座艙場景/季節(jié)時令聯(lián)動。

案例1

語音控車實(shí)現(xiàn)車內(nèi)向車外延伸

代表車型:長安啟源A07、極越01

代表功能:車外語音開啟車門、車窗、輔助泊車等

長安啟源A07采用科大訊飛最新XTTS 4.0 技術(shù),車載語音助手聲音更加自然擬人化,具備高興、抱歉、疑惑等多情感表達(dá)。支持向車外喊話(內(nèi)容可自定義);此外,還可在車外通過語音實(shí)現(xiàn)對后備箱、車窗、音樂、空調(diào)、出庫/泊車等功能的控制。

極越01搭載“SIMO”語音助手,支持全域全離線語音,無網(wǎng)弱網(wǎng)也可全程在線語音交互;可實(shí)現(xiàn)500毫秒識別,700毫秒內(nèi)響應(yīng)。在車外,駕乘人員可通過聲紋識別技術(shù)實(shí)現(xiàn)語音操作空調(diào)、音響、燈光、車窗、車門、后尾門、充電蓋的開啟/關(guān)閉等功能,以及支持車外語音泊車。

案例2

聲紋識別擴(kuò)大應(yīng)用

代表車型:理想L7、合創(chuàng)A06/V09

代表功能:識別駕乘人員身份,提供針對性服務(wù)

理想L系列車型均支持聲紋識別功能。在乘客聲紋注冊后,“理想同學(xué)”可分辨乘客是誰,叫出不同乘客指定的昵稱,并結(jié)合聲紋記憶對不同乘客位置執(zhí)行車控。

合創(chuàng)A06/V09的聲紋識別VOICE ID,能清楚識別有效用戶身份以及指令,并將成為HYCAN ID的入口,為用戶接入豐富智慧生態(tài),使用100+款娛樂應(yīng)用。另外基于聲紋識別技術(shù),系統(tǒng)將主動屏蔽其他干擾聲音,提高主駕識別精準(zhǔn)度。

9a96ea44-8a8e-11ee-939d-92fbcf53809c.png

圖片來源:合創(chuàng)汽車

案例3

肌電交互實(shí)現(xiàn)車載商業(yè)化落地

代表車型:嵐圖追光

代表功能:車內(nèi)外隔空微手勢控車

2023年4月,嵐圖追光與柔靈科技推出肌電交互融合方案。該方案主要通過肌電手環(huán)實(shí)現(xiàn)。手環(huán)內(nèi)部安裝多通道肌電傳感器和高精度放大器,可以實(shí)時采集豐富的肌肉電信號并生成算法,傳導(dǎo)計(jì)算終端,從而生成個性化的AI手勢模型,之后再和嵐圖的車載平臺整合。使用者將手環(huán)與車內(nèi)藍(lán)牙連接,即可實(shí)現(xiàn)以微手勢控制車輛,包括開關(guān)后備箱、升降車窗等60+種手勢動作。此外,手環(huán)還可以和車內(nèi)游戲系統(tǒng)無縫連接。借助肌電手環(huán)的手勢識別,用戶可以更自然、直觀地操控游戲角色,如地鐵跑酷等。

9ae2b03c-8a8e-11ee-939d-92fbcf53809c.png

圖片來源:柔靈科技

多模態(tài)融合,打造主動交互

目前車企已實(shí)現(xiàn)的多模態(tài)融合包括但不限于語音+唇動識別、語音+面部識別、語音+手勢識別、語音+頭姿、面部+情緒識別、面部+眼球追蹤、香氛+面部+語音識別等。其中語音多模態(tài)交互方式為當(dāng)下主流,應(yīng)用車型包括上文提到的長安啟源A07、極越01、理想L7、合創(chuàng)A06/V09等車型。

多模態(tài)融合代表功能(僅列舉部分)

9b005e84-8a8e-11ee-939d-92fbcf53809c.jpg

來源:佐思汽研《2023年中國汽車多模態(tài)交互發(fā)展研究報告》

案例1

語音+頭姿交互:魏牌藍(lán)山DHT PHEV將語音和頭姿進(jìn)行結(jié)合,交互方式簡單直觀

當(dāng)駕駛員進(jìn)行語音對話時,藍(lán)山座艙利用車載攝像頭捕捉駕駛員的頭部動作,通過點(diǎn)頭/搖頭進(jìn)行確定/否定答復(fù)。例如語音控制導(dǎo)航時,可通過點(diǎn)頭/搖頭選擇路線規(guī)劃方案。

案例2

面部+情緒識別:睿藍(lán)7、極狐考拉等車型在面部識別功能上融入情緒識別技術(shù),提供主動交互,增強(qiáng)交互體驗(yàn)

睿藍(lán)7的多模智識Face-ID系統(tǒng)支持唇動識別、情緒識別,能記憶關(guān)聯(lián)賬戶對應(yīng)語音、座椅、后視鏡、氛圍燈、后備箱設(shè)置等車輛功能個性化信息,還可根據(jù)車主的“臉色”來選擇合適的音樂。

極狐考拉位于B柱的攝像頭正對后排,可實(shí)時監(jiān)控孩子狀態(tài)。例如孩子在微笑時將自動抓拍傳送至中控屏;哭鬧時將自動播放安撫音樂/智能座椅表面呼吸律動,平復(fù)孩子情緒。另外,攝像頭還可與車內(nèi)毫米波雷達(dá)聯(lián)動,判斷孩子是否睡著,睡著則自動打開睡眠模式,開啟座椅通風(fēng),空調(diào)溫度適當(dāng)調(diào)整,音響、氛圍燈進(jìn)行聯(lián)動,產(chǎn)生律動效果。

案例3

面部+嗅覺:蔚來EC7、睿藍(lán)7等車型實(shí)將駕駛員監(jiān)控系統(tǒng)與香氛系統(tǒng)聯(lián)動,提升駕車安全性

蔚來EC7監(jiān)測到駕駛員的疲勞狀態(tài)時,將自動釋放提神醒腦的香氛,以確保駕駛安全;

睿藍(lán)7位于A柱的攝像頭監(jiān)控到駕駛員犯困時,將自動釋放提神香氛,并進(jìn)行語音提醒。

大模型及多模態(tài)融合,將推進(jìn)AI Agent上車

AI大模型正從單模態(tài)走向多模態(tài)、多任務(wù)融合的趨勢。相較于單模態(tài)只能處理一種類型的數(shù)據(jù),例如文本、圖像、語音等,多模態(tài)則可以處理和理解多種類型的數(shù)據(jù),包括視覺、聽覺、語言等,從而能夠更好地理解和生成復(fù)雜的信息。 隨著多模態(tài)大模型的持續(xù)發(fā)展,其能力也將得到顯著提升。這種提升賦予AI Agent(人工智能體)更強(qiáng)大的感知和環(huán)境理解能力,以實(shí)現(xiàn)更智能、自主的決策和行動。同時也為汽車領(lǐng)域的應(yīng)用開拓了新的可能性,為未來的智能化發(fā)展提供了更廣闊的前景。

9b78ccac-8a8e-11ee-939d-92fbcf53809c.png

圖片來源:紅杉資本

科大訊飛基于星火大模型開發(fā)的星火座艙OS,支持語音、手勢、人眼追蹤、DMS/OMS等多種交互模態(tài),星火汽車助理通過深度上下文理解實(shí)現(xiàn)多意圖識別,提供更加自然的人機(jī)交互。訊飛星火大模型首搭車型星途星紀(jì)元ES,將帶來五大全新的體驗(yàn):車輛功能導(dǎo)師、冷暖共情伙伴、知識百科全書、旅行規(guī)劃專家、身體健康顧問。

9b9f1cc2-8a8e-11ee-939d-92fbcf53809c.png

來源:科大訊飛

將于2023年12月上市的AITO問界M9內(nèi)置HarmonyOS 4車機(jī)系統(tǒng)。鴻蒙4中智慧助手小藝已經(jīng)接入了盤古大模型。華為盤古大模型,包括自然語言大模型、視覺大模型、多模態(tài)大模型等。鴻蒙4+小藝+盤古大模型,設(shè)備協(xié)同、AI場景等生態(tài)能力將再度增強(qiáng),借助多模態(tài)交互技術(shù),提供多樣化的交互方式,包括語音識別、手勢控制、觸摸屏操作等。

9bbc981a-8a8e-11ee-939d-92fbcf53809c.png

圖片來源:華為

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音交互
    +關(guān)注

    關(guān)注

    3

    文章

    282

    瀏覽量

    27951
  • 聲紋識別
    +關(guān)注

    關(guān)注

    3

    文章

    137

    瀏覽量

    21482
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2203

    瀏覽量

    2227

原文標(biāo)題:汽車多模態(tài)交互研究:大模型及多模態(tài)融合,推進(jìn)AI Agent上車

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說
    的頭像 發(fā)表于 10-18 09:39 ?132次閱讀

    蘋果發(fā)布300億參數(shù)模態(tài)AI模型MM1.5

    蘋果近日推出了全新的模態(tài)AI模型MM1.5,該模型擁有高達(dá)300億的參數(shù)規(guī)模,是在前代MM1架構(gòu)的基礎(chǔ)上進(jìn)一步發(fā)展而來的。
    的頭像 發(fā)表于 10-14 15:50 ?169次閱讀

    云知聲推出山海模態(tài)模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨(dú)運(yùn)的山海
    的頭像 發(fā)表于 08-27 15:20 ?315次閱讀

    智譜AI發(fā)布全新模態(tài)開源模型GLM-4-9B

    近日,智譜AI在人工智能領(lǐng)域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態(tài)能力,再次刷新了業(yè)界對于大型語言
    的頭像 發(fā)表于 06-07 09:17 ?597次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI模型

    李未可科技模態(tài) AI模型正式發(fā)布,積極推進(jìn) AI 在終端的場景應(yīng)用 ? 4月18日,202
    發(fā)表于 04-18 17:01 ?534次閱讀
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>

    AI機(jī)器人迎來模態(tài)模型

    配備 GR00T 模型的機(jī)器人由于需要“吸收消化”外界的模態(tài)信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發(fā)表于 04-12 10:39 ?235次閱讀

    谷歌推出模態(tài)VLOGGER AI

    谷歌最新推出的VLOGGER AI技術(shù)引起了廣泛關(guān)注,這項(xiàng)創(chuàng)新的模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內(nèi)容,VLOGGER
    的頭像 發(fā)表于 03-22 10:45 ?725次閱讀

    螞蟻集團(tuán)推出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo
    的頭像 發(fā)表于 03-04 11:22 ?705次閱讀

    MWC2024:高通推出全新AI Hub及前沿模態(tài)模型

    2024年世界移動通信大會(MWC)上,高通再次展現(xiàn)其技術(shù)領(lǐng)導(dǎo)力,通過發(fā)布全新的高通AI Hub和展示前沿的模態(tài)模型技術(shù),推動了5G和AI
    的頭像 發(fā)表于 02-26 16:59 ?1129次閱讀

    機(jī)器人基于開源的模態(tài)語言視覺大模型

    ByteDance Research 基于開源的模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?323次閱讀
    機(jī)器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語言視覺大<b class='flag-5'>模型</b>

    從Google模態(tài)模型看后續(xù)大模型應(yīng)該具備哪些能力

    前段時間Google推出Gemini模態(tài)模型,展示了不凡的對話能力和模態(tài)能力,其表現(xiàn)究竟如何呢?
    的頭像 發(fā)表于 12-28 11:19 ?1098次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>看后續(xù)大<b class='flag-5'>模型</b>應(yīng)該具備哪些能力

    語音識別技術(shù)最新進(jìn)展:視聽融合模態(tài)交互成為主要演進(jìn)方向

    多種模態(tài)(聲學(xué)、語言模型、視覺特征等)進(jìn)行聯(lián)合建模,基于深度學(xué)習(xí)的模態(tài)語音識別取得了新進(jìn)展。 ?
    的頭像 發(fā)表于 12-28 09:06 ?3274次閱讀
    語音識別技術(shù)最新進(jìn)展:視聽<b class='flag-5'>融合</b>的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>交互</b>成為主要演進(jìn)方向

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行
    的頭像 發(fā)表于 12-15 14:28 ?8048次閱讀

    模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大
    的頭像 發(fā)表于 12-13 13:55 ?1526次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    探究編輯模態(tài)大語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單
    發(fā)表于 11-09 14:53 ?443次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>的可行性