0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多語(yǔ)種語(yǔ)音助手 構(gòu)建本地語(yǔ)音交互內(nèi)容生態(tài)

傳音控股 ? 來(lái)源:傳音控股 ? 2023-09-15 10:16 ? 次閱讀

伴隨著5G、人工智能技術(shù)的發(fā)展,智能語(yǔ)音已經(jīng)隨著各種智能終端產(chǎn)品滲透到人們的日常生活中,帶來(lái)了更多便捷和可能性。作為新興市場(chǎng)智能終端產(chǎn)品和移動(dòng)互聯(lián)服務(wù)提供商,傳音聚焦人工智能領(lǐng)域持續(xù)創(chuàng)新,不斷推進(jìn)AI語(yǔ)音技術(shù)的研究和應(yīng)用,挖掘更多本地化用戶(hù)場(chǎng)景要求,為新興市場(chǎng)用戶(hù)帶來(lái)全場(chǎng)景智能交互體驗(yàn)。

目前,傳音已經(jīng)在語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成、自然語(yǔ)言處理、知識(shí)圖譜等方面形成了的自身的AI語(yǔ)音底層技術(shù)能力,構(gòu)建起小語(yǔ)種語(yǔ)音數(shù)據(jù)優(yōu)勢(shì),并在多語(yǔ)種語(yǔ)音助手、數(shù)字人、語(yǔ)音偽造檢測(cè)技術(shù)方面取得了重大突破。今年以來(lái),傳音AI技術(shù)部成果不斷,接連在ICASSP 2023 SLU口語(yǔ)理解挑戰(zhàn)賽、IJCAI 2023 ADD 語(yǔ)音深度偽造檢測(cè)國(guó)際挑戰(zhàn)賽奪得佳績(jī),并在國(guó)際多媒體旗艦學(xué)術(shù)會(huì)議ICME 2023上發(fā)表數(shù)字人多模態(tài)交互的相關(guān)學(xué)術(shù)論文。

多語(yǔ)種語(yǔ)音助手

構(gòu)建本地語(yǔ)音交互內(nèi)容生態(tài)

語(yǔ)音助手是智能手機(jī)的標(biāo)配應(yīng)用之一,其核心技術(shù)為語(yǔ)音交互和自然語(yǔ)言理解,旨在幫助用戶(hù)更快捷、高效地執(zhí)行目標(biāo)任務(wù)。面對(duì)新興市場(chǎng)本地語(yǔ)音交互的需求,傳音長(zhǎng)期深耕多語(yǔ)種語(yǔ)音助手技術(shù),著力洞察本地用戶(hù)需求,形成技術(shù)解決方案,在探索和研發(fā)過(guò)程中沉淀了深厚的技術(shù)能力和實(shí)踐經(jīng)驗(yàn)。

在語(yǔ)音技術(shù)領(lǐng)域國(guó)際頂級(jí)會(huì)議ICASSP(IEEE International Conference on Acoustics, Speech and Signal Processing)組織的2023口語(yǔ)理解挑戰(zhàn)賽SLU(Spoken Language Understanding)中,傳音AI技術(shù)部憑借在語(yǔ)音識(shí)別和語(yǔ)義理解方面的突出表現(xiàn),以71.97%的準(zhǔn)確率獲斬獲離線(xiàn)語(yǔ)音助手子賽道第一名。參賽論文“A Two-Stage System for Spoken Language Understanding”被IEEE電氣與電子工程師協(xié)會(huì)(Institute of Electrical and Electronics Engineers)收錄。

當(dāng)前,語(yǔ)音助手主要面向主流語(yǔ)言,而對(duì)小眾語(yǔ)言、特定人群等細(xì)分領(lǐng)域覆蓋較少。傳音針對(duì)非洲、南亞等新興市場(chǎng)用戶(hù)的本地口音和小語(yǔ)種,依托海量手機(jī)用戶(hù)資源,建設(shè)了一套本地化低成本、高質(zhì)量的語(yǔ)料數(shù)據(jù)生產(chǎn)體系,解決小語(yǔ)種語(yǔ)料匱乏、數(shù)據(jù)稀缺的問(wèn)題。在此基礎(chǔ)上,傳音開(kāi)發(fā)能適應(yīng)新興市場(chǎng)本地用戶(hù)語(yǔ)言文化特點(diǎn)的多語(yǔ)種語(yǔ)音助手,幫助當(dāng)?shù)赜脩?hù)更加便捷地使用本地語(yǔ)言與手機(jī)進(jìn)行語(yǔ)音交互。目前,傳音的多語(yǔ)種語(yǔ)音助手技術(shù)已支持英語(yǔ)、法語(yǔ)、豪薩語(yǔ)、阿拉伯語(yǔ)、斯瓦西里語(yǔ)等語(yǔ)言的語(yǔ)音交互和自然語(yǔ)言理解能力,覆蓋聯(lián)系人通話(huà)、APP快速啟動(dòng)、音樂(lè)播放、WhatsApp消息、閑聊等100多種使用場(chǎng)景。

面向本地用戶(hù)生活服務(wù)的訴求,傳音的多語(yǔ)種AI語(yǔ)音助手技術(shù)將不斷接入更多生活、出行、學(xué)習(xí)、工作等場(chǎng)景的生態(tài)服務(wù),構(gòu)建多領(lǐng)域跨語(yǔ)言的AI內(nèi)容服務(wù)生態(tài),讓智能化語(yǔ)音服務(wù)滲透到本地生活的方方面面,讓更多小語(yǔ)種的使用人群受益。

AI+數(shù)字人技術(shù)

賦能傳音多場(chǎng)景業(yè)務(wù)

隨著交互智能技術(shù)的加速發(fā)展,數(shù)字人正在從技術(shù)創(chuàng)新走向產(chǎn)業(yè)應(yīng)用,在娛樂(lè)、教育、醫(yī)療等多個(gè)領(lǐng)域發(fā)揮作用。傳音積極擁抱AI發(fā)展機(jī)遇,提前布局?jǐn)?shù)字人技術(shù),建立了完備的全鏈路技術(shù)和工程化的自研能力。傳音數(shù)字人系統(tǒng),包含2D真人和3D寫(xiě)實(shí)數(shù)字人,擁有基于多語(yǔ)種的語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音喚醒、自然語(yǔ)言理解和數(shù)字人等能力的數(shù)據(jù)資源,在多語(yǔ)種語(yǔ)音對(duì)話(huà)、人設(shè)和外觀、智能化場(chǎng)景交互等領(lǐng)域形成了自身的本地化特色和行業(yè)領(lǐng)先性。今年1月,傳音數(shù)字人系統(tǒng)獲得由中國(guó)信通院所頒發(fā)的數(shù)字人領(lǐng)域權(quán)威標(biāo)準(zhǔn)認(rèn)證。這也是當(dāng)前唯一通過(guò)中國(guó)信通院評(píng)測(cè),以“交互對(duì)話(huà)”為核心的中國(guó)手機(jī)廠商數(shù)字人系統(tǒng)。

為了提高虛擬形象的仿真效果、合成出逼真且富有表現(xiàn)力的數(shù)字人視頻,傳音AI技術(shù)部自研端到端技術(shù),在優(yōu)化數(shù)字人視頻生成質(zhì)量的過(guò)程中,基于Unet網(wǎng)絡(luò)提出了一種新的技術(shù)框架densely-connected Unet結(jié)構(gòu),同時(shí)引入了CLIP的encoder結(jié)構(gòu),利用文本語(yǔ)義信息提升數(shù)字人嘴部動(dòng)畫(huà)效果。同時(shí)該技術(shù)提出人臉關(guān)鍵點(diǎn)技術(shù)的概率密度圖,增加了模型網(wǎng)絡(luò)的模態(tài)信息,提升了模型生成的質(zhì)量。這一技術(shù)突破能夠讓數(shù)字人的面部形象更加真實(shí)、細(xì)膩,同時(shí)提升語(yǔ)音和唇形的一致性,其生成效果達(dá)到了學(xué)術(shù)上的領(lǐng)先水平。相關(guān)學(xué)術(shù)論文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被國(guó)際多媒體旗艦學(xué)術(shù)會(huì)議ICME 2023(IEEE International Conference on Multimedia and Expo)成功錄用。

3be92740-536c-11ee-a25d-92fbcf53809c.png

目前,傳音數(shù)字人系統(tǒng)已經(jīng)深度應(yīng)用于多業(yè)務(wù)場(chǎng)景,不僅落地海外手機(jī)門(mén)店,擔(dān)任智能導(dǎo)購(gòu)員為用戶(hù)購(gòu)買(mǎi)手機(jī)提供參考,還作為智能語(yǔ)音助手賦能多類(lèi)智能終端產(chǎn)品,提升用戶(hù)體驗(yàn)。下一步傳音將通過(guò)“AI+數(shù)字人”技術(shù)賦能多場(chǎng)景業(yè)務(wù),積極探索數(shù)字人版語(yǔ)音助手和客服系統(tǒng)等新業(yè)務(wù)形態(tài),為用戶(hù)帶來(lái)全新的智能交互體驗(yàn)。

持續(xù)構(gòu)建AI語(yǔ)音底層技術(shù)能力

在AI技術(shù)快速發(fā)展的現(xiàn)今,算法生成音頻和音頻偽造已經(jīng)可以做到以假亂真,對(duì)于普通用戶(hù)來(lái)說(shuō)辨別音頻真假非常困難。為了維護(hù)信息的可信性、保障社會(huì)安全,語(yǔ)音偽造檢測(cè)技術(shù)變得至關(guān)重要,已經(jīng)成為人工智能領(lǐng)域的一個(gè)較新的研究方向。傳音圍繞智能終端產(chǎn)品業(yè)務(wù)場(chǎng)景,以本地用戶(hù)需求為導(dǎo)向,不斷延伸AI語(yǔ)音底層技術(shù)能力,布局新技術(shù)領(lǐng)域,在語(yǔ)音偽造檢測(cè)技術(shù)上取得了重大突破。

傳音AI技術(shù)部在國(guó)際人工智能聯(lián)合會(huì)議IJCAI 2023(The 32nd International Joint Conference on Artificial Intelligence)組織的第二屆語(yǔ)音深度偽造檢測(cè)國(guó)際挑戰(zhàn)賽ADD(The Second Audio Deepfake Detection Challenge)“篡改區(qū)域定位”(Manipulation Region Location)分賽道上奪得第二名。在比賽中,傳音AI技術(shù)部自研創(chuàng)新的AI模型算法和技術(shù),能夠準(zhǔn)確識(shí)別并定位音頻中語(yǔ)音的篡改行為,從而有效保障數(shù)字音頻的原始性和真實(shí)性,為AI應(yīng)用及信息安全建設(shè)提供新思路。相關(guān)學(xué)術(shù)論文已成功發(fā)表在本屆IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)會(huì)議上。

下一步,傳音AI技術(shù)部將繼續(xù)探索語(yǔ)音深度偽造檢測(cè)技術(shù)在傳音智能終端產(chǎn)品上的應(yīng)用,如通話(huà)詐騙檢查保護(hù)用戶(hù)隱私安全等,不斷提升用戶(hù)使用體驗(yàn)。

未來(lái),傳音將繼續(xù)在AI語(yǔ)音多模態(tài)技術(shù)領(lǐng)域發(fā)力,圍繞“手機(jī)+移動(dòng)互聯(lián)網(wǎng)服務(wù)+家電、數(shù)碼配件”核心業(yè)務(wù)需求,結(jié)合對(duì)新興市場(chǎng)和本地消費(fèi)者的深刻洞察,為用戶(hù)提供適切其需求的智能生活體驗(yàn),形成本地化的AI內(nèi)容服務(wù)生態(tài),持續(xù)滿(mǎn)足多語(yǔ)種、多場(chǎng)景、個(gè)性化、智能化的應(yīng)用需求。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能手機(jī)
    +關(guān)注

    關(guān)注

    66

    文章

    18374

    瀏覽量

    179539
  • 人工智能技術(shù)
    +關(guān)注

    關(guān)注

    2

    文章

    210

    瀏覽量

    10505
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1846

    瀏覽量

    34804
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    591

    瀏覽量

    13468

原文標(biāo)題:傳音持續(xù)深耕AI語(yǔ)音多模態(tài)技術(shù),打造本地化智能交互體驗(yàn)

文章出處:【微信號(hào):TranssionHoldings,微信公眾號(hào):傳音控股】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    HarmonyOS NEXT應(yīng)用元服務(wù)開(kāi)發(fā)多語(yǔ)種場(chǎng)景

    當(dāng)對(duì)朗讀內(nèi)容進(jìn)行標(biāo)注時(shí),須對(duì)標(biāo)注字符串進(jìn)行多語(yǔ)種翻譯,具體支持的語(yǔ)種和應(yīng)用本身界面支持的語(yǔ)種保持一致。若采用多個(gè)字符串進(jìn)行朗讀內(nèi)容的拼接,需
    發(fā)表于 10-21 14:56

    HarmonyOS NEXT應(yīng)用元服務(wù)開(kāi)發(fā)多語(yǔ)種場(chǎng)景

    當(dāng)對(duì)朗讀內(nèi)容進(jìn)行標(biāo)注時(shí),須對(duì)標(biāo)注字符串進(jìn)行多語(yǔ)種翻譯,具體支持的語(yǔ)種和應(yīng)用本身界面支持的語(yǔ)種保持一致。若采用多個(gè)字符串進(jìn)行朗讀內(nèi)容的拼接,需
    發(fā)表于 10-18 09:40

    智能自行車(chē)碼表:基于2605C語(yǔ)音芯片的創(chuàng)新開(kāi)發(fā)方案

    隨著科技的飛速發(fā)展和人們對(duì)健康生活的追求,自行車(chē)騎行已成為一種廣受歡迎的綠色出行方式。智能自行車(chē)碼表作為騎行者的得力助手,不僅記錄騎行數(shù)據(jù),還逐漸融入了更多智能化功能。然而,傳統(tǒng)碼表在語(yǔ)音提示、多語(yǔ)種支持及用戶(hù)
    的頭像 發(fā)表于 09-21 11:20 ?183次閱讀

    訊維智能語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)確保企業(yè)數(shù)據(jù)的安全性

    糾錯(cuò)以及多語(yǔ)種支持等特性,正在深刻改變著會(huì)議記錄、教育培訓(xùn)、采訪報(bào)道和法律取證等多個(gè)領(lǐng)域的工作方式。 一、系統(tǒng)介紹 訊維智能語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng),是一款智能語(yǔ)音識(shí)別產(chǎn)品,專(zhuān)為高效會(huì)議設(shè)計(jì)。它能夠?qū)崟r(shí)捕捉并轉(zhuǎn)寫(xiě)會(huì)議中的
    的頭像 發(fā)表于 08-02 15:53 ?468次閱讀

    離線(xiàn)語(yǔ)音控制技術(shù)特點(diǎn)

    離線(xiàn)語(yǔ)音控制通過(guò)結(jié)合高性能的音頻前端處理算法和本地AI模型實(shí)現(xiàn)了高效的語(yǔ)音識(shí)別和控制能力,不依賴(lài)于互聯(lián)網(wǎng)連接,同時(shí)具備靈活的應(yīng)用擴(kuò)展性。這種解決方案為各種智能設(shè)備提供了穩(wěn)定、高效和多語(yǔ)
    的頭像 發(fā)表于 06-26 18:12 ?343次閱讀
    離線(xiàn)<b class='flag-5'>語(yǔ)音</b>控制技術(shù)特點(diǎn)

    智能語(yǔ)音助手在醫(yī)療行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語(yǔ)音助手在醫(yī)療行業(yè)的應(yīng)用越來(lái)越廣泛。語(yǔ)音數(shù)據(jù)集在醫(yī)療智能語(yǔ)音助手中發(fā)揮著重要作用,為系統(tǒng)提供了豐富
    的頭像 發(fā)表于 01-19 17:37 ?561次閱讀

    智能語(yǔ)音助手在旅游行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展和普及,智能語(yǔ)音助手在旅游行業(yè)的應(yīng)用越來(lái)越廣泛。語(yǔ)音數(shù)據(jù)集在旅游智能語(yǔ)音助手中發(fā)揮著重要作用,為系統(tǒng)提供
    的頭像 發(fā)表于 01-19 17:30 ?664次閱讀

    智能語(yǔ)音助手在教育行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語(yǔ)音助手在教育行業(yè)的應(yīng)用越來(lái)越廣泛。語(yǔ)音數(shù)據(jù)集在教育智能語(yǔ)音助手中發(fā)揮著重要作用,為系統(tǒng)提供了豐富
    的頭像 發(fā)表于 01-19 17:21 ?693次閱讀

    智能語(yǔ)音助手在醫(yī)療行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語(yǔ)音助手在醫(yī)療行業(yè)的應(yīng)用越來(lái)越廣泛。語(yǔ)音數(shù)據(jù)集在醫(yī)療智能語(yǔ)音助手中發(fā)揮著重要作用,為系統(tǒng)提供了豐富
    的頭像 發(fā)表于 01-18 16:41 ?449次閱讀

    語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語(yǔ)音助手已經(jīng)成為了人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?b class='flag-5'>語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中發(fā)揮著重要作用,為系統(tǒng)
    的頭像 發(fā)表于 01-18 15:46 ?332次閱讀

    語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著智能設(shè)備的普及和人工智能技術(shù)的不斷發(fā)展,智能語(yǔ)音助手已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?b class='flag-5'>語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中發(fā)揮著重
    的頭像 發(fā)表于 12-14 15:07 ?691次閱讀

    語(yǔ)音數(shù)據(jù)集:AI語(yǔ)音技術(shù)的靈魂

    一、引言 在人工智能領(lǐng)域,語(yǔ)音技術(shù)被譽(yù)為“未來(lái)人機(jī)交互的入口”,而語(yǔ)音數(shù)據(jù)集則是AI語(yǔ)音技術(shù)的靈魂。本文將深入探討語(yǔ)音數(shù)據(jù)集的重要性、
    的頭像 發(fā)表于 12-14 14:33 ?907次閱讀

    讓科技與世界接軌:輕生活科技小語(yǔ)種離線(xiàn)語(yǔ)音模塊

    輕生活科技一直以來(lái)致力于為人們提供更便捷、更智能的生活方式。此次推出的小語(yǔ)種離線(xiàn)語(yǔ)音模塊是公司不斷探索和創(chuàng)新的結(jié)果。這款模塊最大的特點(diǎn)就是支持多種語(yǔ)言,讓用戶(hù)不再因?yàn)檎Z(yǔ)言障礙而無(wú)法操作智能設(shè)備。無(wú)論是中文、英文還是其他小語(yǔ)種,都
    的頭像 發(fā)表于 11-08 15:03 ?357次閱讀
    讓科技與世界接軌:輕生活科技小<b class='flag-5'>語(yǔ)種</b>離線(xiàn)<b class='flag-5'>語(yǔ)音</b>模塊

    輕生活科技的“小語(yǔ)種離線(xiàn)語(yǔ)音模塊”:打破語(yǔ)言壁壘,開(kāi)啟智能新紀(jì)元

    “小語(yǔ)種離線(xiàn)語(yǔ)音模塊”采用了高性能AI芯片,搭載中科院聲學(xué)所的小語(yǔ)種離線(xiàn)語(yǔ)音識(shí)別算法,可支持中、英、日、韓、粵語(yǔ)等小語(yǔ)種。其中越南語(yǔ)和印尼語(yǔ)
    的頭像 發(fā)表于 11-07 14:11 ?376次閱讀
    輕生活科技的“小<b class='flag-5'>語(yǔ)種</b>離線(xiàn)<b class='flag-5'>語(yǔ)音</b>模塊”:打破語(yǔ)言壁壘,開(kāi)啟智能新紀(jì)元

    打破語(yǔ)言壁壘,小語(yǔ)種離線(xiàn)語(yǔ)音模塊助力全球產(chǎn)品成功出海

    “小語(yǔ)種離線(xiàn)語(yǔ)音模塊”是輕生活科技公司針對(duì)全球小語(yǔ)種多語(yǔ)種語(yǔ)音控制特定場(chǎng)景與要求開(kāi)發(fā)和定制的一款產(chǎn)品。這款模塊采用了高性能AI芯片,搭載了
    的頭像 發(fā)表于 11-06 14:41 ?501次閱讀
    打破語(yǔ)言壁壘,小<b class='flag-5'>語(yǔ)種</b>離線(xiàn)<b class='flag-5'>語(yǔ)音</b>模塊助力全球產(chǎn)品成功出海