0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌擬用WaveNetEQ技術(shù)提高Duo的通話質(zhì)量 可自動判斷且替換丟失的音頻數(shù)據(jù)

工程師鄧生 ? 來源:雷鋒網(wǎng) ? 作者:雷鋒網(wǎng) ? 2020-04-08 16:07 ? 次閱讀

隨著 4G、5G通信技術(shù)發(fā)展,網(wǎng)絡(luò)通話越來越盛行。但是網(wǎng)絡(luò)不穩(wěn)定是常態(tài),所以通話中我們時(shí)不時(shí)可能會蹦出一句,“你能再重復(fù)一遍嗎,剛剛網(wǎng)絡(luò)不太好?!睘榱颂?a href="http://srfitnesspt.com/tags/高通/" target="_blank">高通話質(zhì)量,谷歌近期在視頻聊天應(yīng)用 Duo 中應(yīng)用了一種新技術(shù) WaveNetEQ ,在出現(xiàn)音頻丟包情況時(shí),該技術(shù)會判斷丟失的音頻數(shù)據(jù)可能是什么,并替換掉它。

背后的技術(shù)支持來自谷歌聲名在外的 DeepMind 團(tuán)隊(duì)。

一個完整的在線呼叫,數(shù)據(jù)經(jīng)常會被分成多個小塊,每小塊就是一個數(shù)據(jù)包 packet 。然而,在這些“數(shù)據(jù)包”從發(fā)送方傳輸?shù)浇邮辗降倪^程中,數(shù)據(jù)包通常會以錯誤的順序到達(dá),從而產(chǎn)生抖動相關(guān)問題,或者直接丟失,造成音頻空白。

谷歌給出一份資料顯示, Duo 99% 的通話都有數(shù)據(jù)包丟失、過度抖動或網(wǎng)絡(luò)延遲情況。20% 的通話丟失了超過 3% 的音頻,10% 的通話丟包率超過 8% ,也就是說每次通話都有很多音頻需要替換。

每個視音頻 app 都會用某種方式處理丟包。谷歌表示,這些數(shù)據(jù)包丟失隱藏 (PLC) 過程可能很難更好地填補(bǔ) 60 毫秒或更長時(shí)間的空白。過去常用算法是 NetEQ ,這是 webRTC 中音頻技術(shù)方面的兩大核心技術(shù)之一(另一核心技術(shù)是音頻的前后處理,包括AEC、ANS、AGC等)。webRTC 是谷歌收購 GIPS 再開源的,是目前影響力極大的實(shí)時(shí)音視頻通信解決方案,但用它處理丟包,大多情況下聽起來像機(jī)器人機(jī)械重復(fù)。

谷歌就用了大量的語音數(shù)據(jù),訓(xùn)練出了基于 DeepMind WaveRNN 技術(shù)的 WaveNetEQ 模型。訓(xùn)練數(shù)據(jù)集來自 100 多名、48 種不同語言的志愿者,也就是說它可以自動填補(bǔ) 48 種語言的丟包情況。

WaveNetEQ 是一種用于語音合成的遞歸神經(jīng)網(wǎng)絡(luò)模型,由兩部分組成,即自回歸網(wǎng)絡(luò)(autoregressive network)和條件網(wǎng)絡(luò)(conditioning network)。自回歸網(wǎng)絡(luò)的作用是保持信號的平穩(wěn)流動,而條件網(wǎng)絡(luò)控制和影響自回歸網(wǎng)絡(luò)以保持音頻一致性。

谷歌用 WaveNetEQ 取代了原來的 NetEQ PLC 組件,相對于 NetEQ ,它在聲音質(zhì)感方面無疑有提升,而且 WaveNetEQ 模型跑得足夠快,可以在手機(jī)上運(yùn)行,如此也可以規(guī)避用戶可能擔(dān)心的數(shù)據(jù)隱私問題。谷歌稱所有的處理都是在設(shè)備上進(jìn)行,因?yàn)?Duo 的通話默認(rèn)情況下就是端到端加密。一旦通話的真實(shí)音頻恢復(fù),將無縫地切換到現(xiàn)實(shí)對話。

不過,WaveNetEQ 替換的內(nèi)容和時(shí)長有限制。目前是支持在 120 毫秒以內(nèi)的空白,之后會逐漸消失并歸零;WaveNetEQ 不是生成完整的單詞,而是簡單的音節(jié)。

目前 WaveNetEQ 已經(jīng)應(yīng)用到 Pixel 4 手機(jī)上的 Duo APP 中,谷歌表示,它正在將其推廣到其他安卓手機(jī)上。

當(dāng)然用機(jī)器學(xué)習(xí)處理音頻丟包并不是頭一遭,許多公司都在研究相關(guān)技術(shù),以國內(nèi)公司為例,有些是自身業(yè)務(wù)本就涉及視音頻,比如騰訊;有些是音視頻云服務(wù)商,比如阿里,還有一些是專門的音視頻第三方服務(wù)商如聲網(wǎng)等。
責(zé)任編輯:wv

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6106

    瀏覽量

    104831
  • 通話
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    9530
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    129

    瀏覽量

    10803
收藏 人收藏

    評論

    相關(guān)推薦

    請問TLV320AIC3254采樣后的音頻數(shù)據(jù)如何在電腦上播放?

    TLV320AIC3254采樣后的音頻數(shù)據(jù)如何在電腦上播放
    發(fā)表于 10-25 07:58

    使用PCM4204進(jìn)行音頻數(shù)據(jù)采集的過程中,如何把采集到的音頻數(shù)據(jù)通過USB傳輸?shù)絇C上呢?

    在使用PCM4204進(jìn)行音頻數(shù)據(jù)采集的過程中,如何把采集到的音頻數(shù)據(jù)通過USB傳輸?shù)絇C上呢?USB控制命令和音頻數(shù)據(jù)如何做,麻煩大佬指點(diǎn)一下,謝謝!
    發(fā)表于 10-15 06:44

    PCM1860音頻數(shù)據(jù)傳輸格式不可控怎么處理?

    一.問題:PCM1860音頻數(shù)據(jù)傳輸格式不可控,音頻傳輸格式具有隨機(jī)性。 在使用PCM1860+TI28335電路板,采集駐極體麥克信號(連接pcm1860的VINL1和VINL2接口
    發(fā)表于 10-10 06:12

    怎么判斷PLC程序丟失

    PLC(Programmable Logic Controller,可編程邏輯控制器)是一種廣泛應(yīng)用于工業(yè)自動化領(lǐng)域的控制器。PLC程序丟失可能會導(dǎo)致設(shè)備無法正常運(yùn)行,甚至造成生產(chǎn)中斷。因此,判斷
    的頭像 發(fā)表于 07-25 10:01 ?809次閱讀

    如何設(shè)置I2S寄存器以接收32位字的24位音頻數(shù)據(jù)

    。I2S_FIFO_CONF寄存器的第 16-18 位的 Rx FIFO 模式設(shè)置為 2 (= 每通道 24 位,全數(shù)據(jù)中斷)。從從ADC接收的數(shù)據(jù)來看,當(dāng)我將I2S_BITS_MOD設(shè)置為15時(shí),似乎丟失了最高有效位。 如何設(shè)
    發(fā)表于 07-19 10:14

    請問如何輸出32bit的i2s音頻數(shù)據(jù)

    播放藍(lán)牙音樂的時(shí)候,接收到音頻是Receive music info from Bluetooth, sample_rates=44100, bits=16, ch=2。 但是我的功放是要使用bits=32的音頻數(shù)據(jù)。如何修改?。謝謝
    發(fā)表于 06-28 06:27

    ble和a2dp共存,進(jìn)入ble掃描的時(shí)候,音頻數(shù)據(jù)接收會丟失怎么解決?

    ble和a2dp共存,進(jìn)入ble掃描的時(shí)候。音頻數(shù)據(jù)接收會丟失。會卡卡頓 怎么解決?
    發(fā)表于 06-24 08:10

    音頻放大器怎么判斷好壞

    音頻放大器的好壞直接影響到音質(zhì)的表現(xiàn)和音響系統(tǒng)的穩(wěn)定性。下面將從多個方面詳細(xì)介紹如何判斷音頻放大器的好壞,并通過具體的數(shù)字和信息進(jìn)行說明。本文旨在提供一套全面深入的
    的頭像 發(fā)表于 05-31 18:03 ?3487次閱讀

    播放avi視頻時(shí),音頻數(shù)據(jù)該如何處理啊 ?

    請教下,播放 avi 視頻時(shí),音頻數(shù)據(jù)該如何處理啊 ???
    發(fā)表于 05-06 07:56

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】音頻采集與預(yù)處理

    音視頻通信對音頻采集的實(shí)時(shí)性和性能要求很高。為了降低延遲并提高吞吐量,可能需要采用一些優(yōu)化技術(shù),如硬件加速、多線程處理等。 最后,音頻采集還需要考慮與后續(xù)處理步驟的銜接問題。例如,采
    發(fā)表于 04-25 10:41

    深圳特信屏蔽器|手機(jī)信號放大器:優(yōu)化通信質(zhì)量的利器.

    放大器能夠有效擴(kuò)大信號覆蓋范圍,讓您在邊遠(yuǎn)地區(qū)或建筑深處也能保持良好的通信質(zhì)量;2、提升通話質(zhì)量:信號放大器可以減少通話中斷和雜音,提升通話質(zhì)量,讓
    發(fā)表于 04-02 09:16

    USB音頻通話解碼板高性價(jià)比高推力PCM384Khz

    USB音頻解碼板高性價(jià)比高推力PCM384Khz USB音頻解碼板是一款基于高性能USB AUDIO數(shù)字音頻單芯片+高能性耳放應(yīng)用,替換
    發(fā)表于 01-06 12:32 ?1次下載

    芯知識 | WT588F02B語音芯片16位PWM解碼在提高音頻質(zhì)量方面發(fā)揮的重要作用

    WT588F02B語音芯片16位PWM解碼在提高音頻質(zhì)量方面發(fā)揮了重要作用。以下是它如何工作的詳細(xì)解釋:首先,我們需要了解什么是PWM(脈沖寬度調(diào)制)以及它在音頻處理中的作用。PWM是一種調(diào)制
    的頭像 發(fā)表于 12-18 08:51 ?413次閱讀
    芯知識 | WT588F02B語音芯片16位PWM解碼在<b class='flag-5'>提高音頻</b><b class='flag-5'>質(zhì)量</b>方面發(fā)揮的重要作用

    請問ADAU1701的音頻數(shù)據(jù)存到DELAY內(nèi)存時(shí)是多少bit存儲的?

    請教下ADAU1701的音頻數(shù)據(jù)存到DELAY內(nèi)存時(shí)是多少bit存儲的?謝謝!
    發(fā)表于 11-30 07:12

    關(guān)于音頻數(shù)據(jù)的獲取

    請問CST92F42KEV7HI-EVB的板子沒有音頻功能那我獲取mic數(shù)據(jù)的方式是什么呢那塊板子上沒有耳機(jī)插孔 所以邊錄邊播的方法不行只能通過藍(lán)牙透傳給手機(jī) 透傳給手機(jī)的數(shù)據(jù)音頻數(shù)據(jù)
    發(fā)表于 11-24 10:07