谷歌今天詳細介紹了一個名為WaveNetEQ的AI系統(tǒng),該系統(tǒng)最近已部署到該公司的跨平臺語音和視頻聊天應用Duo中。
二重奏組可以現(xiàn)實地合成簡短的語音片段,以替代因互聯(lián)網(wǎng)連接不穩(wěn)定而導致的亂碼。它的速度足夠快,可以在智能手機上運行,??同時提供最先進的,聽起來自然的音頻質(zhì)量,為將來針對帶寬受限的環(huán)境進行了優(yōu)化的聊天應用程序奠定了基礎(chǔ)。
正如Google解釋的那樣,為了確保可靠的實時通信,有必要處理接收方需要時丟失的數(shù)據(jù)包(即,格式化的數(shù)據(jù)單元)。(該公司表示,由于網(wǎng)絡(luò)問題,有99%的Duo呼叫需要處理網(wǎng)絡(luò)問題,而有10%的呼叫損失的音頻持續(xù)時間超過總音頻持續(xù)時間的8%。)
如果不連續(xù)傳送新音頻,則會出現(xiàn)可聽到的小故障和縫隙。會發(fā)生,但是重復相同的音頻并不理想,因為它會產(chǎn)生偽像并降低總體通話質(zhì)量。
Google的解決方案WaveNetEQ是所謂的丟包遏制模塊,該模塊負責創(chuàng)建數(shù)據(jù)以填補由丟包,過度抖動和其他事故造成的空白。
在結(jié)構(gòu)上,WaveNetEQ是DeepMind的WaveRNN的修改版本,WaveRNN是一種用于語音合成的機器學習模型,由自回歸和條件調(diào)節(jié)網(wǎng)絡(luò)組成。
自回歸網(wǎng)絡(luò)通過使每個生成的樣本取決于網(wǎng)絡(luò)的先前輸出來提供短期和中期語音結(jié)構(gòu),而調(diào)節(jié)網(wǎng)絡(luò)會影響自回歸網(wǎng)絡(luò)以產(chǎn)生與移動速度較慢的輸入特征一致的音頻。
-
Google
+關(guān)注
關(guān)注
5文章
1752瀏覽量
57335 -
音頻
+關(guān)注
關(guān)注
29文章
2818瀏覽量
81109 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11042瀏覽量
102471
發(fā)布評論請先 登錄
相關(guān)推薦
評論