欧美亚洲精品真实在线,成色好的y31s标准版

近年來，內(nèi)容業(yè)務在行業(yè)蓬勃發(fā)展。淘寶也在積極進行內(nèi)容化轉(zhuǎn)型，本次LiveVideoStackCon 2021 上海站大會我們邀請到了阿里巴巴淘系技術(shù)高級算法專家——王立波（莊?。?，回顧淘寶從圖文到短視頻直播的發(fā)展歷程，介紹音視頻算法在其中的應用和未來的投入方向包括編解碼、視頻處理、音頻通訊與互動。

很高興與大家進行交流與分享，首先介紹一下自己，我是來自淘系技術(shù)部的王立波，花名莊恕，今天分享的主題是音視頻算法在淘寶中的應用。剛接到這個任務時，覺得題目特別大，可以講的東西特別多，經(jīng)過考慮我還是決定集中講3個觀點，可以為大家介紹得更詳細。

這三個觀點分別是：視頻壓縮有效降低成本（這個觀點在業(yè)界應該已經(jīng)被大家所接受）、視頻處理提升畫質(zhì)體驗（隨著阿里云的窄帶高清的推廣，也逐漸被大家接受）、音頻技術(shù)是新的生產(chǎn)力（這是淘寶過去1-2年發(fā)力探索的方向，希望能夠為行業(yè)帶來新的思考）。

業(yè)務介紹

首先我簡短介紹一下淘寶的內(nèi)容業(yè)務。隨著通信技術(shù)的發(fā)展，互聯(lián)網(wǎng)內(nèi)容生態(tài)從2G時代的文字，過渡到3G時代的圖片，再到4G時代的直播和短視頻；對于淘寶來講，同樣也面臨“內(nèi)容化”的全面升級。

淘寶從PC走向移動，從圖文走向直播短視頻，從傳統(tǒng)電商走向內(nèi)容電商再到發(fā)現(xiàn)電商、興趣電商。在過去的2020年，淘寶直播的GMV突破4000億，去年雙十一一天之內(nèi)有超過7億人次觀看淘寶直播；2020年底隨著點淘，逛逛的推出，短視頻成為內(nèi)容業(yè)務發(fā)展的新引擎；在這個飛速發(fā)展過程中面臨巨大的成本壓力。

視頻壓縮有效降低成本

2.1 從圖片壓縮說起

第一個觀點，視頻壓縮有效降低成本。

說起編解碼，可能不得不先提圖片壓縮了，這是一張小小的商品詳情圖，在直播短視頻興起之前，圖片是大家獲取信息主要手段，隨著用戶增長，成本壓力越來越大，過去幾年中，淘寶圖片日均播放量超過千億次，如果通過降低質(zhì)量來降低成本會犧牲大家的體驗，所以我們希望依靠技術(shù)升級來提高壓縮效率。

2.1.1 圖片壓縮標準的演進

大家應該很熟悉圖片壓縮。圖片壓縮實際上是一個去除空間冗余的過程，從標準發(fā)展上來看，主要經(jīng)歷了JPEG，基于VP8內(nèi)核的WebP，以及HEVC MSP三代。

這里我對各種格式做了一個簡單總結(jié)，JPEG是目前使用最廣泛的圖片壓縮標準，從1992年公布至今已經(jīng)接近三十年，它非常簡單高效。10年前左右，Google基于VP8內(nèi)核發(fā)布了WebP格式。WebP在塊劃分，預測，變化，量化，熵編碼方面比JPEG更優(yōu)，且增加了Deblock功能；HEVC則比WebP更進一步，通過多個工具的升級來提升壓縮效率，另一方面，由于Tile劃分及Wpp技術(shù)的引入，HEVC給Codec工程實現(xiàn)提供很多并行化的手段，這對現(xiàn)代多核CPU來說比較友好。

為了比較三種格式在不同場景數(shù)據(jù)集下的壓縮效率，我們設計圖中實驗。得出的結(jié)論是WebP比JPEG大約提升29%的壓縮性能，HEVC對比JPEG大約提升接近50%壓縮效率。

2.1.2 淘寶自研APG格式

APG是淘寶自研的圖片格式，有三個特點。第一，有非常高的壓縮效率，對比JPEG節(jié)省50%碼率，非常接近HEVC；第二，高效率的移動端解碼器，對比Webp減少20%解碼時間；第三，支持Alpha通道和動圖，動圖被廣泛使用的是GIF格式，而GIF沒有考慮到幀與幀之間的相關(guān)性，壓縮效率不高，而APG對比GIF節(jié)省10倍體積；

除此之外，我們對整個系統(tǒng)的架構(gòu)方面也進行了大量工作，比如高并發(fā)實時響應、CDN的下發(fā)策略、存儲和計算分離，多內(nèi)容災等策略，最終實現(xiàn)了淘寶千億級的實時圖片處理系統(tǒng)，在大大節(jié)省業(yè)務成本的同時也保障了畫質(zhì)體驗。

2.1.3 內(nèi)容業(yè)務進化為視頻為主

隨著內(nèi)容業(yè)務的進化，視頻和直播占據(jù)了主要流量。一方面信息表達從空間維度拓展到時間維度，另一方面，分辨率也提升到720P，1080P甚至4K，消費時長也成倍增長，（剛才陳老師有數(shù)據(jù)，每個人花費在視頻的平均時間可能有好幾十分鐘）。我們也知道，每一代視頻壓縮標準相比上一代有50%的碼率節(jié)省，從MPEG4到H.264/AVC到H.265/HEVC，再到去年發(fā)布的的H.266/VVC，很自然我們會想到通過升級編碼標準來節(jié)省視頻成本。

2.1.4 HEVC在視頻業(yè)務落地挑戰(zhàn)

首先我們探討一下HEVC在視頻業(yè)務落地的挑戰(zhàn)。HEVC標準在2013年公布已有8年時間，但直到最近幾年才在業(yè)務上大規(guī)模落地，這里主要有以HM下幾個原因：

首先是編碼速度，H265的官方模型HM，在普通PC上編碼720P視頻時只能達到0.1fps，想象一下，壓縮一段十分鐘的視頻需要花費一天甚至幾天的時間。業(yè)界最好的開源編碼器X265，在慢速檔也只有6.8fps，距離30fps實時編碼的需求有相當大的差距；

其次是編碼質(zhì)量，由于復雜度的原因，X265僅比X264節(jié)省18%的碼率，遠遠達不到HEVC相比AVC理論上的上限值（HEVC標準在設計時以50%的碼率節(jié)省為目標）；

第三是碼率控制，業(yè)界有許多場景的碼率控制方法，比如ABR、CBR、CRF，但現(xiàn)在實時音視頻的業(yè)務場景非常復雜，無法直接使用這樣的碼率控制方法；

第四是解碼的兼容性和性能，也是大家普遍關(guān)心的問題。用戶觀看環(huán)境多種多樣，有Android、IOS、Web的H5觀看，H265在H5上的支持不太好，限制了它的發(fā)展，硬解設備兼容性也不完善，所以在解碼兼容性方面也面臨著很大的挑戰(zhàn)。

2.1.5 S265編碼內(nèi)核優(yōu)化

S265編碼器是2017開始研發(fā)的，花費三年多時間使之達到較好的狀態(tài)。我們主要在編碼工具、快速算法、工程優(yōu)化、碼控方法、框架優(yōu)化方面做了大量的優(yōu)化工作從而提升壓縮效率和編碼速度。

下面為大家詳細介紹一下速度優(yōu)化的相關(guān)技術(shù)。

1、Cu深度預測算法，HEVC的塊劃分從64劃分到8*8，深度有4層，如何預測出CTU的劃分深度是具有挑戰(zhàn)性的事情。HM為了確保編碼性能會對每一層都計算其RDcost，我們這里結(jié)合紋理復雜度、時空域相鄰塊及前處理運動信息，做到比較準確的Cu深度預測。進一步深度預測方面有許多研究，比如一些機器學習，深度學習的方法能夠精準預測塊的劃分層級。

2、自適應的EarlySkip算法和RecursionSkip算法。這兩個算法比較類似，EarlySkip的目的是在本層跳過其它模式的計算，而RecursionSkip目的是跳過當前層不再Split。X265也有類似的技術(shù)，我們比X265更進一步，做RS時會同時考慮skip和merge模式子塊的satd，做ES時，會同時考慮最佳模式的cost大小避免殘差過大，我們的結(jié)果做到在相同速度條件下對比X265相當程度的節(jié)省碼率。

3、All Zero Block的檢測。如果一個塊經(jīng)過量化后是全零塊，就沒有必要進行RDO及編碼了，但怎樣預測一個塊是All Zero Block。我們發(fā)現(xiàn)一種方法可能適合于一種大小的塊，在8*8中比較準確，但放在32*32中不可用，所以要根據(jù)塊大小及內(nèi)部紋理強度，更加精確地預測出是否是All Zero Block。

4、Fast Intra Prediction。這個技術(shù)有很多人研究，H.265總共有35種預測方式，如何快速找到預測角度，有許多相關(guān)論文。我們使用Bayes估計模型，在橫向及縱向找到準確方向，再去做細分角度預測，提高角度預測的速度。

5、分像素的搜索。傳統(tǒng)的分像素的搜索在整像素最佳點上下左右找4或8個點，相對來說計算量比較大，根據(jù)整像素結(jié)果通過誤差平面估計模型推導出分像素點的位置，從而節(jié)省分像素的計算個數(shù)。

6、多參考幀的選擇。為了提高壓縮效率，現(xiàn)在的編碼器會選擇更多參考幀，比如在一個方向選擇3到4個參考幀，我們會根據(jù)參考幀的質(zhì)量，距離來做加權(quán)，選擇適合的參考幀。在拿到一個比較好的結(jié)果后如何提前跳出其它參考幀的遍歷？多參考幀是提升壓縮質(zhì)量的一個很好選擇，但需要避免計算復雜升高。

7、Distortion的快速估計。在RDO過程中要對誤差進行仔細估計，如果用傳統(tǒng)下的SATD做的話，效率不高，但如果做完整的RDO計算非常耗時，所以我們有殘差的預估模型，從量化后的系數(shù)中用模型推導出Distortion的結(jié)果避免再做反量化，反變化。還有像Bits估計，RDCost的另一個分量是Bits代價，用一次完整的熵編碼會非常耗時，如果用一個分段線性模型能夠估算出來Bits來，我們就可以快速做出RDO的計算。

其它的比如Deblock，SAO優(yōu)化偏一些工程方面手段。

除了快速算法之外，我還對壓縮性能做了一些總結(jié)，速度不變的前提下，相比于X265，我們有》30%的性能增益。我們的編碼器在以下幾個方面有性能收益：

1、第一個碼率控制。碼率控制的目標是把碼率分配到更有價值的地方。它分幀級別碼控和塊級別碼控。在幀級別碼控中，我們對I幀碼控和P幀碼控做了精確的預分析，在塊級別碼控中，我們設計了增強型的Cu-tree算法。

2、分層B幀以及參考結(jié)構(gòu)的優(yōu)化。分層B幀在實現(xiàn)方面不難，對壓縮效率方面有大的幫助。前面介紹了GOP結(jié)構(gòu)的優(yōu)化，我們會對參考幀的選擇會做權(quán)衡。

3、大家知道在靜止場景下，分層越多壓縮效率越高，但在運動場景就不那么有效，所以我們實現(xiàn)了自適應的GOP Size，并自研了Scenecut算法。能夠適應不同運動強度、場景切換的需求包括淡入淡出的需求。

4.此外，在Bi-Search，GPB，LTR這幾個工具，在開源軟件X265是沒有的，但對提高預測效率很有幫助；MCTF工具對編碼噪聲的去除非常有幫助，我們將這幾個技術(shù)加入到S265之后獲得了5%以上的BD-rate收益。

5、2-pass是在求解一個全局最優(yōu)的Qscale，它在離線轉(zhuǎn)碼場景中被用到，允許對視頻做更多分析，但在求解過程中，失真度量是MSE，我們對度量函數(shù)進行了重新推導，獲得5%壓縮性能；

6、Dynamic CRF和Pboffset，常規(guī)做法是是固定幀級P，B幀的Offset，我們會根據(jù)幀的復雜度來調(diào)節(jié)幀級QP值；

7、AQ和RDO的代價計算通常基于MSE，但如果是針對SSIM指標的話，可以推導SSIM的模型，RD也一樣。

8、針對會議場景，我們還實現(xiàn)了IBC工具，對PPT投屏有幫助。并專門設計了對屏幕內(nèi)容優(yōu)化的搜索算法，傳統(tǒng)的快速算法如菱形搜索、六邊形搜索在SCC場景下效率很低，很難找到最優(yōu)解，但如果用自研的算法搜索就有較好的效率提升。

上述是S265技術(shù)的介紹，記得在2016年的時候，金山KS265第一次參加MSU比賽獲得了非常好的成績，后來國內(nèi)有不少同行參賽也獲得了不錯的名次。阿里巴巴S265從2017年開始投入研究到2020年首次參加MSU比賽，我們在比賽中獲得了3項第一：1080P 30FPS PNSR指標第一、1080P 1FPS PNSR指標第一、1080P 30FPS主觀質(zhì)量第一。

2.2 場景自適應編碼

除了核心編碼器之外，在編碼器應用方面，我們還自研了一套場景自適應編碼方法，分為三個步驟：

1、視頻分析：利用機器學習方法做視頻切分，并得到高層語義分類，比如動畫，體育，秀場，商品介紹等；

2、另一個維度看利用信號分析手段檢測出視頻的底層特征，比如運動強度，紋理特征，噪聲強度，亮度特征等，根據(jù)高低維度信息決定編碼參數(shù)。

3、自適應決策引擎（ADE）：根據(jù)語義特征和信號特征以及網(wǎng)絡狀況，決策出最佳編碼參數(shù)組合。這個決策過程被建模為一個帶約束優(yōu)化模型；

2.3 S265解碼提升覆蓋率

一直以來，H265的解碼兼容性是大家關(guān)心的話題，假如生產(chǎn)端編碼出265碼流，但播放端不能支持265解碼，需要在服務端轉(zhuǎn)碼成264格式，這不僅不能減少CDN帶寬，反而會增加轉(zhuǎn)碼成本。在解碼這一側(cè)我們做了很多工作：

1、硬解碼適配。對市面上基本所有機型（》1000款）都進行了適配；

2、自研高性能Native H265解碼器，在小米5 720P的設備上做測試得到240幀左右的速度，通過很低的功耗實現(xiàn)實時解碼。

3、H5的解碼。H.265在H5中沒有支持，我們基于WebAssembly技術(shù)來支持H5的播放。目前可以做到在i7電腦上1080P 30fps的實時解碼，CPU消耗在30%以內(nèi)；

2.4 淘寶編碼器落地歷程

基于以上的編解碼內(nèi)核和應用方面的探索，我來介紹一下淘寶編碼器的落地歷程。2017年開始投入S265的研究，經(jīng)過一年多時間，開始在直播業(yè)務的落地；2019年的Q1第一版上線后結(jié)果不算太好，大約節(jié)省30%碼率；2020年Q1第二版上線后節(jié)省40%碼率；今年的Q1第三版結(jié)合窄帶高清技術(shù)實現(xiàn)了50%碼率節(jié)省。短視頻方面，我們嘗試將S265應用到淘寶短視頻轉(zhuǎn)碼，2019年Q3第一版上線，2020年上線第二版。

基于在S265核心編碼器上的積累，我們從2020年Q2開始了S266編解碼器的研發(fā)工作，并率先在行業(yè)內(nèi)公布了可商用的S266解碼器。

解碼器方面對比VTM實現(xiàn)單核3.5倍提速，多核16倍提速；在高端的手機（IPhone12、P40）實現(xiàn)4K 30FPS解碼，低端手機720P雙核實現(xiàn)30FPS解碼。720P內(nèi)存消耗《35m《 span=“”》和Binary《1m《 span=“”》，對大型APP來說非常關(guān)鍵，包過大時安裝下載會受阻。

我們內(nèi)部正在做VVC編碼器，目標是1FPS Slow檔對比X265 Veryslow節(jié)省50%碼率；30FPS Fast檔對比X265 Medium節(jié)省40%碼率。大家知道VVC比HEVC會更慢，一段1分鐘的4k視頻用HEVC的HM壓縮需要幾天，而如果用VVC的VTM則可能需要一個月，時間消耗會非常長。目前我們Slow檔已經(jīng)做到比VTM提升100倍速度但是壓縮效率接近。

總結(jié)一下，淘寶的S265智能編碼方案目標是讓視頻更清晰，覆蓋所有業(yè)務場景，包括圖片壓縮、會議SCC、直播、云轉(zhuǎn)碼甚至云游戲。

業(yè)務策略上包括場景分類自適應、智能碼控、針對不同場景的延時需求，做延時的適配及優(yōu)化（在非常低的延時下達到接近不限延時的壓縮效率）、算力自適應（根據(jù)不同的設備自適應調(diào)節(jié)編碼的速度檔次）。

編解碼內(nèi)核包括碼控及前處理、編碼工具集、快速算法，編碼框架等優(yōu)化。系統(tǒng)平臺包括基于ARM平臺的（armV7/arm64）及X86實現(xiàn)（SSE/AVX）、目前在考慮基于FPGA、ASIC的實現(xiàn)，還有質(zhì)量評價系統(tǒng)和訓練集群來輔助編碼器研發(fā)。

視頻處理提升畫質(zhì)體驗

下面介紹視頻處理提升畫質(zhì)體驗的觀點。

3.1 視頻處理提升畫質(zhì)

視頻失真來源于很多方面：包括過曝失曝、縮放、失焦、頻閃、色彩損失、壓縮損失、噪聲、抖動、幀率下采樣。我們有自己的視頻增強工具集做對應適配比如去塊失真（DeBlk）、超分辨率（偏向端側(cè)的和服務端不同版本的模型）、紋理細節(jié)增強、視頻去抖（DEI）、色彩增強、暗光增強、時空域去噪。

3.2 淘寶短視頻窄帶高清轉(zhuǎn)碼

淘寶短視頻的整個轉(zhuǎn)碼遷移到窄帶高清技術(shù)上，從視頻生產(chǎn)鏈條分為內(nèi)容編輯、上傳（上傳要求上傳成功率高、速度快，我們有多PASS上傳，切分上傳、轉(zhuǎn)碼、審核（有低質(zhì)、失真視頻需要篩選）、播放（根據(jù)播放設備能力做后處理及渲染）。

向大家介紹一下轉(zhuǎn)碼服務，它的核心技術(shù)是窄帶高清和S265，分別有兩個視覺處理模型。首先是窄帶高清的處理模型包括質(zhì)量分類，細小紋理去除、脫焦區(qū)域弱化（節(jié)省碼率）、易感知紋理增強（增強視覺體驗）、人臉保護（避免過度增強引起體感不好）、馬賽克修復、去隔行掃描。

S265視覺壓縮模型有三個點，人眼感知與失真拐點（BD-rate曲線剛開始較陡，向后較緩，要找到高性價比的點，感覺不出更多的失真又可以達到合適碼率）、碼率與分辨率甜蜜拐點（不同碼率在不同內(nèi)容上適合于不同分辨率壓縮。如果一個非常低的碼率300K強行壓縮1080P出來都是塊主觀體驗很差，如果壓縮540P、360P可以獲得更高的視覺體驗）、場景分類編碼（不同分類場景適合不同編碼參數(shù)、碼率的選擇）。

3.3 電競場景中的美顏

在內(nèi)容生產(chǎn)中美顏作為一項基礎(chǔ)功能，已經(jīng)被人們廣泛接受，但是常規(guī)美顏在電商場景中存在一些問題，比如過度美化，商品變色，背景模糊，資源消耗大等等；在PixelAI美顏中，我們使用了Face3D重建來保障形變的自然，使用AI膚色模型來保證美顏不會傷害到背景和商品。

3.4 HDR10端到端系統(tǒng)

隨著采集和顯示設備的發(fā)展，HDR+10Bit逐漸有一些應用，我們覺得HDR10有三項核心技術(shù)：第一是動態(tài)范圍。在低照度、曝光過度場景下幫助我們看清內(nèi)容；第二是色域空間。支持BT2020提升色彩還原；第三是10bit位深。HDR對我們的商品還原會非常有幫助，因為電商直播和短視頻中最核心的是還原商品而不是美化商品。

但HDR是一個端到端的系統(tǒng)，需要考慮到各種設備的兼容，所以我們做了一些適配來提升用戶體驗，比如普通相機拍出的內(nèi)容就用普通通道傳輸解碼，而一些高端設備支持HDR10，可以把內(nèi)容做10Bit壓縮，傳輸，在對端根據(jù)播放設備能力，做HDR To SDR、10Bit To 8Bit的轉(zhuǎn)換來保證質(zhì)量，對于好的手機就可以得到最好的HDR體驗，一般手機也能得到基礎(chǔ)的HDR體驗。圖中可以看到HDR技術(shù)使照片顏色更接近實物顏色。

音頻技術(shù)提升體驗和生產(chǎn)力

第三個觀點是視頻技術(shù)提升體驗和生產(chǎn)力。音頻在過去幾年都伴隨視頻出現(xiàn)，而在去年Clubhouse的發(fā)布，大家覺得音頻可以獨立玩，這對音頻技術(shù)來說是一個很好的啟發(fā)。除此以外，音頻的技術(shù)還可以輔助我們做內(nèi)容的生產(chǎn)、審核及各種音頻處理，個人認為音頻會是后續(xù)很重要的生產(chǎn)力。

4.1 業(yè)務：用戶數(shù)和時長

對內(nèi)容業(yè)務來說，最核心的是用戶數(shù)和時長。對于技術(shù)來說，如何提升消費體驗，提升主播生產(chǎn)效率，做好平臺治理工作是核心工作。在這幾個方面音頻都可以起到非常重要的作用。

在主播角度，音頻技術(shù)可以來做口播自動剪輯、來客提醒（不用一直守在電腦旁邊）、開播輔助、字幕和配樂生成。在用戶角度，音頻的互動可以支持連麥、游戲、猜價格、語音評論。在平臺角度，音頻可以監(jiān)管黃暴政、盜播、盜鏈、檢測空鏡。

分享幾個典型案例。第一，音頻技術(shù)提高音質(zhì)體驗。這是一個簡單的音頻傳輸系統(tǒng)，采集、預處理、AEC/ANS/AGC、編碼、網(wǎng)絡傳輸（FEC/NACK技術(shù)）、對端（Jitter Buffer/NETEQ）、解碼、重采樣。要實現(xiàn)高音質(zhì)體驗，我們在每個環(huán)節(jié)都需要做非常細致的工作：

采集中做高保真，雙聲道處理（Alidenoise、回聲抑制、智能美聲），編碼中做自適應碼率（HE-AAC），傳輸過程要保障傳輸質(zhì)量QOS（FEC/NACK），接收中還需要原音頻數(shù)據(jù)（PLC/NETEQ），播放中應用各種音效技術(shù)（3D音效、空間音效、重低音）來提升收聽體驗。

直播內(nèi)容中，對音頻的適配也非常重要。（陳老師提到一個例子：如果是音樂直播間，用普通模板做音質(zhì)會很差，所以需要幾套針對不同類型直播間的聲音模板。）在這樣的系統(tǒng)上，我們支持淘寶直播，語音聊天室等業(yè)務。

4.2 AliDenoise——讓聲音更清晰

淘寶自研的AliDenoise技術(shù)是一個智能降噪技術(shù)，可以使聲音更清晰。傳統(tǒng)的降噪是根據(jù)時域傅里葉變換+維拉增益來做，痛點是對非平穩(wěn)噪聲抑制差，在低信噪比失效，而AliDenoise根據(jù)端到端的語音降噪，用數(shù)據(jù)驅(qū)動方式，基于先驗信噪比方法做模型訓練。

還有Cache Buffer的流式處理以及1D卷積+模型小型化的工作，核心優(yōu)勢是降噪能力強、語音保真度高（我們做了一些競品對比，AliDenoise的主客觀指標都超過競品）、極輕量小模型（1.6M的模型可以在普通手機實現(xiàn)降噪，且CPU消耗只有6%）、延時可控（可根據(jù)設備能力做延時調(diào)節(jié)）。

有三段音頻，第一段是街邊的場景，是原聲；第二段是RTC處理后的效果（汽車走過的聲音比較明顯）；第三段是AliDenoise處理后的效果，可以聽出它對非平穩(wěn)噪聲的抑制很好，且人聲保留度高。

第二個例子是端上互動。直播答題是前幾年非?；鸬幕油娣?，2020年雙十一點淘推出了猜價格活動，答題交互從觸屏到語音，需要低延時、高并發(fā)、低誤識率。如果用服務端ASR做，會需要上千臺服務器來支持同時在線10萬人?；谶@樣的痛點，我們采用了自研離線ASR技術(shù)，在端上做語音識別?？梢宰龅侥Ｐ痛笮?3M，內(nèi)存大小50M，字錯誤率1.3%，識別延遲《50ms的水平。

第三個案例，語音技術(shù)可以輔助短視頻的直播編輯生產(chǎn)。在“親拍”APP中可以做到輔助“逛逛”的內(nèi)容生產(chǎn)。內(nèi)容生產(chǎn)中有非常多需求，包括刪除無用片段、自動添加字幕，旁白、音樂標簽，自動配樂、音頻變速，變聲，降噪。借助后臺一整套技術(shù)和曲庫（蝦米1000萬曲庫、ASR以及信號處理算法），我們提供一鍵導入、一鍵編輯這樣的音頻功能比如停頓刪除、感知配樂、自動字幕、自動變聲。通過音頻技術(shù)大大提高編輯效率，原先30min的編輯通過可以降到3min，質(zhì)量也會比較有保證。

4.3 直播短視頻音頻解決方案——TaoAudio

我們給淘寶業(yè)務提供了一套直播短視頻音頻解決方案——TaoAudio。在業(yè)務上支持淘寶直播、點淘、逛逛、親拍、語音聊天室等需求。在應用方案上有直播看點、直播互動、直播安全、短視頻編輯。在算法技術(shù)中有三個核心技術(shù)是音頻處理、音頻安全、語音交互?；A(chǔ)設施包括端上推力引擎、云上資源、端側(cè)設備等。

總之音頻的核心是良好的音質(zhì)、很強的互動體驗及平臺安全，在未來可能還有豐富的音樂體驗。

淘寶音視頻算法的發(fā)展

最后和大家分享淘寶音視頻算法的發(fā)展。

1、下一代APG2要做到比前一代有更高的壓縮效率；

2、S266的落地，將S266真實的應用到業(yè)務場景中；

3、AR+3D+多視角直播的探索。傳統(tǒng)的直播已經(jīng)固化很多年了，我們希望通過更多技術(shù)提高交互和沉浸式體驗；

4、下一代窄帶高清技術(shù)。以更高的質(zhì)量和更低的成本呈現(xiàn)；

5、端側(cè)ASR技術(shù)。前面提到的“猜價格”應用到ASR，還需要進一步提高準確率并降低成本；

6、場景自適應語音增強。傳統(tǒng)的語音增強沒有考慮到語音環(huán)境也沒有做更多的自適應（比如在一個嘈雜的環(huán)境或是安靜的環(huán)境分別要用怎樣的模型），加入場景檢測機制可以適配收音場景和聽音的環(huán)境；

7、智能的音樂配樂服務；

8、大規(guī)模無參考評價系統(tǒng)。

以上是本次分享的內(nèi)容，謝謝大家！

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

PC

PC

+關(guān)注

關(guān)注
9

文章
2049

瀏覽量
153816
編解碼

編解碼

+關(guān)注

關(guān)注
1

文章
140

瀏覽量
19561
阿里巴巴

阿里巴巴

+關(guān)注

關(guān)注
7

文章
1605

瀏覽量
46992
視頻壓縮

視頻壓縮

+關(guān)注

關(guān)注
0

文章
27

瀏覽量
9055

原文標題：音視頻算法在淘寶中的應用

文章出處：【微信號：livevideostack，微信公眾號：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

盤點那些常見音視頻接口

我們熟知的一些常見音視頻接口，發(fā)展至今在日常使用中已經(jīng)漸漸少了。但是在工業(yè)領(lǐng)域的音視頻連接，依然能看到其身影。這些看似消失的接口，它們現(xiàn)在發(fā)

發(fā)表于 09-09 14:34 ?303次閱讀

常見音視頻接口的靜電浪涌防護和濾波方案

音視頻接口在現(xiàn)代多媒體設備中扮演著至關(guān)重要的角色，它們確保了音視頻信號在不同設備間的順暢傳輸，各種類型的

發(fā)表于 06-25 11:28 ?525次閱讀

音視頻IP化浪潮全面來襲，分布式系統(tǒng)開創(chuàng)音視頻行業(yè)新時代！

在傳統(tǒng)音視頻頻系統(tǒng)中，廠商們各自采用不同的通訊方式和控制協(xié)議，這使得不同的產(chǎn)品之間就像一座座的信息孤島，要連接起來就需要復雜的轉(zhuǎn)換設備和系統(tǒng)再開發(fā)。隨著音視頻項目的規(guī)模不斷擴大，各類音

發(fā)表于 05-30 16:55 ?563次閱讀

音視頻產(chǎn)品EMC整改案例解析

音視頻產(chǎn)品EMCRE整改案例解析

發(fā)表于 05-20 16:49 ?319次閱讀

【RTC程序設計：實時音視頻權(quán)威指南】音視頻的編解碼壓縮技術(shù)

音視頻所載有的信息在通過傳輸?shù)臅r候就需要壓縮編碼。其中，文本壓縮是指通過使用各種算法和技術(shù)，將文本數(shù)據(jù)表示為更緊湊的形式，以減少存儲空間。霍夫曼編碼是一種無損壓縮算法，它可以根

發(fā)表于 04-28 21:04

音視頻SoC與AI技術(shù)融合，帶來更智能的音視頻處理解決方案

，如WiFi路由器和物聯(lián)網(wǎng)設備。在安防、智能音頻等領(lǐng)域，對SoC芯片的算力要求相比智能手機、服務器等略低。 ? 人工智能技術(shù)與音視頻SoC 的融合??????????????????????????????????????? ? 隨著人工智能技術(shù)的快速發(fā)展，

發(fā)表于 04-26 01:20 ?3978次閱讀

【RTC程序設計：實時音視頻權(quán)威指南】新書一瞥

本人從事音視頻領(lǐng)域的開發(fā)，經(jīng)常接觸實時音視頻處理相關(guān)的技術(shù)，看到這本書非常有興趣閱讀，這本書全面介紹實時音視頻（RTC）技術(shù)的權(quán)威著作，該書詳細講解了RTC的基本概念、技術(shù)原理、系統(tǒng)設計以及實際

發(fā)表于 04-22 09:09

音視頻解碼生成：打造極致觀影體驗的關(guān)鍵技術(shù)

在現(xiàn)代多媒體時代，音視頻解碼生成技術(shù)已成為提供極致觀影體驗的核心要素。它不僅能夠確保音視頻數(shù)據(jù)的高效傳輸，還能保證播放的流暢性和畫質(zhì)清晰度，為用戶帶來身臨其境的觀影享受。 1. 解碼生成的重要性

發(fā)表于 02-25 14:43 ?386次閱讀

音視頻解碼器優(yōu)化技巧：提升播放體驗的關(guān)鍵步驟

隨著數(shù)字多媒體內(nèi)容的爆炸式增長，音視頻解碼器在現(xiàn)代技術(shù)生活中扮演著至關(guān)重要的角色。從流暢的在線視頻流播放到高質(zhì)量的本地文件解碼，解碼器的性能直接影響了我們的觀看體驗。那么，如何優(yōu)化

發(fā)表于 02-21 14:45 ?685次閱讀

音視頻解碼生成常見問題及解決方案

在音視頻解碼生成的過程中，我們可能會遇到一些常見問題，這些問題可能會影響解碼的效果和效率。以下是一些常見問題及其解決方案：問題1：解碼失敗原因：可能是文件本身有問題，如損壞或格式不支持；也

發(fā)表于 02-21 14:39 ?1062次閱讀

音視頻解碼生成在多媒體制作中的應用

音視頻解碼生成是多媒體制作中不可或缺的一部分，它扮演著將編碼的音視頻數(shù)據(jù)轉(zhuǎn)化為可播放、可編輯的內(nèi)容的關(guān)鍵角色。在多媒體制作的全過程中，

發(fā)表于 02-21 14:39 ?317次閱讀

音視頻解碼生成與流媒體傳輸?shù)慕Y(jié)合

音視頻解碼生成與流媒體傳輸是現(xiàn)代數(shù)字媒體技術(shù)中兩個不可或缺的部分，它們的結(jié)合為用戶提供了高質(zhì)量、實時性的多媒體體驗。 1. 解碼生成與流媒體傳輸?shù)年P(guān)系解碼生成是流媒體傳輸?shù)那疤帷?b class='flag-5'>在流媒體服務

發(fā)表于 02-21 14:36 ?322次閱讀

音視頻

對音視頻技術(shù)都喜歡深究內(nèi)部最核心的原理和機制，尤其是ffmpeg這個編解碼庫，可以說是音視頻領(lǐng)域事實上的標準。語音智能算法，語言語義分析和理解，流媒體服務器等高端技術(shù)也都基于它而構(gòu)建。希望有幸獲得本書，深度學習ffmpeg核心技

發(fā)表于 11-23 08:51

ESP RTC音視頻傳輸延遲測試

音視頻

Kevincoooool
發(fā)布于 :2023年11月11日 10:54:02

議程揭曉！RT-Thread議題：在嵌入式低資源系統(tǒng)中實現(xiàn)高效音視頻播放

、深入學習技術(shù)內(nèi)容和工程化方面的一手實踐。現(xiàn)在，深圳站大會日程正式揭曉，一起來看看您所關(guān)注的演講都出現(xiàn)在哪些時段吧！ 01 主題演講·11月24日上午在環(huán)境的全面推動下，音視頻技術(shù)近年來展現(xiàn)出驚人的發(fā)展態(tài)勢。即將舉行的主題演講中

發(fā)表于 10-26 09:05 ?366次閱讀

搜索歷史

簡述音視頻算法在淘寶中的應用

評論

盤點那些常見音視頻接口

常見音視頻接口的靜電浪涌防護和濾波方案

音視頻IP化浪潮全面來襲，分布式系統(tǒng)開創(chuàng)音視頻行業(yè)新時代！

音視頻產(chǎn)品EMC整改案例解析

【RTC程序設計：實時音視頻權(quán)威指南】音視頻的編解碼壓縮技術(shù)

音視頻SoC與AI技術(shù)融合，帶來更智能的音視頻處理解決方案

【RTC程序設計：實時音視頻權(quán)威指南】新書一瞥

音視頻解碼生成：打造極致觀影體驗的關(guān)鍵技術(shù)

音視頻解碼器優(yōu)化技巧：提升播放體驗的關(guān)鍵步驟

音視頻解碼生成常見問題及解決方案

音視頻解碼生成在多媒體制作中的應用

音視頻解碼生成與流媒體傳輸?shù)慕Y(jié)合

音視頻

ESP RTC音視頻傳輸延遲測試

議程揭曉！RT-Thread議題：在嵌入式低資源系統(tǒng)中實現(xiàn)高效音視頻播放