0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淘寶直播窄帶高清技術(shù),音視頻技術(shù)趨勢(shì)探討

LiveVideoStack ? 來源:LiveVideoStack ? 2020-09-08 14:20 ? 次閱讀

本文來自阿里巴巴淘系技術(shù)部 高級(jí)算法專家王立波在LiveVideoStackCon 2020線上峰會(huì)的分享,從直播背景、直播痛點(diǎn)分析、窄帶高清、云視頻技術(shù)趨勢(shì)幾方面詳細(xì)介紹了如何在確保用戶體驗(yàn)QOS不變的前提下,實(shí)現(xiàn)淘寶直播的技術(shù)架構(gòu)升級(jí)和成本大幅縮減。

本次分享內(nèi)容主要分為五個(gè)部分,首先是全民直播大時(shí)代的背景介紹,第二是直播痛點(diǎn)分析,第三是淘寶直播窄帶高清技術(shù),第四是音視頻技術(shù)趨勢(shì)探討,最后是在線互動(dòng)。 1 背景-全民直播大時(shí)代

在疫情的影響下,直播從傳統(tǒng)的秀場(chǎng)應(yīng)用逐漸滲透到行業(yè)的各個(gè)領(lǐng)域。包括在線課堂,旅游,政企,房車銷售等等,可以說是全民直播時(shí)代已經(jīng)到來。

在這樣的一個(gè)大背景下,過去一年淘寶直播得以快速發(fā)展。2019年,淘寶直播擁有了4億+的年度用戶規(guī)模,有100萬+年度主播入駐,2000億+年度直播成交以及4000萬+直播商品。春節(jié)期間,釘釘在線課堂更是有350萬+的教師主播,為1.2億+中小學(xué)生提供了在線課程服務(wù)。 2 直播痛點(diǎn)分析

在這么大的一個(gè)業(yè)務(wù)體量下,我們將會(huì)面對(duì)非常多的難點(diǎn)與挑戰(zhàn)??偟膩碚f,包含以下三個(gè)部分,首先是成本,包括帶寬、存儲(chǔ)和轉(zhuǎn)碼三個(gè)方面。其次是用戶體驗(yàn),例如畫質(zhì),音質(zhì),秒開、卡頓和延時(shí)。最后是效率方面,例如開播的效率、審核的效率和理解分發(fā)的效率。接下來我們就來看一下淘寶在成本和體驗(yàn)優(yōu)化方面做了哪些工作。 3 淘寶直播窄帶高清技術(shù) 3.1 淘寶直播窄帶高清

淘寶直播有三大核心技術(shù),第一大核心技術(shù)是端上窄帶高清。我們采用HEVC編碼實(shí)現(xiàn)了720p,25fps,800kbps的壓縮,并且PSNR> 43db/VMAF>90。端上窄帶高清技術(shù)主要應(yīng)用有三個(gè)方面:第一是音視頻增強(qiáng),采用基于AI的圖像增強(qiáng)、美顏和語音增強(qiáng)來提高生產(chǎn)質(zhì)量。第二是感知處理,采用信源信道聯(lián)合自適應(yīng)編碼。第三是S265編碼器,S265編碼器是業(yè)界領(lǐng)先的HEVC編碼器。 第二大核心技術(shù)是零轉(zhuǎn)碼系統(tǒng),我們實(shí)現(xiàn)了端到端原始流生產(chǎn)的和播放,成功的解決了兩個(gè)核心的痛點(diǎn)問題:不同網(wǎng)絡(luò)速度的兼容和不同播放設(shè)備的兼容,后者主要通過高性能解碼器實(shí)現(xiàn)iOS,Android和H5三端的100%解碼。 第三大核心技術(shù)是低延時(shí)技術(shù),我們實(shí)現(xiàn)了端到端秒級(jí)延時(shí)。主要依靠?jī)蓚€(gè)技術(shù),一個(gè)是基于RTC的實(shí)時(shí)直播系統(tǒng),第二個(gè)是S265低延時(shí)編碼技術(shù)。 3.2 淘寶直播系統(tǒng)架構(gòu)

如圖所示淘寶直播的系統(tǒng)架構(gòu),從生產(chǎn)側(cè)來看,有采集、增強(qiáng)、感知處理、S265編碼四個(gè)環(huán)節(jié)。云端我們有邊緣的接入,有中心接入、切片錄制和CDN分發(fā)以及邊緣分發(fā)。在播放端有擁塞控制、解碼、渲染和顯示。除此之外,在云端還有內(nèi)容審核,質(zhì)量監(jiān)控,內(nèi)容理解和智能分發(fā)。 3.3 端上窄帶高清

生產(chǎn)側(cè)的第一個(gè)環(huán)節(jié)是圖像增強(qiáng),為了提升主觀質(zhì)量,我們引入了圖像增強(qiáng)技術(shù),對(duì)編碼前的視頻做去噪、去抖、紋理增強(qiáng)以及美顏、美型的功能。除此以外,在后處理部分,我們還引入了適時(shí)超分和HDR技術(shù)來提高觀看質(zhì)量。在美顏、美型以及圖像處理等方面,我們引入了GPU的技術(shù),包括內(nèi)存帶寬優(yōu)化、shader優(yōu)化、Pipeline優(yōu)化等等以減少GPU的開銷。

針對(duì)音質(zhì)的優(yōu)化,我們采用了智能降噪技術(shù)。無論是在STO還是PESQ的指標(biāo)上都顯著高于傳統(tǒng)WebRTC算法,在性能和包大小方面也都可以實(shí)現(xiàn)普通設(shè)備的覆蓋。下面播放的三段音頻,分別是原始音頻、RTC降噪和阿里降噪音頻。原始音頻我們可以明顯聽到馬路上車呼嘯而過的聲音非常強(qiáng)烈。RTC降噪音頻中降噪產(chǎn)生了一定的效果,但是汽車飛馳而過的呼嘯聲還是非常明顯。而在阿里降噪音頻中,我們可以聽到汽車呼嘯而過的聲音已經(jīng)基本消失。

生產(chǎn)的第二個(gè)環(huán)節(jié)是感知處理。我們采用信源信道聯(lián)合自適應(yīng)編碼技術(shù)。感知處理分為5個(gè)方面,首先是ROI區(qū)域的感知,我們基于PixelAI人臉檢測(cè)加商品檢測(cè),對(duì)ROI區(qū)域進(jìn)行提取和重點(diǎn)編碼。第二是場(chǎng)景的感知,不同的場(chǎng)景適合不同的編碼參數(shù),我們通過對(duì)場(chǎng)景進(jìn)行分類,對(duì)于不同的場(chǎng)景賦予不同的編碼參數(shù)來提高壓縮質(zhì)量。第三個(gè)是智能碼控CARC,我們采用機(jī)器學(xué)習(xí)的碼率控制,對(duì)簡(jiǎn)單場(chǎng)景賦予較低的碼率,對(duì)復(fù)雜的場(chǎng)景賦予較高的碼率來實(shí)現(xiàn)對(duì)帶寬的節(jié)省。第四個(gè)是網(wǎng)絡(luò)帶寬的感知,在網(wǎng)絡(luò)比較好的時(shí)候,我們會(huì)采用比較高的碼率來實(shí)現(xiàn)畫質(zhì)的提升,在網(wǎng)絡(luò)不太好的時(shí)候,會(huì)降低碼率,避免發(fā)生帶寬擁塞,由于cdn采用峰值收費(fèi),峰谷時(shí)間段還可以采用不同碼率策略。最后是設(shè)備算力的感知,不同的設(shè)備擁有不同的算力,我們可以實(shí)時(shí)檢測(cè)設(shè)備的算力情況及時(shí)調(diào)整編碼的檔次,以此來實(shí)現(xiàn)對(duì)算力和質(zhì)量的平衡。

生產(chǎn)的第三個(gè)環(huán)節(jié)是編碼,這又要講到我們核心的S265編碼器,得益于S265編碼器的編碼壓縮技術(shù),我們實(shí)現(xiàn)了淘寶直播的720p、800kbs、25fps編碼,相比于業(yè)界常見的720p 1600kbps 節(jié)省了50%的帶寬。釘釘?shù)脑诰€課堂我們更是把碼率壓縮到了200kbs,并實(shí)現(xiàn)了43db以上的質(zhì)量。S265是淘寶和阿里云共同發(fā)起的HEVC編碼器,目前已經(jīng)實(shí)現(xiàn)集團(tuán)內(nèi)部的開源,并落地在點(diǎn)播、直播會(huì)議等各個(gè)場(chǎng)景中。相比起業(yè)界優(yōu)秀的HEVC編碼器,S265在PSNR指標(biāo)上有比較大的優(yōu)勢(shì)。首先在編碼工具提升方面,我們做了大量工作,實(shí)現(xiàn)了HierarchyB、GPB、Bi-Search、Longterm、RDOQ、AdaptGOP等編碼工具,并且對(duì)這些工具進(jìn)行了大量的算法和速度優(yōu)化。我們還設(shè)計(jì)了50多種快速算法,比如說Deblock的優(yōu)化,編碼速度對(duì)比X265有1倍以上的提速。在工程上的優(yōu)化,我們做了浮點(diǎn)轉(zhuǎn)定點(diǎn)、位寬的縮減、SIMD的優(yōu)化、冗余去除、訪存效率提升及循環(huán)展開等等來提升我們的編碼速度。在框架方面,我們還做了線程調(diào)度優(yōu)化等等。在碼率控制方面,我們對(duì)幀級(jí)別碼控和塊級(jí)別碼控分別進(jìn)行了優(yōu)化,并且對(duì)2pass編碼進(jìn)行了原創(chuàng)性的優(yōu)化來提高2pass編碼的質(zhì)量。在塊級(jí)別碼控中,我們?cè)O(shè)計(jì)了新的CUTree和AQ算法。

下面來看一下S265的幾個(gè)典型優(yōu)化,首先是CU劃分決策,我們把CU劃分決策模塊分成兩個(gè)步驟,一是紋理強(qiáng)度決策,通過計(jì)算CU的紋理梯度來判別平坦塊和復(fù)雜塊,如果是平坦塊就直接退出,如果是復(fù)雜塊就繼續(xù)向下劃分。第一步可以解決大部分塊劃分的決策問題,但是對(duì)于模棱兩可的塊,則需要依靠CNN模型來輔助劃分。我們使用了一個(gè)5層網(wǎng)絡(luò)的小模型把決策的準(zhǔn)確度從72%提升到了96%;這個(gè)成果我們跟清華大學(xué)劉老師合作發(fā)表了一篇論文,在DCC會(huì)議上展示。

第二個(gè)方面的優(yōu)化是運(yùn)動(dòng)搜索方面的優(yōu)化。運(yùn)動(dòng)搜索是從參考幀尋找最佳匹配塊的過程,包含整像素搜索和分像素搜索,分像素需要做7抽頭或8抽頭插值濾波,計(jì)算量大;整像素搜索已經(jīng)有比較多的快速算法,比如菱形搜索、六邊形搜索及分層搜索,但分像素搜索一直沒有什么好的方法。比如在圖中矩形的整像素周圍,分布著60個(gè)分像素點(diǎn),如果要對(duì)分像素點(diǎn)進(jìn)行全部搜索的話,需要60次,經(jīng)過優(yōu)化之后一般需要搜4個(gè)、8個(gè)或16個(gè)點(diǎn),但搜索次數(shù)還是比較多的。我們采用一個(gè)二元二次誤差平面方程,用9個(gè)整像素點(diǎn)的預(yù)測(cè)誤差來求解方程的5個(gè)系數(shù),再對(duì)方程求偏導(dǎo),可得到最佳分像素點(diǎn)的位置。只需對(duì)這個(gè)最佳分像素點(diǎn)計(jì)算1個(gè)1/4差值,就可以完成我們的搜索過程。這個(gè)技術(shù)在編碼器的整個(gè)提速有12%,但bd-PSNR只有-0.016db。這些成果在VCIP 2016上可以看到。

第三個(gè)是我們的碼率控制。ABR是較適合直播的一種碼率控制方法。但HM中基于

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 直播
    +關(guān)注

    關(guān)注

    1

    文章

    244

    瀏覽量

    21324
  • 窄帶
    +關(guān)注

    關(guān)注

    0

    文章

    16

    瀏覽量

    12766
  • 高清技術(shù)
    +關(guān)注

    關(guān)注

    1

    文章

    16

    瀏覽量

    14604

原文標(biāo)題:淘寶直播窄帶高清技術(shù)

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Amoonsky創(chuàng)新音視頻連接技術(shù):全新推出AMS-HE200 HDMI網(wǎng)線延長(zhǎng)器

    簡(jiǎn)介: 在不斷向高清多媒體體驗(yàn)邁進(jìn)的世界中,強(qiáng)大的音視頻連接需求變得前所未有的重要。AMS-HE200,Amoonsky開創(chuàng)性的HDMI網(wǎng)線延長(zhǎng)器,成為重新定義音視頻網(wǎng)絡(luò)格局的解決方案。這款創(chuàng)新
    的頭像 發(fā)表于 10-24 16:09 ?58次閱讀
    Amoonsky創(chuàng)新<b class='flag-5'>音視頻</b>連接<b class='flag-5'>技術(shù)</b>:全新推出AMS-HE200 HDMI網(wǎng)線延長(zhǎng)器

    盤點(diǎn)那些常見音視頻接口

    我們熟知的一些常見音視頻接口,發(fā)展至今在日常使用中已經(jīng)漸漸少了。但是在工業(yè)領(lǐng)域的音視頻連接,依然能看到其身影。這些看似消失的接口,它們現(xiàn)在發(fā)展成什么樣子了?本期我們將做一個(gè)大盤點(diǎn)。
    的頭像 發(fā)表于 09-09 14:34 ?332次閱讀

    常見音視頻接口的靜電浪涌防護(hù)和濾波方案

    音視頻接口在現(xiàn)代多媒體設(shè)備中扮演著至關(guān)重要的角色,它們確保了音視頻信號(hào)在不同設(shè)備間的順暢傳輸,各種類型的音視頻接口滿足了多樣化的應(yīng)用場(chǎng)景需求。 在音視頻接口的設(shè)計(jì)領(lǐng)域,靜電浪涌防護(hù)與濾
    的頭像 發(fā)表于 06-25 11:28 ?533次閱讀

    音視頻產(chǎn)品EMC整改案例解析

    音視頻產(chǎn)品EMCRE整改案例解析
    的頭像 發(fā)表于 05-20 16:49 ?325次閱讀
    <b class='flag-5'>音視頻</b>產(chǎn)品EMC整改案例解析

    高清HDMI轉(zhuǎn)USB 3.0音視頻多功能音采集卡-測(cè)評(píng)

    LCC380的設(shè)計(jì)理念在于全面考慮到各種用戶場(chǎng)景下的需求。為了實(shí)現(xiàn)高品質(zhì)的音視頻采集效果,卡體搭載了業(yè)界領(lǐng)先的音頻處理器解決方案。無論您是熱衷于游戲直播、視頻會(huì)議還是其他音視頻應(yīng)用,都
    的頭像 發(fā)表于 05-14 17:45 ?648次閱讀
    <b class='flag-5'>高清</b>HDMI轉(zhuǎn)USB 3.0<b class='flag-5'>音視頻</b>多功能音采集卡-測(cè)評(píng)

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】音視頻的編解碼壓縮技術(shù)

    音視頻所載有的信息在通過傳輸?shù)臅r(shí)候就需要壓縮編碼。 其中,文本壓縮是指通過使用各種算法和技術(shù),將文本數(shù)據(jù)表示為更緊湊的形式,以減少存儲(chǔ)空間。 霍夫曼編碼是一種無損壓縮算法,它可以根據(jù)字符出現(xiàn)
    發(fā)表于 04-28 21:04

    音視頻SoC與AI技術(shù)融合,帶來更智能的音視頻處理解決方案

    ,如WiFi路由器和物聯(lián)網(wǎng)設(shè)備。在安防、智能音頻等領(lǐng)域,對(duì)SoC芯片的算力要求相比智能手機(jī)、服務(wù)器等略低。 ? 人工智能技術(shù)音視頻SoC 的融合??????????????????????????????????????? ? 隨著人工智能
    的頭像 發(fā)表于 04-26 01:20 ?3989次閱讀

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】音頻采集與預(yù)處理

    閑暇之余,繼續(xù)學(xué)習(xí)【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】這本書。 書中對(duì)于音頻采集的介紹非常詳細(xì)和全面,包括原理、方法、技術(shù)細(xì)節(jié)以及實(shí)踐應(yīng)用等方面的內(nèi)容。 音頻采集是實(shí)時(shí)音視頻通信中的關(guān)鍵步驟之一
    發(fā)表于 04-25 10:41

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】新書一瞥

    本人從事音視頻領(lǐng)域的開發(fā),經(jīng)常接觸實(shí)時(shí)音視頻處理相關(guān)的技術(shù),看到這本書非常有興趣閱讀,這本書全面介紹實(shí)時(shí)音視頻(RTC)技術(shù)的權(quán)威著作,該書
    發(fā)表于 04-22 09:09

    音視頻解碼生成:打造你的專屬高清影院體驗(yàn)

    在數(shù)字化時(shí)代,人們對(duì)觀影體驗(yàn)的要求越來越高。音視頻解碼生成技術(shù),作為現(xiàn)代多媒體播放的核心,正是為了滿足這種需求而不斷發(fā)展和完善的。通過這項(xiàng)技術(shù),我們可以輕松打造屬于自己的高清影院體驗(yàn)。
    的頭像 發(fā)表于 02-25 14:47 ?351次閱讀

    音視頻解碼生成:打造極致觀影體驗(yàn)的關(guān)鍵技術(shù)

    在現(xiàn)代多媒體時(shí)代,音視頻解碼生成技術(shù)已成為提供極致觀影體驗(yàn)的核心要素。它不僅能夠確保音視頻數(shù)據(jù)的高效傳輸,還能保證播放的流暢性和畫質(zhì)清晰度,為用戶帶來身臨其境的觀影享受。 1. 解碼生成的重要性
    的頭像 發(fā)表于 02-25 14:43 ?389次閱讀

    如何用USB-C端口實(shí)現(xiàn)快充及高清音視頻傳輸?

    求助,用USB-C端口實(shí)現(xiàn)快充及高清音視頻傳輸
    發(fā)表于 01-24 06:52

    音視頻

    對(duì)音視頻技術(shù)都喜歡深究?jī)?nèi)部最核心的原理和機(jī)制,尤其是ffmpeg這個(gè)編解碼庫(kù),可以說是音視頻領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)。語音智能算法,語言語義分析和理解,流媒體服務(wù)器等高端技術(shù)也都基于它而構(gòu)建。
    發(fā)表于 11-23 08:51

    科通技術(shù)攜手AMD解碼專業(yè)音視頻及工業(yè)醫(yī)療圖像新趨勢(shì)

    11 月 14 日,《科通&AMD 專業(yè)音視頻、工業(yè)醫(yī)療圖像新趨勢(shì)》研討會(huì)在上海舉辦。
    的頭像 發(fā)表于 11-17 17:47 ?480次閱讀

    科通技術(shù)攜手AMD 解碼專業(yè)音視頻及工業(yè)醫(yī)療圖像新趨勢(shì)

    11月14日,《科通&AMD專業(yè)音視頻、工業(yè)醫(yī)療圖像新趨勢(shì)》研討會(huì)在上海舉辦。繼上月深圳站反響熱烈后,科通技術(shù)再次攜AMD專家以及戰(zhàn)略合作伙伴在上海站深入探討了AMD自適應(yīng)與嵌入式器件
    的頭像 發(fā)表于 11-16 14:08 ?376次閱讀