0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何降低開發(fā)門檻助力音視頻創(chuàng)新玩法

華為麒麟 ? 來源:華為麒麟 ? 作者:華為麒麟 ? 2021-09-28 10:26 ? 次閱讀

9月16日,華為多媒體管線服務(wù)(AV Pipeline Kit)技術(shù)直播正式開啟。華為多媒體管線服務(wù)產(chǎn)品經(jīng)理Michelle、華為多媒體技術(shù)專家Salvatore、華為計(jì)算機(jī)視覺算法專家Ting、和華為AI技術(shù)專家Eric相聚直播間,深度解析了AV Pipeline Kit的技術(shù)要點(diǎn)和應(yīng)用場景,助力廣大音視頻開發(fā)者以更輕松更高效的方式,為用戶提供新玩法,新交互。

緣起:音視頻開發(fā)面臨諸多挑戰(zhàn),麒麟?yún)f(xié)同各團(tuán)隊(duì)力量推AV Pipeline Kit

隨著寬帶提速,5G 普及,AI技術(shù)應(yīng)用,用戶對網(wǎng)絡(luò)視頻的內(nèi)容、互動性、播放速度和清晰度的要求越來越高。相應(yīng)的,多媒體開發(fā)呈現(xiàn)出實(shí)時(shí)化和智能化的趨勢,開發(fā)者在開發(fā)與管理過程中,面臨更高的技術(shù)門檻、更多的開發(fā)工作量等諸多挑戰(zhàn)。

其一,開發(fā)難度進(jìn)一步加大,開發(fā)成本更高。很多視頻+AI的開發(fā),需要在傳統(tǒng)管線中加入AI處理技術(shù),這涉及到諸多數(shù)據(jù)處理能力,對于開發(fā)者來說技術(shù)門檻很高。

其二,端側(cè)實(shí)時(shí)化的智能視頻開發(fā)可能會遇到算力和功耗的限制。以端側(cè)超分為例,手機(jī)端算力比較受限,而視頻逐幀的超分實(shí)時(shí)處理對時(shí)延和功耗的要求是極高的。此外,視頻解碼后的數(shù)據(jù)要拿去做超分,就涉及到數(shù)據(jù)在不同IP之間的流轉(zhuǎn)和拷貝,會影響功耗,導(dǎo)致手機(jī)發(fā)燙。

以上諸多痛點(diǎn),阻礙了開發(fā)者創(chuàng)新的腳步。為此,麒麟團(tuán)隊(duì)整合了各個(gè)部門的能力,包括多媒體團(tuán)隊(duì)、NPU團(tuán)隊(duì)以及算法團(tuán)隊(duì),在今年7月份推出了華為多媒體管線服務(wù)(AV Pipeline Kit)。AV Pipeline Kit是一個(gè)面向安卓開發(fā)者的多媒體開放能力體系,它包含一個(gè)輕量級的多媒體開發(fā)框架和一系列高性能的音視頻處理插件,幫助開發(fā)者們降低開發(fā)難度,讓開發(fā)者們可以通過自定義流水線編排,將多種高性能插件快速集成到應(yīng)用中,輕松實(shí)現(xiàn)更加豐富的多媒體功能。

輕量化設(shè)計(jì):“拼樂高”式的流水線編排,助力開發(fā)者高效開發(fā)

在AV Pipeline Kit多媒體開發(fā)框架中,包含了多個(gè)預(yù)置的流水線編排,即一些現(xiàn)成的開箱即用的業(yè)務(wù)場景,被封裝成了接口供直接調(diào)用;同時(shí)也支持自定義流水線編排,將不同插件按不同的連接關(guān)系串聯(lián)起來形成新的業(yè)務(wù)場景。

如何簡單理解流水線編排的過程呢?以視頻超分為例,按照插件之間的處理順序來看,首先是一個(gè)音視頻的解封裝過程,然后會經(jīng)歷音視頻的解碼,而后解碼視頻幀會進(jìn)行視頻超分處理,最后進(jìn)行送顯。從輸入到輸出,可以看成是一個(gè)流水線的過程。

談及流水線編排的設(shè)計(jì)思路,華為多媒體技術(shù)專家Salvator表示,首先是對業(yè)務(wù)進(jìn)行抽象,然后把它分割成子過程,對子過程再進(jìn)行一個(gè)抽象,實(shí)現(xiàn)具體的插件,最后再把插件用Pipeline的方式拼接起來。這樣的好處一方面是便于統(tǒng)一管理,另一方面提高了復(fù)用度。

這個(gè)過程可以簡單理解為拼樂高,一個(gè)個(gè)插件就是一個(gè)個(gè)不同形狀的樂高片,開發(fā)者的業(yè)務(wù)就像搭樂高一樣,不同的開發(fā)者可以從插件庫里選擇需要的插件,拼成想要的業(yè)務(wù)場景。AV Pipeline Kit定義了一套插件標(biāo)準(zhǔn)接口,開發(fā)者只需要繼承這個(gè)接口類,并實(shí)現(xiàn)初始化和數(shù)據(jù)處理相關(guān)的邏輯即可,無需考慮并發(fā)、線程同步、狀態(tài)轉(zhuǎn)移、buffer池管理、多實(shí)例等問題,這些已經(jīng)全部由框架層實(shí)現(xiàn)好了。

突破:視頻超分,最高3倍超分效果背后的技術(shù)優(yōu)勢

所謂“超分”,可以理解為在視頻播放過程中進(jìn)行智能識別與銳度優(yōu)化,從而讓視頻看起來比原本更清晰、明麗。在大型影視和游戲制作中,超分是一種非常關(guān)鍵的技術(shù)。想要在端側(cè)在線場景中,幫助開發(fā)者獲得實(shí)時(shí)化、高性能、低功耗的超分,就需要從AI技術(shù)到硬件資源調(diào)用的一系列優(yōu)化。

據(jù)華為計(jì)算機(jī)視覺算法專家Ting介紹,AV Pipeline Kit提供傳統(tǒng)的GPU超分方案和AI超分方案兩種,以達(dá)到性能和功耗的平衡?!氨热缥覀?a target="_blank">檢測到在麒麟高端芯片上,就會優(yōu)先采用NPU的AI超分算法,最高可實(shí)現(xiàn)3倍的超分效果。如果沒有NPU的硬件,我們就會選擇GPU方案做超分處理,效果可能會有一些下降,但性能上是滿足了實(shí)時(shí)性要求的。”

為了幫助開發(fā)者便捷獲取真實(shí)可用的逐幀超分能力,實(shí)現(xiàn)超分不卡頓的體驗(yàn),AV Pipeline Kit首先在機(jī)器視覺算法上進(jìn)行了一系列技術(shù)突破。比如,在AI模型結(jié)構(gòu)上應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò),提升了復(fù)雜真實(shí)場景的超分效果;在數(shù)據(jù)工程方面,用一系列方法還原了多媒體數(shù)據(jù)的構(gòu)造過程,提升網(wǎng)絡(luò)的優(yōu)化結(jié)果;在端側(cè)模型壓縮方面,進(jìn)行了新的網(wǎng)絡(luò)小型化探索,確保超分效果可以在端側(cè)場景中被很好地執(zhí)行。

其次,為了兼顧高性能與低功耗,AV Pipeline Kit和華為 HiAI Foundation之間也有不少配合。據(jù)華為AI技術(shù)專家Eric介紹,華為HiAI Foundation作為NPU使能的基礎(chǔ)平臺,能夠快速將原始模型轉(zhuǎn)換成華為Davinci Model,并通過Davinci Model的調(diào)優(yōu)技術(shù),優(yōu)化模型結(jié)構(gòu),充分發(fā)揮NPU硬件單元的算力,令模型算子以更低功耗在手機(jī)端側(cè)高效運(yùn)轉(zhuǎn)。

在超分業(yè)務(wù)中,內(nèi)存DDR的頻繁讀寫對性能和功耗都是很大的挑戰(zhàn)。HiAI Foudation算子庫在優(yōu)化模型執(zhí)行時(shí),重點(diǎn)對算力和帶寬利用做了平衡,在滿足業(yè)務(wù)要求的算力情況下,盡可能的減少對于內(nèi)存的反復(fù)讀寫,更多的利用內(nèi)部buffer和cache,極大地提供了性能,降低了功耗。

在一系列的技術(shù)突破之后,用戶可以獲得更好的畫質(zhì)體驗(yàn),視頻平臺可以節(jié)省帶寬和服務(wù)器資源,開發(fā)者則能夠高效集成業(yè)務(wù),降低工作量。

突破:聲音事件檢測,為實(shí)現(xiàn)98%識別率攻克的技術(shù)難題

對于開發(fā)者來說,聲音事件檢測是相對比較復(fù)雜的技術(shù),需要豐富的技術(shù)資源與開發(fā)經(jīng)驗(yàn)。AV Pipeline Kit將這些功能以文件配置的形式直接帶給開發(fā)者,且經(jīng)過麒麟團(tuán)隊(duì)的長期深耕,聲音檢測事件插件可以確保聲音識別的準(zhǔn)確與穩(wěn)定。

目前,AV Pipeline Kit聲音事件檢測目前已經(jīng)可以支持日常使用的13種聲音,包括無障礙功能、健康檢測、輔助安全駕駛、安全防盜、事故報(bào)警防剮蹭、停車啟動安全等豐富的場景。經(jīng)過研發(fā)團(tuán)隊(duì)的深度優(yōu)化和組合驗(yàn)證,當(dāng)前識別準(zhǔn)確率平均在98%以上,無論從聲音事件類別還是識別性能上來看,都屬于業(yè)界領(lǐng)先。

據(jù)華為計(jì)算機(jī)視覺算法專家Ting介紹,團(tuán)隊(duì)主要聚焦在兩個(gè)點(diǎn)上做突破,確保了聲音識別的準(zhǔn)確及穩(wěn)定性。一是解決了不同聲音事件的時(shí)間片段的長短。不同聲音事件長短不同,比如孩子的哭聲以及寵物叫聲,貓叫狗叫是瞬發(fā)型的,而哭是一個(gè)持續(xù)性的動作,所以他們的事件片段,時(shí)間片和長短是不一樣的,聲音事件檢測插件在設(shè)計(jì)網(wǎng)絡(luò)的時(shí)候,參考了Inception網(wǎng)絡(luò),計(jì)算多個(gè)不同大小的卷積,這樣感受野就不同,進(jìn)而提出的特征就更加具有針對性,特征空間更加豐富。

二是易混淆類別頻譜的區(qū)分。有一些聲音事件的混淆度比較高,比如在某些情況下小孩的哭聲和貓叫聲相當(dāng)接近,無論是人區(qū)分以及轉(zhuǎn)化為頻譜信息之后去查看,都很容易混淆。聲音事件檢測插件引入技術(shù)注意力機(jī)制,對易混淆的類別做一個(gè)區(qū)分。

面向未來:

深挖視頻播放、編輯場景,為開發(fā)者提供創(chuàng)新能力

最后,華為多媒體技術(shù)專家Salvatore表示,AV Pipeline Kit后續(xù)會繼續(xù)完善框架和插件,重點(diǎn)關(guān)注如視頻播放、視頻編輯等對性能要求比較高,對功耗比較敏感的場景,包括考慮預(yù)置錄制和編輯業(yè)務(wù),以及與人像拍攝美化相關(guān)的插件能力。

未來,麒麟團(tuán)隊(duì)將持續(xù)投入核心技術(shù),突破技術(shù)難點(diǎn),簡化底層開發(fā)繁瑣流程和難點(diǎn),降低智能化視頻開發(fā)的門檻,助力音視頻開發(fā)者技術(shù)創(chuàng)新,在激烈的競爭角逐中取勝。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • DDR
    DDR
    +關(guān)注

    關(guān)注

    11

    文章

    701

    瀏覽量

    65098
  • 帶寬
    +關(guān)注

    關(guān)注

    3

    文章

    888

    瀏覽量

    40753
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8857

    瀏覽量

    84956
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29390

    瀏覽量

    267684
  • AV
    AV
    +關(guān)注

    關(guān)注

    2

    文章

    268

    瀏覽量

    44444

原文標(biāo)題:如何降低開發(fā)門檻,助力音視頻創(chuàng)新玩法?AV Pipeline Kit深度技術(shù)解析

文章出處:【微信號:Huawei_Kirin,微信公眾號:華為麒麟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    dm368錄制音視頻后用vlc播放不同步是怎么回事?

    目前我們用其他的開發(fā)板 能夠錄制音視頻,但是用vlc播放的時(shí)候發(fā)現(xiàn)每次都是視頻播放完成了音頻還要播放一會,隨著錄制時(shí)間加上,延后的這個(gè)時(shí)間也會變長 請問有知道怎么回事的嗎?
    發(fā)表于 10-15 06:56

    盤點(diǎn)那些常見音視頻接口

    我們熟知的一些常見音視頻接口,發(fā)展至今在日常使用中已經(jīng)漸漸少了。但是在工業(yè)領(lǐng)域的音視頻連接,依然能看到其身影。這些看似消失的接口,它們現(xiàn)在發(fā)展成什么樣子了?本期我們將做一個(gè)大盤點(diǎn)。
    的頭像 發(fā)表于 09-09 14:34 ?303次閱讀

    常見音視頻接口的靜電浪涌防護(hù)和濾波方案

    音視頻接口在現(xiàn)代多媒體設(shè)備中扮演著至關(guān)重要的角色,它們確保了音視頻信號在不同設(shè)備間的順暢傳輸,各種類型的音視頻接口滿足了多樣化的應(yīng)用場景需求。 在音視頻接口的設(shè)計(jì)領(lǐng)域,靜電浪涌防護(hù)與濾
    的頭像 發(fā)表于 06-25 11:28 ?525次閱讀

    音視頻IP化浪潮全面來襲,分布式系統(tǒng)開創(chuàng)音視頻行業(yè)新時(shí)代!

    在傳統(tǒng)音視頻頻系統(tǒng)中,廠商們各自采用不同的通訊方式和控制協(xié)議,這使得不同的產(chǎn)品之間就像一座座的信息孤島,要連接起來就需要復(fù)雜的轉(zhuǎn)換設(shè)備和系統(tǒng)再開發(fā)。隨著音視頻項(xiàng)目的規(guī)模不斷擴(kuò)大,各類音頻設(shè)備產(chǎn)品
    的頭像 發(fā)表于 05-30 16:55 ?563次閱讀

    音視頻產(chǎn)品EMC整改案例解析

    音視頻產(chǎn)品EMCRE整改案例解析
    的頭像 發(fā)表于 05-20 16:49 ?319次閱讀
    <b class='flag-5'>音視頻</b>產(chǎn)品EMC整改案例解析

    高清HDMI轉(zhuǎn)USB 3.0音視頻多功能音采集卡-測評

    LCC380的設(shè)計(jì)理念在于全面考慮到各種用戶場景下的需求。為了實(shí)現(xiàn)高品質(zhì)的音視頻采集效果,卡體搭載了業(yè)界領(lǐng)先的音頻處理器解決方案。無論您是熱衷于游戲直播、視頻會議還是其他音視頻應(yīng)用,都能通過LCC380獲得出色的音頻輸入輸出體驗(yàn)
    的頭像 發(fā)表于 05-14 17:45 ?616次閱讀
    高清HDMI轉(zhuǎn)USB 3.0<b class='flag-5'>音視頻</b>多功能音采集卡-測評

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】音視頻的編解碼壓縮技術(shù)

    音視頻所載有的信息在通過傳輸?shù)臅r(shí)候就需要壓縮編碼。 其中,文本壓縮是指通過使用各種算法和技術(shù),將文本數(shù)據(jù)表示為更緊湊的形式,以減少存儲空間。 霍夫曼編碼是一種無損壓縮算法,它可以根據(jù)字符出現(xiàn)
    發(fā)表于 04-28 21:04

    音視頻SoC與AI技術(shù)融合,帶來更智能的音視頻處理解決方案

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)音視頻SoC,即音視頻系統(tǒng)級芯片或片上系統(tǒng),是一種高度集成化的芯片,它將電路板上的多塊芯片以及嵌入式軟件全部集成到一塊芯片中。音視頻SoC芯片廣泛應(yīng)用于各種嵌入式系統(tǒng)
    的頭像 發(fā)表于 04-26 01:20 ?3978次閱讀

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】音頻采集與預(yù)處理

    音視頻通信對音頻采集的實(shí)時(shí)性和性能要求很高。為了降低延遲并提高吞吐量,可能需要采用一些優(yōu)化技術(shù),如硬件加速、多線程處理等。 最后,音頻采集還需要考慮與后續(xù)處理步驟的銜接問題。例如,采集到的音頻
    發(fā)表于 04-25 10:41

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】新書一瞥

    本人從事音視頻領(lǐng)域的開發(fā),經(jīng)常接觸實(shí)時(shí)音視頻處理相關(guān)的技術(shù),看到這本書非常有興趣閱讀,這本書全面介紹實(shí)時(shí)音視頻(RTC)技術(shù)的權(quán)威著作,該書詳細(xì)講解了RTC的基本概念、技術(shù)原理、系統(tǒng)設(shè)
    發(fā)表于 04-22 09:09

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】本書概覽

    ,這都是按照音視頻流的開發(fā)的一般流程介紹的。然后介紹了編解碼以上所技術(shù),信令與媒體協(xié)商(個(gè)人覺得協(xié)商這里用協(xié)議更合適,因?yàn)槔锩嬷v解的是各種音視頻傳輸?shù)膮f(xié)議)。然后是控制傳輸優(yōu)化,可擴(kuò)展架構(gòu),評價(jià)指標(biāo)等
    發(fā)表于 04-21 17:09

    音視頻解碼生成:打造極致觀影體驗(yàn)的關(guān)鍵技術(shù)

    在現(xiàn)代多媒體時(shí)代,音視頻解碼生成技術(shù)已成為提供極致觀影體驗(yàn)的核心要素。它不僅能夠確保音視頻數(shù)據(jù)的高效傳輸,還能保證播放的流暢性和畫質(zhì)清晰度,為用戶帶來身臨其境的觀影享受。 1. 解碼生成的重要性
    的頭像 發(fā)表于 02-25 14:43 ?386次閱讀

    音視頻解碼生成與流媒體傳輸?shù)慕Y(jié)合

    音視頻解碼生成與流媒體傳輸是現(xiàn)代數(shù)字媒體技術(shù)中兩個(gè)不可或缺的部分,它們的結(jié)合為用戶提供了高質(zhì)量、實(shí)時(shí)性的多媒體體驗(yàn)。 1. 解碼生成與流媒體傳輸?shù)年P(guān)系 解碼生成是流媒體傳輸?shù)那疤帷T诹髅襟w服務(wù)中
    的頭像 發(fā)表于 02-21 14:36 ?322次閱讀

    音視頻

    音視頻技術(shù)都喜歡深究內(nèi)部最核心的原理和機(jī)制,尤其是ffmpeg這個(gè)編解碼庫,可以說是音視頻領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)。語音智能算法,語言語義分析和理解,流媒體服務(wù)器等高端技術(shù)也都基于它而構(gòu)建。希望有幸獲得本書,深度學(xué)習(xí)ffmpeg核心技術(shù),和作者一起在技術(shù)海洋中探索和進(jìn)步。
    發(fā)表于 11-23 08:51

    ESP RTC音視頻傳輸延遲測試

    音視頻
    Kevincoooool
    發(fā)布于 :2023年11月11日 10:54:02