0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于FFmpeg深度學習相關(guān)內(nèi)容的技術(shù)分享

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-09-04 10:52 ? 次閱讀

1 為什么需要在FFmpeg中實現(xiàn)深度學習模塊

首先,為什么需要FFmpeg深度學習模塊,F(xiàn)Fmpeg對輸入的碼流,首先進行解碼,解碼后得到一個個的視頻幀,以及相應(yīng)的音頻數(shù)據(jù)等。經(jīng)過一系列的Filter之后,最后可以進行重新編碼或者直接播放出來。這些filter的功能包括傳統(tǒng)的圖像處理,也包括一些統(tǒng)計功能,比如直方圖等。在深度學習的算法出來之后,由于它太有效了,包括很多的算法功能,例如超分辨率、目標識別、人臉檢測、目標檢測、人臉識別等等,都需要深度學習的算法來實現(xiàn)。所以,我們需要拓展filter的功能,使它可以支持深度學習算法。 當我們將深度學習的算法加入到FFmpeg的Filter之后,F(xiàn)ilter就擁有了很多計算機視覺相關(guān)的算法。那么它與比如說OpenCV的計算機視覺軟件包有什么關(guān)系?這個問題我們可以從兩個角度來看:在支持深度學習算法之前,F(xiàn)Fmpeg與OpenCV是相互配合、相互支持的一種關(guān)系。例如在OpenCV中,可能需要先調(diào)用FFmpeg進行視頻解碼,解碼完成后回到OpenCV中進行相應(yīng)的計算機視覺算法應(yīng)用。此外,在FFmpeg中有一些Filter,這些Filter背后調(diào)用的就是OpenCV,通過這種方式來使用OpenCV中的一些算法功能。但是在比較新版本的OpenCV中,接口語言切換成了C++,而在FFmpeg中要求的是C代碼和并且調(diào)用的是C庫的接口, 因此FFmpeg基于OpenCV的Filter就很難用上OpenCV的最新算法功能,所以在這種情況下就很有必要在FFmpeg增加深度學習模塊來支持多個Filter應(yīng)用深度學習算法。 從另外一個角度來看,在之前,對于計算機視覺的算法開發(fā)者來說,會在OpenCV中進行算法實現(xiàn),代碼完成后基本不太可能再次在其它應(yīng)用中重新實現(xiàn)一次,那么這也就造成了很多的計算機視覺算法都只在類似于OpenCV的軟件包中完成。而在深度學習模塊,算法實現(xiàn)的載體已經(jīng)從以前的代碼變成了模型文件,模型文件可以很容易的分發(fā)出去,被各個軟件包通過恰當?shù)姆绞竭M行加載、執(zhí)行,從而實現(xiàn)一些深度學習算法的功能。綜上所述,無論從什么角度來看,我們都有必要在FFmpeg中增加深度學習相應(yīng)的模塊。在增加深度學習模塊之后,對于FFmpeg的開發(fā)者來說開發(fā)工作會更靈活,速度更快。想象一下,在這之前對于FFmpeg的開發(fā)者來說,需要首先調(diào)用FFmpeg的API進行解碼,解碼完成后,再編寫代碼或者調(diào)用第三方庫等實現(xiàn)深度學習算法的應(yīng)用,最后再回到FFmpeg中進行編碼。而深度學習模塊就相當于將之前用戶需要自行開發(fā)的深度學習實現(xiàn)相關(guān)的部分轉(zhuǎn)移到FFmpeg內(nèi)部,以Filter的形式對外暴露,因此對于FFmpeg的開發(fā)者來說開發(fā)變得更加便捷。

2 FFmpeg深度學習模塊的發(fā)展歷史

其實在2018年FFmpeg才開始支持深度學習模塊,是經(jīng)過一個GsoC項目,即谷歌關(guān)于鼓勵在校學生做實習生的活動,鼓勵大家進入各個開源社區(qū)做一些代碼工作。因為具體的代碼實現(xiàn)一般都在7、8月份,所以稱為Summer of Code,項目的效果還不錯。2018年我主要通過郵件參與討論深度學習模塊如何應(yīng)用,但在GsoC2018完成之后,發(fā)現(xiàn)沒人進行接下來的維護。于是在2019年,我基于這一部分做了很多工作,包括貢獻了絕大部分的代碼。除此之外,大師兄劉歧還帶了一個GsoC2019的項目,帶領(lǐng)一名北大的學生基于深度學習的模塊做了些有關(guān)Filter的工作。2019年年底,我成為了深度學習模塊的Maintainer。 到了2020年,發(fā)生了一個比較大的變化是我們將OpenVINO(英特爾的一個深度學習的推理引擎)加入到了FFmpeg的深度學習模塊中,同時也開展了一個GsoC項目,希望將深度學習模塊中的一些功能進行優(yōu)化,能夠使用匯編語言做一些速度的提升。希望在2021年看到GsoC2021在FFmpeg深度學習模塊中的一些項目進展。

3 FFmpeg深度學習模塊總體架構(gòu)

深入到FFmpeg中看一下深度學習模塊的總體架構(gòu):FFmpeg是由多個庫組成的,上圖左邊列出了部分:libavcodec是音視頻解碼相關(guān)的、libavdevice是音視頻輸入輸出相關(guān)的、libavformat是如何將音視頻碼流組合到一個文件中、libswscale是對視頻幀的一些處理、libswresample是對音頻數(shù)據(jù)的重采樣,以及所有util相關(guān)的Tool放在libavutil中。與深度學習模塊密切相關(guān)的是libavfilter模塊,因為我們的深度學習模塊目前主要是為Filter服務(wù)的,所以放在libavfilter模塊中。對外,我們的深度學習模塊可能會調(diào)用TensorFlow的 C動態(tài)庫,也可以調(diào)用OpenVINO的C動態(tài)庫,也就是說需要提前在系統(tǒng)中安裝TensorFlow或者OpenVINO的C庫的.so文件、.h文件等等。 對于libavFilter內(nèi)部,前面提到,我們可以有很多基于深度學習算法的Filter,也可以調(diào)用多個深度學習模塊,所以中間出現(xiàn)DNN接口層,對Filter以及下面的backend進行解耦。目前系統(tǒng)中有三個Filter與深度學習算法相關(guān)。第一個是Super-Resolution的Filter,是在GsoC2018的項目中加入的,支持了兩個算法模型:一個是ESPCN,即輸入的是一張低分辨率的圖片,輸出的是高分辨率圖片,模型直接進行超分應(yīng)用;另外一個模型叫做SRCNN,首先將一張低分辨率的圖片經(jīng)過快速放大,變成一張高分辨率但質(zhì)量較為一般的圖片,這張圖片經(jīng)過SRCNN算法之后,分辨率保持不變、圖片質(zhì)量會變得更好,在后面我們會用到SRCNN算法舉例進行說明。 第二個Filter叫derain:輸入一個RGB格式的圖片,調(diào)用的模型的算法可以將圖片中的雨滴去除掉,這是在GsoC2019完成的。我們分析前面兩個Filter就會發(fā)現(xiàn),其實這兩個Filter實現(xiàn)的算法功能是在模型文件中體現(xiàn)的,在Filter里面的代碼更多的是將FFmpeg的數(shù)據(jù)結(jié)構(gòu)與模型文件的輸入輸出進行連接。因此從這個角度來看,我們就沒有必要為每一個算法功能實現(xiàn)一個Filter,我們可以做一個比較general的Filter —— dnn_processing。只要調(diào)用這個Filter,無論模型文件提供的算法功能是什么,只要將FFmpeg與模型文件執(zhí)行前后的數(shù)據(jù)流串通起來,就可以實現(xiàn)任何與圖像處理相關(guān)算法的支持。 下面一層就是三個backend:TensorFlow backend對外調(diào)用TensorFlow的C動態(tài)庫,OpenVINO backend就會對外調(diào)用OpenVINO的C動態(tài)庫。如果考慮到系統(tǒng)中既沒有TensorFlow也沒有OpenVINO,我們可以選擇轉(zhuǎn)換到Native backend,即相應(yīng)的代碼實現(xiàn)都在FFmpeg代碼樹中,可以直接拿來用。后面將會以Super-Resolution里面的算法模型為例,通過dnn_processing這個Filter舉例說明如何使用這三個不同的后端。

4 FFmpeg深度學習模塊接口

目前接口主要分為三塊:第一,有一個最基本的函數(shù),輸入的是backend type,可選值是Native backend、TensorFlow backend或者OpenVINO backend,根據(jù)這個backend會返回一個DNNModule。在DNNModule數(shù)據(jù)結(jié)構(gòu)中首先要做的就是給出模型文件所在的路徑,告知Module加載模型文件,加載完成后會在Filter中進行判斷,查詢加載的模型輸入的信息(包括輸入NHWC中的每個維度的數(shù)字是什么,formate是float32、RGB還是int8等等)。查到相關(guān)信息后再與FFmpeg的數(shù)據(jù)流進行比較是否能夠匹配,如果channel的數(shù)據(jù)匹配不上,則返回error,如果是其它的一些數(shù)據(jù)結(jié)構(gòu)的大小有變化的話,可以提前做一些scale的轉(zhuǎn)換,或者做color spaceconvertion的一些變換。當一切都變換好之后,我們就會在為模型設(shè)置好輸入、輸出之后完成執(zhí)行。當然,用set_input_output來設(shè)置模型的輸入/輸出主要是將輸入/輸出的變量名字告知Model,方便后續(xù)執(zhí)行時清楚的知道要將FFmpeg的數(shù)據(jù)填充到模型的哪個地方,以及模型的哪個地方是輸出,獲取到輸出的數(shù)據(jù)重新放到FFmpeg的pipeline里。然后對每個Filter進行這樣的操作,做模型的推理,當所有的碼流或者圖片執(zhí)行完畢之后,執(zhí)行Model即可。以上就是深度學習模塊主要接口的使用方法。

5 三種后端應(yīng)用實例

5.1 重現(xiàn)編譯FFmpeg

前面提到深度學習模塊有三種后端,分別是OpenVINO、TensorFlow和Native。下面舉例說明應(yīng)該如何應(yīng)用:首先第一步,TensorFlow backend在默認編譯FFmpeg時是非enable的,所以我們需要加入一個選項,告知FFmpeg的build system,需要enable TensorFlow。在此之前我們要在Tensorflow的官方網(wǎng)站下載1.14(建議)版本,解壓、安裝到系統(tǒng)目錄下,包括.h文件和.so文件,然后再在configure進行以上配置,就可以生成支持TensorFlow backend的FFmpeg的可執(zhí)行程序了。 如果需要用的是Native backend,任何選項都不需要加,因為相應(yīng)的代碼已經(jīng)直接寫在代碼樹中。 如果是使用OpenVINO backend,則與Tensorflow backend類似,也要加入選項,告知FFmpeg接下來我們要啟用OpenVINO backend。一般來說,OpenVINO的默認安裝目錄不是系統(tǒng)目錄,所以需要增加一些額外的cflags,指出OpenVINO的頭文件在哪里,用ldflags指出OpenVINO的.so庫在哪里。在configure的同時,其內(nèi)部會寫一個最簡單的OpenVINO應(yīng)用程序進行編譯并且執(zhí)行,只有一切都通過,才會啟用OpenVINO的后端,因此前面需要加LD_LIBRARY_PATH指出OpenVINO的.so所在的位置。 通過這樣的方式,我們就可以得到三種后端,即Tensorflow+backend的后端、Native+backend的后端或者OpenVINO+backend的后端,得出的結(jié)果都是一個可執(zhí)行的程序,叫ffmpeg或者ffplay等等。 5.2 準備SR模型文件

準備好可執(zhí)行的程序之后,我們就可以準備Super-Resolution的模型文件了。首先我們要來準備TensorFlow格式的模型文件。一開始這個是在vf_sr.c的Filter中寫的,也就是說我們需要下載一個第三方的庫,運行python腳本,就會生成srcnn.pb。這就是基于Tensorflow格式的模型文件,包括了已經(jīng)訓練好的數(shù)據(jù)。 在這個基礎(chǔ)上,如果我們需要使用Native backend,就需要在我們的FFmpeg/tools/python目錄下調(diào)用convert.ty這個python腳本,它的輸入就是Tensorflow的pb文件srcnn.pb。然后會生成在FFmpeg中自定義的一種新的格式——srcnn.model文件,這個.model文件就可以被Native backend加載和執(zhí)行,這是我們在FFmpeg中自定義出來的,比較簡潔。 如果需要使用OpenVINO后端,其實OpenVINO可以支持多個不同格式,例如Tensorflow格式、通過中間轉(zhuǎn)換的方式支持pyTorch格式,支持ONNX格式等等。OpenVINO的源代碼中有一個model-optimizer目錄,在這個目錄中有若干python腳本。例如mo_tf.py腳本文件就可以將Tensorflow格式的模型文件轉(zhuǎn)換為OpenVINO支持的格式,OpenVINO的模型文件有兩個,分別是.xml和.bin文件,我們只需要將這兩個模型文件放在同一個目錄下即可。 如果大家想重現(xiàn)上述內(nèi)容,而轉(zhuǎn)換又比較麻煩的話,大家可以在圖中最下方的網(wǎng)址中下載相應(yīng)文件。 5.3 應(yīng)用SR算法

準備好相應(yīng)的程序和模型文件后,接下來要執(zhí)行的FFmpeg的命令行如圖所示。 TensorFlow backend命令行: -i:輸入文件是什么。一般來說FFmpeg處理的是視頻。在這里為了方便展示,我們輸入一個.jpg文件,解碼之后就經(jīng)過若干的Filter。由于我們的模型需要的是YUV格式,我們首先應(yīng)用了format的Filter進行格式的轉(zhuǎn)換,以確保輸出的是YUV格式。然后我們調(diào)用scale的Filter,其目的是為了將輸入圖片的長和寬簡單的放大一倍,得到高分辨率低質(zhì)量的一張圖片。這張圖片再經(jīng)過dnn_processing的Filter,就可以變成相同分辨率高質(zhì)量的圖片。在該Filter中的參數(shù)部分,我們需要指出后端是Tensorflow,其模型文件是什么,以及模型的輸入輸出的變量名是什么,才能將FFmpeg的數(shù)據(jù)結(jié)構(gòu)與模型串聯(lián)。 如我們需要的是Native backend,只需要改變backend的flag,并改變模型文件的文件名即可。同樣的,對于OpenVINO來講,其它參數(shù)都保持不變,只要將OpenVINO的flag傳進去,并調(diào)整模型文件為srcnn.xml。Filter會根據(jù)flag經(jīng)過dnn interface再調(diào)用希望應(yīng)用的backend,最終完成相應(yīng)的算法功能。

6 下一步計劃

那么接下來我們會有哪些新的實現(xiàn)計劃? 第一,我們現(xiàn)在執(zhí)行的是同步的處理,即給到一個frame,執(zhí)行完畢后才會返回,這樣在有些時候會影響整體效率。因此接下來我們會實現(xiàn)一個異步的執(zhí)行,即在接收到一個視頻幀后,直接將視頻幀輸入到深度學習模塊中,在推理完成之前返回調(diào)用,希望能夠加快處理的速度。并且在這個基礎(chǔ)上,我們就可以支持batch support,也就是每次推理并非一幀一幀進行,而是支持一次多幀的處理,盡可能用上下面硬件的并行處理功能。 除此之外,剛才一直強調(diào)的模型的輸入輸出與FFmpeg的數(shù)據(jù)結(jié)構(gòu)之間需要做一些恰當?shù)霓D(zhuǎn)換。由于模型的輸入千變?nèi)f化,存在很大可能性,而目前只是支持一些比較固定模式的轉(zhuǎn)化,因此希望后續(xù)可以加入一些比較靈活的轉(zhuǎn)化。再接下來,因為不同的backend會有自己的特性,需要單獨設(shè)置flag,那么我們就需要在接口中為每個backend實現(xiàn)其私有的操作選項,從Filter向下傳遞到相應(yīng)的backend中。另外,從Filter的角度來講,其實還有很多事情是可以做的。例如目前增加的Filter只是可以用來對圖片進行處理,而沒有實現(xiàn)分析的功能,例如檢測和識別等這些都是下一步需要做的。甚至包括音頻相關(guān)的Filter,例如將識別音頻轉(zhuǎn)化為文字內(nèi)容等等。 最后以FFmpeg深度學習模塊Maintainer的角色,非常歡迎大家對FFmpeg深度學習模塊提出建議或意見,包括增加更多的基于深度學習模塊的Filter,歡迎大家一起討論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5440

    瀏覽量

    120798
  • ffmpeg
    +關(guān)注

    關(guān)注

    0

    文章

    46

    瀏覽量

    7372

原文標題:FFmpeg深度學習模塊的歷史、現(xiàn)狀和計劃

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TMS320F28335學習之中斷和定時器的相關(guān)內(nèi)容

    本次總結(jié)為中斷和定時器的相關(guān)內(nèi)容。除了基本的寄存器配置,初始化,中斷主要是掌握三級中斷制,定時器主要關(guān)注定時器的工作原理和中斷時間的設(shè)置。
    的頭像 發(fā)表于 11-08 10:17 ?2367次閱讀
    TMS320F28335<b class='flag-5'>學習</b>之中斷和定時器的<b class='flag-5'>相關(guān)內(nèi)容</b>

    。。。。GSM的相關(guān)內(nèi)容(包含AT)

    GSM相關(guān)內(nèi)容(短消息,AT指令,例程)。。。。
    發(fā)表于 07-21 19:42

    量子力學經(jīng)典相關(guān)內(nèi)容附圖使之更易理解

    量子力學經(jīng)典相關(guān)內(nèi)容附圖使之更易理解2020-8-1
    發(fā)表于 08-01 22:24

    單片機之驅(qū)動能力的相關(guān)內(nèi)容解析

    來源:互聯(lián)網(wǎng)單片機是個比較復雜的課題,但是如果你找到正確的學習方式你就會覺得單片機一點都不難,下面跟著小編學習下單片機篇之驅(qū)動能力的部分相關(guān)內(nèi)容~
    發(fā)表于 10-22 19:02

    GPIO中斷相關(guān)內(nèi)容 精選資料分享

    芯片:STM32 F412這里只寫GPIO中斷相關(guān)內(nèi)容打開STM32CubeMX,鼠標左鍵點擊需要設(shè)置GPIO中斷的引腳,選擇GPIO_EXTI*,鼠標右鍵點擊可以設(shè)置自定義LABEL設(shè)置GPIO
    發(fā)表于 08-13 08:54

    小白求助,機甲大師機器人軟件單元測試的相關(guān)內(nèi)容

    小白求助,機甲大師機器人軟件單元測試的相關(guān)內(nèi)容
    發(fā)表于 11-22 06:15

    簡單描述一下Arduino相關(guān)內(nèi)容

    什么是Arduino,今天就針對初學者簡單描述一下 Arduino 相關(guān)內(nèi)容。一、初識Arduino要了解Arduino就先要了解什么是單片機,Arduino平臺的基礎(chǔ)其實就是AVR指令集的單片機。1、什么是...
    發(fā)表于 11-23 08:38

    分享一個RK3288主板適配LVDS分辨率相關(guān)內(nèi)容

    分享一個RK3288主板適配LVDS分辨率相關(guān)內(nèi)容
    發(fā)表于 03-04 07:24

    高云半導體時序約束的相關(guān)內(nèi)容

    本手冊主要描述高云半導體時序約束的相關(guān)內(nèi)容,包含時序約束編輯器(Timing Constraints Editor)的使用、約束語法規(guī)范以及靜態(tài)時序分析報告(以下簡稱時序報告)說明。旨在幫助用戶快速
    發(fā)表于 09-29 08:09

    永康泰沖擊波參數(shù)及相關(guān)內(nèi)容

    永康泰沖擊波參數(shù)及相關(guān)內(nèi)容,招標文件參數(shù)。
    發(fā)表于 05-09 15:22 ?1次下載

    淺析彈簧管壓力儀表的相關(guān)內(nèi)容

    彈簧管壓力表屬于就地指示型壓力表,就地顯示壓力的大小,不帶遠程傳送顯示、調(diào)節(jié)功能。在化工場合運用非常廣泛,接下來就為大家全面的介紹一下彈簧管壓力儀表的相關(guān)內(nèi)容
    的頭像 發(fā)表于 09-17 09:35 ?3779次閱讀

    USB HID介紹及USB協(xié)議的相關(guān)內(nèi)容USB設(shè)備描述符資料概述

    HID是一種USB通信協(xié)議,無需安裝驅(qū)動就能進行交互,在學習HID之前,先來復習一下USB協(xié)議的相關(guān)內(nèi)容。
    發(fā)表于 11-02 15:15 ?28次下載
    USB HID介紹及USB協(xié)議的<b class='flag-5'>相關(guān)內(nèi)容</b>USB設(shè)備描述符資料概述

    CANOpen系列教程01_ 初識CAN與CANOpen及相關(guān)內(nèi)容

    CANOpen系列教程01_初識CAN與CANOpen及相關(guān)內(nèi)容
    的頭像 發(fā)表于 03-07 16:15 ?8687次閱讀

    關(guān)于CoreSight中調(diào)試和跟蹤的相關(guān)內(nèi)容

    講講關(guān)于CoreSight中調(diào)試和跟蹤的相關(guān)內(nèi)容。 strongerHuang 1 調(diào)試和跟蹤功能 CoreSight兩個主要功能就是調(diào)試和跟蹤功能。 1.調(diào)試功能 運行處理器的控制,允許啟動和停止
    的頭像 發(fā)表于 11-03 16:10 ?2001次閱讀

    AXI_GP接口和AXI_HP接口的相關(guān)內(nèi)容

    學習關(guān)于ZYNQ IP核中的GP接口和HP接口的異同,介紹關(guān)于AXI_GP接口和AXI_HP接口的相關(guān)內(nèi)容。
    的頭像 發(fā)表于 07-03 14:17 ?2777次閱讀