0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡(jiǎn)述深度學(xué)習(xí)的基準(zhǔn)目標(biāo)檢測(cè)及其衍生算法

jf_78858299 ? 來(lái)源:電子學(xué)報(bào) ? 作者:程旭, 宋晨, 史金鋼 ? 2023-02-27 15:31 ? 次閱讀

1 基于深度學(xué)習(xí)的基準(zhǔn)目標(biāo)檢測(cè)模型

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法根據(jù)有無(wú)區(qū)域提案階段劃分為區(qū)域提案檢測(cè)模型和單階段檢測(cè)模型,其最近發(fā)展歷程在圖1中畫(huà)出。

圖片

▲ 圖1 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型的發(fā)展歷程

1.1 區(qū)域提案目標(biāo)檢測(cè)基準(zhǔn)模型

區(qū)域提案檢測(cè)模型將目標(biāo)檢測(cè)任務(wù)分為區(qū)域提案生成、特征提取和分類預(yù)測(cè)三個(gè)階段。在區(qū)域提案生成階段,檢測(cè)模型利用搜索算法如選擇性搜索(Selective Search,SS)、EdgeBoxes、區(qū)域提案網(wǎng)絡(luò)(Region Proposal Network, RPN)等在圖像中搜尋可能包含物體的區(qū)域。在特征提取階段,模型利用深度卷積網(wǎng)絡(luò)提取區(qū)域提案中的目標(biāo)特征。在分類預(yù)測(cè)階段,模型從預(yù)定義的類別標(biāo)簽對(duì)區(qū)域提案進(jìn)行分類和邊框信息預(yù)測(cè)。

2012年,卷積神經(jīng)網(wǎng)絡(luò)AlexNet通過(guò)強(qiáng)大的分層特征學(xué)習(xí)能力在ImageNet分類任務(wù)中奪魁,其分類結(jié)果比傳統(tǒng)算法要好得多。之后Girshirk等基于此提出通用的目標(biāo)檢測(cè)模型RCNN。

受空間金字塔匹配啟發(fā),He等提出空間金字塔池化網(wǎng)絡(luò)(Spatial Pyramid Pooling Network, SPPNet)解決RCNN模型中固定大小圖像輸入的問(wèn)題。盡管模型能解決固定大小圖像輸入的問(wèn)題并大幅減少檢測(cè)時(shí)間,但網(wǎng)絡(luò)輸出特征需要磁盤存儲(chǔ)且網(wǎng)絡(luò)不能通過(guò)反向傳播更新卷積層參數(shù)。Fast RCNN,F(xiàn)aster RCNN解決了該問(wèn)題。

盡管Faster RCNN運(yùn)用RPN能有效地縮短檢測(cè)時(shí)間,但圖像中上百個(gè)區(qū)域提案仍需輸入到區(qū)域子網(wǎng)絡(luò)來(lái)分類與坐標(biāo)回歸,這是模型的計(jì)算瓶頸。若直接減少區(qū)域子網(wǎng)絡(luò)的深度則會(huì)引起基于分類初始模型與檢測(cè)模型的矛盾,因?yàn)榉诸悤?huì)增加物體的平移不變性而檢測(cè)則減少物體的平移不變性。為解決上述問(wèn)題,代表性的方法有RFCN,Mask RCNN。上述模型的相關(guān)信息在表1中列出。

圖片

▲ 表1 區(qū)域提案目標(biāo)檢測(cè)基準(zhǔn)模型

1.2 單階段目標(biāo)檢測(cè)基準(zhǔn)模型

雖然區(qū)域提案檢測(cè)模型保持著高效的檢測(cè)效率,但其耗費(fèi)時(shí)間長(zhǎng)難以得到實(shí)際應(yīng)用。相較于區(qū)域提案檢測(cè)模型,單階段檢測(cè)模型聯(lián)合區(qū)域提案和分類預(yù)測(cè),輸入整張圖像到卷積神經(jīng)網(wǎng)絡(luò)中提取特征,最后直接輸出目標(biāo)類別和邊框位置信息。這類代表性的方法有:YOLO,YOLOv2,YOLOv3,YOLOv4,SSD,CornerNet等。

針對(duì)YOLO模型中目標(biāo)定位不準(zhǔn)確的問(wèn)題,Liu等人提出更準(zhǔn)確的單階段實(shí)時(shí)檢測(cè)模型SSD(Single Shot MultiBox Detector),其結(jié)合YOLO的回歸思想與Faster RCNN的錨框機(jī)制。之后DSSD(DeconvolutionalSingle Shot Detector)用于小目標(biāo)檢測(cè)。然而,錨框機(jī)制也存在明顯的缺陷,如正負(fù)樣本不平衡、引入過(guò)多的超參數(shù)而折戟檢測(cè)速度與性能等。基于此,研究者提出了無(wú)錨框單階段檢測(cè)模型,上述模型的相關(guān)信息在表2中列出。

圖片

▲ 表2 單階段目標(biāo)檢測(cè)基準(zhǔn)模型

2 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)衍生算法

當(dāng)前主流的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法可分為檢測(cè)部件、數(shù)據(jù)增強(qiáng)、優(yōu)化方法和學(xué)習(xí)策略四個(gè)方面。其中檢測(cè)部件包含基準(zhǔn)模型和基準(zhǔn)網(wǎng)絡(luò);數(shù)據(jù)增強(qiáng)包含幾何變換、光學(xué)變換等;優(yōu)化方法包含特征圖、上下文模型、邊框優(yōu)化、區(qū)域提案方法、類別不平衡和訓(xùn)練策略六個(gè)方面,學(xué)習(xí)策略涵蓋監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。本節(jié)從優(yōu)化方法和學(xué)習(xí)策略這兩個(gè)大的方面歸納總結(jié)了深度學(xué)習(xí)下基準(zhǔn)目標(biāo)檢測(cè)模型的衍生方法。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)部件及其代表性的檢測(cè)方法如圖2所示。

圖片

▲ 圖2 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)部件及其代表性的檢測(cè)方法

2.1 融合特征圖的目標(biāo)檢測(cè)模型

特征圖是圖像經(jīng)過(guò)卷積池化層輸出的結(jié)果,大多數(shù)基準(zhǔn)檢測(cè)模型只在頂層特征圖做預(yù)測(cè),這在很大程度上限制了模型的性能。為了充分提取特征信息,現(xiàn)有檢測(cè)模型從三個(gè)角度融合淺中深層特征,分別是:結(jié)合多層特征圖單層預(yù)測(cè)模型(ION、HyperNet)、分層預(yù)測(cè)模型(MSCNN、SSD、RFBNet、TridentNet)和結(jié)合多層特征圖多層預(yù)測(cè)模型(FPN、DSSD、STDN、DetNet、M2Det、FCOS、EfficientDet)。相關(guān)模型信息在表4中列出。

圖片

▲ 表4 融合特征圖的目標(biāo)檢測(cè)模型

2.2 結(jié)合上下文信息的目標(biāo)檢測(cè)模型

在物體遮擋、背景信息雜亂或圖像質(zhì)量不佳的情況下,根據(jù)圖像的上下文信息能更有效更精確地檢測(cè)?,F(xiàn)有的目標(biāo)檢測(cè)模型主要考慮將上下文信息分為全局上下文信息(DeepIDNet、ION、CPF)和局部上下文信息(MR?CNN、GBDNet、ACCNN、CoupleNet)。相關(guān)模型的信息在表5中列出。

圖片

▲ 表5 上下文模型和邊框優(yōu)化模型

2.3 優(yōu)化邊框定位的目標(biāo)檢測(cè)模型

當(dāng)前檢測(cè)模型在小目標(biāo)檢測(cè)表現(xiàn)不佳的主要原因是定位錯(cuò)誤偏多,包含定位偏差大和重復(fù)預(yù)測(cè),因此部分研究著眼于優(yōu)化邊框定位來(lái)提升檢測(cè)性能,代表性的模型有MRCNN、Cascade RCNN、Grid RCNN等。此外,一些算法使用后處理步驟來(lái)優(yōu)化預(yù)測(cè)框位置,如NMS、Soft?NMS、Softer?NMS等。

2.4 高效區(qū)域提案的目標(biāo)檢測(cè)模型

區(qū)域提案是圖像中可能包含物體的區(qū)域,它是兩階段檢測(cè)模型中性能保障的關(guān)鍵。早期的檢測(cè)模型DPM使用滑動(dòng)窗口方法,存在計(jì)算復(fù)雜度高和定位性能差的問(wèn)題。RCNN使用SS算法提取候選區(qū)域并利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,其檢測(cè)效率和性能上均有大幅提高。EdgeBox利用圖像中低維線索如顏色、紋理、邊緣、梯度等對(duì)其分類,表現(xiàn)出良好的檢測(cè)性能。Kuo等人在EdgeBox基礎(chǔ)上提出DeepBox檢測(cè)模型,運(yùn)行速度更快且提案窗口召回率更高。Ren等人提出使用RPN生成候選區(qū)域的Faster RCNN檢測(cè)模型,在特征圖上以每個(gè)像素點(diǎn)為中心生成三個(gè)尺度和三個(gè)長(zhǎng)寬比總共九個(gè)錨框。Ghodrati等人提出DeepProposal檢測(cè)模型,使用多個(gè)級(jí)聯(lián)的卷積特征來(lái)生成對(duì)象提案再構(gòu)建逆級(jí)聯(lián)選擇圖像中可能存在的對(duì)象位置。

2.5 處理類別不平衡的目標(biāo)檢測(cè)模型

類別不平衡的主要矛盾是負(fù)樣本數(shù)遠(yuǎn)多于正樣本數(shù),導(dǎo)致訓(xùn)練的深度模型效率低。傳統(tǒng)檢測(cè)算法常用Bootstrapping方法處理此問(wèn)題,之后RCNN模型使用困難樣本挖掘(Hard ExampleMining,HEM)方法來(lái)處理。Shrivastava等人在HEM基礎(chǔ)上提出在線困難樣本挖掘方法(OnlineHard Example Mining, OHEM),其根據(jù)區(qū)域提案損失有選擇性地反向傳播負(fù)樣本區(qū)域更新梯度。最近,Lin等人提出使用Focal Loss的單階段檢測(cè)模型RetinaNet,使模型更關(guān)注于那些少量的困難樣本。表6總結(jié)了類別不平衡處理模型和訓(xùn)練策略方法。

圖片

▲ 表6 類別不平衡處理模型和訓(xùn)練策略方法

2.6 訓(xùn)練策略

大多數(shù)目標(biāo)檢測(cè)模型采取小批量樣本進(jìn)行訓(xùn)練,然而小批量樣本訓(xùn)練存在梯度不穩(wěn)定、訓(xùn)練時(shí)間長(zhǎng)等問(wèn)題。研究者們提出一些高效的方法解決上述問(wèn)題,典型的方法有:MegNet,LargeDet,SNIP,SNIPER,DSOD, ScratchDet等。相關(guān)訓(xùn)練策略的信息在表6中列出。

2.7 基于弱監(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)方法

數(shù)據(jù)標(biāo)注的昂貴性和人工標(biāo)注的主觀性已成為一個(gè)棘手的問(wèn)題?;谌醣O(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)方法主要?jiǎng)澐譃槿悾夯诜指畹哪繕?biāo)檢測(cè)方法、基于多示例學(xué)習(xí)的目標(biāo)檢測(cè)方法和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方。這些模型的相關(guān)信息在表7中列出。

圖片

▲ 表7 基于弱監(jiān)督學(xué)習(xí)的通用目標(biāo)檢測(cè)方法

2.8 基于無(wú)監(jiān)督的目標(biāo)檢測(cè)方法

盡管基于弱監(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)方法僅需要圖像級(jí)別信息即可訓(xùn)練,表現(xiàn)出了良好的性能。然而,在現(xiàn)實(shí)應(yīng)用中圖像往往沒(méi)有標(biāo)注信息。目前,基于無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)方法大致可分為兩類:基于分割的目標(biāo)檢測(cè)方法和基于領(lǐng)域自適應(yīng)的目標(biāo)檢測(cè)方法。模型的相關(guān)信息在表8中列出。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法解析

    本節(jié)主要將近年來(lái)基于候選區(qū)域的目標(biāo)檢測(cè)算法分為五個(gè)部分進(jìn)行綜述,首先介紹了Faster R-CNN[14]框架的發(fā)展歷程,然后綜述了對(duì)Faster R-CNN算法的四個(gè)重要組成部分(特征提取網(wǎng)絡(luò)、ROI Pooling層、RPN
    發(fā)表于 01-09 10:52 ?1079次閱讀

    全網(wǎng)唯一一套labview深度學(xué)習(xí)教程:tensorflow+目標(biāo)檢測(cè):龍哥教你學(xué)視覺(jué)—LabVIEW深度學(xué)習(xí)教程

    到的, 深度學(xué)習(xí)可以搞定。特別是在圖像分類, 目標(biāo)檢測(cè)這些問(wèn)題上取得了顯著的提升。下圖是近幾年來(lái)深度學(xué)習(xí)
    發(fā)表于 08-10 10:38

    【HarmonyOS HiSpark AI Camera】基于深度學(xué)習(xí)目標(biāo)檢測(cè)系統(tǒng)設(shè)計(jì)

    、并行處理、從目標(biāo)檢測(cè)算法嵌入式平臺(tái)的實(shí)現(xiàn)的設(shè)計(jì)要求出發(fā),基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法特點(diǎn),采用軟
    發(fā)表于 09-25 10:11

    Labview深度學(xué)習(xí)tensorflow人工智能目標(biāo)檢測(cè)-教學(xué)貼【連載】

    本帖最后由 wcl86 于 2021-6-3 16:23 編輯 應(yīng)廣大學(xué)員要求,現(xiàn)開(kāi)通Labview深度學(xué)習(xí)tensorflow人工智能目標(biāo)檢測(cè)-教學(xué)貼,有需要的學(xué)員,可以收藏本
    發(fā)表于 05-28 11:58

    如何使用深度學(xué)習(xí)進(jìn)行視頻行人目標(biāo)檢測(cè)

    近年來(lái),隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛應(yīng)用,基于深度學(xué)習(xí)的視頻運(yùn)動(dòng)目標(biāo)檢測(cè)受到廣大學(xué)者的青睞
    發(fā)表于 11-19 16:01 ?22次下載
    如何使用<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>進(jìn)行視頻行人<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>

    基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法

    整體框架 目標(biāo)檢測(cè)算法主要包括:【兩階段】目標(biāo)檢測(cè)算法、【多階段】目標(biāo)檢測(cè)算法、【單階段】
    的頭像 發(fā)表于 04-30 10:22 ?1w次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)算法</b>

    基于深度學(xué)習(xí)的行為識(shí)別算法及其應(yīng)用

    基于深度學(xué)習(xí)的行為識(shí)別算法及其應(yīng)用
    發(fā)表于 06-16 14:56 ?20次下載

    基于深度學(xué)習(xí)目標(biāo)檢測(cè)研究綜述

    的研究背景、意義及難點(diǎn),接著對(duì)基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法的兩大類進(jìn)行綜述,即基于候選區(qū)域和基于回歸算法.對(duì)于第一類
    發(fā)表于 01-06 09:14 ?2094次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>研究綜述

    深度學(xué)習(xí)目標(biāo)檢測(cè)中的應(yīng)用

    R-CNN 算法在 2014 年提出,可以說(shuō)是歷史性的算法,將深度學(xué)習(xí)應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域,相較于
    的頭像 發(fā)表于 10-31 10:08 ?1632次閱讀

    基于MobileNet的多目標(biāo)跟蹤深度學(xué)習(xí)算法

    針對(duì)深度學(xué)習(xí)算法在多目標(biāo)跟蹤中的實(shí)時(shí)性問(wèn)題, 提出一種基于MobileNet的多目標(biāo)跟蹤算法.
    的頭像 發(fā)表于 11-09 10:23 ?1009次閱讀
    基于MobileNet的多<b class='flag-5'>目標(biāo)</b>跟蹤<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>算法</b>

    如何學(xué)習(xí)基于Tansformer的目標(biāo)檢測(cè)算法

    ,也是近年來(lái)理論研究的熱點(diǎn)。作為計(jì)算機(jī)視覺(jué)中的基礎(chǔ)算法,目標(biāo)檢測(cè)對(duì)后續(xù)的人臉識(shí)別、目標(biāo)跟蹤、實(shí)例分割等任務(wù)都起著至關(guān)重要的作用。 基于深度
    的頭像 發(fā)表于 06-25 10:37 ?619次閱讀
    如何<b class='flag-5'>學(xué)習(xí)</b>基于Tansformer的<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)算法</b>

    基于強(qiáng)化學(xué)習(xí)目標(biāo)檢測(cè)算法案例

    摘要:基于強(qiáng)化學(xué)習(xí)目標(biāo)檢測(cè)算法檢測(cè)過(guò)程中通常采用預(yù)定義搜索行為,其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一,導(dǎo)致目標(biāo)
    發(fā)表于 07-19 14:35 ?0次下載

    什么是深度學(xué)習(xí)算法?深度學(xué)習(xí)算法的應(yīng)用

    什么是深度學(xué)習(xí)算法?深度學(xué)習(xí)算法的應(yīng)用 深度
    的頭像 發(fā)表于 08-17 16:03 ?2012次閱讀

    深度學(xué)習(xí)檢測(cè)目標(biāo)常用方法

    深度學(xué)習(xí)的效果在某種意義上是靠大量數(shù)據(jù)喂出來(lái)的,小目標(biāo)檢測(cè)的性能同樣也可以通過(guò)增加訓(xùn)練集中小目標(biāo)樣本的種類和數(shù)量來(lái)提升。
    發(fā)表于 03-18 09:57 ?650次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>檢測(cè)</b>小<b class='flag-5'>目標(biāo)</b>常用方法

    基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)

    在計(jì)算機(jī)視覺(jué)領(lǐng)域,目標(biāo)檢測(cè)一直是研究的熱點(diǎn)和難點(diǎn)之一。特別是在小目標(biāo)檢測(cè)方面,由于小目標(biāo)在圖像中所占比例小、特征不明顯,使得
    的頭像 發(fā)表于 07-04 17:25 ?639次閱讀