0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DW-Siam:Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更寬更深的孿生網(wǎng)絡(luò)

jf_96884364 ? 來源:代碼的路 ? 作者:代碼的路 ? 2023-01-12 09:24 ? 次閱讀

原文鏈接

論文地址:https://arxiv.org/pdf/1901.01660.pdf

摘要

目前在孿生網(wǎng)絡(luò)追蹤器中使用的主干網(wǎng)絡(luò)相對較淺,例AlexNet。本文研究如何利用更深和更廣的卷積神經(jīng)網(wǎng)絡(luò)來增強跟蹤的魯棒性和準(zhǔn)確性。使用改進(jìn)后的網(wǎng)絡(luò)直接替換,例如ResNet和Inception,并沒有帶來改進(jìn)。主要原因是 1)神經(jīng)元感受野的大幅增加導(dǎo)致特征可辨性和定位精度降低; 2)卷積的網(wǎng)絡(luò) padding 在學(xué)習(xí)中引起位置偏差。

為了解決這些問題,我們提出了新的殘差模塊,以消除padding的負(fù)面影響,并進(jìn)一步設(shè)計使用這些模塊的新架構(gòu),具有受控的感受野大小和步長。設(shè)計的架構(gòu)應(yīng)用于SiamFC+和SiamRPN時保證了實時跟蹤速度。實驗表明,僅僅由于所提出的網(wǎng)絡(luò)架構(gòu),我們的 SiamFC+和 SiamRPN+分別在OTB-15,VOT-16和VOT-17數(shù)據(jù)集上,相對于原始版本獲得了高達(dá)9.8%/ 5.7%(AUC),23.3%/ 8.8%(EAO)和 24.4%/ 25.0%(EAO)的相對改進(jìn)。

1.介紹

1.1 相關(guān)研究

RPN詳細(xì)介紹:https://mp.weixin.qq.com/s/VXgbJPVoZKjcaZjuNwgh-A

SiamFC詳細(xì)介紹:https://mp.weixin.qq.com/s/kS9osb2JBXbgb_WGU_3mcQ

SiamRPN詳細(xì)介紹:https://mp.weixin.qq.com/s/pmnip3LQtQIIm_9Po2SndA

1.2 本文介紹

我們用更深更廣的網(wǎng)絡(luò)取代VGG,Inception和ResNet等網(wǎng)絡(luò)的淺層主干網(wǎng)。但這種簡單的替換并沒有帶來太大的改進(jìn),甚至可能在網(wǎng)絡(luò)深度或?qū)挾仍黾訒r導(dǎo)致性能大幅下降,如圖1所示。

圖1:成功圖的AUC與網(wǎng)絡(luò)深度和寬度。寬度width是指模塊中分支的數(shù)量。通過對 OTB-13 的評估,使用具有不同主干網(wǎng)絡(luò)的 SiamFC獲得了這個結(jié)果。

分析了Siamese網(wǎng)絡(luò)架構(gòu),確定神經(jīng)元的感受野大小、卷積步長、padding是影響跟蹤精度的三個重要因素。感受野確定用于計算特征的圖像區(qū)域。較大的感受野提供更大的圖像上下文,而較小的感受野可能無法捕捉目標(biāo)對象的結(jié)構(gòu)。stride影響定位精度,同時控制輸出特征圖的大小。padding在模型訓(xùn)練中引起潛在的位置偏差。

在本文中,我們通過設(shè)計新的殘差模塊和網(wǎng)絡(luò)架構(gòu)來解決這些問題。首先,我們提出了一組基于“瓶頸(bottleneck)”的殘差塊的內(nèi)部裁剪(cropping-inside residual,CIR)單元。CIR單元在塊內(nèi)部裁剪出受填充 padding 影響的特征(即接收填充信號的特征),從而防止卷積濾波器學(xué)習(xí)位置偏差。其次,我們通過堆疊 CIR單元設(shè)計了兩種網(wǎng)絡(luò)架構(gòu),即更深和更寬的網(wǎng)絡(luò)。為了提高定位精度,我們設(shè)計了特定的步幅和感受野。

2. 性能退化分析

性能下降可以直接歸因于網(wǎng)絡(luò)結(jié)構(gòu),是圖1實驗中唯一改變的設(shè)置。因此,我們首先確定這些網(wǎng)絡(luò)架構(gòu)之間的結(jié)構(gòu)差異。如表格2所示,除了深度和寬度之外,網(wǎng)絡(luò)中還有其他幾個不同的內(nèi)部網(wǎng)絡(luò)因素,包括步幅(STR),填充(PAD),最后一層神經(jīng)元的感受野(RF)和輸出特征尺寸(OFS)。

我們修改了 AlexNet,VGG,Inception 和 ResNet 的結(jié)構(gòu),并揭示了內(nèi)部因素的影響。如表格1所示,Siamese更喜歡中級特征(步幅4或8),這些特征在物體定位方面比高級特征更精確(步幅≥16)。對于感受野(RF),最佳感受野大小覆蓋輸入樣本圖像z的約60%~80%。對于輸出特征尺寸,觀察到小尺寸(OFS≤3)不利于跟蹤精度。

表1:AlexNet,VGG 10,Inception -22和ResNet-33上的網(wǎng)絡(luò)內(nèi)部因素分析。數(shù)字①- ⑩代表不同的版本,其中修改卷積內(nèi)核大小,下采樣層和填充以顯示趨勢。由于空間有限,補充材料中給出了有關(guān)修改的詳細(xì)信息。

1.為了更好地顯示趨勢,我們將±0表示為網(wǎng)絡(luò)的原始RF大小。+和-表示相對于原來的增大和減小尺寸。Max(127)表示最大有效RF,其與示例圖像的大小相同,即127x127像素。

2.對于Inception網(wǎng)絡(luò),其RF大小位于一個范圍內(nèi)。這里我們只列出理論上的最大尺寸,與ResNet對齊進(jìn)行比較。

表2:不同網(wǎng)絡(luò)的內(nèi)部因素:最后一層網(wǎng)絡(luò)中的神經(jīng)元的感受野(RF),步幅(STR),輸出特征尺寸(OFS),填充(PAD)和寬度(W)。由于Inception在一個塊中包含多個分支,因此其 RF位于一個范圍內(nèi)。

Siamese 框架將中心裁剪的圖像對作為訓(xùn)練數(shù)據(jù)傳入,其中目標(biāo)對象始終存在于圖像中心。如果輸出單元的感受野延伸超出圖像邊界(受padding影響),網(wǎng)絡(luò)模型學(xué)習(xí)位置產(chǎn)生偏差。圖2給出了測試階段中這種學(xué)習(xí)偏差的可視化示例。它顯示當(dāng)目標(biāo)對象移動到圖像邊界時,其峰值不能精確指示目標(biāo)的位置。這是由跟蹤器漂移引起的常見情況。

圖2:模型中學(xué)習(xí)的位置偏差的可視化

3. 方針

1.將步幅設(shè)定為4或8。

2.最佳感受野大小覆蓋輸入樣本圖像 z的約 60%~80%

3.在設(shè)計網(wǎng)絡(luò)架構(gòu)時,應(yīng)將stride,感受野和輸出特征尺寸視為一個整體。這三個因素并不是彼此獨立的。如果一個改變,其他人將相應(yīng)改變。將它們結(jié)合在一起可以幫助設(shè)計的網(wǎng)絡(luò)在Siamese框架中提取更多的有判別力的特征。

4.對于全卷積的Siamese網(wǎng)絡(luò),刪除padding操作重要。padding引起的位置偏差會降低孿生跟蹤器的準(zhǔn)確性和魯棒性。

4. 內(nèi)部裁剪殘差(CIR)單元

殘差單元(residual unit)是網(wǎng)絡(luò)架構(gòu)設(shè)計中的關(guān)鍵模塊。它由3個堆疊的卷積層和繞過它們的快捷連接(shortcut connection)組成,如圖3(a)所示。這三層是1×1,3×3和1×1個卷積,其中1×1層負(fù)責(zé)減少或恢復(fù)尺寸,使3×3層成為具有較小輸入和輸出尺寸的瓶頸(bottleneck)。此瓶頸卷積包括大小為1的zero-padding,以確保在添加之前兼容的輸出大小。

圖3:擬議的內(nèi)部殘余單位。(a)和(b)是殘差單元和下采樣單元(down sampling unit),而(a‘)和(b’)是我們提出的單位。(c)和(d)是建議的寬殘差單元?;疑^表示便于信息傳播的shortcut paths,而藍(lán)色方框則突出顯示與原始單位的差異。字母'p'和's'分別表示padding大小和步長。

CIR單元。如第3節(jié)所述,padding可能會在Siamese框架中引入位置偏差。為此我們增加殘差單位進(jìn)行裁剪操作,如圖 3(a’)所示。裁剪操作會刪除計算受zero-padding信號影響的特征,消除了殘差單元中的padding影響特征。

下采樣CIR(CIR-D)單元。它用于減少特征圖的空間大小,同時使特征通道的數(shù)量加倍。下采樣單元包含padding操作,如圖 3(b)所示。因此,我們還修改其結(jié)構(gòu)以消除由padding引起的負(fù)面影響。如圖 3(b’)所示,我們在瓶頸層和shortcut connection中將卷積步幅從2改為1。插入裁剪以移除受padding影響的特征。最后,使用最大池化層來執(zhí)行特征圖的空間下采樣。這些修改的關(guān)鍵思想是確保僅刪除受填充影響的特征,同時保持內(nèi)部塊結(jié)構(gòu)不變。

CIR-Inception和CIR-NeXt單元。根據(jù)Inception和ResNeXt,通過多個特征變換擴展CIR單元,生成CIR-Inception和CIR-NeXt 模塊,如圖 3(c-d)所示。具體來說,在CIR-Inception結(jié)構(gòu)中,我們在shortcut connection中插入一個1x1卷積,并合并兩個分支的特征。在CIR-ResNeXt中,我們將瓶頸層拆分為32個轉(zhuǎn)換分支,并通過添加進(jìn)行聚合。此外,對于CIR-Inception 和CIR-NeXt的下采樣單元,修改與CIR-D(圖 3(b’))中的修改相同,其中卷積步幅減小并且增加了最大池化層。

5. 網(wǎng)絡(luò)架構(gòu) Network Architectures

通過堆疊上述CIR單元,我們構(gòu)建了更深更寬的網(wǎng)絡(luò)。首先確定stride,步幅8用于構(gòu)建3級網(wǎng)絡(luò),而步幅4用于構(gòu)建2級網(wǎng)絡(luò)。然后,我們堆疊CIR單位。我們控制每個階段的unit數(shù)量和下采樣unit的位置。 目標(biāo)是確保最后一層神經(jīng)元的感受野大小位于有效范圍內(nèi) ,即樣本圖像大小的 60%-80%。另外,當(dāng)網(wǎng)絡(luò)深度增加時,感受野可能超過該范圍。因此,我們將步幅減半,以控制感受野。

更深的網(wǎng)絡(luò) 。我們使用CIR和CIR-D單元構(gòu)建更深的網(wǎng)絡(luò)。這些結(jié)構(gòu)類似于ResNet,但具有不同的stride,感受野和結(jié)構(gòu)單元(building blocks)。

CIResNet-22有3個部分(stride=8),22個卷積層。除了第一個7×7卷積,其他都是CIR單位。在7×7卷積之后進(jìn)行裁剪操作(大小為2)以移除受padding影響的特征。前兩個階段的特征下采樣是通過原來ResNet的卷積和步幅2的最大池化來執(zhí)行的。在第三階段,通過所提出的CIR-D單元執(zhí)行下采樣,該CIR-D單元位于該階段的第一個塊(共四個)。當(dāng)feature map大小被下采樣時,卷積核的數(shù)量加倍以增加特征可辨別性。輸出feature map大小是5×5,每個feature感受野的相應(yīng)大小93×93。

構(gòu)建CIResNet-43時進(jìn)一步將網(wǎng)絡(luò)深度增加到43層,設(shè)計為2個階段,在 CIResNet-43的第二階段,有14個塊,其中第四個塊具有用于特征下采樣的 CIR-D 單元。

更寬的網(wǎng)絡(luò) 。我們分別使用CIR-Inception和CIR-NeXt單元構(gòu)建兩種類型的寬網(wǎng)絡(luò)體系結(jié)構(gòu)。我們提供一個22層結(jié)構(gòu)作為示例。正如表3所示,CIResInception-22和CIResNeXt-22具有與CIResNet-22類似的結(jié)構(gòu)。但是通過多分支構(gòu)建塊,網(wǎng)絡(luò)寬度分別增加了2倍和32倍。而且,由于多分支級聯(lián),在CIResInception-22中感受野大小變得多樣化(即13~93)。

表3:用于連體跟蹤器的設(shè)計骨干網(wǎng)絡(luò)的架構(gòu)。CIResNet-43中CIR-D位于'conv3'階段的第四個塊中,其他網(wǎng)絡(luò)用于第一個塊。

6. 實驗

我們首先將我們更深更寬的網(wǎng)絡(luò)與SiamFC和SiamRPN中的主干AlexNet進(jìn)行比較。正如表4中所示,在OTB-13,OTB-15和VOT-17數(shù)據(jù)集上,我們提出的網(wǎng)絡(luò)優(yōu)于基線AlexNet。特別是,配備CIResIncep-22網(wǎng)絡(luò)的 SiamFC 分別在OTB-2013和VOT-1上獲得了比原始AlexNet高9.5%(AUC)和14.3%(EAO)的相對改進(jìn)。同時,配備CIResNet-22的SiamRPN實現(xiàn)了4.4%和23.3%的相對改善。這驗證了我們設(shè)計的體系結(jié)構(gòu)解決了圖1中所示的性能下降問題。此外,它還顯示了我們提出的CIR單元對于連體網(wǎng)絡(luò)的有效性。

學(xué)習(xí)更多編程知識,請關(guān)注我的公眾號:

[代碼的路]

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4722

    瀏覽量

    100308
  • 圖像處理
    +關(guān)注

    關(guān)注

    27

    文章

    1272

    瀏覽量

    56500
  • CIR
    CIR
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    7002
收藏 人收藏

    評論

    相關(guān)推薦

    恩智浦Real-Time Edge軟件的優(yōu)勢特性

    今天的工業(yè)邊緣應(yīng)用在受益于復(fù)雜的操作系統(tǒng)的同時,也越來越需要實時處理響應(yīng),這導(dǎo)致了系統(tǒng)設(shè)計復(fù)雜性的增加。
    的頭像 發(fā)表于 10-12 11:38 ?315次閱讀

    恩智浦?jǐn)y手RTI推動SDV應(yīng)用的實現(xiàn)

    恩智浦?jǐn)y手Real-Time Innovations (RTI) 為軟件定義汽車 (SDV) 帶來了一套強大的集成解決方案。他們展示了如何推動未來的汽車連接,為SDV和智能交通系統(tǒng)鋪平了道路。
    的頭像 發(fā)表于 08-27 09:20 ?1165次閱讀

    RTOS與Linux有什么區(qū)別

    RTOS(Real-Time Operating System,實時操作系統(tǒng))與Linux是兩種在不同應(yīng)用場景下發(fā)揮重要作用的操作系統(tǒng),它們在設(shè)計理念、功能特性、應(yīng)用場景以及性能表現(xiàn)等方面存在顯著差異。以下是對RTOS與Linux區(qū)別的詳細(xì)分析。
    的頭像 發(fā)表于 08-20 16:05 ?2214次閱讀

    DW01-A(鋰電保護(hù)IC)

    DW01-A(鋰電保護(hù)IC)
    發(fā)表于 05-22 22:23 ?8次下載

    Palo Alto Networks與IBM攜手,深化網(wǎng)絡(luò)安全合作

    網(wǎng)絡(luò)安全領(lǐng)域的兩大巨頭Palo Alto Networks和IBM近日宣布建立全面合作伙伴關(guān)系,共同推動網(wǎng)絡(luò)安全領(lǐng)域的創(chuàng)新發(fā)展。根據(jù)協(xié)議,Palo Alto Networks將收購IB
    的頭像 發(fā)表于 05-22 09:40 ?514次閱讀

    protues出現(xiàn)Real Time Simulation failed to start.

    加器件之前正常,但是加了器件之后就報這個錯誤:Real Time Simulation failed to start. 加的器件時候兩幅圖里的(一個MAX232,一個是加熱或加濕的模擬裝置,通過
    發(fā)表于 04-29 21:52

    PXIe-8108網(wǎng)口連接至電腦后,NI-max搜索不到遠(yuǎn)程設(shè)備

    已經(jīng)確定現(xiàn)在有一個PXIe-8108的控制器,是real-time驅(qū)動的,按照之前的說明設(shè)置完成電腦的IP協(xié)議之后,還是在NI-max里面搜索不到該遠(yuǎn)程設(shè)備,請問大家知道如何解決嗎?
    發(fā)表于 04-15 13:00

    網(wǎng)絡(luò)攻防模擬與城市安全演練 | 數(shù)字孿生

    在數(shù)字化浪潮的推動下,網(wǎng)絡(luò)攻防模擬和城市安全演練成為維護(hù)社會穩(wěn)定的不可或缺的環(huán)節(jié)?;跀?shù)字孿生技術(shù)我們能夠在虛擬環(huán)境中進(jìn)行高度真實的網(wǎng)絡(luò)攻防模擬,為安全專業(yè)人員提供實戰(zhàn)經(jīng)驗,從而提升應(yīng)對網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-04 10:48 ?600次閱讀
    <b class='flag-5'>網(wǎng)絡(luò)</b>攻防模擬與城市安全演練 | 數(shù)字<b class='flag-5'>孿生</b>

    恩智浦Real-time Edge v2.7正式發(fā)布!

    Real-time Edge軟件是恩智浦提供的針對工業(yè)和物聯(lián)網(wǎng)應(yīng)用的一套軟件集,面對工業(yè)和物聯(lián)網(wǎng)垂直領(lǐng)域的具體需求,提供了針對性的實時系統(tǒng), 工業(yè)實時網(wǎng)絡(luò)和豐富的工業(yè)協(xié)議支持。
    的頭像 發(fā)表于 01-26 09:19 ?538次閱讀
    恩智浦<b class='flag-5'>Real-time</b> Edge v2.7正式發(fā)布!

    淺談基于數(shù)字孿生的配電室關(guān)鍵技術(shù)研究

    的各種數(shù)據(jù)是實現(xiàn)數(shù)字孿生的前提和依據(jù),需要在機房內(nèi)設(shè)置相應(yīng)的設(shè)備,使機房內(nèi)的主要物性參數(shù)盡可能完整,并保證獲取的及時性以及具大的存儲空間,以便存儲機房整個生命周期內(nèi)的數(shù)據(jù)。采集裝置、網(wǎng)絡(luò)通道要穩(wěn)定
    發(fā)表于 01-09 15:49

    干貨分享 | 面向工業(yè)和物聯(lián)網(wǎng)的Real-time Edge 軟件技術(shù)解析

    分享一款基于恩智浦高性能處理器平臺的實時軟件開發(fā)套件—— Real-time Edge軟件 ,這是恩智浦針對工業(yè)和物聯(lián)網(wǎng)領(lǐng)域而打造的一套軟件集,包括了實時系統(tǒng)、異構(gòu)多核框架、異構(gòu)多SoC框架、工業(yè)網(wǎng)絡(luò)和工業(yè)協(xié)議。 Real-time
    的頭像 發(fā)表于 12-15 16:25 ?552次閱讀

    信觀察 | 網(wǎng)絡(luò)數(shù)字孿生如何花式“整活兒”?

    孿生),正是“高度自智”的一大關(guān)鍵技術(shù)點。 觀看視頻,進(jìn)入數(shù)字孿生的奇妙世界 作為通信行業(yè)的領(lǐng)導(dǎo)者,愛立信始終在思考: 如何利用數(shù)字孿生技術(shù)更好地連接虛擬和現(xiàn)實,為面向未來的自動化網(wǎng)絡(luò)
    的頭像 發(fā)表于 12-04 16:05 ?716次閱讀
    信觀察 | <b class='flag-5'>網(wǎng)絡(luò)</b>數(shù)字<b class='flag-5'>孿生</b>如何花式“整活兒”?

    嵌入式軟件實時性分析及增強概述

    實時性(RealTime/Real-Time)是嵌入式軟件領(lǐng)域一個關(guān)鍵性能指標(biāo),也是計算機系統(tǒng)領(lǐng)域一個老生常談的話題。
    的頭像 發(fā)表于 11-23 18:27 ?1712次閱讀
    嵌入式軟件實時性分析及增強概述

    Azure Kinect Body Tracking For LabVIEW更新預(yù)覽

    Azure Kinect Body Tracking ,采用AI的方式使用深度數(shù)據(jù)以每秒30幀的速度實時跟蹤人體的32個特征點(英偉達(dá)顯卡RTX1050以上,跟蹤5個人),功能強!
    的頭像 發(fā)表于 11-22 09:47 ?644次閱讀
    Azure Kinect Body <b class='flag-5'>Tracking</b> For LabVIEW更新預(yù)覽

    M3T-MR30/4 V.4.01 用戶手冊(Real-time OS for M16C Series and R8C Family)

    M3T-MR30/4 V.4.01 用戶手冊 (Real-time OS for M16C Series and R8C Family)
    發(fā)表于 11-09 18:30 ?0次下載
    M3T-MR30/4 V.4.01 用戶手冊(<b class='flag-5'>Real-time</b> OS for M16C Series and R8C Family)