0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

港大&騰訊提出DiffusionDet:第一個(gè)用于目標(biāo)檢測的擴(kuò)散模型

CVer ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-22 15:35 ? 次閱讀

擴(kuò)散模型不但在生成任務(wù)上非常成功,這次在目標(biāo)檢測任務(wù)上,更是超越了成熟的目標(biāo)檢測器。

擴(kuò)散模型( Diffusion Model )作為深度生成模型中的新 SOTA,已然在圖像生成任務(wù)中超越了原 SOTA:例如 GAN,并且在諸多應(yīng)用領(lǐng)域都有出色的表現(xiàn),如計(jì)算機(jī)視覺,NLP、分子圖建模、時(shí)間序列建模等。

近日,來自香港大學(xué)的羅平團(tuán)隊(duì)、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDet,將擴(kuò)散模型應(yīng)用于目標(biāo)檢測。據(jù)了解,還沒有研究可以成功地將擴(kuò)散模型應(yīng)用于目標(biāo)檢測,可以說這是第一個(gè)采用擴(kuò)散模型進(jìn)行目標(biāo)檢測的工作。

DiffusionDet 的性能如何呢?在 MS-COCO 數(shù)據(jù)集上進(jìn)行評估,使用 ResNet-50 作為骨干,在單一采樣 step 下,DiffusionDet 實(shí)現(xiàn) 45.5 AP,顯著優(yōu)于 Faster R-CNN (40.2 AP), DETR (42.0 AP),并與 Sparse R-CNN (45.0 AP)相當(dāng)。通過增加采樣 step 的數(shù)量,進(jìn)一步將 DiffusionDet 性能提高到 46.2 AP。此外,在 LVIS 數(shù)據(jù)集上,DiffusionDet 也表現(xiàn)良好,使用 swin - base 作為骨干實(shí)現(xiàn)了 42.1 AP。

26646820-69b7-11ed-8abf-dac502259ad0.png

DiffusionDet: Diffusion Model for Object Detection

論文地址:https://arxiv.org/abs/2211.09788

項(xiàng)目地址(剛剛開源):

https://github.com/ShoufaChen/DiffusionDet

該研究發(fā)現(xiàn)在傳統(tǒng)的目標(biāo)檢測里,存在一個(gè)缺陷,即它們依賴于一組固定的可學(xué)習(xí)查詢。然后研究者就在思考:是否存在一種簡單的方法甚至不需要可學(xué)習(xí)查詢就能進(jìn)行目標(biāo)檢測?

為了回答這一問題,本文提出了 DiffusionDet,該框架可以直接從一組隨機(jī)框中檢測目標(biāo),它將目標(biāo)檢測制定為從噪聲框到目標(biāo)框的去噪擴(kuò)散過程。這種從 noise-to-box 的方法不需要啟發(fā)式的目標(biāo)先驗(yàn),也不需要可學(xué)習(xí)查詢,這進(jìn)一步簡化了目標(biāo)候選,并推動(dòng)了檢測 pipeline 的發(fā)展。

如下圖 1 所示,該研究認(rèn)為 noise-to-box 范式類似于去噪擴(kuò)散模型中的 noise-to-image 過程,后者是一類基于似然的模型,通過學(xué)習(xí)到的去噪模型逐步去除圖像中的噪聲來生成圖像。

267b6eee-69b7-11ed-8abf-dac502259ad0.png

DiffusionDet 通過擴(kuò)散模型解決目標(biāo)檢測任務(wù),即將檢測看作圖像中 bounding box 位置 (中心坐標(biāo)) 和大小 (寬度和高度) 空間上的生成任務(wù)。在訓(xùn)練階段,將方差表(schedule)控制的高斯噪聲添加到 ground truth box,得到 noisy box。然后使用這些 noisy box 從主干編碼器(如 ResNet, Swin Transformer)的輸出特征圖中裁剪感興趣區(qū)域(RoI)。最后,將這些 RoI 特征發(fā)送到檢測解碼器,該解碼器被訓(xùn)練用來預(yù)測沒有噪聲的 ground truth box。在推理階段,DiffusionDet 通過反轉(zhuǎn)學(xué)習(xí)到的擴(kuò)散過程生成 bounding box,它將噪聲先驗(yàn)分布調(diào)整到 bounding box 上的學(xué)習(xí)分布。

方法概述

由于擴(kuò)散模型迭代地生成數(shù)據(jù)樣本,因此在推理階段需要多次運(yùn)行模型 f_θ。但是,在每一個(gè)迭代步驟中,直接在原始圖像上應(yīng)用 f_θ在計(jì)算上很困難。因此,研究者提出將整個(gè)模型分為兩部分,即圖像編碼器和檢測解碼器,前者只運(yùn)行一次以從原始輸入圖像 x 中提取深度特征表示,后者以該深度特征為條件,從噪聲框 z_t 中逐步細(xì)化框預(yù)測。

圖像編碼器將原始圖像作為輸入,并為檢測解碼器提取其高級(jí)特征。研究者使用 ResNet 等卷積神經(jīng)網(wǎng)絡(luò)和 Swin 等基于 Transformer 的模型來實(shí)現(xiàn) DiffusionDet。與此同時(shí),特征金字塔網(wǎng)絡(luò)用于為 ResNet 和 Swin 主干網(wǎng)絡(luò)生成多尺度特征圖。

檢測解碼器借鑒了 Sparse R-CNN,將一組 proposal 框作為輸入,從圖像編碼器生成的特征圖中裁剪 RoI 特征,并將它們發(fā)送到檢測頭以獲得框回歸和分類結(jié)果。此外,該檢測解碼器由 6 個(gè)級(jí)聯(lián)階段組成。

訓(xùn)練

在訓(xùn)練過程中,研究者首先構(gòu)建了從真值框到噪聲框的擴(kuò)散過程,然后訓(xùn)練模型來反轉(zhuǎn)這個(gè)過程。如下算法 1 提供了 DiffusionDet 訓(xùn)練過程的偽代碼。

273d5d42-69b7-11ed-8abf-dac502259ad0.png

真值框填充。對于現(xiàn)代目標(biāo)檢測基準(zhǔn),感興趣實(shí)例的數(shù)量通常因圖像而異。因此,研究者首先將一些額外的框填充到原始真值框,這樣所有的框被總計(jì)為一個(gè)固定的數(shù)字 N_train。他們探索了幾種填充策略,例如重復(fù)現(xiàn)有真值框、連接隨機(jī)框或圖像大小的框。

框損壞。研究者將高斯噪聲添加到填充的真值框。噪聲尺度由如下公式(1)中的 α_t 控制,它在不同的時(shí)間步 t 中采用單調(diào)遞減的余弦調(diào)度。

274eb312-69b7-11ed-8abf-dac502259ad0.png

訓(xùn)練損失。檢測解碼器將 N_train 損壞框作為輸入,預(yù)測 N_train 對類別分類和框坐標(biāo)的預(yù)測。同時(shí)在 N_train 預(yù)測集上應(yīng)用集預(yù)測損失(set prediction loss)。

推理

DiffusionDet 的推理過程是從噪聲到目標(biāo)框的去噪采樣過程。從在高斯分布中采樣的框開始,該模型逐步細(xì)化其預(yù)測,具體如下算法 2 所示。

275bd844-69b7-11ed-8abf-dac502259ad0.png

采樣步驟。在每個(gè)采樣步驟中,將上一個(gè)采樣步驟中的隨機(jī)框或估計(jì)框發(fā)送到檢測解碼器,以預(yù)測類別分類和框坐標(biāo)。在獲得當(dāng)前步驟的框后,采用 DDIM 來估計(jì)下一步驟的框。

框更新。為了使推理更好地與訓(xùn)練保持一致,研究者提出了框更新策略,通過用隨機(jī)框替換非預(yù)期的框以使它們恢復(fù)。具體來說,他們首先過濾掉分?jǐn)?shù)低于特定閾值的非預(yù)期的框,然后將剩余的框與從高斯分布中采樣的新隨機(jī)框連接起來。

一次解決(Once-for-all)。得益于隨機(jī)框設(shè)計(jì),研究者可以使用任意數(shù)量的隨機(jī)框和采樣步驟來評估 DiffusionDet。作為比較,以往的方法在訓(xùn)練和評估期間依賴于相同數(shù)量的處理框,并且檢測解碼器在前向傳遞中僅使用一次。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,研究者首先展示了 DiffusionDet 的 Once-for-all 屬性,然后將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上成熟的檢測器進(jìn)行比較。

DiffusionDet 的主要特性在于對所有推理實(shí)例進(jìn)行一次訓(xùn)練。一旦模型經(jīng)過訓(xùn)練,它就可以用于更改推理中框的數(shù)量和樣本步驟數(shù),如下圖 4 所示。DiffusionDet 可以通過使用更多框或 / 和更多細(xì)化步驟來實(shí)現(xiàn)更高的準(zhǔn)確度,但代價(jià)是延遲率更高。因此,研究者將單個(gè) DiffusionDet 部署到多個(gè)場景中,并在不重新訓(xùn)練網(wǎng)絡(luò)的情況下獲得所需的速度 - 準(zhǔn)確率權(quán)衡。

276e7d64-69b7-11ed-8abf-dac502259ad0.png

研究者將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上的檢測器進(jìn)行了比較,具體如下表 1 所示。他們首先將 DiffusionDet 的目標(biāo)檢測性能與以往在 MS-COCO 上的檢測器進(jìn)行了比較。結(jié)果顯示,沒有細(xì)化步驟的 DiffusionDet 使用 ResNet-50 主干網(wǎng)絡(luò)實(shí)現(xiàn)了 45.5 AP,以較大的優(yōu)勢超越了以往成熟的方法,如 Faster R-CNN、RetinaNet、DETR 和 Sparse R-CNN。并且當(dāng)主干網(wǎng)絡(luò)的尺寸擴(kuò)大時(shí),DiffusionDet 顯示出穩(wěn)定的提升。

279bbc34-69b7-11ed-8abf-dac502259ad0.png

下表 2 中展示了在更具挑戰(zhàn)性的 LVIS 數(shù)據(jù)集上的結(jié)果,可以看到,DiffusionDet 使用更多的細(xì)化步驟可以獲得顯著的增益。

27ba672e-69b7-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:港大&騰訊提出DiffusionDet:第一個(gè)用于目標(biāo)檢測的擴(kuò)散模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    北美運(yùn)營商AT&T認(rèn)證的費(fèi)用受哪些因素影響

    認(rèn)證標(biāo)準(zhǔn)和流程通常比較嚴(yán)格和全面。北美運(yùn)營商AT&T認(rèn)證的費(fèi)用受多種因素影響,以下是英利檢測收集的些相關(guān)資料分享:產(chǎn)品類型與規(guī)格:不同類型的產(chǎn)品(如智能手機(jī)、平板電腦、物聯(lián)網(wǎng)設(shè)備等)可
    的頭像 發(fā)表于 10-16 17:10 ?91次閱讀
    北美運(yùn)營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證的費(fèi)用受哪些因素影響

    onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp;amp; 行業(yè)應(yīng)用

    系列MOSFET介紹。4.onsemiLV/MVMOSFET市場&amp;應(yīng)用。技術(shù)亮點(diǎn)onsemi最新代T10系列MOSFET優(yōu)勢&amp;市場前景。學(xué)習(xí)收獲期望了解onsemiSi
    的頭像 發(fā)表于 10-13 08:06 ?125次閱讀
    onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-16 11:24 ?0次下載

    北美運(yùn)營商AT&amp;amp;amp;T認(rèn)證入庫產(chǎn)品范圍名單相關(guān)

    ,就讓英利檢測帶大家進(jìn)步了解。首先,AT&amp;T的認(rèn)證體系嚴(yán)謹(jǐn)而全面,它不僅僅是對產(chǎn)品性能的簡單測試,更是對設(shè)備性能、網(wǎng)絡(luò)安全、用戶體驗(yàn)等多方面的綜合考量。這體系分為三
    的頭像 發(fā)表于 06-28 16:58 ?328次閱讀
    北美運(yùn)營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證入庫產(chǎn)品范圍名單相關(guān)

    解讀北美運(yùn)營商,AT&amp;amp;amp;T的認(rèn)證分類與認(rèn)證內(nèi)容分享

    在數(shù)字化日益深入的今天,通信技術(shù)的穩(wěn)定與安全對于個(gè)人、企業(yè)乃至整個(gè)國家都至關(guān)重要。作為北美通信領(lǐng)域的領(lǐng)軍者,AT&amp;T直致力于為用戶提供高效、可靠的通信服務(wù)。而在這背后,AT&amp;T
    的頭像 發(fā)表于 06-05 17:27 ?413次閱讀
    解讀北美運(yùn)營商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的認(rèn)證分類與認(rèn)證內(nèi)容分享

    在TSMaster中加載基于DotNet平臺(tái)的Seed&amp;amp;amp;Key

    在UDS診斷過程中,會(huì)涉及到安全訪問的問題,也就是所謂的Seed&amp;Key。TSMaster診斷模塊支持通過.dll文件載入Seed&amp;Key算法用于安全訪問解鎖。在最近發(fā)布
    的頭像 發(fā)表于 04-02 08:20 ?450次閱讀
    在TSMaster中加載基于DotNet平臺(tái)的Seed&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;Key

    Open RAN的未來及其對AT&amp;amp;T的意義

    3月14日消息,在“Connected America 2024”會(huì)議上,AT&amp;T高級(jí)副總裁兼網(wǎng)絡(luò)首席技術(shù)官Yigal Elbaz討論了Open RAN 的未來及其對AT&amp;T的意義。
    的頭像 發(fā)表于 03-14 14:40 ?597次閱讀

    百度開源DETRs在實(shí)時(shí)目標(biāo)檢測中勝過YOLOs

    這篇論文介紹了種名為RT-DETR的實(shí)時(shí)檢測Transformer,是第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測器。
    的頭像 發(fā)表于 03-06 09:24 ?1248次閱讀
    百度開源DETRs在實(shí)時(shí)<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>中勝過YOLOs

    Harvard FairSeg:第一個(gè)用于醫(yī)學(xué)分割的公平性數(shù)據(jù)集

    為了解決這些挑戰(zhàn),我們提出第一個(gè)大規(guī)模醫(yī)學(xué)分割領(lǐng)域的公平性數(shù)據(jù)集, Harvard-FairSeg。該數(shù)據(jù)集旨在用于研究公平性的cup-disc segmentation,從SLO眼底圖像中診斷青光眼,如圖1所示。
    的頭像 發(fā)表于 01-25 16:52 ?462次閱讀
    Harvard FairSeg:<b class='flag-5'>第一個(gè)</b><b class='flag-5'>用于</b>醫(yī)學(xué)分割的公平性數(shù)據(jù)集

    基于DiAD擴(kuò)散模型的多類異常檢測工作

    現(xiàn)有的基于計(jì)算機(jī)視覺的工業(yè)異常檢測技術(shù)包括基于特征的、基于重構(gòu)的和基于合成的技術(shù)。最近,擴(kuò)散模型因其強(qiáng)大的生成能力而聞名,因此本文作者希望通過擴(kuò)散
    的頭像 發(fā)表于 01-08 14:55 ?1080次閱讀
    基于DiAD<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的多類異常<b class='flag-5'>檢測</b>工作

    開關(guān)模式下的電源電流如何檢測?這12個(gè)電路&amp;amp;10個(gè)知識(shí)點(diǎn)講明白了

    開關(guān)模式下的電源電流如何檢測?這12個(gè)電路&amp;10個(gè)知識(shí)點(diǎn)講明白了
    的頭像 發(fā)表于 12-06 16:04 ?711次閱讀
    開關(guān)模式下的電源電流如何<b class='flag-5'>檢測</b>?這12<b class='flag-5'>個(gè)</b>電路&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;10<b class='flag-5'>個(gè)</b>知識(shí)點(diǎn)講明白了

    IGBT的物理結(jié)構(gòu)模型—BJT&amp;amp;MOS模型(1)

    在前面關(guān)于PIN&amp;MOS模型分析中,特別強(qiáng)調(diào)了這個(gè)模型所存在的個(gè)短板,即所有電流都通過MOS溝道,實(shí)際上只有電子電流通過MOS溝道
    的頭像 發(fā)表于 12-01 10:17 ?1130次閱讀
    IGBT的物理結(jié)構(gòu)<b class='flag-5'>模型</b>—BJT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;MOS<b class='flag-5'>模型</b>(1)

    Linux程序之可變參數(shù)&amp;amp;&amp;amp;選項(xiàng)那些事

    在程序的代碼實(shí)現(xiàn)中,按照 UNIX 的代碼慣例,上來直接跳過第一個(gè),然后判斷指針指向的字符串第一個(gè)字符是不是-,如果是的,那么進(jìn)入個(gè)switch判斷,用case列出多種支持的情況下,
    的頭像 發(fā)表于 11-25 09:56 ?379次閱讀
    Linux程序之可變參數(shù)&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;選項(xiàng)那些事

    北大&amp;amp;華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)
    的頭像 發(fā)表于 11-08 16:20 ?685次閱讀
    北大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;華為<b class='flag-5'>提出</b>:多模態(tài)基礎(chǔ)大<b class='flag-5'>模型</b>的高效微調(diào)

    第一個(gè)基于DETR的高質(zhì)量通用目標(biāo)檢測方法

    現(xiàn)有的DETR系列模型在非COCO數(shù)據(jù)集上表現(xiàn)較差,且預(yù)測框不夠準(zhǔn)確。其主要原因是:DETR在檢測頭中用全局交叉注意力替換了原來的卷積,刪除了以中心為中心的先驗(yàn)知識(shí);另方面,DETR僅依賴分類分?jǐn)?shù)評分查詢提議,忽略了定位質(zhì)量。
    的頭像 發(fā)表于 11-01 16:12 ?601次閱讀
    <b class='flag-5'>第一個(gè)</b>基于DETR的高質(zhì)量通用<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>方法