久久精品国产首叶青草,精品91一区二区三区

Title: 3D UX-Net: a Large Kernel Volumetric ConvNet Modernizing Hierarchical Transformer for Medical Image Segmentation

Author: Ho Hin Lee et al. (范德堡大學(xué))

Paper: https://arxiv.org/abs/2209.15076

Github: https://github.com/MASILab/3DUX-Net

引言

眾所周知，大多數(shù)醫(yī)學(xué)圖像如 MRI 和 CT 是屬于 volumetric data 類型。因此，為了更加充分的利用體素信息，近幾年已經(jīng)提出了不少 3D CNNs 的模型，如 SwinUNETR、UNETR以及筆者前段時(shí)間分享過的UNETR++等。

整體來說，這些模型性能是越來越高，在幾個(gè)主流的 3D 數(shù)據(jù)基準(zhǔn)測試中也實(shí)現(xiàn)了大大小小的 SOTA，特別是 3D 醫(yī)學(xué)圖像分割這塊。當(dāng)然，時(shí)代在進(jìn)步，作為一名高科技前沿從業(yè)者本身也是需要不斷汲取新的知識(shí)營養(yǎng)才能不被輕易的淘汰。今天小編就帶大家解讀下 ICLR 2023 新鮮出爐的 3D 醫(yī)學(xué)圖像分割之星——3D UX-Net。

3D UXNet 是一種輕量級3D卷積神經(jīng)網(wǎng)絡(luò)，其使用 ConvNet 模塊調(diào)整分層 Transformer 以實(shí)現(xiàn)穩(wěn)健的體素分割，在三個(gè)具有挑戰(zhàn)性的腦體積和腹部成像公共數(shù)據(jù)集與當(dāng)前的 SOTA 模型如 SwinUNETR 對比，同時(shí)在以下三大主流數(shù)據(jù)集性能均達(dá)到了最優(yōu)：

MICCAI Challenge 2021 FLARE
MICCAI Challenge 2021 FeTA
MICCAI Challenge 2022 AMOS

具體的，相比于 SwinUNETR，3D UX-Net 將 Dice 從 0.929 提高到 0.938 (FLARE2021)，Dice 從 0.867 提高到 0.874 (Feta2021)。此外，為了進(jìn)一步評估 3D UX-Net 的遷移學(xué)習(xí)能力，作者在 AMOS2022 數(shù)據(jù)集上訓(xùn)練得到的模型在另一個(gè)數(shù)據(jù)集上取得了 2.27% Dice 的提升(0.880 → 0.900)。

動(dòng)機(jī)

先來看看最近提出的一眾基于 Transformer 架構(gòu)的 ViT 模型有什么優(yōu)劣勢。以 SwinUNETR 為例，其將 ConvNet 的一些先驗(yàn)引入到了 Swin Transformer 分層架構(gòu)中，進(jìn)一步增強(qiáng)了在 3D 醫(yī)學(xué)數(shù)據(jù)集中調(diào)整體素分割的實(shí)際可行性。此類 "Conv+Transforemr" 的組合拳的有效性在很大程度上歸功于以下兩個(gè)因素：

非局部自注意力所帶來的大感受野
大量的模型參數(shù)

為此，本文作者想到了應(yīng)用深度卷積以更少的模型參數(shù)來模擬這些方法讓網(wǎng)絡(luò)學(xué)會(huì)如何捕獲更大感受野的行為。這一點(diǎn)筆者在前文《關(guān)于語義分割的億點(diǎn)思考》中也提過，文中對整個(gè)任務(wù)進(jìn)行了深度剖析，有興趣的讀者可以自行翻閱公眾號(hào)歷史文章：

語義分割任務(wù)的核心思想是如何高效建模上下文信息，它是提升語義分割性能最為重要的因素之一，而有效感受野則大致決定了網(wǎng)絡(luò)能夠利用到多少上下文信息。

回到正文，本文的設(shè)計(jì)思路主要是受 ConvNeXt 啟發(fā)，還沒了解過的同學(xué)也可自行移動(dòng)到公眾號(hào)翻閱歷史文章，筆者之前對該系列也講解過了，此處不再詳述。3D UX-Net 核心理念是設(shè)計(jì)出一種簡單、高效和輕量化的網(wǎng)絡(luò)，其適用于 hierarchical transformers 的能力同時(shí)保留使用 ConvNet 模塊的優(yōu)勢，如歸納偏置。具體地，其編碼器模塊設(shè)計(jì)的基本思想可分為: 1) block-wise(微觀層面) 及 2) layer-wise(宏觀層面)【可以類比下 ConvNeXt】。

block-wise

首先，我們先從下列三個(gè)不同的視角進(jìn)行討論。

Patch-wise Features Projection

對比 ConvNets 和 ViTs 之間的相似性，兩個(gè)網(wǎng)絡(luò)都使用一個(gè)共同的基礎(chǔ)模塊將特征表示縮小到特定的尺寸。以往的方法大都沒有將圖像塊展平為具有線性層的順序輸入，因此作者采用具備大卷積核的投影層來提取 patch-wise 特征作為編碼器的輸入。

Volumetric Depth-wise Convolution with LKs

Swin transformer 的內(nèi)在特性之一是用于計(jì)算非局部 MSA 的滑動(dòng)窗口策略。總的來說，有兩種分層方法來計(jì)算 MSA：基于窗口的 MSA (W-MSA) 和移動(dòng)窗口 MSA (SW-MSA)。這兩種方式都生成了跨層的全局感受野，并進(jìn)一步細(xì)化了非重疊窗口之間的特征對應(yīng)關(guān)系。

受深度卷積思想的啟發(fā)，作者發(fā)現(xiàn)自注意力中的加權(quán)和方法與每通道卷積基礎(chǔ)之間的相似之處，其認(rèn)為使用 LK 大小的深度卷積可以在提取類似于 MSA 塊的特征時(shí)提供大的感受野。因此，本文建議采用 LK 大?。ɡ纾瑥?7 × 7 × 7 開始）通過深度卷積壓縮 Swin transformer 的窗口移動(dòng)特性。如此一來便可以保證每個(gè)卷積核通道與相應(yīng)的輸入通道進(jìn)行卷積運(yùn)算，使得輸出特征與輸入具備相同的通道維度。

Inverted Bottleneck with Depthwise Convolutional Scaling

Swin transformer 的另一個(gè)固有結(jié)構(gòu)是，它們被設(shè)計(jì)為 MLP 塊的隱藏層維度比輸入維度寬四倍，如下圖所示。有趣的是，這種設(shè)計(jì)與 ResNet 塊中的擴(kuò)張率相關(guān)。因此，我們利用 ResNet 塊中的類似設(shè)計(jì)并向上移動(dòng)深度卷積來計(jì)算特征。此外，通過引入了具有 1 × 1 × 1 卷積核大小的深度卷積縮放(DCS)，以獨(dú)立地線性縮放每個(gè)通道特征。通過獨(dú)立擴(kuò)展和壓縮每個(gè)通道來豐富特征表示，可以最小化跨通道上下文產(chǎn)生的冗余信息，同時(shí)在每個(gè)階段增強(qiáng)了與下采樣塊的跨通道特征對應(yīng)。最后，通過使用 DCS，可以進(jìn)一步將模型復(fù)雜度降低 5%，并展示了與使用 MLP 模型的架構(gòu)相當(dāng)?shù)慕Y(jié)果。

layer-wise

介紹完微觀層面的設(shè)計(jì)思想，再讓我們從宏觀層面出發(fā)，以另外三個(gè)嶄新的視角去理解作者的動(dòng)機(jī)。

Applying Residual Connections

從上圖左上角可以看到，標(biāo)準(zhǔn)的 3D U-Net 模型內(nèi)嵌的模塊為 2 個(gè) 3 x 3 x 3 卷積的堆疊，其展示了使用小卷積核提取具有增加通道的局部表示的樸素方法；而其右手邊的 SegResNet 則應(yīng)用了類似 3D 版本的瓶頸層，先降維再升維最后再接殘差表示；緊接著左下角的便是 Swin Transformer，其基于窗口注意力+MLP層的組合；最后右下角便是本文所提出的模塊，其在最后一個(gè)縮放層之后應(yīng)用輸入和提取特征之間的殘差連接。此外，在殘差求和前后并沒有應(yīng)用到任何的歸一化層和激活層。

Adapting Layer Normalization

我們知道，在卷積神經(jīng)網(wǎng)絡(luò)中，BN 是一種常用策略，它對卷積表示進(jìn)行歸一化以增強(qiáng)收斂性并減少過擬合。然而，之前的工作已經(jīng)證明 BN 會(huì)對模型的泛化能力產(chǎn)生不利影響。因此作者這里跟 ConvNeXt 一致，將 BN 替換為 LN。

Using GELU as the Activation Layer

ReLU 是個(gè)好東西，幾乎是現(xiàn)代 CNNs 模型的首選激活函數(shù)。作者在這里提倡使用 GELU，這是一種基于高斯誤差的線性變換單元，相對 ReLU 更加平滑，也是其中一種變體，解決 ReLU 因負(fù)梯度被硬截?cái)喽鴮?dǎo)致的神經(jīng)元失活問題。

方法

可以看出，整體的設(shè)計(jì)思路非常簡潔，框架也是一目了然，就一個(gè)標(biāo)準(zhǔn)的 3D U-Net 架構(gòu)，由編碼器-解碼器組成，同時(shí)結(jié)合長跳躍連接操作幫助網(wǎng)絡(luò)更好的恢復(fù)空間細(xì)節(jié)的定位。也沒啥好分析的，下面就簡單拆開來看看，帶大家快速的過一遍就行。

DEPTH-WISE CONVOLUTION ENCODER

首先，輸入部分應(yīng)用一個(gè)大卷積核將原始圖像映射到一個(gè)低維空間分辨率的潛在空間特征表示，一來降低顯存參數(shù)量計(jì)算量等，二來可以增大網(wǎng)絡(luò)感受野，順便再處理成編碼器輸入所需的格式，總之好處多多，不過都是基操。

處理完之后就輸入到編碼器中進(jìn)行主要的特征提取，該編碼器共4個(gè)stage，也是標(biāo)準(zhǔn)的16倍下采樣。每個(gè)stage由多個(gè)不同的 3D UX-Net Block 構(gòu)成，具體長啥樣自己看下左圖一點(diǎn)就通。主要的特點(diǎn)就是主打輕量化和大感受野。

DECODER

編碼器中每個(gè)階段的多尺度輸出通過長跳躍連接鏈接到基于 ConvNet 的解碼器，并形成一個(gè)類似U形的網(wǎng)絡(luò)以用于下游的分割任務(wù)。這一塊就跟標(biāo)準(zhǔn)的 3D U-Net 幾乎沒啥兩樣了。

實(shí)驗(yàn)

消融實(shí)驗(yàn)

可視化效果

可以看到，與 GT 相比，3D UX-Net器官和組織的形態(tài)得到了很好的保存。

與 SOTA 方法的對比

從上述表格可以看出，3D UX-Net 在所有分割任務(wù)中均展示出最佳性能，并且 Dice 分?jǐn)?shù)有了顯著提高（FeTA2021：0.870 到 0.874，F(xiàn)LARE2021：0.929 到 0.934）。

總結(jié)

本文為大家介紹了 3D UX-Net，這是第一個(gè)將分層 Transformer 的特征與用于醫(yī)學(xué)圖像分割的純 ConvNet 模塊相適應(yīng)的3D網(wǎng)絡(luò)架構(gòu)。具體地，本文重新設(shè)計(jì)了具有深度卷積的編碼器塊，以更低的代價(jià)實(shí)現(xiàn)與 Transformer 想媲美的能力。最后，通過在三個(gè)具有挑戰(zhàn)性的公共數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明所提方法的高效性。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4726

瀏覽量
100339
圖像分割

圖像分割

+關(guān)注

關(guān)注
4

文章
182

瀏覽量
17953
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1199

瀏覽量
24594

原文標(biāo)題：ICLR 2023 | 3D UX-Net：超強(qiáng)的醫(yī)學(xué)圖像分割新網(wǎng)絡(luò)

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

UNet模型屬于哪種神經(jīng)網(wǎng)絡(luò)

U-Net模型屬于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）的一種特殊形式。它最初由德國弗萊堡大學(xué)計(jì)算機(jī)科學(xué)系的研究人員在2015年提出，專為生物醫(yī)學(xué)

發(fā)表于 07-24 10:59 ?1578次閱讀

圖像語義分割的實(shí)用性是什么

圖像語義分割是一種重要的計(jì)算機(jī)視覺任務(wù)，它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用，如自動(dòng)駕駛、醫(yī)學(xué)圖像

發(fā)表于 07-17 09:56 ?303次閱讀

圖像分割和語義分割的區(qū)別與聯(lián)系

圖像分割和語義分割是計(jì)算機(jī)視覺領(lǐng)域中兩個(gè)重要的概念，它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分

發(fā)表于 07-17 09:55 ?538次閱讀

裸眼3D筆記本電腦——先進(jìn)的光場裸眼3D技術(shù)

效果的用戶，這款筆記本電腦都能滿足你的需求。一、卓越的3D模型設(shè)計(jì)能力英倫科技裸眼3D筆記本電腦采用最新的光場裸眼3D技術(shù)，使用戶無需佩戴3D眼鏡就能看到立體的

發(fā)表于 07-16 10:04 ?395次閱讀

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心

發(fā)表于 07-09 11:51 ?505次閱讀

卷積神經(jīng)網(wǎng)絡(luò)在圖像和醫(yī)學(xué)診斷中的優(yōu)勢

隨著人工智能技術(shù)的迅猛發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡稱CNN）作為一種深度學(xué)習(xí)的代表算法，在圖像處理和醫(yī)學(xué)診斷領(lǐng)域展現(xiàn)出了巨大的潛力和優(yōu)勢。CNN

發(fā)表于 07-01 15:59 ?681次閱讀

基于深度學(xué)習(xí)的方法在處理3D點(diǎn)云進(jìn)行缺陷分類應(yīng)用

背景部分介紹了3D點(diǎn)云應(yīng)用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性，這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計(jì)了各種數(shù)據(jù)集，包括用于3D形狀分類、3D物體檢測和3D點(diǎn)云

發(fā)表于 02-22 16:16 ?904次閱讀

Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動(dòng)起來的新方法！

因此，本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此，他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散模型，能直接根據(jù)模型文字或單張圖片的輸入，生成 3D

發(fā)表于 01-30 16:20 ?757次閱讀

友思特C系列3D相機(jī)：實(shí)時(shí)3D點(diǎn)云圖像

3D相機(jī)

虹科光電
發(fā)布于 :2024年01月10日 17:39:25

如何搞定自動(dòng)駕駛3D目標(biāo)檢測！

可用于自動(dòng)駕駛場景下基于圖像的3D目標(biāo)檢測的數(shù)據(jù)集總結(jié)。其中一些數(shù)據(jù)集包括多個(gè)任務(wù)，這里只報(bào)告了3D檢測基準(zhǔn)（例如KITTI 3D發(fā)布了超過40K的

發(fā)表于 01-05 10:43 ?514次閱讀

為什么需要分割？U-Net能提供什么？U-Net和自編碼器的區(qū)別

U-Net是一種卷積神經(jīng)網(wǎng)絡(luò)（CNN）方法，由Olaf Ronneberger、Phillip Fischer和Thomas Brox于2015年首次提出，它可以更好的分割生物醫(yī)學(xué)

發(fā)表于 11-25 11:38 ?4322次閱讀

NeurlPS'23開源 | 首個(gè)！開放詞匯3D實(shí)例分割！

我們介紹了開放詞匯3D實(shí)例分割的任務(wù)。當(dāng)前的3D實(shí)例分割方法通常只能從訓(xùn)練數(shù)據(jù)集中標(biāo)注的預(yù)定義的封閉類集中識(shí)別對象類別。這給現(xiàn)實(shí)世界的應(yīng)用程序帶來了很大的限制，在現(xiàn)實(shí)世界的應(yīng)用程序中，

發(fā)表于 11-14 15:53 ?519次閱讀

基于深度學(xué)習(xí)的3D點(diǎn)云實(shí)例分割方法

3D實(shí)例分割（3DIS）是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由點(diǎn)云表示的 3D 場景，我們尋求為每個(gè)點(diǎn)分配語義類和唯一的實(shí)例標(biāo)簽。

發(fā)表于 11-13 10:34 ?1962次閱讀

基于3D形狀重建網(wǎng)絡(luò)的機(jī)器人抓取規(guī)劃方法

一個(gè)帶有分割掩碼的輸入RGB-D圖像被提供給兩個(gè)神經(jīng)網(wǎng)絡(luò)，分別產(chǎn)生一個(gè)6自由度的抓取姿勢和一個(gè)物體的3D點(diǎn)云重建。通過將抓取姿勢投影到點(diǎn)云中

發(fā)表于 11-02 10:39 ?400次閱讀

如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場景理解

自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對比學(xué)習(xí)來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā)，利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的CLIP知識(shí)來幫助理解3D場景。

發(fā)表于 10-29 16:54 ?1263次閱讀