0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺新范式Transformer之ViT的成功

深度學(xué)習(xí)實(shí)戰(zhàn) ? 來源:深度學(xué)習(xí)實(shí)戰(zhàn) ? 作者:深度學(xué)習(xí)實(shí)戰(zhàn) ? 2021-02-24 09:31 ? 次閱讀

這是一篇來自谷歌大腦的paper。這篇paper的主要成果是用Transformer[1]取代CNN,并證明了CNN不是必需的,甚至在大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練的基礎(chǔ)上在一些benchmarks做到了SOTA,并且訓(xùn)練時(shí)使用的資源更少。

圖像分塊

要將圖片分塊是因?yàn)門ransformer是用于NLP領(lǐng)域的,在NLP里面,Transformer的輸入是一個(gè)序列,每個(gè)元素是一個(gè)word embedding。因此將Transformer用于圖像時(shí)也要找出word的概念,于是就有了這篇paper的title:AN IMAGE IS WORTH 16X16 WORDS,將一張圖片看成是16*16個(gè)“單詞”。

inductive biases

機(jī)器學(xué)習(xí)中,人們對(duì)算法做了各種的假設(shè),這些假設(shè)就是inductive biases(歸納偏置),例如卷積神經(jīng)網(wǎng)絡(luò)就有很強(qiáng)的inductive biases。文中做了一個(gè)實(shí)驗(yàn),在中等大小數(shù)據(jù)集訓(xùn)練時(shí),精度會(huì)略遜色于ResNets。但是這個(gè)結(jié)果也是應(yīng)該預(yù)料到的,因?yàn)門ransformer缺少了CNN固有的一些inductive biases,比如平移不變性和局部性。所以當(dāng)沒有足夠的數(shù)據(jù)用于訓(xùn)練時(shí),你懂的。但是恰恰Transformer就強(qiáng)在這一點(diǎn),由于Transformer運(yùn)算效率更高,而且模型性能并沒有因?yàn)閿?shù)據(jù)量的增大而飽和,至少目前是這樣的,就是說模型性能的上限很高,所以Transformer很適合訓(xùn)練大型的數(shù)據(jù)集。

ViT

20d8869e-74f8-11eb-8b86-12bb97331649.png

在ViT中,模型只有Encoder的,沒有Decoder,因?yàn)橹皇怯糜谧R(shí)別任務(wù),不需要Decoder。

首先按照慣例,先把圖像的patch映射成一個(gè)embedding,即圖中的linear projection層。然后加上position embedding,這里的position是1D的,因?yàn)榘凑兆髡叩恼f法是在2D上并沒有性能上的提升。最后還要加上一個(gè)learnable classification token放在序列的前面,classification由MLP完成。

Hybrid Architecture。模型也可以是CNN和Transformer的混合,即Transformer的輸入不是原圖像的patch,而是經(jīng)過CNN得到的feature map的patch。

實(shí)驗(yàn)結(jié)果

211198d0-74f8-11eb-8b86-12bb97331649.png

不同大小的ViT的參數(shù)量。

2159b7b4-74f8-11eb-8b86-12bb97331649.png

可以看到在預(yù)訓(xùn)練數(shù)據(jù)集很小的情況下ViT的效果并不好,但是好在隨著預(yù)訓(xùn)練數(shù)據(jù)集越大時(shí)ViT的效果越好,最終超過ResNet。

21979b1a-74f8-11eb-8b86-12bb97331649.png

BiT[2]是谷歌用JFT-300M(谷歌內(nèi)部非公開數(shù)據(jù)集)訓(xùn)練的ResNet模型。Noisy Student[3]是谷歌提出借助半監(jiān)督大大提升了imagenet性能的算法。可以看到,在JFT-300M預(yù)訓(xùn)練的情況下,ViT比ResNet好上不少,并且開銷更小。

總結(jié)

ViT的成功我認(rèn)為是以下幾點(diǎn):

1、self-attention比CNN更容易捕捉long-range的信息;

2、大量的數(shù)據(jù),在視覺中CNN是人類實(shí)踐中很成功的inductive biases,顯然大量的數(shù)據(jù)是能戰(zhàn)勝inductive biases的;

3、計(jì)算效率高,因?yàn)閟elf-attention可以看作是矩陣運(yùn)算,所以效率很高,容易訓(xùn)練大型的模型。

原文標(biāo)題:視覺新范式Transformer之ViT

文章出處:【微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺
    +關(guān)注

    關(guān)注

    161

    文章

    4302

    瀏覽量

    119875
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8320

    瀏覽量

    132165
  • Transforme
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8770

原文標(biāo)題:視覺新范式Transformer之ViT

文章出處:【微信號(hào):gh_a204797f977b,微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Prophesee:基于EVS打造機(jī)器視覺范式

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)機(jī)器視覺起源于20世紀(jì)50年代。近幾年,隨著邊緣智能需求爆發(fā),機(jī)器視覺發(fā)展換擋提速。根據(jù)前瞻產(chǎn)業(yè)研究院的統(tǒng)計(jì)數(shù)據(jù),2023年全球機(jī)器視覺市場(chǎng)規(guī)模約為130億美元,預(yù)計(jì)
    的頭像 發(fā)表于 07-24 00:53 ?2699次閱讀
    Prophesee:基于EVS打造機(jī)器<b class='flag-5'>視覺</b>新<b class='flag-5'>范式</b>

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來,已經(jīng)在自然語言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問題,需要從多個(gè)維度進(jìn)行深入探討。
    的頭像 發(fā)表于 07-12 14:07 ?328次閱讀

    Transformer語言模型簡介與實(shí)現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于神經(jīng)機(jī)器翻譯
    的頭像 發(fā)表于 07-10 11:48 ?917次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)
    的頭像 發(fā)表于 07-02 11:41 ?1279次閱讀

    jlink為什么識(shí)別不了STM32H743VIT6?

    最近調(diào)ST的STM32H743VIT6這個(gè)型號(hào)的芯片,碰到一個(gè)麻煩的問題,jlink識(shí)別不了芯片,導(dǎo)致一直無法下載程序,換了幾個(gè)JLINK也是不行。請(qǐng)問一下STM32H7系列燒寫與調(diào)試對(duì)JLINK有
    發(fā)表于 04-15 07:20

    視覺Transformer基本原理及目標(biāo)檢測(cè)應(yīng)用

    視覺Transformer的一般結(jié)構(gòu)如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個(gè)多頭自注意力模塊(self-attention)和一個(gè)位置前饋神經(jīng)網(wǎng)絡(luò)(FFN)。
    發(fā)表于 04-03 10:32 ?2933次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>基本原理及目標(biāo)檢測(cè)應(yīng)用

    STM32F427VIT6支持HyperBus或者Octal xSPI接口的PSRAM嗎?

    STM32F427VIT6支持HyperBus或者Octal xSPI接口的PSRAM嗎
    發(fā)表于 03-20 07:32

    STM32H743VIT6可以用NUCLEO-H743ZI板調(diào)試嗎?

    問題1:最近要選擇STM32H743VIT6這款芯片做實(shí)驗(yàn)項(xiàng)目,想要選擇NUCLEO-H743ZI板子調(diào)試,但是板子mcu跟選型的mcu不完全一致,引腳數(shù)量也不一樣,擔(dān)心買回來調(diào)試不方便 問題2:板子有NUCLEO-H743ZI和NUCLEO-H743ZI2 二種型號(hào),比較推薦哪一種?
    發(fā)表于 03-18 07:17

    復(fù)盤與分析:Sora是如何成功的?

    從技術(shù)路線看,依舊遵從LLM范式“大力出奇跡”,通過patches向量化與transformer架構(gòu)結(jié)合,使得訓(xùn)練數(shù)據(jù)能夠使用大小、尺寸、分辨率不同的視頻,能夠讓模型學(xué)習(xí)到視頻的規(guī)律乃至世界的規(guī)律;使用GPT生成prompt,在訓(xùn)練和推理過程中解決了模態(tài)之間的對(duì)齊問題,大
    的頭像 發(fā)表于 02-25 16:44 ?504次閱讀
    復(fù)盤與分析:Sora是如何<b class='flag-5'>成功</b>的?

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?547次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    更深層的理解視覺Transformer, 對(duì)視覺Transformer的剖析

    最后是在ADE20K val上的LeaderBoard,通過榜單也可以看出,在榜單的前幾名中,Transformer結(jié)構(gòu)依舊占據(jù)是當(dāng)前的主力軍。
    的頭像 發(fā)表于 12-07 09:39 ?679次閱讀
    更深層的理解<b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>, 對(duì)<b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>的剖析

    降低Transformer復(fù)雜度O(N^2)的方法匯總

    首先來詳細(xì)說明為什么Transformer的計(jì)算復(fù)雜度是 。將Transformer中標(biāo)準(zhǔn)的Attention稱為Softmax Attention。令 為長度為 的序列, 其維度為 , 。 可看作Softmax Attention的輸入。
    的頭像 發(fā)表于 12-04 15:31 ?989次閱讀
    降低<b class='flag-5'>Transformer</b>復(fù)雜度O(N^2)的方法匯總

    關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

    Transformer 本質(zhì)上是一個(gè) Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個(gè)部分:編碼組件和解碼組件。
    發(fā)表于 11-17 10:34 ?474次閱讀
    關(guān)于深度學(xué)習(xí)模型<b class='flag-5'>Transformer</b>模型的具體實(shí)現(xiàn)方案

    求助,AD8132諧波測(cè)試電路中的transformer有沒有推薦型號(hào)?

    AD8132諧波測(cè)試電路中的transformer有沒有推薦型號(hào)?
    發(fā)表于 11-16 06:15

    LLM的Transformer是否可以直接處理視覺Token?

    多種LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer層都會(huì)有提升,而且不同層之間也會(huì)體現(xiàn)不同的規(guī)律。
    發(fā)表于 11-03 14:10 ?412次閱讀
    LLM的<b class='flag-5'>Transformer</b>是否可以直接處理<b class='flag-5'>視覺</b>Token?