0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用ImageNet訓(xùn)練了一個(gè)能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型

深度學(xué)習(xí)實(shí)戰(zhàn) ? 來源:深度學(xué)習(xí)實(shí)戰(zhàn) ? 作者:深度學(xué)習(xí)實(shí)戰(zhàn) ? 2021-03-03 16:05 ? 次閱讀

說到Transformer,大家可能會(huì)想到BERT[1]、GPT-3[2]等等,這些都是利用無監(jiān)督訓(xùn)練的大型預(yù)訓(xùn)練模型。既然Transformer也能用在CV上,那么能不能做類似的事情呢?這篇論文利用ImageNet訓(xùn)練了一個(gè)能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型(IPT)。

Motivation

目前很多l(xiāng)ow-level的task其實(shí)都是有一定相關(guān)性的,就是在一個(gè)low-level task上預(yù)訓(xùn)練對另一個(gè)task是有幫助的,但是目前幾乎沒有人去做相關(guān)的工作。而且pre-training在某些數(shù)據(jù)稀缺的task上就很有必要,并且無論在CV還是NLP,使用pre-trained model是非常常見的事情。對于一些輸入和輸出都是image的low-level算法來說,目前的pre-trained model顯然是不適合的。

準(zhǔn)備數(shù)據(jù)集

因?yàn)門ransformer需要大量的數(shù)據(jù)去擬合,所以必須使用一個(gè)大型的數(shù)據(jù)集。在這篇論文中,作者用的是imagenet。對于imagenet的每一張圖片生成各種任務(wù)對應(yīng)的圖像對,例如對于超分(super-resolution)來說,模型的輸入數(shù)據(jù)是imagenet經(jīng)過下采樣的數(shù)據(jù),而標(biāo)簽是原圖。

IPT

在上篇文章介紹過了,因?yàn)門ransformer本身是用于NLP領(lǐng)域的,輸入應(yīng)該是一個(gè)序列,因此這篇的論文做法和ViT[3]一樣,首先需要把feature map分塊,每個(gè)patch則視為一個(gè)word。但是不同的是,因?yàn)镮PT是同時(shí)訓(xùn)練多個(gè)task,因此模型定義了多個(gè)head和tail分別對應(yīng)不同的task。

整個(gè)模型架構(gòu)包含四個(gè)部分:用于提取特征的heads、Transformer Encoder、Transformer Decoder和把feature map還原成輸出的tails。

Heads

不同的head對應(yīng)于不同的task,由于IPT需要處理多個(gè)task,因此是一個(gè)multi-head的結(jié)構(gòu),每個(gè)head由3層卷積層組成。Heads要完成的任務(wù)可以描述為:fH = Hi(x),x是輸入圖像,f是第i個(gè)Head的輸出。

Transformer encoder

在輸入Transformer前,需要將Head輸出的feature map分成一個(gè)個(gè)patch,同樣還需要加入位置編碼信息,與ViT不同,這里是直接相加就可以作為Transformer Encoder的輸入了,不需要做linear projection。

ef62fdc4-778b-11eb-8b86-12bb97331649.png

fpi是feature map的一個(gè)patch,Epi∈ RP*P×C是fpi的learnable position encoding。LN是layer normalization,MSA是多頭self-attention模塊,F(xiàn)FN是feed forward network。

Transformer decoder

Transformer decoder的輸入時(shí)encoder的輸出和task embedding。這些task embedding是可訓(xùn)練的,不同的task embedding代表處理不同的task。decoder的計(jì)算可以表示如下:

efacf5dc-778b-11eb-8b86-12bb97331649.png

fEi是指encoder的輸出,fDi是指decoder的輸出。

Tails

Tails與Heads是相對應(yīng)的,但是不同的tail的輸出的大小可能不一樣,例如超分,做超分時(shí)輸出比輸入的圖像大,因此與其它的tail輸出的大小可能不一樣。

Loss

loss由兩部分組成,分別是Lcontrastive和Lsupervised的加權(quán)和。

Lsupervised是指IPT的輸出與label的L1 loss。

加入Lcontrastive是為了最小化Transformer decoder對于來自同一張圖的不同patch的輸出的距離,最大化對于不同圖片的patch之間的輸出的距離。

實(shí)驗(yàn)與結(jié)果

作者用了32塊NVIDIA Tesla V100,以256的batch size訓(xùn)練了200個(gè)epoch。

Reference

[1]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert: Pre-training of deep bidirectionaltransformers for language understanding. arXiv preprintarXiv:1810.04805, 2018.

[2]Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al.Language models are few-shot learners. arXiv preprintarXiv:2005.14165, 2020.

[3]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3060

    瀏覽量

    48575
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24590
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    483

    瀏覽量

    21971

原文標(biāo)題:視覺新范式Transformer之IPT

文章出處:【微信號(hào):gh_a204797f977b,微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI大模型訓(xùn)練數(shù)據(jù)來源分析

    學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開發(fā)布,涵蓋了各種類型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如: ImageNet個(gè)廣泛用于圖像識(shí)別任務(wù)的大
    的頭像 發(fā)表于 10-23 15:32 ?14次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練自己的AI大模型個(gè)復(fù)雜且耗時(shí)的過程,涉及多個(gè)關(guān)鍵步驟。以下是個(gè)詳細(xì)的
    的頭像 發(fā)表于 10-23 15:07 ?58次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?65次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們在提高模型性能、減少訓(xùn)練時(shí)間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定
    的頭像 發(fā)表于 07-11 10:12 ?543次閱讀

    大語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型預(yù)訓(xùn)練是這技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?318次閱讀

    人臉識(shí)別模型訓(xùn)練流程

    據(jù)準(zhǔn)備階段,需要收集大量的人臉圖像數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗、標(biāo)注和增強(qiáng)等操作。 1.1 數(shù)據(jù)收集 數(shù)據(jù)收集是人臉識(shí)別模型訓(xùn)練的第步??梢酝ㄟ^網(wǎng)絡(luò)爬蟲、公開數(shù)據(jù)集、合作伙伴等途徑收集人臉
    的頭像 發(fā)表于 07-04 09:19 ?656次閱讀

    人臉識(shí)別模型訓(xùn)練是什么意思

    人臉識(shí)別模型訓(xùn)練是指通過大量的人臉數(shù)據(jù),使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法,訓(xùn)練個(gè)能夠識(shí)別和分類人臉的模型
    的頭像 發(fā)表于 07-04 09:16 ?394次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的個(gè)重要概念,尤其是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)
    的頭像 發(fā)表于 07-03 18:20 ?1799次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練個(gè)復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練
    的頭像 發(fā)表于 07-01 16:13 ?769次閱讀

    利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對心電圖降噪

    - 與后來為降噪任務(wù)添加的噪聲水平不同。生 成的合成信號(hào)的示例如下圖所示。 測試是為了回答兩個(gè)問題:DRNN對于心電圖噪的有效 性如何數(shù)據(jù)以及使用合成數(shù)據(jù)進(jìn)行預(yù)
    發(fā)表于 05-15 14:42

    【大語言模型:原理與工程實(shí)踐】大語言模型預(yù)訓(xùn)練

    進(jìn)行損失計(jì)算,得到下一個(gè)目標(biāo)的預(yù)測。也會(huì)設(shè)計(jì)些其他輔助訓(xùn)練任務(wù),與主任務(wù)共同訓(xùn)練。選擇合適的預(yù)訓(xùn)練
    發(fā)表于 05-07 17:10

    視覺深度學(xué)習(xí)模型:規(guī)模越大效果越佳嗎?

    評估三類模型:(i) 在ImageNet-21k上預(yù)訓(xùn)練的ViT,(ii) 在LAION-2B上預(yù)訓(xùn)練
    發(fā)表于 04-11 09:45 ?419次閱讀
    視覺深度學(xué)習(xí)<b class='flag-5'>模型</b>:規(guī)模越大效果越佳嗎?

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢,而且在效率上更勝
    的頭像 發(fā)表于 02-29 17:37 ?692次閱讀

    深度學(xué)習(xí)如何訓(xùn)練出好的模型

    算法工程、數(shù)據(jù)派THU深度學(xué)習(xí)在近年來得到了廣泛的應(yīng)用,從圖像識(shí)別、語音識(shí)別到自然語言處理等領(lǐng)域都有了卓越的表現(xiàn)。但是,要訓(xùn)練個(gè)高效準(zhǔn)確的深度學(xué)習(xí)
    的頭像 發(fā)表于 12-07 12:38 ?1010次閱讀
    深度學(xué)習(xí)如何<b class='flag-5'>訓(xùn)練</b>出好的<b class='flag-5'>模型</b>

    畫質(zhì)大模型!華為和清華聯(lián)合提出CoSeR:基于認(rèn)知的萬物模型

    是缺乏泛化能力。為了實(shí)現(xiàn)更好的效果,通常需要針對特定場景使用特定傳感器采集到的數(shù)據(jù)來進(jìn)行模型訓(xùn)練,這種學(xué)習(xí)方式擬合了某種低清
    的頭像 發(fā)表于 12-04 16:22 ?635次閱讀
    <b class='flag-5'>超</b><b class='flag-5'>分</b>畫質(zhì)大<b class='flag-5'>模型</b>!華為和清華聯(lián)合提出CoSeR:基于認(rèn)知的萬物<b class='flag-5'>超</b><b class='flag-5'>分</b>大<b class='flag-5'>模型</b>