0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于預(yù)訓(xùn)練模型和語言增強的零樣本視覺學(xué)習

CVer ? 來源:CVer ? 2023-06-15 16:36 ? 次閱讀

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好

ef117f4a-0b3a-11ee-962d-dac502259ad0.jpg

CoOp 增加一些 prompt 會讓模型能力進一步提升

ef1f1b3c-0b3a-11ee-962d-dac502259ad0.jpg

怎么讓能力更好?可以引入其他知識,即其他的預(yù)訓(xùn)練模型,包括大語言模型、多模態(tài)模型

也包括 Stable Diffusion 多模態(tài)預(yù)訓(xùn)練模型

ef419180-0b3a-11ee-962d-dac502259ad0.jpg

考慮多標簽圖像分類任務(wù)——每幅圖像大于一個類別

如果已有圖文對齊模型——能否用文本特征代替圖像特征

ef490834-0b3a-11ee-962d-dac502259ad0.jpg

訓(xùn)練的時候使用文本組成的句子

對齊總會有 gap,選 loss 的時候使用 rank loss,對模態(tài) gap 更穩(wěn)定

ef54761a-0b3a-11ee-962d-dac502259ad0.jpg

拿到文本后有幾種選擇,比如 Coco 只要其中的 caption 不要圖像,或是 Google 搜句子,抑或是語言模型生成

最后選擇第一種,因為穩(wěn)定性和效果更好,能夠保證同樣數(shù)據(jù)集(同分布?)

可以建一個同義詞表

ef8c6a34-0b3a-11ee-962d-dac502259ad0.jpg

兩種 prompt,global 關(guān)注句子里有沒有貓,local 關(guān)心這個詞是不是跟貓有關(guān)系

efb3859c-0b3a-11ee-962d-dac502259ad0.jpg

測試的時候就將句子變成圖像,global 不變,local 變成了跟圖像里的 token 做比較

effee6ea-0b3a-11ee-962d-dac502259ad0.jpg

如果再加上少量文本(大量句子和少量文本)性能會進一步提升

f00755b4-0b3a-11ee-962d-dac502259ad0.jpg

一些相關(guān)工作,提完文本特征加一些噪聲提高魯棒性,消解圖文 gap

f00f4878-0b3a-11ee-962d-dac502259ad0.jpg

f0482878-0b3a-11ee-962d-dac502259ad0.jpg

3d 樣本較難,因為點云-文本對較少,很難獲取

f0769c80-0b3a-11ee-962d-dac502259ad0.jpg

投影后的 3d 點云可以被視作 2d 圖像處理,使用圖像 encoder

f0a43da2-0b3a-11ee-962d-dac502259ad0.jpg

但投影點云依然與圖像存在 gap,于是采取另一種思路

投影的確與圖像相關(guān),但依然有調(diào)整空間,所以轉(zhuǎn)換成某個方向的圖像和該方向點云的投影圖像做匹配

投影和圖像對齊,圖像和文本對齊,因此就可以實現(xiàn)零樣本學(xué)習

f0aea9cc-0b3a-11ee-962d-dac502259ad0.jpg

如果有一些少量的有標簽監(jiān)督,相當于 few-shot,效果也相當好

全監(jiān)督效果也很好

f0b7f07c-0b3a-11ee-962d-dac502259ad0.jpg

當時覺得圖像可以做中介,那么紅外、熱成像等其他模態(tài)都可以

ImageBind 以圖像為中介將六種模態(tài)對齊到一起,重新訓(xùn)練

但大家依然可以做自己領(lǐng)域相關(guān)的方向,以圖像作為中介對比,還有很大的空間

f0ede088-0b3a-11ee-962d-dac502259ad0.jpg

用想象的方式開展學(xué)習

f1137334-0b3a-11ee-962d-dac502259ad0.jpg

假設(shè)有一些類別,使用語言模型生成一些句子,再根據(jù)句子使用生成模型生成圖像

因此有了圖像和類別匹配對(弱監(jiān)督目標檢測

希望即使使用合成圖像,模型在真實圖像上也可以比較好

因為類別本身和圖像會比較簡單,但如果使用語言模型,比如貓變成趴著的貓,這樣圖像多樣性會很高

f13ccebe-0b3a-11ee-962d-dac502259ad0.jpg

f146f9f2-0b3a-11ee-962d-dac502259ad0.jpg

考慮 SAM 和 Stable diffusion 特定完成分割任務(wù)

通過 SAM 得到的 proposal 提取特征

f1534b76-0b3a-11ee-962d-dac502259ad0.jpg

f1744768-0b3a-11ee-962d-dac502259ad0.jpg

責任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    490

    瀏覽量

    10225
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    35

    瀏覽量

    3794

原文標題:VALSE 2023 | 左旺孟教授:預(yù)訓(xùn)練模型和語言增強的零樣本視覺學(xué)習

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    一文詳解知識增強語言預(yù)訓(xùn)練模型

    隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展,各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習一定的知識,但仍舊存在很
    的頭像 發(fā)表于 04-02 17:21 ?9463次閱讀

    【大語言模型:原理與工程實踐】大語言模型預(yù)訓(xùn)練

    語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學(xué)習容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的應(yīng)用

    設(shè)計提示詞時,需要明確輸出需求,以便得到滿意的結(jié)果。 推理引導(dǎo)如前文所述,提示工程對于訓(xùn)練語言模型的逐步推理能力至關(guān)重要。樣本提示大
    發(fā)表于 05-07 17:21

    基于深度學(xué)習的自然語言處理對抗樣本模型

    深度學(xué)習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊,但目前對于對抗樣本的研究主要集中在計算機視覺領(lǐng)域而忽略了自然
    發(fā)表于 04-20 14:36 ?39次下載
    基于深度<b class='flag-5'>學(xué)習</b>的自然<b class='flag-5'>語言</b>處理對抗<b class='flag-5'>樣本</b><b class='flag-5'>模型</b>

    融合樣本學(xué)習和小樣本學(xué)習的弱監(jiān)督學(xué)習方法綜述

    融合樣本學(xué)習和小樣本學(xué)習的弱監(jiān)督學(xué)習方法綜述 來源:《系統(tǒng)工程與電子技術(shù)》,作者潘崇煜等 摘
    發(fā)表于 02-09 11:22 ?2169次閱讀
    融合<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習</b>和小<b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習</b>的弱監(jiān)督<b class='flag-5'>學(xué)習</b>方法綜述

    如何更高效地使用預(yù)訓(xùn)練語言模型

    基本的假設(shè):預(yù)訓(xùn)練模型在不同下游任務(wù)上學(xué)習的過程,可以被重新參數(shù)化(reparameterized)為在同一個低維征子空間上的優(yōu)化過程。
    的頭像 發(fā)表于 07-08 11:28 ?1198次閱讀

    利用視覺語言模型對檢測器進行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語言處理以及計算機視覺領(lǐng)域,以增強主干網(wǎng)絡(luò)的特征提取能力,達到加速訓(xùn)練和提高
    的頭像 發(fā)表于 08-08 15:33 ?1302次閱讀

    預(yù)訓(xùn)練語言模型的字典描述

    今天給大家?guī)硪黄狪JCAI2022浙大和阿里聯(lián)合出品的采用對比學(xué)習的字典描述知識增強預(yù)訓(xùn)練語言模型
    的頭像 發(fā)表于 08-11 10:37 ?1111次閱讀

    如何充分挖掘預(yù)訓(xùn)練視覺-語言基礎(chǔ)大模型的更好樣本學(xué)習能力

    因此,合適的prompt對于模型的效果至關(guān)重要。大量研究表明,prompt的微小差別,可能會造成效果的巨大差異。研究者們就如何設(shè)計prompt做出了各種各樣的努力——自然語言背景知識的融合、自動生成prompt的搜索、不再拘泥于語言
    的頭像 發(fā)表于 10-19 14:39 ?1368次閱讀

    使用BLIP-2 樣本“圖生文”

    現(xiàn)代計算機視覺和自然語言模型在能力越來越強大的同時,模型尺寸也隨之顯著增大。由于當前進行一次單模態(tài)模型
    的頭像 發(fā)表于 03-03 11:06 ?1686次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個預(yù)
    的頭像 發(fā)表于 03-03 11:20 ?1294次閱讀

    形狀感知樣本語義分割

    由于大規(guī)模視覺語言預(yù)訓(xùn)練取得了令人矚目的進展,最近的識別模型可以以驚人的高準確度對任意對象進行
    的頭像 發(fā)表于 04-28 11:26 ?764次閱讀
    形狀感知<b class='flag-5'>零</b><b class='flag-5'>樣本</b>語義分割

    什么是樣本學(xué)習?為什么要搞樣本學(xué)習?

    樣本分類的技術(shù)目前正處于高速發(fā)展時期, 所涉及的具體應(yīng)用已經(jīng)從最初的圖像分類任務(wù)擴展到了其他計算機視覺任務(wù)乃至自然語言處理等多個相關(guān)領(lǐng)域。 對此, 本文將其稱為廣義
    發(fā)表于 09-22 11:10 ?1965次閱讀
    什么是<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習</b>?為什么要搞<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習</b>?

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習和機器學(xué)習領(lǐng)域中的一個重要概念,尤其是在自然
    的頭像 發(fā)表于 07-03 18:20 ?1789次閱讀

    語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?317次閱讀