成人伊人电影,双妻生活

簡介

本文介紹了一個名為Alpha-CLIP的框架，它在原始的接受RGB三通道輸入的CLIP模型的上額外增加了一個alpha通道。在千萬量級的RGBA-region的圖像文本對上進行訓(xùn)練后，Alpha-CLIP可以在保證CLIP原始感知能力的前提下，關(guān)注到任意指定區(qū)域。通過替換原始CLIP的應(yīng)用場景，Alpha-CLIP在圖像識別、視覺-語言大模型、2D乃至3D生成領(lǐng)域都展現(xiàn)出強大作用。

圖1 Alpha-CLIP使用場景總覽

CLIP作為目前最流行的視覺基座模型被廣泛使用。它的應(yīng)用場景包括但不限于1.與LLM大語言模型結(jié)合成為視覺多模態(tài)大模型。2.作為圖像生成(Stable Diffusion)、點云生成(Point-E)的condition model, 實現(xiàn)image-to-3D。3.用于指導(dǎo)NeRF的優(yōu)化方向從而實現(xiàn)text-to-3D。4.本身用于開放類別的識別和檢測。

然而CLIP必須以整張圖片作為輸入并進行特征提取，無法關(guān)注到指定的任意區(qū)域。然而，自然的2D圖片中往往包含不同的物體，part和thing。如果能由用戶或檢測模型指定需要關(guān)注的區(qū)域，在圖像編碼的過程就確定需要關(guān)注的對象，將會提升CLIP模型的可控制性和區(qū)域檢測能力。

為此，上海人工智能實驗室聯(lián)合上海交通大學(xué)、復(fù)旦大學(xué)、香港中文大學(xué)、澳門大學(xué)的學(xué)者們提出了Alpha-CLIP模型，在原始CLIP模型的RGB三個通道的基礎(chǔ)上額外引入了第四個alpha通道來決定需要關(guān)注的區(qū)域。通過構(gòu)造千萬量級的【RGBA四通道圖片-文本對】對Alpha-CLIP進行訓(xùn)練，Alpha-CLIP不僅在ImageNet上保持了原始的全圖檢測能力，還能對用戶指定的任意區(qū)域進行highlight關(guān)注。下面分別介紹Alpha-CLIP的應(yīng)用場景。

* 論文鏈接：https://arxiv.org/abs/2312.03818 * 項目主頁：https://aleafy.github.io/alpha-clip * 代碼鏈接：https://github.com/SunzeY/AlphaCLIP1. 圖像分類

如圖所示，對于ImagNet的一張圖片，我們可以通過alpha-map控制CLIP去關(guān)注魚或漁夫。

以ImageNet的Zero-Shot Classification作為評價指標(biāo)，我們驗證了在對全圖進行識別時，Alpha-CLIP可以保持原本CLIP的分類準(zhǔn)確率。進一步地，在給出了需要關(guān)注區(qū)域的長方形box或者mask時，Alpha-CLIP可以進一步提升分類準(zhǔn)確率。

2. 與LLM大語言模型的結(jié)合

將主流的LLaVA-1.5中的CLIP基座模型替換為Alpha-CLIP，用戶可以通過簡單地用畫筆標(biāo)記處需要關(guān)注的區(qū)域，從而進行指定區(qū)域的對話交互。

在定量實驗方面，我們通過LLaVA測試了MLLM的region caption能力。通過在RefCOCO和VG上分別進行finetune，取得了SOTA的region caption分數(shù)。

3. 與Stable Diffusion的結(jié)合

Stable-Diffusion是目前主流的2D圖片生成模型，其Image Variation版本可以實現(xiàn)“圖生圖”，其中圖片的編碼器也是CLIP模型。通過將該模型替換為Alpha-CLIP，可以實現(xiàn)更復(fù)雜圖片中指定物體的生成(同時較好地保留背景)。如上圖所示，使用原始的CLIP會生成同時具有獅子和老虎特征的“獅虎獸”，而Alpha-CLIP能夠很好地區(qū)分兩個物體，從而指導(dǎo)Stable Diffusion模型生成更專一的圖片。更多結(jié)果見下圖

4. 與Point-E的結(jié)合

Point-E是Open-AI開源的一個支持Image-to-3D和text-to-3D的點云diffusion模型，通過將它的Image編碼器從原始的CLIP替換為Alpha-CLIP?？梢灾С钟脩魧θ我鈪^(qū)域進行關(guān)注，從而恢復(fù)丟失的“表針”和“盾牌的十字架”。更多結(jié)果見下圖

5. Attention Map可視化

本工作對Alpha-CLIP的注意力進行可視化，以檢查Alpha-CLIP是否更加關(guān)注用戶定義alpha-map。通過檢查視覺編碼器中最后一個Transformer塊中[CLS] token的注意力圖?？梢暬捎昧司哂?6個注意頭的ViT-L/14模型。為了進行公正比較，使用第5和第16個注意頭的注意力圖進行可視化，因為我們發(fā)現(xiàn)在這16個頭中，這兩個特征圖最為明顯。結(jié)果如下圖所示。這種可視化驗證了Alpha-CLIP更加關(guān)注要聚焦的區(qū)域，更重要的是，它在保留原始CLIP特征位置的二維位置信息時沒有造成損害。

結(jié)論

本文介紹的這項工作提出了Alpha-CLIP模型，該模型引入了一個額外的alpha通道，用于指定感興趣的區(qū)域。通過對數(shù)百萬個RGBA區(qū)域-文本對進行訓(xùn)練，Alpha-CLIP不僅表現(xiàn)出卓越的區(qū)域關(guān)注能力，而且確保其輸出空間與原始的CLIP模型保持一致。這種一致性使得Alpha-CLIP在CLIP的各種下游應(yīng)用中能夠輕松替代，無縫銜接。我們證明了當(dāng)提供特定關(guān)注的區(qū)域時，Alpha-CLIP展現(xiàn)出了更強大的Zero-Shot識別能力，并驗證了它在許多下游任務(wù)中的有用性。CLIP的應(yīng)用遠遠超出了本文的范圍。我們希望在前景區(qū)域或mask較容易獲得時，Alpha-CLIP將能夠在更多場景中得到應(yīng)用。

雖然Alpha-CLIP在需要關(guān)注區(qū)域的各種場景中表現(xiàn)出有效的性能，但目前的結(jié)構(gòu)和訓(xùn)練過程限制了其專注于多個對象或建模不同對象之間關(guān)系的能力。此外，當(dāng)前的訓(xùn)練方法限制了alpha通道在中間值之外的泛化（只能接受0,1兩個值）。因此，用戶無法指定注意力的幅度。另一個限制同時存在于我們的Alpha-CLIP和原始CLIP中，即純Transformer結(jié)構(gòu)的編碼器分辨率較低，這阻礙了Alpha-CLIP識別小物體并進行關(guān)注。我們計劃在未來的工作中解決這些限制并擴展CLIP的輸入分辨率。我們相信這些未來的方向是增強Alpha-CLIP能力并在各種下游任務(wù)中擴展其實用性的途徑。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46401

瀏覽量
236630
Clip

Clip

+關(guān)注

關(guān)注
0

文章
30

瀏覽量
6633
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2225

瀏覽量
2260

原文標(biāo)題：更強！Alpha-CLIP：讓CLIP關(guān)注你想要的任何地方！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

請問TPA3244,RESET FAULT CLIP_OTW怎么跟MCU連接？

TPA3244,RESET FAULT CLIP_OTW,怎么跟MCU連接，還有我直接上電，沒有MUTE控制會不會有PO PO 聲

發(fā)表于 10-14 06:38

TPA3220功放的OTW_CLIP管腳會異常拉低，為什么？

當(dāng)功放的功率達到120W時，TPA3220功放的OTW_CLIP管腳會異常拉低。正常情況下FAULT和OTW_CLIP管腳均為高電平，如圖為FAULT和OTW_CLIP管腳的真值表圖，圖為異常時抓取的波形：

發(fā)表于 09-29 09:04

TAS5630電路PBTL接法，CLIP燈無法滅是怎么回事？

TAS5630電路PBTL接法，正在測試時CLIP信號燈亮（CLIP低電平），輸出為0，無論重新開機或人工復(fù)位，均不能使得CLIP燈滅，請大俠教我。謝謝。

發(fā)表于 09-03 07:58

便攜解碼耳放 - 讓你隨時隨地享受頂級音質(zhì)

便攜解碼耳放將高保真音質(zhì)和便攜性完美結(jié)合，讓你在任何地方都能享受到頂級的音樂體驗。

發(fā)表于 07-24 17:55 ?1284次閱讀

便攜解碼耳放 - <b class='flag-5'>讓</b>你隨時隨地享受頂級音質(zhì)

如何停止引導(dǎo)加載程序輸出消息？

我想知道是否有任何方法可以停止引導(dǎo)加載程序輸出消息，或者至少能夠?qū)⑺鼈兌ㄏ虻?UART1 而不是 UART0？另外，引導(dǎo)加載程序的源代碼是否在任何地方都可用？我找不到它們，但我可能找錯了地方。

發(fā)表于 07-15 06:33

什么是 Cu clip 封裝

共讀好書 ? 功率芯片通過封裝實現(xiàn)與外部電路的連接，其性能的發(fā)揮則依賴著封裝的支持，在大功率場合下通常功率芯片會被封裝為功率模塊進行使用。芯片互連（interconnection）指芯片上表面的電氣連接，在傳統(tǒng)模塊中一般為鋁鍵合線。 ? ? 目前商用碳化硅功率模塊仍然多沿用這種引線鍵合的傳統(tǒng)硅 IGBT 模塊的封裝技術(shù)，面臨著高頻寄生參數(shù)大、散熱能力不足、耐溫低、絕緣強度不足等問題，限制了碳化硅半導(dǎo)體優(yōu)良性能的發(fā)揮。為了解決這些問題，

發(fā)表于 06-16 16:08 ?854次閱讀

求分享esp8266和esp32的匯編指令集？

想做操作系統(tǒng)移植，可是沒有在網(wǎng)上任何地方找到匯編指令集和寄存器說明，能否出一個？或者告訴我在那里找

發(fā)表于 06-05 06:20

CapSENSE在CSX模式下同時跟蹤的觸點數(shù)量是否有限制？

我沒有在任何地方看到這樣的數(shù)字。 CapSENSE 最新一代（GEN 5）在 CSX 模式下同時跟蹤的觸點數(shù)量是否有限制？據(jù)我所知，CapSENSE Tuner 應(yīng)用程序僅限三個。

發(fā)表于 05-29 06:18

愛芯元智推出邊端側(cè)智能SoCAX650N，讓視覺更智能

當(dāng)前大模型蓬勃發(fā)展，OpenAI的Sora、ChatGPT、CLIP、DALL-E，Google的Gemini、ViT-22B，Meta的LLaMA3、DINO v2，

發(fā)表于 05-09 14:39 ?1293次閱讀

愛芯元智推出邊端側(cè)智能SoCAX650N，<b class='flag-5'>讓</b>視覺更智能

TPAK SiC優(yōu)選解決方案：有壓燒結(jié)銀+銅夾Clip無壓燒結(jié)銀

TPAK SiC優(yōu)選解決方案：有壓燒結(jié)銀+銅夾Clip無壓燒結(jié)銀

發(fā)表于 04-25 20:27 ?520次閱讀

TPAK SiC優(yōu)選解決方案：有壓燒結(jié)銀+銅夾<b class='flag-5'>Clip</b>無壓燒結(jié)銀

全志R128 SDK HAL 模塊開發(fā)指南——G2D

]; g2d_rect clip_rect; g2d_size resize; g2d_coor coor; __u32 gamut; int bpremul; __u8 alpha

發(fā)表于 04-01 13:31

馬里蘭&NYU合力解剖神經(jīng)網(wǎng)絡(luò)，CLIP模型神經(jīng)元形似骷髏頭

對于大多數(shù)圖像生成模型來說，會輸出正面的圖像。但是優(yōu)化算法，可以讓模型生成更多詭異、恐怖的圖像。就拿CLIP模型來說，可以衡量一段文本和一張圖片的匹配程度。給定一段描述怪誕場景的文本，使用優(yōu)化算法通過最小化CLIP的損失，來

發(fā)表于 11-23 17:29 ?551次閱讀

馬里蘭&NYU合力解剖神經(jīng)網(wǎng)絡(luò)，<b class='flag-5'>CLIP</b>模型神經(jīng)元形似骷髏頭

基于AX650N+CLIP的以文搜圖展示

能否有一種“識別萬物”的圖像識別大模型呢？今天就借此機會，通過實操來重溫下由OpenAI在2021年初發(fā)布的Zero-Shot視覺分類模型CLIP，并移植到愛芯派Pro上實現(xiàn)簡單的以圖搜文示例。

發(fā)表于 11-01 16:44 ?1281次閱讀

基于AX650N+<b class='flag-5'>CLIP</b>的以文搜圖展示

如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識進行3D場景理解

自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對比學(xué)習(xí)來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā)，利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的

發(fā)表于 10-29 16:54 ?1264次閱讀

在英特爾開發(fā)套件上用OpenVIN實現(xiàn)中文圖文檢索

本文演示了使用 OpenVINO 與 Chinese-Clip 進行中文圖文相似性匹配任務(wù)：CLIP 模型以自監(jiān)督的方式在數(shù)億或數(shù)十億（圖像，文本）對上進行訓(xùn)練，它從輸入圖像和文本中提取特征向量

發(fā)表于 10-27 11:06 ?734次閱讀

搜索歷史

更強！Alpha-CLIP：讓CLIP關(guān)注你想要的任何地方！

評論