野花社区www高清在线观看,99精品一区二区三区无码吞精

【導讀】由Meta AI的研究人員推出Token Merging（ToMe），無需訓練即可加速 ViT 模型。更重要的是，這個模型不需對token進行剪枝。

視覺變換器（ViT）在兩年前進入大眾視野，并成為計算機視覺研究的核心組成部分。它成功將一個在自然語言處理領(lǐng)域的Transformer模型遷移到計算機視覺領(lǐng)域。從那時起，計算機視覺領(lǐng)域的進步已經(jīng)加速。

盡管在成本與性能方面被超越，Vanilla ViT仍有許多優(yōu)點。

它們是由簡單的矩陣乘法組成的，這使得它們的速度比它們的原始運算量所顯示的要快。

此外，它們支持強大的自監(jiān)督預訓練技術(shù)，如MAE（掩碼自動編碼器），可以產(chǎn)生最先進的結(jié)果，同時可以進行快速訓練。

而且由于它們不對數(shù)據(jù)進行假設(shè)，它們可以幾乎不加改變地應(yīng)用在圖片、音頻、文本等諸多模式中。

當然，理想很豐滿，現(xiàn)實很骨感。ViT模型的規(guī)模大，有較大延時。在資源有限的設(shè)備上，運行這個復雜模型會產(chǎn)生很大問題。

Token剪枝：變好了，但沒完全好針對運算慢的問題，研究人員給出了多個解決方案。其中一種常見的加速視覺 Transformer模型的方法是對進行token剪枝。在運行時修剪標記，通過修剪不太重要的token產(chǎn)生高效的Transformer。如DynamicViT分層修剪冗余token，從而在分類任務(wù)中實現(xiàn)FLOPs減少。

然而，token剪枝有幾個問題，其中最主要的，是由于修剪token會產(chǎn)生信息損失，因此，人們對ViT模型token的剪枝數(shù)量是有限的，為了減少信息損失，只能對不重要的token進行修剪。

而且，為了使修剪過的token有效，人們需要再次訓練模型。這就造成額外的資源消耗。

更重要的是，token剪枝是動態(tài)的過程，需要根據(jù)不同的圖像或句子確定token剪枝的不同數(shù)量。雖然這有利于提高準確性，但卻不夠?qū)嵱脤嵱眯裕驗檫@種情況下，數(shù)據(jù)不能再進行批處理。

為了解決這個問題，人們需要在剪枝過程中添加掩碼，而這會進一步影響效率的提升。

簡單來說，token剪枝確實讓ViT跑得更快，但這是在信息損耗的代價上實現(xiàn)的。

TokenMerging：換個想法

怎樣才能使ViT的速度類似于剪枝，但保持比剪枝更高的準確度呢？Meta AI研究團隊給出了新的解題思路：Token Merging（ToMe）。

論文鏈接：https://arxiv.org/pdf/2210.09461.pdf

Token Merging選擇將token結(jié)合，而非進行剪枝。由于其定制的匹配算法，它和剪枝一樣快，同時更準確。另外，它的工作不需要任何額外的訓練，所以你可以在巨大的模型上使用它來加快它們的速度，而不會犧牲很多準確性。

Meta的目標是在現(xiàn)有的ViT中插入一個Token Merging的模塊，通過合并冗余的token，在不需要額外訓練的前提下提高訓練和推理的吞吐量。

基本思路是：在Transformer模型中，通過合并，使每層減少r個token。假設(shè)一個Transformer模型有L層，那么通過合并就可以減少rL個token。變量r的大小決定了速度和精度的關(guān)系，因為更少的標記意味著更低的準確度但更高的吞吐量。

值得注意的是，在Token Merging中，無論圖像的內(nèi)容如何，都會減少rL標記。這完美解決了token剪枝中無法進行批處理的問題。

通過ToMe，類似的token批在每個Transformer塊中被合并：例如，狗的皮毛被合并成一個token。

Token Merging被插入每個attention塊和每個Transformer塊。這也與token剪枝的工作流程形成對比。后者傾向于將剪枝步驟放在每個Transformer塊的開頭。

通過Token Merging，需要被合并的token的信息可以得到傳播，ViT也能夠借助attention塊中的特征來決定需要合并哪些token。

具體做法

合并的第一步是確定相似的token。在Transformer中的QKV（query, key, value）已被提取的條件下，通過消融實驗，研究團隊發(fā)現(xiàn)使用key可以最好衡量token之間的相似度（下圖紫色部分）。

因為key已經(jīng)總結(jié)了每個token中包含的信息，以便用于Attention中的dot-product來衡量token間的相似度。

除了研究哪個指標更好衡量token相似度外，還需要知道什么距離衡量相似度。通過實驗研究團隊發(fā)現(xiàn)，使用使用余弦距離來衡量toke之間的相似度可以獲得最好的精度和速度的關(guān)系。

確定了token的相似性，接下來需要一個快速的方法來確定哪些token需要匹配，以減少總數(shù)的r。

Meta團隊沒有使用kmeans聚類算法或圖分割算法，而是使用匹配算法，因為后者不僅可以精準匹配每一層token的數(shù)量，還能快速執(zhí)行上千次匹配。這些都是迭代聚類算法無法完成的。

因此，Meta團隊提出了一個更有效的解決方案。

設(shè)計目標如下。1.)避免任何無法并行化的迭代，2.)希望合并的變化是漸進的，因為聚類對多少個標記可以合并到一個組中沒有限制（這可能會對網(wǎng)絡(luò)產(chǎn)生不利影響），而匹配則使大多數(shù)標記沒有被合并。

將所有token分為相同大小的2個集合A與B。

把從集合A中的每個token到B中與其最相似的token畫一條邊。

只留下最相似的r條邊, 其余刪掉。

融合仍然相連的邊（特征取均值）。

把這兩個集合拼在一起, 得到最終的合并結(jié)果。

通過這項獨特的技術(shù)，可以提高ViT模型的吞吐量和實際訓練速度。使用Token Merging可以將訓練速度提高一倍。它可以用于圖像、視頻和音頻任務(wù)，并且仍然可以達到最先進的準確性。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3074

瀏覽量
48592
Meta

Meta

+關(guān)注

關(guān)注
0

文章
250

瀏覽量
11306
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
591

瀏覽量
13468

原文標題：加速ViT模型新思路！Meta推出Token Merging，不靠剪枝靠合并

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

Meta推出可自我評估AI模型

Meta近期宣布了一項重要的人工智能進展，即將發(fā)布一系列全新的人工智能模型。其中，一款能夠自我評估的模型尤為引人注目，這一創(chuàng)新有望顯著減少人工智能開發(fā)過程中的人類參與。

發(fā)表于 10-22 17:07 ?209次閱讀

聯(lián)想與Meta合作推出AI Now個人AI智能體

聯(lián)想集團近日在美國西雅圖舉辦了年度Tech World大會，會上聯(lián)想CEO楊元慶與Meta創(chuàng)始人兼CEO馬克?扎克伯格共同宣布了一項重要合作。雙方基于Meta的Llama大模型，推出了

發(fā)表于 10-17 16:58 ?419次閱讀

亞馬遜云科技上線Meta Llama 3.2模型

亞馬遜云科技近日宣布，Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態(tài)模型，現(xiàn)已在Amazon

發(fā)表于 10-11 18:08 ?368次閱讀

亞馬遜云科技正式上線Meta Llama 3.2模型

亞馬遜云科技宣布，Meta的新一代模型Llama 3.2，包括其首款多模態(tài)模型，現(xiàn)已在Amazon Bedrock和Amazon SageMaker中正式可用。

發(fā)表于 10-11 09:20 ?395次閱讀

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項重要技術(shù)突破，成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息，還實現(xiàn)了對圖像內(nèi)容的精準理解，標志著

發(fā)表于 09-27 11:44 ?324次閱讀

扎克伯格:Meta在AI方面的最新想法和動向

在2023年8月1日，眾多媒體紛紛報道，據(jù)稱在Meta于本周三舉行的財務(wù)報表講解電話會議上，CEO馬克·扎克伯格以及其他高層領(lǐng)導分享了關(guān)于Meta在人工智能領(lǐng)域的最新創(chuàng)新思路及行動方向。

發(fā)表于 08-01 16:53 ?461次閱讀

Meta發(fā)布全新開源大模型Llama 3.1

科技巨頭Meta近期震撼發(fā)布了其最新的開源人工智能（AI）模型——Llama 3.1，這一舉措標志著Meta在AI領(lǐng)域的又一重大突破。Meta創(chuàng)始人馬克·扎克伯格親自站臺，盛贊Llam

發(fā)表于 07-24 18:25 ?1358次閱讀

Meta不會在歐盟提供新的多模態(tài)AI模型

科技巨頭Meta近日宣布了一項重要決策，其即將推出的創(chuàng)新多模態(tài)Llama模型將不會在歐盟地區(qū)發(fā)布。這一決定背后，是Meta對歐洲復雜且不可預測的監(jiān)管環(huán)境的深刻考量，也為

發(fā)表于 07-19 16:04 ?432次閱讀

云知聲攜手耘途教育成立云知學院福建分院，探索智慧教育新思路

近日，云知聲與耘途教育聯(lián)合成立云知學院福建分院，深入探索智慧教育新模式、新思路。

發(fā)表于 05-11 15:52 ?470次閱讀

云知聲攜手耘途教育成立云知學院福建分院，探索智慧教育<b class='flag-5'>新思路</b>

愛芯元智推出邊端側(cè)智能SoCAX650N，讓視覺更智能

當前大模型蓬勃發(fā)展，OpenAI的Sora、ChatGPT、CLIP、DALL-E，Google的Gemini、ViT-22B，Meta的LLaMA3、DINO v2，

發(fā)表于 05-09 14:39 ?1301次閱讀

愛芯元智<b class='flag-5'>推出</b>邊端側(cè)智能SoCAX650N，讓視覺更智能

英特爾AI產(chǎn)品助力其運行Meta新一代大語言模型Meta Llama 3

英特爾豐富的AI產(chǎn)品——面向數(shù)據(jù)中心的至強處理器，邊緣處理器及AI PC等產(chǎn)品為開發(fā)者提供最新的優(yōu)化，助力其運行Meta新一代大語言模型Meta Llama 3

發(fā)表于 04-28 11:16 ?525次閱讀

Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT

Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT Facebook母公司Meta Platforms（META.US）

發(fā)表于 04-19 17:00 ?759次閱讀

Meta發(fā)布CodeLlama70B開源大模型

Meta發(fā)布CodeLlama70B開源大模型 Meta發(fā)布了開源大模型CodeLlama70B，號稱是CodeLlama系列體量最大、性能最強的大

發(fā)表于 01-31 10:30 ?1324次閱讀

Meta發(fā)布開源大模型Code Llama 70B

近日，Meta宣布推出了一款新的開源大模型Code Llama 70B，這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型

發(fā)表于 01-31 09:24 ?824次閱讀

Meta推出最新版AI代碼生成模型Code Llama70B

Meta近日宣布了其最新版本的AI代碼生成模型Code Llama70B，并稱其為“目前最大、最優(yōu)秀的模型”。這一更新標志著Meta在AI代碼生成領(lǐng)域的持續(xù)創(chuàng)新和進步。

發(fā)表于 01-30 18:21 ?1319次閱讀

搜索歷史

加速ViT模型新思路！Meta推出Token Merging

評論