亚洲国产福利在线观看免费,欧美一区二区视频

DeepMind為視覺問題回答提出了一種新的硬注意力機制，它只保留了回答問題所需的少量視覺特征。減少需要處理的特征使得能夠訓練更大的關系模型，并在CLEVR上實現(xiàn)98.8％的準確率。

視覺注意力在許多方面都有助于人類的復雜視覺推理。例如，如果想要在一群人中認出一只狗的主人，人的視覺系統(tǒng)會自適應地分配更多的計算資源來處理與狗和可能的主人相關聯(lián)的視覺信息，而非場景中的其他信息。感知效果是非常明顯的，然而，注意力機制并不是計算機視覺領域的變革性力量，這可能是因為許多標準的計算機視覺任務，比如檢測、分割和分類，都沒有涉及有助于強化注意力機制的復雜推理。

要回答關于特定圖像的細節(jié)問題，這種任務就需要更復雜的推理模式。最近，用于解決視覺問答（Visual QA）任務的計算機視覺方法出現(xiàn)了迅速發(fā)展。成功的Visual QA架構必須能夠處理多個目標及其之間的復雜關系，同時還要整合豐富的背景知識，注意力已成為一種實現(xiàn)優(yōu)秀性能的、有前途的計算機視覺方面的策略。

我們發(fā)現(xiàn)，計算機視覺和機器學習中的注意力機制存在很大的區(qū)別，即軟注意力（soft attention）和硬注意力（hard attention）?，F(xiàn)有的注意力模型主要是基于soft attention的，所有信息在被聚合之前會以自適應的方式進行重新加權。這樣可以分離出重要信息，并避免這些信息受到不重要信息的干擾，從而提高準確性。隨著不同信息之間相互作用的復雜度的降低，學習就變得越有效。

圖1：我們使用給定的自然圖像和文本問題作為輸入，通過Visual QA架構輸出答案。該架構使用硬注意力（hard attention）機制，僅為任務選擇重要的視覺特征，進行進一步處理。我們的架構基于視覺特征的規(guī)范與其相關性相關的前提，那些具有高幅的特征向量對應的是包含重要語義內容的圖像區(qū)域。

相比之下，hard attention僅僅選擇一部分信息，對其進行進一步處理，這一方法現(xiàn)在已經得到越來越廣泛地使用。和soft attention機制一樣，hard attention也有可能通過將計算重點放在圖像中的重要部分來提高準確性和學習效率。但除此之外，hard attention的計算效率更高，因為它只對認為相關度最高的那部分信息做完全處理。

然而，在基于梯度的學習框架（如深度學習）中存在一個關鍵的缺點：因為選擇要處理的信息的過程是離散化的，因此也就是不可微分的，所以梯度不能反向傳播到選擇機制中來支持基于梯度的優(yōu)化。目前研究人員正在努力來解決視覺注意力、文本注意力，乃至更廣泛的機器學習領域內的這一缺點，這一領域的研究仍然非?；钴S。

本文中，我們探討了一種簡單的hard attention方法，它在卷積神經網絡（CNN）的特征表示中引發(fā)有趣的現(xiàn)象：對于hard attention選擇而言，已被學習過的特征通常是易于訪問的。特別是，選擇那些具有最大L2范數(shù)值的特征向量有助于hard attention方法的實現(xiàn)，并體現(xiàn)出性能和效率上的優(yōu)勢（見圖1）。這種注意力信號間接來自標準的監(jiān)督任務損失，并且不需要明確的監(jiān)督與對象存在、顯著性或其他可能有意義的相關指標。

硬注意力網絡和自適應硬注意力網絡

我們使用規(guī)范化的Visual QA pipeline，利用特征向量的L2-norms來選擇信息的子集，以進行進一步處理。第一個版本稱為硬注意力網絡（Hard Attention Network, HAN），它可以選擇固定數(shù)量的規(guī)范度最高的特征向量，對其對應的信息作進一步處理。

第二個版本稱為自適應硬注意力網絡（Adaptive Hard Attention Network ，AdaHAN），它會根據(jù)輸入選擇可變數(shù)量的特征向量。我們的實驗結果表明，在具有挑戰(zhàn)性的Visual QA任務中，我們的算法實際上可以勝過類似的soft attention架構。該方法還能生成可解釋的hard attention masks，其中與被選中特征相關的圖像區(qū)域通常包含在語義上有意義的信息。我們的模型在與非局部成對模型相結合時也表現(xiàn)出強大的性能。我們的算法通過成對的輸入特征進行計算，因此在特征圖中的規(guī)模與向量數(shù)量的平方成正比，這也突出了特征選擇的重要性。

方法

回答有關圖像的問題通常是根據(jù)預測模型制定的。這些結構將相對回答a的條件分布最大化，給定問題q和圖像x：

其中A是所有可能答案的可數(shù)集合。就像常見的問題-回答一樣，問題是一個單詞序列q = [q1，...，qn]，而輸出被簡化為一組常見答案之間的分類問題。我們用于從圖像和問題中學習映射的架構如圖2所示。

圖2：hard attention取代了常用的soft attention機制。

我們用CNN（在這個例子中是預訓練過的ResNet-101，或者從頭開始訓練的一個小型CNN）對圖像進行編碼，然后用LSTM將問題編碼成固定長度的向量表示。通過將問題表示復制到CNN的每個空間位置來計算組合表示，并將其與視覺特性連接在一起。

在經過幾層組合處理之后，我們將注意力放在了空間位置上，就跟應用soft attention機制的先前工作一樣。最后，我們使用sum-pooling或relational 模塊聚合特性。我們用一個對應答案類別的標準邏輯回歸損失來端到端地訓練整個網絡。

結果

為了說明對于Visual QA，hard attention的重要性，我們首先在VQA-CP v2上將HAN與現(xiàn)有的soft attention（SAN）架構進行比較，并通過直接控制卷積圖中注意空間單元的數(shù)量來探究不同程度的hard attention的影響。

然后，我們對AdaHAN進行了實驗，AdaHAN自適應地選擇了attended cell的數(shù)量。我們也簡要地研究了網絡深度和預訓練的影響。最后，我們給出了定性的結果，并提供了在CLEVR數(shù)據(jù)集上的結果，以說明該方法的通用性。

Hard Attention的效果

表1：不同數(shù)量的attended cell（整個輸入的百分比）和聚合操作的比較

結果顯示，有 hard attention下，相比沒有 hard attention，模型的性能得到了提報。

表2：不同的自適應hard-attention技術與平均參與數(shù)、以及聚合操作的比較

結果顯示，soft attention并不優(yōu)于基本的sum polling方法。我們的結果盡管比state-of-the-art略差，但這可能是由于實驗中未包含的一些架構決策，例如不同類型問題的分離路徑，特殊問題嵌入和使用問題提取器（ question extractor）。

Adaptive hard attention

表3：不同數(shù)量的attended cells 占整個輸入的百分比

結果顯示，即使是以非常簡單的方法來適應圖像和問題，也可以導致計算和性能的提高，這表明更復雜的方法將是未來工作的重要方向。

CLEVR數(shù)據(jù)集上的表現(xiàn)

圖3： hard attention機制的不同變體與不同聚合方法之間的定性比較。綠色表示正確答案，紅色表示不正確，橙色表示和人類的答案之間的存在部分共識。這張圖說明了不同方法的優(yōu)點。

圖4：我AdaHAN +成pairwise的其他結果。圖中，被注意的區(qū)域突出顯示，不被注意的區(qū)域則用暗色表示。綠色表示正確，紅色不正確的答案。橙色表示存在部分共識。

表4：在CLEVR上的準確率

由于hard-attention，我們能夠訓練更大的模型，我們稱之為HAN + sum?，HAN + RN?，以及HAN + RN??。這些模型使用更大的CNN和LSTM，而且HAN + RN??還使用更高的輸入分辨率。模型在CLEVR上的準確率分別達到94.7%、96.9%和98.8%。

總結

我們在計算機視覺領域引入了一種新的方法，可以選擇特征向量的子集，以便根據(jù)它們的大小進行進一步處理。我們研究了兩個模型，其中一個模型（HAN）會選擇數(shù)目預先確定的向量的子集，另一個模型（AdaHAN）則自適應地選擇子集規(guī)模作為輸入的函數(shù)?，F(xiàn)有文獻中經常避免提到hard attention，因為它不可微分，對基于梯度的方法提出了挑戰(zhàn)。但是，我們發(fā)現(xiàn)特征向量的大小與相關信息有關，hard attention機制可以利用這個屬性來進行選擇。

結果顯示，HAN和AdaHAN方法在具有挑戰(zhàn)性的Visual QA數(shù)據(jù)集上的表現(xiàn)具備很強的競爭力。我們的方法至少和更常見的soft attention方法的表現(xiàn)一樣好，同時還提升了計算的效率。hard attention方法對于越來越常見的non-local方法而言尤其重要，這類方法通常需要的計算量和存儲器數(shù)量與輸入向量的平方成正比。最后，我們的方法還提供了可解釋的表示，因為這種方法所選擇的特征的空間位置與圖像中最重要的部分構成最強的相關性。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4722

瀏覽量
100306
計算機視覺

計算機視覺

+關注

關注
8

文章
1688

瀏覽量
45869
機器學習

機器學習

+關注

關注
66

文章
8319

瀏覽量
132164

原文標題：DeepMind提出視覺問題回答新模型，CLEVR準確率達98.8％

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

基于注意力機制的用戶行為建模框架及其在推薦領域的應用

摘要本文提出一種基于注意力機制的用戶異構行為序列的建?？蚣?，并將其應用到推薦場景中。

發(fā)表于 01-25 17:59 ?4743次閱讀

基于<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的用戶行為建?？蚣芗捌湓谕扑]領域的應用

一種通過引入硬注意力機制來引導學習視覺回答任務的研究

此外，通過對特征向量的 L2 正則化處理來選擇重要性特征，我們的視覺問答框架進一步采用硬注意力機制進行增強。我們將最初的版本成為

發(fā)表于 10-04 09:23 ?5402次閱讀

深度分析NLP中的注意力機制

注意力機制越發(fā)頻繁的出現(xiàn)在文獻中，因此對注意力機制的學習、掌握與應用顯得十分重要。本文便對注意力機制

發(fā)表于 02-17 09:18 ?3793次閱讀

注意力機制的誕生、方法及幾種常見模型

簡而言之，深度學習中的注意力機制可以被廣義地定義為一個描述重要性的權重向量：通過這個權重向量為了預測或者推斷一個元素，比如圖像中的某個像素或

發(fā)表于 03-12 09:49 ?4.1w次閱讀

基于注意力機制的深度學習模型AT-DPCNN

情感分析是自然語言處理領域的一個重要分支，卷積神經網絡（CNN）在文本情感分析方面取得了較好的效果，但其未充分提取文本信息中的關鍵情感信息。為此，建立一種基于注意力機制的深度學習模型A

發(fā)表于 03-17 09:53 ?12次下載

基于通道注意力機制的SSD目標檢測算法

為提升原始SSD算法的小目標檢測精度及魯棒性，提出一種基于通道注意力機制的SSD目標檢測算法。在原始SSD算法的基礎上對高層特征圖進行全局池

發(fā)表于 03-25 11:04 ?20次下載

一種注意力增強的自然語言推理模型aESIM

在自然語言處理任務中使用注意力機制可準確衡量單詞重要度。為此，提出一種注意力增強的自然語言推理模型aESM。將詞

發(fā)表于 03-25 11:34 ?9次下載

結合注意力機制的跨域服裝檢索方法

針對跨域服裝檢索中服裝商品圖像拍攝嚴格約束光照、背景等條件，而用戶圖像源自復雜多變的日常生活場景，難以避免背景干擾以及視角、姿態(tài)引起的服裝形變等問題。提出一種結合注意力機制的跨域服裝檢

發(fā)表于 05-12 14:19 ?2次下載

基于注意力機制等的社交網絡熱度預測模型

基于注意力機制等的社交網絡熱度預測模型

發(fā)表于 06-07 15:12 ?14次下載

基于多通道自注意力機制的電子病歷架構

基于多通道自注意力機制的電子病歷架構

發(fā)表于 06-24 16:19 ?75次下載

基于注意力機制的跨域服裝檢索方法綜述

基于注意力機制的跨域服裝檢索方法綜述

發(fā)表于 06-27 10:33 ?2次下載

基于注意力機制的新聞文本分類模型

基于注意力機制的新聞文本分類模型

發(fā)表于 06-27 15:32 ?30次下載

計算機視覺中的注意力機制

計算機視覺中的注意力機制卷積神經網絡中常用的Attention 參考 注意力機制簡介與分類 注意力

發(fā)表于 05-22 09:46 ?0次下載

一種新的深度注意力算法

本文簡介了一種新的深度注意力算法，即深度殘差收縮網絡（Deep Residual Shrinkage Network）。從功能上講，深度殘差收縮網絡是一種面向強噪聲或者高度冗余數(shù)據(jù)的特征學習方法

發(fā)表于 05-24 16:28 ?0次下載

基于YOLOv5s基礎上實現(xiàn)五種視覺注意力模塊的改進

基礎上實現(xiàn)五種視覺注意力模塊的改進，然后訓練相同的輪次，橫向比較模型的精度。 YOLOv5添加注意模塊魔改 ?視覺

發(fā)表于 06-02 14:52 ?1428次閱讀