0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

神經網絡超體?新國立LV lab提出全新網絡克隆技術

智能感知與物聯(lián)網技術研究所 ? 來源:智能感知與物聯(lián)網技術研 ? 2023-05-22 11:10 ? 次閱讀

神經網絡開發(fā)到 100% 會發(fā)生什么?神經網絡的究極形態(tài)又是什么?何為網絡超體?上述問題的答案可能可以在電影超體(Lucy)中找到。

在電影中,隨著女主角 Lucy 腦力的逐漸開發(fā),她獲得了以下能力:

10%:能夠控制身體的自主神經系統(tǒng),提高身體協(xié)調能力和反應速度。

30%:能夠預測未來并預測人們的行動,提高洞察力和判斷力。

50%:能夠通過感知周圍環(huán)境的微小變化來預測未來的變化。

70%:能夠控制身體和物體的運動,擁有超凡的運動和戰(zhàn)斗技能。

90%:能夠與宇宙和時間相連,擁有靈感和直覺的力量。

100%:能夠實現(xiàn)超自然的力量,超越了人類的認知極限。

在電影的結尾,女主逐漸消失并變成了一種純粹的能量形態(tài),最終消失在宇宙中,與宇宙和時間融為一體。人類超體的實現(xiàn)即為連通外界,以獲取無限值的能力。將此思想遷移到神經網絡域,若能建立與整個網絡的連通,即也可實現(xiàn)網絡超體, 理論上將獲得無邊界的預測能力。

即實體化的網絡必然會限制網絡性能的增長,而將目標網絡與 Model Zoo 進行連通,此時網絡不再具備實體,而是一種建立起網絡之間的連通超體形態(tài)。

a761f30c-f814-11ed-90ce-dac502259ad0.jpg

圖上:超體網絡和實體網絡的區(qū)別。超體網絡無實體,是一種網絡之間的連通形式

該網絡超體的思想在本文分享 CVPR 2023 論文《Partial Network Cloning》,中得以探索。在該論文中,新加坡國立大學LV lab提出一種全新的網絡克隆技術。

a784648c-f814-11ed-90ce-dac502259ad0.jpg

鏈接:https://arxiv.org/abs/2303.10597

01 問題定義

在該文中,作者提到利用該網絡克隆技術實現(xiàn)網絡去實體化可以帶來以下優(yōu)勢:

弱數(shù)據(jù)依賴:只需要部分修正數(shù)據(jù)對一些連接模塊進行修改

低訓練復雜度:僅需 fine-tune 一些連接模塊和任務預測模塊

低存儲需求:僅需存儲網絡的連通路徑,無需存儲整個網絡

可持續(xù)可恢復:連通路徑可增可減,不對 Model Zoo 進行任何修改

傳輸友好:在網絡傳輸時僅需傳輸連通路徑信息,無需對整個網絡傳輸

超體網絡的實現(xiàn)基礎為迅速擴張的 Model Zoo,海量預訓練模型可供使用。因此對于任意任務 T,我們總能找到一個或多個模型,使得這些已有模型的任務能組成成所需求任務。即:a79f36e0-f814-11ed-90ce-dac502259ad0.jpg(選擇了三個網絡進行連通)。

a7afdc5c-f814-11ed-90ce-dac502259ad0.jpg

如上圖所示,對于任務 T,為了構建對應的超體網絡 M_c , 本文提出以下的構建框架:

步驟一:定位最合適的本體網絡 M_t ,使得本體網絡 M_t 的任務集 T_t 與所需任務集 T 的交集 T?T_t 最大,此時本體網絡被設定為主網絡;

步驟二:選擇修正網絡 M_s^1 和 M_s^2,對本體網絡中缺失的部分任務進行補充;

步驟三:利用網絡克隆技術定位和連通部分修正網絡 M_s^1 和 M_s^2 至本體網絡 M_t;

步驟四:利用部分修正數(shù)據(jù)對網絡的連通模塊和預測模塊進行 fine-tune。

綜上所述,本文提出的構建網絡超體所需的網絡克隆技術可以被表示為:

a7cb2782-f814-11ed-90ce-dac502259ad0.jpg

其中 M_s 表示修正網絡集合,因此網絡超體的連通形式為一個本體網絡加上一個或若干個修正網絡,網絡克隆技術就是克隆所需要的部分修正網絡,嵌入至本體網絡中。

具體來說,本文提出的網絡克隆框架包括以下兩個技術要點:

a7e193c8-f814-11ed-90ce-dac502259ad0.jpg

對于包含有 P 個修正網絡的克隆,第一個技術要點為關鍵部分定位 Local (?)。由于修正網絡可能會含有與任務集 T 無關的任務信息,關鍵部分定位 Local (?) 的目標為定位修正網絡中與任務 T?T_s 相關的部位,定位參數(shù)用 M^ρ 表示,實現(xiàn)細節(jié)在第 2.1 小節(jié)中給出。第二個技術要點為網絡模塊嵌入 Insert (?),需選擇合適的網絡嵌入點 R^ρ 嵌入所有的修正網絡,實現(xiàn)細節(jié)在第 2.2 小節(jié)中給出。

02 方法總覽

在網絡克隆的方法部分,為了簡化敘述,我們設定修正網絡的數(shù)量 P=1(因此省略了修正網絡的上標 ρ),即我們連通一個本體網絡和一個修正網絡來搭建所需的超體網絡。

如上文所述,網絡克隆包含關鍵部分定位和網絡模塊嵌入。在這里,我們引入中間的可遷移模塊 M_f 用以輔助理解。即,網絡克隆技術在修正網絡中定位關鍵部位形成可遷移模塊 M_f,再將可遷移模塊通過軟連接嵌入至本體網絡 M_t。因此,網絡克隆技術的目標為定位和嵌入具有可遷移性和局部保真性的可遷移模塊。

a7f73764-f814-11ed-90ce-dac502259ad0.jpg

2.1 網絡關鍵部位定位

網絡關鍵部位定位的目標是學習選擇函數(shù) M,選擇函數(shù) M 在這里被定義為作用于網絡每一層 filter 的 mask。此時的可遷移模塊可以被表示為:

a80d8f46-f814-11ed-90ce-dac502259ad0.jpg

在上式中,我們將修正網絡 M_s 表示為 L 層,每一層表示為a8283a8a-f814-11ed-90ce-dac502259ad0.jpg。已知可遷移模塊的提取不對修正網絡做任何修改。

為了得到合適的可遷移模塊 M_f,我們定位修正網絡 M_s 中對最終預測結果做出最大貢獻的顯式部分。在此之前,考慮到神經網絡的黑盒特性,且我們只需要網絡的部分預測結果,因此我們利用 LIME 擬合修正網絡在所需任務的局部建模(具體細節(jié)請查看論文正文)。

局部建模結果用a8441cb4-f814-11ed-90ce-dac502259ad0.jpg來表示,其中 D_t 是所需的部分預測結果對應的訓練數(shù)據(jù)集(小于原始網絡的訓練集)。

因此選擇函數(shù) M 可以通過以下目標函數(shù)進行優(yōu)化:

a850fae2-f814-11ed-90ce-dac502259ad0.jpg

在該式中,定位的關鍵部分擬合局部建模的 G。

2.2 網絡模塊嵌入

在修正網絡中定位可遷移模塊 M_f 時,使用擇函數(shù) M 直接從 M_s 中提取,無需修改其權重。下一步是決定在本體網絡 M_t 中可遷移模塊 M_f 的嵌入位置,以獲得最佳的克隆性能。

網絡模塊的嵌入由位置參數(shù) R 控制。遵循大多數(shù)模型重用設置,網絡克隆將本體模型的前幾層保留為通用特征提取器,網絡嵌入過程被簡化為查找最佳嵌入位置(即在第 R 層嵌入可遷移模塊 M_f)。查找嵌入的過程可以表示為:

a85f55a6-f814-11ed-90ce-dac502259ad0.jpg

詳細的公式解釋請查詢正文??傮w來說,基于搜索的嵌入包括以下要點:

最佳位置參數(shù) R 搜索的過程從網絡的深層到淺層;

在第 R 層進行可遷移性模塊嵌入后的超體網絡a87813c0-f814-11ed-90ce-dac502259ad0.jpg后,還需額外引入嵌入位置的 Adapter A 和重新 finetune F_c 層(對于分類網絡來說),但兩者的參數(shù)量相較于整個 model zoo 可以忽略不計;

當從網絡的第 L-1 層至第 0 層建立起連接后,我們粗略的根據(jù)每一次 fine-tune 的 loss 收斂值估計嵌入的性能,選取最小收斂值點作為最終的網絡嵌入點。

03 網絡克隆技術的實際應用

本文提出的網絡克隆技術的核心為建立起預訓練網絡之間的連通路徑,不需要對預訓練網絡進行任何參數(shù)的修改,它除了可以用作搭建網絡超體的關鍵技術,也能被靈活的運用到各種實際場景中。

場景一:網絡克隆技術使得 Model Zoo 在線使用成為可能。在一些資源有限的情況下,用戶可以在不下載預訓練網絡到本地的情況下靈活地利用在線的 Model Zoo。

注意到克隆后的模型是由a885ce8e-f814-11ed-90ce-dac502259ad0.jpg確定的,其中 M_t ?和M_s 在整個過程中都是固定且不變的。模型克隆對預訓練模型上沒有進行任何修改,也沒有引入新模型。模型克隆使得 Model Zoo 中任何功能組合都成為可能,這也有助于維護 Model Zoo 的良好生態(tài)環(huán)境,因為建立連接使用 M 和 R 是一種簡單的 mask 和定位操作,易于撤銷。因此,提出的網絡克隆技術支持建立一個可持續(xù)的 Model Zoo 在線推理平臺。

場景二:經由網絡克隆生成的網絡具備更好的信息傳輸形式。當進行網絡傳輸時,該技術可以減少傳輸延遲和損失。

在進行網絡傳輸時,我們只需要傳輸集合a894dc9e-f814-11ed-90ce-dac502259ad0.jpg,結合公共 Model Zoo,接收方可以恢復出原始網絡。與整個克隆后的網絡相比,a8ac2bb0-f814-11ed-90ce-dac502259ad0.jpg非常小,因此可以減少傳輸延遲。如若 A 和 F_c 仍然存在一些傳輸損失,接收方可以通過在數(shù)據(jù)集上進行 fine-tune 來輕松修復。因此,網絡克隆為高效傳輸提供了一種新形式的網絡。

04 實驗結果

我們在分類任務上進行了實驗驗證。為了評估可遷移模塊的局部性能表征能力,我們引入了條件相似性指標:

a8c2fd40-f814-11ed-90ce-dac502259ad0.jpg

其中 Sim_cos (?) 表示余弦相似性。

a8d147ce-f814-11ed-90ce-dac502259ad0.jpg

上表中給出了在 MNIST,CIFAR-10,CIFAR-100 和 Tiny-ImageNet 上的實驗結果,可以看出網絡克隆(PNC)得到的模型的性能提升最為顯著。且若進行整個網絡的 fine-tune(PNC-F)并不會帶來網絡性能的提升,相反,它會增加模型的 bias。

a90860e2-f814-11ed-90ce-dac502259ad0.jpg

除此之外,我們對可遷移模塊的質量進行了評估(如上圖)。從圖(左)可以看出,從每個子數(shù)據(jù)集中學習的每個功能或多或少是相關的,這顯示出從修正網絡中提取和定位局部功能的重要性。對于可遷移模塊,我們計算其相似度 Sim (?)。圖(右)顯示,可遷移模塊與待克隆的子數(shù)據(jù)集在相似性上很高,其與其余子數(shù)據(jù)集的關系被削弱(非對角線區(qū)域用比源網絡的矩陣圖淺的顏色標記)。因此,可以得出結論,可遷移模塊成功地模擬了要克隆的任務集上的局部性能,證明了定位策略的正確性。

05 總結

本文研究了一種新的知識轉移任務,稱為部分網絡克?。≒NC),它以復制粘貼的方式從修正網絡中克隆參數(shù)模塊并將其嵌入到本體網絡中。與以往的知識轉移設置不同(它們依賴于更新網絡的參數(shù))我們的方法保證所有預訓練模型的參數(shù)不變。PNC 的技術核心為同時進行網絡關鍵部位定位和可遷移模塊嵌入操作,兩個步驟相互加強。

我們在多個數(shù)據(jù)集上展示了我們的方法在準確性和可遷移性指標的突出結果。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4726

    瀏覽量

    100315
  • 網絡
    +關注

    關注

    14

    文章

    7443

    瀏覽量

    88447
  • 數(shù)據(jù)集

    關注

    4

    文章

    1197

    瀏覽量

    24592

原文標題:CVPR 2023 | 神經網絡超體?新國立LV lab提出全新網絡克隆技術

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    神經網絡教程(李亞非)

      第1章 概述  1.1 人工神經網絡研究與發(fā)展  1.2 生物神經元  1.3 人工神經網絡的構成  第2章人工神經網絡基本模型  2.1 MP模型  2.2 感知器模型  2.3
    發(fā)表于 03-20 11:32

    神經網絡簡介

    神經網絡簡介
    發(fā)表于 08-05 21:01

    神經網絡基本介紹

    神經網絡基本介紹
    發(fā)表于 01-04 13:41

    全連接神經網絡和卷積神經網絡有什么區(qū)別

    全連接神經網絡和卷積神經網絡的區(qū)別
    發(fā)表于 06-06 14:21

    卷積神經網絡如何使用

    卷積神經網絡(CNN)究竟是什么,鑒于神經網絡在工程上經歷了曲折的歷史,您為什么還會在意它呢? 對于這些非常中肯的問題,我們似乎可以給出相對簡明的答案。
    發(fā)表于 07-17 07:21

    【案例分享】基于BP算法的前饋神經網絡

    傳播的,不會回流),區(qū)別于循環(huán)神經網絡RNN。BP算法(Back Propagation):誤差反向傳播算法,用于更新網絡中的權重。BP神經網絡思想:表面上:1. 數(shù)據(jù)信息的前向傳播,從輸入層到隱含層
    發(fā)表于 07-21 04:00

    【案例分享】ART神經網絡與SOM神經網絡

    今天學習了兩個神經網絡,分別是自適應諧振(ART)神經網絡與自組織映射(SOM)神經網絡。整體感覺不是很難,只不過一些最基礎的概念容易理解不清。首先ART神經網絡是競爭學習的一個代表,
    發(fā)表于 07-21 04:30

    人工神經網絡實現(xiàn)方法有哪些?

    人工神經網絡(Artificial Neural Network,ANN)是一種類似生物神經網絡的信息處理結構,它的提出是為了解決一些非線性,非平穩(wěn),復雜的實際問題。那有哪些辦法能實現(xiàn)人工神經
    發(fā)表于 08-01 08:06

    什么是LSTM神經網絡

    簡單理解LSTM神經網絡
    發(fā)表于 01-28 07:16

    如何構建神經網絡?

    原文鏈接:http://tecdat.cn/?p=5725 神經網絡是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預測的計算系統(tǒng)。如何構建神經網絡?神經網絡包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權重的層,以提高模型的預測
    發(fā)表于 07-12 08:02

    基于BP神經網絡的PID控制

    最近在學習電機的智能控制,上周學習了基于單神經元的PID控制,這周研究基于BP神經網絡的PID控制。神經網絡具有任意非線性表達能力,可以通過對系統(tǒng)性能的學習來實現(xiàn)具有最佳組合的PID控制。利用BP
    發(fā)表于 09-07 07:43

    卷積神經網絡模型發(fā)展及應用

    。神經網絡的思想起源于1943年McCulloch 和 Pitts 提出神經元模型[19],簡稱 MCP 神經元模 型。它是利用計算機來模擬人的
    發(fā)表于 08-02 10:39

    克隆技術介紹

    克隆技術,經歷了三個發(fā)展時期:第一個時期是微生物克隆,即用一個細菌很快復制出成千上萬個和它一模一樣的細菌,而變成一個細菌群;第二個時期是生物技術克隆,比如用遺傳基因――DNA
    發(fā)表于 08-12 15:44 ?1.2w次閱讀

    什么是模糊神經網絡_模糊神經網絡原理詳解

    模糊神經網絡就是模糊理論同神經網絡相結合的產物,它匯集了神經網絡與模糊理論的優(yōu)點,集學習、聯(lián)想、識別、信息處理于一。
    發(fā)表于 12-29 14:40 ?4.9w次閱讀
    什么是模糊<b class='flag-5'>神經網絡</b>_模糊<b class='flag-5'>神經網絡</b>原理詳解

    卷積神經網絡的介紹 什么是卷積神經網絡算法

    的深度學習算法。CNN模型最早被提出是為了處理圖像,其模型結構中包含卷積層、池化層和全連接層等關鍵技術,經過多個卷積層和池化層的處理,CNN可以提取出圖像中的特征信息,從而對圖像進行分類。 一、卷積神經網絡算法 卷積
    的頭像 發(fā)表于 08-21 16:49 ?1767次閱讀