国产AV一区二区精品凹凸,国产偷闻女邻居内裤在线观看

來自北京郵電大學(xué)的研究人員開發(fā)了一種AI模型壓縮算法，可以讓深度學(xué)習(xí)的運算不再依賴高昂的計算和存儲設(shè)備，保持模型的識別精度無損的前提下，顯著降低模型的計算復(fù)雜度，本文帶來技術(shù)解讀。

人工智能在眾多計算機視覺領(lǐng)域都取得了很大的成功，然而深度學(xué)習(xí)（Deep Learning）因其計算復(fù)雜度或參數(shù)冗余，在一些場景和設(shè)備上限制了相應(yīng)的模型部署，需要借助模型壓縮、優(yōu)化加速、異構(gòu)計算等方法突破瓶頸。

研究人員稱，模型壓縮算法能夠有效降低參數(shù)冗余，從而減少存儲占用、通信帶寬和計算復(fù)雜度，有助于深度學(xué)習(xí)的應(yīng)用部署。通道剪枝（Channel Pruning）通過移除神經(jīng)網(wǎng)絡(luò)中冗余通道，達到加速神經(jīng)網(wǎng)絡(luò)推理過程和壓縮模型體積的效果，還可以獲得實際的加速效果，然而當(dāng)前基于結(jié)構(gòu)正則化的通道剪枝方法忽略了神經(jīng)網(wǎng)絡(luò)中連續(xù)層之間的關(guān)聯(lián)關(guān)系。

人工智能領(lǐng)域頂會CVPR于2019年6月在美國加利福利亞州召開，在這篇由北京郵電大學(xué)網(wǎng)絡(luò)智能研究中心、東信北郵EB Lab合作完成的論文中，作者考慮了網(wǎng)絡(luò)中連續(xù)層之間的關(guān)聯(lián)關(guān)系，提出了OICSR方法，將結(jié)構(gòu)正則化同時運用于連續(xù)網(wǎng)絡(luò)層中相互對應(yīng)的out-channels和in-channels，從而可以在更小的精度損失下，移除更多的冗余通道。在對指標(biāo)影響較小的情況下，極大地提升深度學(xué)習(xí)模型的運行效率。以下為論文詳細(xì)解讀。

基于Out-In-Channel結(jié)構(gòu)稀疏正則化的神經(jīng)網(wǎng)絡(luò)通道剪枝

李家仕，戚琦，王敬宇+，戈策，李鈺劍，岳章章，孫海峰

1，網(wǎng)絡(luò)與交換國家重點實驗室，北京郵電大學(xué)

2，東信北郵信息技術(shù)有限公司

一種新的結(jié)構(gòu)正則化形式

人工智能在眾多計算機視覺領(lǐng)域都取得了很大的成功，然而深度學(xué)習(xí)高昂的計算和存儲需求嚴(yán)重阻礙了其被大規(guī)模地部署于移動設(shè)備和嵌入式裝置。通道剪枝（Channel Pruning）是一類很經(jīng)典的網(wǎng)絡(luò)輕量化方法，通過移除神經(jīng)網(wǎng)絡(luò)中冗余通道的全部可訓(xùn)練參數(shù)和激活值，可以同時達到加速神經(jīng)網(wǎng)絡(luò)推理過程和壓縮模型體積的效果。由于對神經(jīng)網(wǎng)絡(luò)進行通道剪枝后獲得的是結(jié)構(gòu)化稀疏的網(wǎng)絡(luò)，因此不需要特殊的硬件支持就可以獲得實際的加速效果。

目前很多網(wǎng)絡(luò)輕量化的工作[1,2,3]利用結(jié)構(gòu)稀疏正則化（下文簡稱為結(jié)構(gòu)正則化）來對神經(jīng)網(wǎng)絡(luò)進行通道剪枝。如公式1所示，這類方法通過在訓(xùn)練過程中加入結(jié)構(gòu)正則化來對網(wǎng)絡(luò)權(quán)重進行結(jié)構(gòu)化約束，使得訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)不同通道的重要性分離開來。在剪枝過程中，網(wǎng)絡(luò)中重要的通道得以繼續(xù)保存，而更多冗余的通道可以在不損失網(wǎng)絡(luò)精度的情況下被安全的移除。

然而當(dāng)前基于結(jié)構(gòu)正則化的通道剪枝方法將結(jié)構(gòu)正則化分離地應(yīng)用于神經(jīng)網(wǎng)絡(luò)中的各個層的out-channels，忽略了神經(jīng)網(wǎng)絡(luò)中連續(xù)層之間的關(guān)聯(lián)關(guān)系，本研究稱之為分離式的結(jié)構(gòu)正則化。

本研究提出了一種新的結(jié)構(gòu)正則化形式Out-In-Channel Sparsity Regularization (OICSR)來克服分離式結(jié)構(gòu)正則化的缺陷。OICSR充分考慮了網(wǎng)絡(luò)中連續(xù)層之間的關(guān)聯(lián)關(guān)系，將結(jié)構(gòu)正則化同時運用于連續(xù)網(wǎng)絡(luò)層中相互對應(yīng)的out-channels和in-channels，從而可以在更小的精度損失下移除更多的冗余通道。

Out-In-Channel結(jié)構(gòu)稀疏正則化

連續(xù)兩層網(wǎng)絡(luò)的關(guān)聯(lián)關(guān)系如圖1所示，本研究用相同的顏色來標(biāo)識連續(xù)層之間相互對應(yīng)的out-channel和in-channel。

連續(xù)兩層網(wǎng)絡(luò)中相互對應(yīng)的輸入輸出通道在網(wǎng)絡(luò)運行過程中是相互合作相互依賴的，第l層的輸入與第l層中第i個out-channel的權(quán)重向量共同生成第l層的第i個輸出特征圖，緊接著第l層的第i個輸出特征圖和第l+1層中第i個in-channel的權(quán)重向量共同生成第l+1層的輸出。

除此之外，在網(wǎng)絡(luò)通道剪枝過程中連續(xù)層之間對應(yīng)的out-channel和in-channel會被共同保留或者移除。所以,有理由認(rèn)為在剪枝工作中，連續(xù)層之間對應(yīng)的out-channels和in-channels應(yīng)該被共同且平等地考慮。

圖1 連續(xù)層網(wǎng)絡(luò)的關(guān)聯(lián)關(guān)系及Out-In-Channel的定義

分離式結(jié)構(gòu)正則化的缺陷在于僅僅使得第l層網(wǎng)絡(luò)的out-channels維度的重要程度分離開來，然而第l+1層中對應(yīng)的in-channels卻被忽略了。存在這樣的情況，第l層網(wǎng)絡(luò)的第i個out-channel因為分離式結(jié)構(gòu)正則化，在訓(xùn)練過程變得冗余，因此在通道剪枝過程中被移除。然而被同時移除的l+1層網(wǎng)絡(luò)中對應(yīng)的第i個in-channel可能還是相對重要的，這時網(wǎng)絡(luò)的能力和精度就被嚴(yán)重的破壞了。

本研究因此提出在應(yīng)用結(jié)構(gòu)正則化進行剪枝時，應(yīng)將連續(xù)層之間對應(yīng)的out-channel和in-channel當(dāng)成一個正則化組out-in-channel來進行結(jié)構(gòu)化約束。在網(wǎng)絡(luò)訓(xùn)練過程中，帶有OICSR的優(yōu)化目標(biāo)如公式2和公式3所示:

其中的符號‘+’表示對第l層和第l+1層中對應(yīng)輸入輸出通道的權(quán)重向量進行拼接，從而可以對同一個out-in-channel正則化組內(nèi)的權(quán)重向量進行結(jié)構(gòu)化約束。不同于分離式結(jié)構(gòu)正則化，OICSR可以使得神經(jīng)網(wǎng)絡(luò)中out-in-channels的重要性分離開來，也就是說，對于連續(xù)網(wǎng)絡(luò)層中共同作用相互對應(yīng)的out-channels和in-channels，它們將會同時變得重要或者同時變得冗余。因此在對網(wǎng)絡(luò)進行剪枝時，可以在更小的精度損失下，移除更多冗余的out-in-channels.

OICSR是一種通用的結(jié)構(gòu)正則化形式，很多結(jié)構(gòu)正則化項GroupLasso [4], GrOWL regularization [5]等都可以拓展OICSR的形式。例如Group Lasso拓展成OICSR的形式如公式4所示：

通道剪枝框架

圖2 迭代剪枝流程

本研究的迭代剪枝流程如圖2所示。在通道剪枝過程中，涉及到冗余通道選取的問題。當(dāng)前的很多工作僅僅使用第l層的統(tǒng)計信息來選擇第l層和第l+1層之間的冗余通道，然而第l+1層中的統(tǒng)計信息又被忽略了。沿用out-in-channel的思想，認(rèn)為應(yīng)當(dāng)同時利用連續(xù)兩層網(wǎng)絡(luò)的統(tǒng)計信息來選取兩層網(wǎng)絡(luò)間冗余的out-in-channels。為了簡潔性表示，本研究使用了通道能量（當(dāng)然也很有效果）作為通道重要性的評判標(biāo)準(zhǔn)，通道重要性準(zhǔn)則如公式5所示：

實際上神經(jīng)網(wǎng)絡(luò)中每一層的冗余程度都不同，當(dāng)前的很多工作為每一層網(wǎng)絡(luò)設(shè)定均等的剪枝比例或者根據(jù)經(jīng)驗人為地設(shè)定剪枝比例是不夠合理的。因此本研究提出一個全局貪婪剪枝算法(Algorithm 1)，來全局地決定每一層網(wǎng)絡(luò)的剪枝比例。首先根據(jù)公式8計算出網(wǎng)絡(luò)中全部out-in-channels的通道能量，接著對這些通道能量進行全局排序，最后根據(jù)預(yù)先設(shè)定的全局目標(biāo)剪枝比例，來貪婪地選取網(wǎng)絡(luò)中的冗余通道，最后每層的剪枝比例因此也被確定下來。

全局貪婪剪枝算法

實驗結(jié)果

在實驗階段將Group Lasso拓展為OICSR的形式（OICSR-GL），并使用AlexNet, ResNet, DenseNet 與 SeNet等網(wǎng)絡(luò)架構(gòu)在CIFAR-10/100和ImageNet-1K數(shù)據(jù)集上驗證OICSR的有效性。OICSR-GL將和一下的baseline作對比：

（1）L2. 在網(wǎng)絡(luò)訓(xùn)練過程中只使用L2正則項，而不適用結(jié)構(gòu)正則項

(2)GL. Group Lasso的原始形式，分離地被應(yīng)用于網(wǎng)絡(luò)各層的out-channels.

（3）L1-BN [3]. L1-BN使用L1 regularization對BN層的scale因子進行約束，是另一種形式的結(jié)構(gòu)正則化。

圖3 使用不同正則化約束進行網(wǎng)絡(luò)訓(xùn)練后的通道能量分布圖

首先可視化了使用不同正則化約束進行訓(xùn)練后神經(jīng)網(wǎng)絡(luò)內(nèi)通道能量 (通道能量定義為公式5) 的分布圖。ResNet-56網(wǎng)絡(luò) (on CIFAR-100 dataset) 內(nèi)layer4.2.conv1和layer4.2.conv2之間的通道能量分布如圖3所示，縱軸表示通道能量的高低，橫軸表示通道的坐標(biāo)。相比于非結(jié)構(gòu)正則化L2和分離式結(jié)構(gòu)正則化GL, OICSR-GL顯然能更大程度的分離通道間的重要程度，故更多的冗余通道能被安全的移除。

圖4 通道剪枝后，重訓(xùn)練前的網(wǎng)絡(luò)精度對比

接著論文展示了使用OICSR-GL及其baselines對網(wǎng)絡(luò)進行通道剪枝后，進行重訓(xùn)練之前的網(wǎng)絡(luò)精度。剪枝后剩余的網(wǎng)絡(luò)參數(shù)/精度可以看成網(wǎng)絡(luò)重訓(xùn)練的初始點，好的網(wǎng)絡(luò)初始點可以使得網(wǎng)絡(luò)重訓(xùn)練后的精度更高。如圖3所示，在相同的FLOPs剪枝比例下，OICSR-GL在不同的網(wǎng)絡(luò)架構(gòu)上下均能保存更多的網(wǎng)絡(luò)精度。

最后和其他的state-of-the-art通道剪枝方法在ResNet-50 ImageNet-1K上做了對比，如表1所示，在不同的FLOPs剪枝比例下，本研究的方法均優(yōu)于目前最好的工作。

表1 在ResNet-50(ImageNet-1K dataset)和當(dāng)前state-of-the-art

通道剪枝方法的對比結(jié)果

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4727

瀏覽量
100345
算法

算法

+關(guān)注

關(guān)注
23

文章
4580

瀏覽量
92369
AI

AI

+關(guān)注

關(guān)注
87

文章
29438

瀏覽量
267770