中文区中文字幕免费看,野花日本大全免费观看10中文,免费无码中文字幕A级毛片

首發(fā)：GiantPandaCV
作者：ybai62868

【GiantPandaCV導語】

這篇文章為大家介紹了一下面向低功耗AI芯片上的神經網(wǎng)絡設計，隨著這幾年神經網(wǎng)絡和硬件（CPU,GPU,FPGA,ASIC）的迅猛發(fā)展，深度學習在包括互聯(lián)網(wǎng)，自動駕駛，金融，安防等很多行業(yè)都得到了廣泛的應用。然而當我們真正在實際部署深度學習應用的時候，許多場景例如無人駕駛對設備在功耗，成本，散熱性等方面都有額外的限制，導致了無法大規(guī)模應用深度學習解決方案。感興趣的同學可以了解一下有關如何面向AI芯片來設計神經網(wǎng)絡。

一、目前算法和硬件co-design的一個大背景

從硬件方面來看，我們都知道，深度神經網(wǎng)絡中的計算都是大量的稠密型運算。那么，當前的硬件發(fā)展其實已經很難滿足這些稠密型的運算需求了。那么，設計低功耗，低成本，高性能的硬件計算部署平臺就成為了當務之急。

對于算法來說，其實在某些公開的數(shù)據(jù)集上，已經有很多非常不錯的算法了，但是這些算法僅僅是針對特定數(shù)據(jù)集（瘋狂刷點...）而在真實的業(yè)務場景下，這些算法有時候就并不一定能表現(xiàn)的非常出色。這個時候，我們就要去設計那些不僅是針對一些public數(shù)據(jù)集能夠表現(xiàn)的比較comparable的，同時在一些特定的業(yè)務場景下，也要能夠表現(xiàn)令人滿意的算法。

二、當前AI芯片的發(fā)展狀況

總的來說，目前的硬件家族可以被分為兩個大類。

一大類是以通用需求為主的：CPU, GPU

另一大類以特殊用途為主的：FPGA, ASIC

先有一個大體的宏觀概念。然后在看看看算法和這些硬件是怎么結合的。

早期的代碼都是跑在CPU上的，比如說，我們知道的LeNet，那會GPU并不像現(xiàn)在這么盛行。直到ImageNet的冠軍Alex把網(wǎng)絡跑到了GPU上。這個時候，大家都開始使用GPU作為自己的訓練平臺。其實，CPU并不能非常高效的去運行我們需要的神經網(wǎng)絡。因為CPU的運行方式是以串行為主，并且CPU上有很多操作都是為了優(yōu)化多級緩存，更加偏向的是對于數(shù)據(jù)IO處理的的能力。而這些方面的設計對于神經網(wǎng)絡來說都是多余的。

那么，什么樣的硬件結構設計才能更加滿足神經網(wǎng)絡的特性呢？

其實，這個問題上，超哥講的很好。究竟什么樣的硬件結構更加適合神經網(wǎng)絡，還得從神經網(wǎng)絡自身的特性來分析。

就拿我們熟悉的全連接層來講，比如說，現(xiàn)在第i層的神經元和第i+1層的神經元之間是以全連接的方式溝通的，那么溝通每個神經元的運算實際上是非常簡單的乘法和加法。那么在網(wǎng)絡進行一次前向運算的過程中，硬件上能夠支持乘法和加法的運算單元越多，那么此時就能夠承載下更深的網(wǎng)絡。

對于同一層上的不同神經元來說，我們需要他們能夠相互獨立的完成各自的運算，從這點來看，神經網(wǎng)絡具有大規(guī)模的并行性。

不論是在網(wǎng)絡進行前向計算還是反向計算的過程中，都會產生很多的中間計算結果。而這些中間結果并不是每個都會被復用，要能放下在網(wǎng)絡運算過程中產生的中間結果，就需要我們的硬件有足夠的帶寬。對于一個理想的設備來說，它應該有比較大的片上存儲，并且?guī)捯惨銐?。這個時候，對于屬于的圖片信息（以視覺任務為主）和網(wǎng)絡的權重才能有足夠的空間來做存儲。就是說要它充分的利用片上資源，減少片外的訪存。

其實，在我們對一個網(wǎng)絡進行train和inference的過程中，網(wǎng)絡本身對于計算精度并沒有我們想象的那么敏感。那么，為了能夠存下更多的權重（deep的網(wǎng)絡），我們可以使用那些比較簡單的數(shù)據(jù)類型，比如說，int8，fp16。因此，這些年來，大家對于CPU+（GPU, FPGA, TPU, ASIC）這些硬件所組成的異構計算平臺。

第一種組合：CPU+GPU

其實，在我們平時做實驗，訓練模型的過程中，用的最多的就是CPU+GPU這樣的組合。

借助現(xiàn)有的非常成熟的深度學習框架（mxnet，pytorch，tensorflow等），我們就能非常方便和容易的完成開發(fā)。

優(yōu)點：編程容易，運算力和吞吐量大。

缺點：GPU的功耗高，延遲大，部署實際的AI產品，沒人會用服務器級別的GPU。

第二種組合：CPU+FPGA

這種組合方式的功耗相比CPU+GPU就要低很多。但是，對于FPGA的開發(fā)難度則會大很多。

優(yōu)點：功耗低，方便落地

缺點：編程開發(fā)難度大，需要學習專用的硬件語言來支持相應的設備

第三種組合：CPU+ASIC

ASIC指的的是按照產品需求不同而定制化的特殊規(guī)格集成電路，由特定使用者要求和特定電子系統(tǒng)的需要而設計，制造。也就是說，ASIC在特定功能上進行了專項強化，可以根據(jù)需要進行復雜的設計，從而實現(xiàn)更高的處理速度和更低的功耗。那么，ASIC的生產成本就會更高！

那么其實，可以對上面講的這些硬件進行一個歸類，CPU,GPU叫做通用性芯片。ASIC叫做定制化芯片，而FPGA叫做半定制化芯片。

Google的TPU就是采用了定制化芯片的設計。

其中TPUv1采用了大量的乘法單元，有256x256個8位乘法器。片上有28MB的緩存，能夠存儲網(wǎng)絡的參數(shù)和輸入。同時，TPU上的數(shù)據(jù)和指令

說白了，就是將訓練好的model拿來定點化做inference。

TPUv2支持了train的功能，并且也能夠使用fp進行訓練。

講了這三種組合，其實如果就拿inference來說，F(xiàn)PGA才是合適的硬件。

各種硬件用于前向推理的優(yōu)缺點

現(xiàn)在來看，要想設計一款適合深度神經網(wǎng)絡的芯片，我們需要其具備什么特性呢？

支持主流的視覺任務（inference），不僅僅要支持int8，還要支持fp。

high performance，low engergy，low cost

方便開發(fā)和支持主流的DL框架

這里要提的就是地平線自己設計的BPU，它也屬于ASIC的范疇。并且支持主流的CV任務。

BPU最大的特點就是設計了彈性的Tensor Core，它能夠將那些對于image來說所需要的op硬件化，這些op包括CNN中常見的（卷積，池化等），從而非常高效的去執(zhí)行這些操作。中間通過一個叫做數(shù)據(jù)路由橋（Data Routing Bridge）的結構從片上來讀取數(shù)據(jù)，負責數(shù)據(jù)的傳輸和調度。同時，整個數(shù)據(jù)存儲資源和計算資源都可以通過編輯器輸出的指令來執(zhí)行調度，從而方便實現(xiàn)各種算法，各種model的結構，和各種不同的任務。

三，如何從算法層面設計高效的神經網(wǎng)絡

從AI的解決方案來看存在兩種方式：

云端 AI

前端 AI

云端 AI 說的就是把我們的計算放在遠程服務器上去執(zhí)行，然后把最終的計算結果傳回本地，這就要求我們的設備時時刻刻聯(lián)網(wǎng)，并且存在很大的安全問題和計算傳輸延遲問題，也就是我們通常所說的通信代價。

前端 AI 說的就是設備本身就能進行運算，不需要聯(lián)網(wǎng)。那么在安全性，實時性，適用性方面都要勝過云端 AI 。但是，他們在功耗，計算，內存存儲等方面有很多受限。

其實關于AI 產品落地，還是回到上面硬件部分講過的內容，如何去尋求一套低功耗，高性能，低成本的解決方案。

這里拿IPC和TX2進行比較來說明這個問題。

IPC通過網(wǎng)線來供電，功耗非常低，只有12.5w，TX2的功耗是10-15w。TX2雖然在算力和計算成本方面都要勝過IPC，但是TX2的價位對于嵌入式的方案是不能接受的。。。

那么，要想做好前端AI方案（針對embedd AI）設備來說，我們就要在給定功耗（12.5w）和算力（IPC最大能力）的情況下，去優(yōu)化我們的算法和神經網(wǎng)絡模型，來達到符合場景落地的需要。

那么，說白了，我們最終加速網(wǎng)絡的目的就是，在網(wǎng)絡保持不錯性能的的前提下，盡量去降低計算代價和帶寬的需求。

關于網(wǎng)絡加速方面看songhan的，補。我在cs231n上學到的東西。

網(wǎng)絡量化，網(wǎng)絡剪枝，參數(shù)共享，蒸餾以及模型結構優(yōu)化。

在工業(yè)界，用的最多的就是網(wǎng)絡量化和模型結構化的方法。

下面重點來講講這些方法：

3.1 量化

量化其實說的就是離散化。將我們原先連續(xù)變化的量通過近似從而達到離散的目的。

神經網(wǎng)絡的量化，值得就是將原先用浮點數(shù)表示的情況改成用更低的bit，從而繼續(xù)完成原先浮點數(shù)能夠完成的訓練和測試。

前面再將神經網(wǎng)絡特性的時候，我們也提到了網(wǎng)絡本身對于計算精度并沒有我們想象的那么敏感。所以，比較常用的方法，就是用fp16代替fp32來做train和inference。

其實，使用fp16去訓練，有時候還能得到比fp32更好的精度。從ML的角度來看，量化網(wǎng)絡本身就是對數(shù)據(jù)集正則化的一種方式，可以增強模型的泛化能力，從而提高精度。

其實還可以進一步的用int8來取代fp16，這樣操作后，帶寬只有fp32的四分之一。

當然，如果你不擔心精度的損失，那么也可以使用4bit, 2bit, 1bit去代替int8。

神經網(wǎng)絡的量化其實可以分為：網(wǎng)絡權重的量化和網(wǎng)絡特征的量化。

網(wǎng)絡權重的量化對于最終的結果輸出損失比較小，而特征量化對最終的結果輸出損失就比較大。大模型和小模型對量化的敏感程度也不一樣，一般小模型會更加敏感。

關于量化想更深入的了解可以看一下下面的這些講解：

深度學習量化技術科普

Pytorch實現(xiàn)卷積神經網(wǎng)絡訓練量化（QAT）

MXNet實現(xiàn)卷積神經網(wǎng)絡訓練量化

深入了解NNIE量化技術

ICCV2019 高通Data-Free Quantization論文解讀

EasyQuant 后量化算法論文解讀

3.2 模型剪枝和參數(shù)共享

可以參考下面的講解：

如何讓你的YOLOV3模型更小更快？

YOLOV3剪枝方法匯總

深度學習算法優(yōu)化系列八 | VGG，ResNet，DenseNe模型剪枝代碼實戰(zhàn)

3.3 知識蒸餾

蒸餾的思想非常簡單，其實就是用一個小模型來取代一個大模型，從而使得小模型能夠實現(xiàn)大模型的效果。大模型在這里一般叫做Teacher Net，小模型叫做Student Net。從小模型到大模型的學習目標，包括最終的輸出層，網(wǎng)絡中間的特征結果，以及網(wǎng)絡的連接方案。

其實，知識蒸餾本質是一種transfer learning，比直接用小數(shù)據(jù)從頭開始訓練一個model要得到更好的效果。

3.4 低秩近似

可以參考：https://blog.csdn.net/kathrynlala/article/details/82943291

3.5 二值化/三值化網(wǎng)絡

可以參考下面的講解：

基于Pytorch構建一個可訓練的BNN

基于Pytorch構建三值化網(wǎng)絡TWN

低比特量化之XNOR-Net

低比特量化之DoreFa-Net理論與實踐

3.6 Winograd 變化

可以參考下面的講解：

詳解Winograd變換矩陣生成原理

詳解卷積中的Winograd加速算法

3.7 模型結構化

模型結構化其實是對模型加速最有效的一種方式。

那么關于模型結構優(yōu)化，又會涉及到很多的知識。

接下來，就要講講怎么去設計一個高效的神經網(wǎng)絡結構，它需要遵循一些基本原則。

從最初的AlexNet到現(xiàn)在的MobileNetv2，網(wǎng)絡的參數(shù)從最初的240MB降低到了35MB，

準確率從57%也提高了75%。那么，我們肯定是去設計小的模型結構從而完成相對于大模型難以完成的任務。那么在這個設計的過程中，會涉及哪些基本原則呢？

關于這些，超哥也講的非常到位，我也總結下：

小模型其實并不一定比大模型運行（inference）的快。

一個網(wǎng)絡計算量小，并不代表他就一定運行的快，因為運行速度還和帶寬有關，計算量僅僅是其中的一個因素。

那么，結合上面兩點，我們就能明白。一個好的，跑起來比較快的網(wǎng)絡結構。必須要衡量計算量和帶寬的需求。

4. 總結

總結下，如果要設計高效的神經網(wǎng)絡結構來部署到硬件平臺。那么我們應該盡可能的讓網(wǎng)絡中的operator去做并行化計算，同時減少這些operator對于帶寬的需求。

審核編輯黃昊宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經網(wǎng)絡

神經網(wǎng)絡

+關注

關注
42

文章
4726

瀏覽量
100311
人工智能

人工智能

+關注

關注
1789

文章
46348

瀏覽量
236508
AI芯片

AI芯片

+關注

關注
17

文章
1844

瀏覽量
34792

搜索歷史

面向低功耗AI芯片上的神經網(wǎng)絡設計介紹

評論

BP神經網(wǎng)絡和人工神經網(wǎng)絡的區(qū)別

rnn是遞歸神經網(wǎng)絡還是循環(huán)神經網(wǎng)絡

遞歸神經網(wǎng)絡與循環(huán)神經網(wǎng)絡一樣嗎

遞歸神經網(wǎng)絡是循環(huán)神經網(wǎng)絡嗎

循環(huán)神經網(wǎng)絡和卷積神經網(wǎng)絡的區(qū)別

深度神經網(wǎng)絡與基本神經網(wǎng)絡的區(qū)別

人工智能神經網(wǎng)絡芯片的介紹

神經網(wǎng)絡芯片與傳統(tǒng)芯片的區(qū)別和聯(lián)系

神經網(wǎng)絡芯片和普通芯片區(qū)別

反向傳播神經網(wǎng)絡和bp神經網(wǎng)絡的區(qū)別

bp神經網(wǎng)絡和卷積神經網(wǎng)絡區(qū)別是什么

卷積神經網(wǎng)絡的原理是什么

卷積神經網(wǎng)絡和bp神經網(wǎng)絡的區(qū)別

神經網(wǎng)絡架構有哪些

芯品#MAX78002 新型AI MCU，能夠使神經網(wǎng)絡以超低功耗運行