亚洲中文字无码,国产精品久久久久久久久

前言

做深度學習加速器已經兩年了，從RTL設計到仿真驗證，以及相應的去了解了Linux驅動，深度學習壓縮方法等等。今天來捋一捋AI加速器都涉及到哪些領域，需要哪些方面的知識?？梢杂糜贏I加速器的主要有三種不同架構的器件種類：CPU，GPU，AI芯片/FPGA。CPU是一個通用架構芯片，其計算能力和數(shù)據(jù)帶寬相對受到限制，面對大計算量的深度學習就顯露出其缺點了。GPU含有大量的計算陣列，可以適用于大規(guī)模運算，而且其生態(tài)較為成熟和完整，所以現(xiàn)在包攬了所有的深度學習訓練和絕大部分深度學習推理。要說有沒有缺陷，經常被拿來比較的就是其功耗較大，而且并不是完全針對于深度學習網(wǎng)絡的結構，所以還并不能完全利用其計算和存儲資源。為了更有針對性的加速深度學習網(wǎng)絡，AI芯片（FPGA）近兩年也出現(xiàn)了。Intel、阿里平頭哥、騰訊、百度等都開始設計自己的AI加速芯片，使用FPGA的有賽靈思、曠視科技等。FPGA用于深度學習加速和AI芯片的架構具有通用性，兩者可以看做相同架構，只是用于不同硬件器件。而且通常AI芯片的前期驗證也是用FPGA完成的。這篇文章就捋一捋FPGA在做深度學習加速時需要的技能。

1. 一張圖

AI加速是一個同時涉及到軟件和硬件的領域，下面一張簡單的圖羅列了AI加速器所有知識。

FPGA做深度學習加速的技能總結

2. RTL

RTL部分設計主要考慮到以下幾個方面：
1）考察神經網(wǎng)絡每個部分的計算量和參數(shù)數(shù)據(jù)，選擇適合在FPGA上進行加速的部分。比如對于CNN網(wǎng)絡，卷積運算占據(jù)整個網(wǎng)絡的絕大部分計算，因此會占據(jù)FPGA中的絕大部分DSP資源。但是在卷積運算之間還存在激活函數(shù)、歸一化等操作，這些雖然計算量不大，但是會對整個加速形成瓶頸，因此如何能夠與卷積運算形成流水對性能影響也很大；

2）設計加速算法。只要考慮好這兩點就解決了主要問題：一個是計算資源利用率，另外一個是miss ratio。計算資源利用率包括FPGA上空間資源利用率，還包括計算資源的時間利用率?？臻g利用率越高，說明算力越高，時間利用率越高表明有效計算越高，加速效果越好。Miss ratio反映了片上cache存儲的參數(shù)是否能夠及時供給計算使用。如果能及時供給使用，那么從片外加載數(shù)據(jù)的時間就可以被壓縮。

3）架構的通用性?；旧霞軜嫸际腔谥噶罴模噶罴饕罁?jù)加速器的計算核來定義的，算是復雜指令集。一個指令包含了參數(shù)的存儲位置，需要數(shù)量，計算方式等等。由于深度網(wǎng)絡操作數(shù)量比較單一，比如LSTM基本上就包括矩陣乘法、加法、向量乘法、激活等。大概也就有不超過10個指令就能涵蓋一個LSTM網(wǎng)絡了。為了適配這樣的指令，架構大概包含以下結構：

外部總線：主要用于和外部ddr進行數(shù)據(jù)交互。

內部存儲：儲存要用到的參數(shù)和數(shù)據(jù)，及時供給計算核。Cache緩存是為了解決讀取DDR帶寬瓶頸問題。

指令解析：獲取指令進行解析，發(fā)送給相應模塊進行處理。

內部總線：為每個計算核提供數(shù)據(jù)讀寫通路。

計算核：張量計算核，用于加速神經網(wǎng)絡計算。

計算核互聯(lián)線：實現(xiàn)不同計算核之間的直接互聯(lián)，可以實現(xiàn)不同計算核的pipeline。

Batch：包含了計算核、指令解析、計算核互聯(lián)線等。當然如果內部cache并不是用的很多，一個batch也可以包含有內部cache。這些batch實際上可以看做神經網(wǎng)絡運行的線程，多個batch就支持多線程神經網(wǎng)絡計算。比如一個LSTM網(wǎng)絡可以在有batch=2的硬件上同時進行兩個句子的運算。

線程控制：用于控制多batch操作。

3. 驗證

驗證主要包括兩個方面，一個是對指令集正確性進行驗證，另外一個是對RTL代碼進行仿真。指令集的驗證需要有一個CMODEL來對編譯器生成指令的正確性進行校驗，校驗準確才能夠給硬件使用。因為仿真環(huán)境也需要隨機化指令來對RTL代碼進行校驗，所以cmodel也會用于仿真環(huán)境中。我以UVM為例來說明，其基本結構如下：

指令隨機化：對指令進行約束，生成隨機指令；

指令驅動：將指令轉換成文件，提供給cmodel，以及初始化到ddr文件中；

參數(shù)隨機化：隨機化權重等參數(shù)；

參數(shù)驅動：將參數(shù)初始化為ddr文件；

AXI驅動：這個包含AXI讀寫ddr文件的驅動，用于和DUT進行交互；

Monitor：監(jiān)測DUT行為，和cmodel的數(shù)據(jù)進行對比；

FPGA做深度學習加速的技能總結

4. 驅動

驅動主要是完成ddr的初始化，線程控制的配置以及中斷響應等。首先將權重等參數(shù)初始化到ddr中，然后通過axi總線配置FPGA的寄存器，同時對FPGA產生的中斷進行響應。獲取ddr中結果數(shù)據(jù)等。一般如zynq等SoC器件，因為集成了arm核，所以驅動相對簡單。如果軟件端在服務器，那么還需要PCIE等驅動來支持和服務器的交互。以SoC器件為例，linux驅動正常工作需要以下步驟：
1. 制作RTL硬件工程，生成bit文件和hardware配置文件；

2. 利用SDK生成fsbl文件，這個主要完成對zynq器件的一些基本硬件配置；

3. 制作linux的uboot、kernel、devicetree等文件；

4. 用fsbl、bit、uboot、kernel、devicetree制作boot.bin；

5. 選擇linux文件系統(tǒng)，如linaro等。制作SD卡鏡像，燒寫到SD卡中，啟動SoC器件；

5. 編譯器

編譯器主要能夠根據(jù)深度學習模型來生成指令，并優(yōu)化指令。以TVM為例，它基于計算圖，對接市場上主流的深度學習框架：tensorflow、pytorch等，將這些模型進行計算圖的轉化，然后基于這些計算圖來進行圖的優(yōu)化和指令優(yōu)化。TVM目標是通用性，所以其兼容CPU、GPU、TPU，同時還要對接更多的深度學習框架。所以其很龐大。針對FPGA自身的AI加速器，可以以這個為借鑒，開發(fā)自己的compiler。同時依據(jù)自身硬件特點進行指令的優(yōu)化。

計算圖是基本很多編譯器采用的圖結構，其貫穿了指令優(yōu)化和生成始終。計算圖中的節(jié)點包含了數(shù)據(jù)信息和相應操作。這些節(jié)點相互連接形成了一個網(wǎng)絡計算的依賴關系。計算圖是一個基于tensor操作的圖，它并不像通用CPU編譯器的細化的標量操作。因為FPGA加速器中計算核一般都是張量操作。這是和CPU不同的。而且這樣的計算圖也相對簡潔。

一個張量操作的實現(xiàn)有很多可能，因為依據(jù)數(shù)據(jù)之間的依賴關系和維度大小，可以對張量運算進行分解為多步操作。這些分解有很多。因此優(yōu)化一個計算圖就會面臨很多這樣可能的步驟。這被稱為schedule，優(yōu)化就是在這些schedule空間中找出最優(yōu)的那個順序。TVM中提出了一個基于機器學習模型的優(yōu)化方法，去搜尋schedule空間，找到最適于硬件的圖。然后生成指令。

6. 模型壓縮

模型壓縮有很多方法，根據(jù)壓縮目標主要包括量化和剪枝。量化就是將浮點定點化，剪枝就是去除一些冗余的連接或者數(shù)據(jù)。從一些文獻調研的結果有以下一些方式：

1）二值化網(wǎng)絡；

2）向量壓縮方法；

3）知識蒸餾；

4） CP分解；

5）降維分解；

6）深度壓縮；

7）自動化搜索空間；

7. 軟件部署

因為FPGA并不適合加速神經網(wǎng)絡的所有部分或者還沒有相應IP來加速一些模塊，那么這些操作就會放在CPU上進行，比如對于LSTM網(wǎng)絡，前邊的embedding層還有后端的softmax或者類別生成。這些都更適合在CPU上做。因此軟件部署來調用FPGA硬核IP，和FPGA進行交互。同時還有一些數(shù)據(jù)準備、打印等操作，客戶展示。這些都是軟件部署要做的。

總結

一個AI加速涉及到了算法、軟件、驅動、硬件方面，因此通常做AI加速的團隊都比較龐大，包含了算法到硬件的各種人才。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

FPGA

FPGA

+關注

關注
1624

文章
21539

瀏覽量
600505
AI

AI

+關注

關注
87

文章
29382

瀏覽量
267664
深度學習

深度學習

+關注

關注
73

文章
5437

瀏覽量
120791

AI大模型與深度學習的關系

AI大模型與深度學習之間存在著密不可分的關系，它們互為促進，相輔相成。以下是對兩者關系的介紹：一、深度學習是AI大模型的基礎技術支撐：深度

發(fā)表于 10-23 15:25 ?81次閱讀

深度學習GPU加速效果如何

圖形處理器（GPU）憑借其強大的并行計算能力，成為加速深度學習任務的理想選擇。

發(fā)表于 10-17 10:07 ?76次閱讀

FPGA做深度學習能走多遠？

，共同進步。歡迎加入FPGA技術微信交流群14群! 交流問題（一） Q：FPGA做深度學習能走多遠？現(xiàn)在用

發(fā)表于 09-27 20:53

FPGA在人工智能中的應用有哪些？

FPGA（現(xiàn)場可編程門陣列）在人工智能領域的應用非常廣泛，主要體現(xiàn)在以下幾個方面：一、深度學習加速訓練和推理過程加速：

發(fā)表于 07-29 17:05

深度學習中的時間序列分類方法

時間序列分類（Time Series Classification, TSC）是機器學習和深度學習領域的重要任務之一，廣泛應用于人體活動識別、系統(tǒng)監(jiān)測、金融預測、醫(yī)療診斷等多個領域。隨著深度

發(fā)表于 07-09 15:54 ?525次閱讀

深度學習與nlp的區(qū)別在哪

深度學習和自然語言處理（NLP）是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯(lián)系，也有區(qū)別。本文將介紹深度學習與NLP的區(qū)別。深度

發(fā)表于 07-05 09:47 ?649次閱讀

深度學習與傳統(tǒng)機器學習的對比

在人工智能的浪潮中，機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步，為眾多領域帶來了革命性的變化。然而，盡管它們都屬于機器學習的范疇，但

發(fā)表于 07-01 11:40 ?944次閱讀

深度解析深度學習下的語義SLAM

隨著深度學習技術的興起，計算機視覺的許多傳統(tǒng)領域都取得了突破性進展，例如目標的檢測、識別和分類等領域。近年來，研究人員開始在視覺SLAM算法中引入深度學習技術，使得

發(fā)表于 04-23 17:18 ?1161次閱讀

fpga要學哪些東西

學習FPGA需要掌握一系列的知識和技能，主要包括以下幾個方面。

發(fā)表于 03-27 14:40 ?865次閱讀

FPGA在深度學習應用中或將取代GPU

現(xiàn)場可編程門陣列 (FPGA) 解決了 GPU 在運行深度學習模型時面臨的許多問題在過去的十年里，人工智能的再一次興起使顯卡行業(yè)受益匪淺。英偉達 (Nvidia) 和 AMD 等公司的股價也大幅

發(fā)表于 03-21 15:19

fpga學習需要具備哪些課程

FPGA（Field Programmable Gate Array）學習需要具備一系列的課程知識和實踐技能

發(fā)表于 03-14 15:51 ?1035次閱讀

為什么深度學習的效果更好？

導讀深度學習是機器學習的一個子集，已成為人工智能領域的一項變革性技術，在從計算機視覺、自然語言處理到自動駕駛汽車等廣泛的應用中取得了顯著的成功。深度

發(fā)表于 03-09 08:26 ?540次閱讀

什么是深度學習？機器學習和深度學習的主要差異

2016年AlphaGo 擊敗韓國圍棋冠軍李世石，在媒體報道中，曾多次提及“深度學習”這個概念。

發(fā)表于 01-15 10:31 ?910次閱讀

GPU在深度學習中的應用與優(yōu)勢

學習中究竟擔當了什么樣的角色？又有哪些優(yōu)勢呢？一、GPU加速深度學習訓練并行處理GPU的核心理念在于并行處理。在深度

發(fā)表于 12-06 08:27 ?1153次閱讀

FPGA工程師需要具備哪些技能？

設計思路、硬件語言、EDA工具、數(shù)字信號處理、通信協(xié)議、測試驗證等方面來看，FPGA工程師需要具備多方面的技能。除了上述技能之外，他們還需要具備團隊協(xié)作和解決問題的能力。這些能力都需要長時間的

發(fā)表于 11-09 11:03