欧美精品亚洲精品日韩专,亚洲成αv人片在线观看无码

前言

做深度學(xué)習(xí)加速器已經(jīng)兩年了，從RTL設(shè)計(jì)到仿真驗(yàn)證，以及相應(yīng)的去了解了Linux驅(qū)動，深度學(xué)習(xí)壓縮方法等等。今天來捋一捋AI加速器都涉及到哪些領(lǐng)域，需要哪些方面的知識?？梢杂糜贏I加速器的主要有三種不同架構(gòu)的器件種類：CPU，GPU，AI芯片/FPGA。CPU是一個(gè)通用架構(gòu)芯片，其計(jì)算能力和數(shù)據(jù)帶寬相對受到限制，面對大計(jì)算量的深度學(xué)習(xí)就顯露出其缺點(diǎn)了。GPU含有大量的計(jì)算陣列，可以適用于大規(guī)模運(yùn)算，而且其生態(tài)較為成熟和完整，所以現(xiàn)在包攬了所有的深度學(xué)習(xí)訓(xùn)練和絕大部分深度學(xué)習(xí)推理。要說有沒有缺陷，經(jīng)常被拿來比較的就是其功耗較大，而且并不是完全針對于深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)，所以還并不能完全利用其計(jì)算和存儲資源。為了更有針對性的加速深度學(xué)習(xí)網(wǎng)絡(luò)，AI芯片（FPGA）近兩年也出現(xiàn)了。Intel、阿里平頭哥、騰訊、百度等都開始設(shè)計(jì)自己的AI加速芯片，使用FPGA的有賽靈思、曠視科技等。FPGA用于深度學(xué)習(xí)加速和AI芯片的架構(gòu)具有通用性，兩者可以看做相同架構(gòu)，只是用于不同硬件器件。而且通常AI芯片的前期驗(yàn)證也是用FPGA完成的。這篇文章就捋一捋FPGA在做深度學(xué)習(xí)加速時(shí)需要的技能。

1. 一張圖

AI加速是一個(gè)同時(shí)涉及到軟件和硬件的領(lǐng)域，下面一張簡單的圖羅列了AI加速器所有知識。

2. RTL

RTL部分設(shè)計(jì)主要考慮到以下幾個(gè)方面：
1）考察神經(jīng)網(wǎng)絡(luò)每個(gè)部分的計(jì)算量和參數(shù)數(shù)據(jù)，選擇適合在FPGA上進(jìn)行加速的部分。比如對于CNN網(wǎng)絡(luò)，卷積運(yùn)算占據(jù)整個(gè)網(wǎng)絡(luò)的絕大部分計(jì)算，因此會占據(jù)FPGA中的絕大部分DSP資源。但是在卷積運(yùn)算之間還存在激活函數(shù)、歸一化等操作，這些雖然計(jì)算量不大，但是會對整個(gè)加速形成瓶頸，因此如何能夠與卷積運(yùn)算形成流水對性能影響也很大；

2）設(shè)計(jì)加速算法。只要考慮好這兩點(diǎn)就解決了主要問題：一個(gè)是計(jì)算資源利用率，另外一個(gè)是miss ratio。計(jì)算資源利用率包括FPGA上空間資源利用率，還包括計(jì)算資源的時(shí)間利用率。空間利用率越高，說明算力越高，時(shí)間利用率越高表明有效計(jì)算越高，加速效果越好。Miss ratio反映了片上cache存儲的參數(shù)是否能夠及時(shí)供給計(jì)算使用。如果能及時(shí)供給使用，那么從片外加載數(shù)據(jù)的時(shí)間就可以被壓縮。

3）架構(gòu)的通用性?；旧霞軜?gòu)都是基于指令集的，指令集主要依據(jù)加速器的計(jì)算核來定義的，算是復(fù)雜指令集。一個(gè)指令包含了參數(shù)的存儲位置，需要數(shù)量，計(jì)算方式等等。由于深度網(wǎng)絡(luò)操作數(shù)量比較單一，比如LSTM基本上就包括矩陣乘法、加法、向量乘法、激活等。大概也就有不超過10個(gè)指令就能涵蓋一個(gè)LSTM網(wǎng)絡(luò)了。為了適配這樣的指令，架構(gòu)大概包含以下結(jié)構(gòu)：

外部總線：主要用于和外部ddr進(jìn)行數(shù)據(jù)交互。

內(nèi)部存儲：儲存要用到的參數(shù)和數(shù)據(jù)，及時(shí)供給計(jì)算核。Cache緩存是為了解決讀取DDR帶寬瓶頸問題。

指令解析：獲取指令進(jìn)行解析，發(fā)送給相應(yīng)模塊進(jìn)行處理。

內(nèi)部總線：為每個(gè)計(jì)算核提供數(shù)據(jù)讀寫通路。

計(jì)算核：張量計(jì)算核，用于加速神經(jīng)網(wǎng)絡(luò)計(jì)算。

計(jì)算核互聯(lián)線：實(shí)現(xiàn)不同計(jì)算核之間的直接互聯(lián)，可以實(shí)現(xiàn)不同計(jì)算核的pipeline。

Batch：包含了計(jì)算核、指令解析、計(jì)算核互聯(lián)線等。當(dāng)然如果內(nèi)部cache并不是用的很多，一個(gè)batch也可以包含有內(nèi)部cache。這些batch實(shí)際上可以看做神經(jīng)網(wǎng)絡(luò)運(yùn)行的線程，多個(gè)batch就支持多線程神經(jīng)網(wǎng)絡(luò)計(jì)算。比如一個(gè)LSTM網(wǎng)絡(luò)可以在有batch=2的硬件上同時(shí)進(jìn)行兩個(gè)句子的運(yùn)算。

線程控制：用于控制多batch操作。

3. 驗(yàn)證

驗(yàn)證主要包括兩個(gè)方面，一個(gè)是對指令集正確性進(jìn)行驗(yàn)證，另外一個(gè)是對RTL代碼進(jìn)行仿真。指令集的驗(yàn)證需要有一個(gè)CMODEL來對編譯器生成指令的正確性進(jìn)行校驗(yàn)，校驗(yàn)準(zhǔn)確才能夠給硬件使用。因?yàn)榉抡姝h(huán)境也需要隨機(jī)化指令來對RTL代碼進(jìn)行校驗(yàn)，所以cmodel也會用于仿真環(huán)境中。我以UVM為例來說明，其基本結(jié)構(gòu)如下：

指令隨機(jī)化：對指令進(jìn)行約束，生成隨機(jī)指令；

指令驅(qū)動：將指令轉(zhuǎn)換成文件，提供給cmodel，以及初始化到ddr文件中；

參數(shù)隨機(jī)化：隨機(jī)化權(quán)重等參數(shù)；

參數(shù)驅(qū)動：將參數(shù)初始化為ddr文件；

AXI驅(qū)動：這個(gè)包含AXI讀寫ddr文件的驅(qū)動，用于和DUT進(jìn)行交互；

Monitor：監(jiān)測DUT行為，和cmodel的數(shù)據(jù)進(jìn)行對比；

4. 驅(qū)動

驅(qū)動主要是完成ddr的初始化，線程控制的配置以及中斷響應(yīng)等。首先將權(quán)重等參數(shù)初始化到ddr中，然后通過axi總線配置FPGA的寄存器，同時(shí)對FPGA產(chǎn)生的中斷進(jìn)行響應(yīng)。獲取ddr中結(jié)果數(shù)據(jù)等。一般如zynq等SoC器件，因?yàn)榧闪?a target="_blank">arm核，所以驅(qū)動相對簡單。如果軟件端在服務(wù)器，那么還需要PCIE等驅(qū)動來支持和服務(wù)器的交互。以SoC器件為例，linux驅(qū)動正常工作需要以下步驟：
1. 制作RTL硬件工程，生成bit文件和hardware配置文件；

2. 利用SDK生成fsbl文件，這個(gè)主要完成對zynq器件的一些基本硬件配置；

3. 制作linux的uboot、kernel、devicetree等文件；

4. 用fsbl、bit、uboot、kernel、devicetree制作boot.bin；

5. 選擇linux文件系統(tǒng)，如linaro等。制作SD卡鏡像，燒寫到SD卡中，啟動SoC器件；

5. 編譯器

編譯器主要能夠根據(jù)深度學(xué)習(xí)模型來生成指令，并優(yōu)化指令。以TVM為例，它基于計(jì)算圖，對接市場上主流的深度學(xué)習(xí)框架：tensorflow、pytorch等，將這些模型進(jìn)行計(jì)算圖的轉(zhuǎn)化，然后基于這些計(jì)算圖來進(jìn)行圖的優(yōu)化和指令優(yōu)化。TVM目標(biāo)是通用性，所以其兼容CPU、GPU、TPU，同時(shí)還要對接更多的深度學(xué)習(xí)框架。所以其很龐大。針對FPGA自身的AI加速器，可以以這個(gè)為借鑒，開發(fā)自己的compiler。同時(shí)依據(jù)自身硬件特點(diǎn)進(jìn)行指令的優(yōu)化。

計(jì)算圖是基本很多編譯器采用的圖結(jié)構(gòu)，其貫穿了指令優(yōu)化和生成始終。計(jì)算圖中的節(jié)點(diǎn)包含了數(shù)據(jù)信息和相應(yīng)操作。這些節(jié)點(diǎn)相互連接形成了一個(gè)網(wǎng)絡(luò)計(jì)算的依賴關(guān)系。計(jì)算圖是一個(gè)基于tensor操作的圖，它并不像通用CPU編譯器的細(xì)化的標(biāo)量操作。因?yàn)镕PGA加速器中計(jì)算核一般都是張量操作。這是和CPU不同的。而且這樣的計(jì)算圖也相對簡潔。

一個(gè)張量操作的實(shí)現(xiàn)有很多可能，因?yàn)橐罁?jù)數(shù)據(jù)之間的依賴關(guān)系和維度大小，可以對張量運(yùn)算進(jìn)行分解為多步操作。這些分解有很多。因此優(yōu)化一個(gè)計(jì)算圖就會面臨很多這樣可能的步驟。這被稱為schedule，優(yōu)化就是在這些schedule空間中找出最優(yōu)的那個(gè)順序。TVM中提出了一個(gè)基于機(jī)器學(xué)習(xí)模型的優(yōu)化方法，去搜尋schedule空間，找到最適于硬件的圖。然后生成指令。

6. 模型壓縮

模型壓縮有很多方法，根據(jù)壓縮目標(biāo)主要包括量化和剪枝。量化就是將浮點(diǎn)定點(diǎn)化，剪枝就是去除一些冗余的連接或者數(shù)據(jù)。從一些文獻(xiàn)調(diào)研的結(jié)果有以下一些方式：

7. 軟件部署

因?yàn)镕PGA并不適合加速神經(jīng)網(wǎng)絡(luò)的所有部分或者還沒有相應(yīng)IP來加速一些模塊，那么這些操作就會放在CPU上進(jìn)行，比如對于LSTM網(wǎng)絡(luò)，前邊的embedding層還有后端的softmax或者類別生成。這些都更適合在CPU上做。因此軟件部署來調(diào)用FPGA硬核IP，和FPGA進(jìn)行交互。同時(shí)還有一些數(shù)據(jù)準(zhǔn)備、打印等操作，客戶展示。這些都是軟件部署要做的。

總結(jié)

一個(gè)AI加速涉及到了算法、軟件、驅(qū)動、硬件方面，因此通常做AI加速的團(tuán)隊(duì)都比較龐大，包含了算法到硬件的各種人才。

編輯：hfy

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

加速器

加速器

+關(guān)注

關(guān)注
2

文章
788

瀏覽量
37563
gpu

gpu

+關(guān)注

關(guān)注
27

文章
4632

瀏覽量
128442
AI

AI

+關(guān)注

關(guān)注
87

文章
29383

瀏覽量
267664
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5437

瀏覽量
120791

相比GPU和GPP，FPGA是深度學(xué)習(xí)的未來？

相比GPU和GPP，FPGA在滿足深度學(xué)習(xí)的硬件需求上提供了具有吸引力的替代方案。憑借流水線并行計(jì)算的能力和高效的能耗，FPGA將在一般的深度

發(fā)表于 07-28 12:16 ?7452次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

對神經(jīng)網(wǎng)絡(luò)進(jìn)行任何更改，也不需要學(xué)習(xí)任何新工具。不過你可以保留你的 GPU 用于訓(xùn)練?！?Zebra 提供了將深度學(xué)習(xí)代碼轉(zhuǎn)換為 FPGA

發(fā)表于 03-21 15:19

FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？

，共同進(jìn)步。歡迎加入FPGA技術(shù)微信交流群14群! 交流問題（一） Q：FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？現(xiàn)在用FPGA做

發(fā)表于 09-27 20:53

【詳解】FPGA：深度學(xué)習(xí)的未來？

的固定架構(gòu)之外進(jìn)行模型優(yōu)化探究。同時(shí)，FPGA在單位能耗下性能更強(qiáng)，這對大規(guī)模服務(wù)器部署或資源有限的嵌入式應(yīng)用的研究而言至關(guān)重要。本文從硬件加速的視角考察深度學(xué)習(xí)與

發(fā)表于 08-13 09:33

為什么說FPGA是機(jī)器深度學(xué)習(xí)的未來？

都出現(xiàn)了重大突破。深度學(xué)習(xí)是這些領(lǐng)域中所最常使用的技術(shù)，也被業(yè)界大為關(guān)注。然而，深度學(xué)習(xí)模型需要極為大量的數(shù)據(jù)和計(jì)算能力，只有更好的硬件

發(fā)表于 10-10 06:45

什么是深度學(xué)習(xí)？使用FPGA進(jìn)行深度學(xué)習(xí)的好處？

（Operations / Watt），因此需要根據(jù)系統(tǒng)要求進(jìn)行仔細(xì)評估。FPGA 還具有能夠?qū)⒄麄€(gè)系統(tǒng)安裝在單個(gè)芯片上的優(yōu)勢。例如，將連接到FPGA的相機(jī)輸入連接到深度

發(fā)表于 02-17 16:56

FPGA工程師需要具備哪些技能？

設(shè)計(jì)思路、硬件語言、EDA工具、數(shù)字信號處理、通信協(xié)議、測試驗(yàn)證等方面來看，FPGA工程師需要具備多方面的技能。除了上述技能之外，他們還需要

發(fā)表于 11-09 11:03

FPGA是深度學(xué)習(xí)的未來

FPGA是深度學(xué)習(xí)的未來，學(xué)習(xí)資料，感興趣的可以看看。

發(fā)表于 10-26 15:29 ?0次下載

Xilinx FPGA如何通過深度學(xué)習(xí)圖像分類加速機(jī)器學(xué)習(xí)

了解Xilinx FPGA如何通過深度學(xué)習(xí)圖像分類示例來加速重要數(shù)據(jù)中心工作負(fù)載機(jī)器學(xué)習(xí)。該演示可通過Alexnet神經(jīng)網(wǎng)絡(luò)模型

發(fā)表于 11-28 06:54 ?3737次閱讀

FPGA在深度學(xué)習(xí)領(lǐng)域的應(yīng)用

本文從硬件加速的視角考察深度學(xué)習(xí)與FPGA，指出有哪些趨勢和創(chuàng)新使得這些技術(shù)相互匹配，并激發(fā)對FPGA如何幫助

發(fā)表于 06-28 17:31 ?6834次閱讀

微軟推出基于FPGA的深度學(xué)習(xí)加速平臺

微軟團(tuán)隊(duì)推出了一個(gè)新的深度學(xué)習(xí)加速平臺，其代號為腦波計(jì)劃（Project Brainwave），機(jī)器之心將簡要介紹該計(jì)劃。

發(fā)表于 09-03 14:36 ?1932次閱讀

FPGA做深度學(xué)習(xí)加速的技能總結(jié)

做深度學(xué)習(xí)加速器已經(jīng)兩年了，從RTL設(shè)計(jì)到仿真驗(yàn)證，以及相應(yīng)的去了解了Linux驅(qū)動，深度學(xué)習(xí)壓縮方法等等。

發(fā)表于 03-08 16:29 ?8694次閱讀

從FPGA說起的深度學(xué)習(xí)

這是新的系列教程，在本教程中，我們將介紹使用 FPGA 實(shí)現(xiàn)深度學(xué)習(xí)的技術(shù)，深度學(xué)習(xí)是近年來人工智能領(lǐng)域的熱門話題。

發(fā)表于 03-03 09:52 ?1424次閱讀

如何使用FPGA加速深度學(xué)習(xí)計(jì)算？

當(dāng)今的深度學(xué)習(xí)應(yīng)用如此廣泛，它們能夠?yàn)獒t(yī)療保健、金融、交通、軍事等各行各業(yè)提供支持，但是大規(guī)模的深度學(xué)習(xí)計(jì)算對于傳統(tǒng)的中央處理器（CPU）和圖形處理器（GPU）來說是非常耗時(shí)和資源密集

發(fā)表于 03-09 09:35 ?2398次閱讀

fpga學(xué)習(xí)需要具備哪些課程

FPGA（Field Programmable Gate Array）學(xué)習(xí)需要具備一系列的課程知識和實(shí)踐技能

發(fā)表于 03-14 15:51 ?1035次閱讀

搜索歷史

FPGA在做深度學(xué)習(xí)加速時(shí)需要的技能

評論

相比GPU和GPP，FPGA是深度學(xué)習(xí)的未來？

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？

【詳解】FPGA：深度學(xué)習(xí)的未來？

為什么說FPGA是機(jī)器深度學(xué)習(xí)的未來？

什么是深度學(xué)習(xí)？使用FPGA進(jìn)行深度學(xué)習(xí)的好處？

FPGA工程師需要具備哪些技能？

FPGA是深度學(xué)習(xí)的未來

Xilinx FPGA如何通過深度學(xué)習(xí)圖像分類加速機(jī)器學(xué)習(xí)

FPGA在深度學(xué)習(xí)領(lǐng)域的應(yīng)用

微軟推出基于FPGA的深度學(xué)習(xí)加速平臺

FPGA做深度學(xué)習(xí)加速的技能總結(jié)

從FPGA說起的深度學(xué)習(xí)

如何使用FPGA加速深度學(xué)習(xí)計(jì)算？

fpga學(xué)習(xí)需要具備哪些課程