圖像識(shí)別和分析對(duì)于產(chǎn)品創(chuàng)新至關(guān)重要,但需要高工作負(fù)載,對(duì)服務(wù)質(zhì)量要求嚴(yán)格。解決方案如GPU無(wú)法滿足低延遲和高性能要求。DLP FPGA是一種可行的選擇,本文將探討如何實(shí)現(xiàn)這種技術(shù)。
圖像識(shí)別和分析在各種產(chǎn)品創(chuàng)新中具有重要作用。然而,這些應(yīng)用通常涉及高工作負(fù)載,對(duì)服務(wù)質(zhì)量有嚴(yán)格要求。目前的解決方案,如GPU,無(wú)法同時(shí)兼顧低延遲和高性能要求。
為了在應(yīng)用深度學(xué)習(xí)的同時(shí)提供良好的用戶體驗(yàn),可以在FPGA上架構(gòu)一個(gè)超低延遲和高性能的DLP(深度學(xué)習(xí)處理器)。
DLP FPGA可以同時(shí)支持稀疏卷積和低精度數(shù)據(jù)計(jì)算,同時(shí)定義了一個(gè)定制的ISA(指令集架構(gòu)),以滿足對(duì)靈活性和用戶體驗(yàn)的要求。使用Resnet18(稀疏內(nèi)核)的延遲測(cè)試結(jié)果顯示,F(xiàn)PGA的延遲只有0.174ms。
在本文中,我們將簡(jiǎn)要討論如何通過(guò)新的DLP FPGA實(shí)現(xiàn)這樣的結(jié)果。
1 架構(gòu)
新開(kāi)發(fā)的DLP有4種模塊,根據(jù)其功能進(jìn)行分類:
計(jì)算:卷積、批量歸一化、激活和其他計(jì)算
數(shù)據(jù)路徑:數(shù)據(jù)存儲(chǔ)、移動(dòng)和重塑
參數(shù):存儲(chǔ)權(quán)重和其他參數(shù),解碼
指令:指令單元和全局控制
DLP中的Protocal Engine(PE)可以支持:
Int4數(shù)據(jù)類型輸入。
Int32數(shù)據(jù)類型輸出。
Int16量化
這種PE能提供超過(guò)90%的效率。此外,DLP的重量加載支持CSR解碼器和數(shù)據(jù)預(yù)取。
2 訓(xùn)練
需要重新訓(xùn)練來(lái)開(kāi)發(fā)一個(gè)高精確度的模型。下面有4個(gè)主要步驟來(lái)獲得稀疏權(quán)重和低精度數(shù)據(jù)特征圖。
我們用一種有效的方法將Resnet18模型訓(xùn)練到稀疏和低精度(1707.09870)。我們方法中的關(guān)鍵部分是離散化。我們專注于壓縮和加速深度模型,其網(wǎng)絡(luò)權(quán)重由非常小的比特?cái)?shù)表示,被稱為極低比特神經(jīng)網(wǎng)絡(luò)。然后我們將這個(gè)問(wèn)題建模為一個(gè)離散約束的優(yōu)化問(wèn)題。
借用乘法交替方向法(ADMM)的思想,我們將連續(xù)參數(shù)與網(wǎng)絡(luò)的離散約束解耦,并將原來(lái)的硬問(wèn)題鑄成幾個(gè)子問(wèn)題。我們建議使用梯度外算法和迭代量化算法來(lái)解決這些子問(wèn)題,與傳統(tǒng)的優(yōu)化方法相比,這些算法會(huì)導(dǎo)致更快的收斂。
在圖像識(shí)別和物體檢測(cè)方面的大量實(shí)驗(yàn)證明,當(dāng)涉及到極低比特的神經(jīng)網(wǎng)絡(luò)時(shí),所提出的算法比最先進(jìn)的方法更有效。
3 ISA/編譯器
如前所述,對(duì)于大多數(shù)在線服務(wù)和使用場(chǎng)景,僅有低延遲是不夠的,因?yàn)樗惴P蜁?huì)經(jīng)常變化。正如我們所知,F(xiàn)PGA的開(kāi)發(fā)周期非常長(zhǎng);通常需要幾周或幾個(gè)月的時(shí)間來(lái)完成一個(gè)定制的設(shè)計(jì)。為了解決這一挑戰(zhàn),我們?cè)O(shè)計(jì)了工業(yè)標(biāo)準(zhǔn)架構(gòu)(ISA)和編譯器,以減少模型升級(jí)的時(shí)間,使之僅為幾分鐘。
SW-HW共同開(kāi)發(fā)平臺(tái)由以下項(xiàng)目組成:
編譯器:模型圖分析和指令生成。
API/驅(qū)動(dòng):CPU-FPGA DMA圖片重塑,重量壓縮。
ISA控制器:指令解碼、任務(wù)調(diào)度、多線程流水線管理。
4 硬件卡
DLP是在FPGA卡上實(shí)現(xiàn)的,它有PCIe和DDR4內(nèi)存。DLP與該FPGA卡相結(jié)合,可以使在線圖片搜索等應(yīng)用場(chǎng)景更高效用戶體驗(yàn)更好。
5 結(jié)果
使用Resnet18的FPGA測(cè)試結(jié)果表明,我們的設(shè)計(jì)實(shí)現(xiàn)了超低水平的延遲,同時(shí)在低于70W的芯片功率下保持了非常高的性能。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
19032瀏覽量
228448 -
FPGA
+關(guān)注
關(guān)注
1624文章
21538瀏覽量
600461 -
圖像識(shí)別
+關(guān)注
關(guān)注
9文章
514瀏覽量
38191 -
dlp
+關(guān)注
關(guān)注
6文章
354瀏覽量
61058 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5431瀏覽量
120790
原文標(biāo)題:使用FPGA制作低延時(shí)高性能的深度學(xué)習(xí)處理器
文章出處:【微信號(hào):FPGA研究院,微信公眾號(hào):FPGA研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論