0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過(guò)DLP FPGA實(shí)現(xiàn)低延時(shí)高性能的深度學(xué)習(xí)處理器設(shè)計(jì)呢?

FPGA研究院 ? 來(lái)源:Java學(xué)研大本營(yíng) ? 2023-12-27 09:13 ? 次閱讀

圖像識(shí)別和分析對(duì)于產(chǎn)品創(chuàng)新至關(guān)重要,但需要高工作負(fù)載,對(duì)服務(wù)質(zhì)量要求嚴(yán)格。解決方案如GPU無(wú)法滿足低延遲和高性能要求。DLP FPGA是一種可行的選擇,本文將探討如何實(shí)現(xiàn)這種技術(shù)。

圖像識(shí)別和分析在各種產(chǎn)品創(chuàng)新中具有重要作用。然而,這些應(yīng)用通常涉及高工作負(fù)載,對(duì)服務(wù)質(zhì)量有嚴(yán)格要求。目前的解決方案,如GPU,無(wú)法同時(shí)兼顧低延遲和高性能要求。

為了在應(yīng)用深度學(xué)習(xí)的同時(shí)提供良好的用戶體驗(yàn),可以在FPGA上架構(gòu)一個(gè)超低延遲和高性能的DLP(深度學(xué)習(xí)處理器)。

DLP FPGA可以同時(shí)支持稀疏卷積和低精度數(shù)據(jù)計(jì)算,同時(shí)定義了一個(gè)定制的ISA(指令集架構(gòu)),以滿足對(duì)靈活性和用戶體驗(yàn)的要求。使用Resnet18(稀疏內(nèi)核)的延遲測(cè)試結(jié)果顯示,F(xiàn)PGA的延遲只有0.174ms。

在本文中,我們將簡(jiǎn)要討論如何通過(guò)新的DLP FPGA實(shí)現(xiàn)這樣的結(jié)果。

1 架構(gòu)

新開(kāi)發(fā)的DLP有4種模塊,根據(jù)其功能進(jìn)行分類:

計(jì)算:卷積、批量歸一化、激活和其他計(jì)算

數(shù)據(jù)路徑:數(shù)據(jù)存儲(chǔ)、移動(dòng)和重塑

參數(shù):存儲(chǔ)權(quán)重和其他參數(shù),解碼

指令:指令單元和全局控制

722dcef6-a447-11ee-8b88-92fbcf53809c.png

DLP中的Protocal Engine(PE)可以支持:

Int4數(shù)據(jù)類型輸入。

Int32數(shù)據(jù)類型輸出。

Int16量化

這種PE能提供超過(guò)90%的效率。此外,DLP的重量加載支持CSR解碼器和數(shù)據(jù)預(yù)取。

2 訓(xùn)練

需要重新訓(xùn)練來(lái)開(kāi)發(fā)一個(gè)高精確度的模型。下面有4個(gè)主要步驟來(lái)獲得稀疏權(quán)重和低精度數(shù)據(jù)特征圖。

7249ec94-a447-11ee-8b88-92fbcf53809c.png

我們用一種有效的方法將Resnet18模型訓(xùn)練到稀疏和低精度(1707.09870)。我們方法中的關(guān)鍵部分是離散化。我們專注于壓縮和加速深度模型,其網(wǎng)絡(luò)權(quán)重由非常小的比特?cái)?shù)表示,被稱為極低比特神經(jīng)網(wǎng)絡(luò)。然后我們將這個(gè)問(wèn)題建模為一個(gè)離散約束的優(yōu)化問(wèn)題。

借用乘法交替方向法(ADMM)的思想,我們將連續(xù)參數(shù)與網(wǎng)絡(luò)的離散約束解耦,并將原來(lái)的硬問(wèn)題鑄成幾個(gè)子問(wèn)題。我們建議使用梯度外算法和迭代量化算法來(lái)解決這些子問(wèn)題,與傳統(tǒng)的優(yōu)化方法相比,這些算法會(huì)導(dǎo)致更快的收斂。

在圖像識(shí)別和物體檢測(cè)方面的大量實(shí)驗(yàn)證明,當(dāng)涉及到極低比特的神經(jīng)網(wǎng)絡(luò)時(shí),所提出的算法比最先進(jìn)的方法更有效。

3 ISA/編譯器

如前所述,對(duì)于大多數(shù)在線服務(wù)和使用場(chǎng)景,僅有低延遲是不夠的,因?yàn)樗惴P蜁?huì)經(jīng)常變化。正如我們所知,F(xiàn)PGA的開(kāi)發(fā)周期非常長(zhǎng);通常需要幾周或幾個(gè)月的時(shí)間來(lái)完成一個(gè)定制的設(shè)計(jì)。為了解決這一挑戰(zhàn),我們?cè)O(shè)計(jì)了工業(yè)標(biāo)準(zhǔn)架構(gòu)(ISA)和編譯器,以減少模型升級(jí)的時(shí)間,使之僅為幾分鐘。

724d82aa-a447-11ee-8b88-92fbcf53809c.png

SW-HW共同開(kāi)發(fā)平臺(tái)由以下項(xiàng)目組成:

編譯器:模型圖分析和指令生成。

API/驅(qū)動(dòng):CPU-FPGA DMA圖片重塑,重量壓縮。

ISA控制器:指令解碼、任務(wù)調(diào)度、多線程流水線管理。

4 硬件

DLP是在FPGA卡上實(shí)現(xiàn)的,它有PCIe和DDR4內(nèi)存。DLP與該FPGA卡相結(jié)合,可以使在線圖片搜索等應(yīng)用場(chǎng)景更高效用戶體驗(yàn)更好。

5 結(jié)果

72d3cc7a-a447-11ee-8b88-92fbcf53809c.jpg

使用Resnet18的FPGA測(cè)試結(jié)果表明,我們的設(shè)計(jì)實(shí)現(xiàn)了超低水平的延遲,同時(shí)在低于70W的芯片功率下保持了非常高的性能。

72e94fbe-a447-11ee-8b88-92fbcf53809c.png










審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19032

    瀏覽量

    228448
  • FPGA
    +關(guān)注

    關(guān)注

    1624

    文章

    21538

    瀏覽量

    600461
  • 圖像識(shí)別
    +關(guān)注

    關(guān)注

    9

    文章

    514

    瀏覽量

    38191
  • dlp
    dlp
    +關(guān)注

    關(guān)注

    6

    文章

    354

    瀏覽量

    61058
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5431

    瀏覽量

    120790

原文標(biāo)題:使用FPGA制作低延時(shí)高性能的深度學(xué)習(xí)處理器

文章出處:【微信號(hào):FPGA研究院,微信公眾號(hào):FPGA研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FPGA深度學(xué)習(xí)能走多遠(yuǎn)?

    的能量浪費(fèi)。與傳統(tǒng)的通用處理器相比,FPGA 在相同的性能要求下能夠降低功耗,這對(duì)于邊緣設(shè)備和嵌入式系統(tǒng)等對(duì)功耗敏感的場(chǎng)景非常重要,有助于延長(zhǎng)設(shè)備的續(xù)航時(shí)間并降低散熱成本。 ? 高性能
    發(fā)表于 09-27 20:53

    FPGA構(gòu)建高性能DSP

    為設(shè)計(jì)提供可編程邏輯解決方案所固有的靈活性特點(diǎn),以及定制門(mén)陣列(如ASIC)解決方案所具有的高性能及集成度。  增強(qiáng)DSP處理能力的傳統(tǒng)方法是采用多個(gè)處理器。選擇此類方案的缺點(diǎn)是成本昂貴,需要眾多附加
    發(fā)表于 02-17 11:21

    FPGA協(xié)處理器的優(yōu)勢(shì)

      傳統(tǒng)的、基于通用DSP處理器并運(yùn)行由C語(yǔ)言開(kāi)發(fā)的算法的高性能DSP平臺(tái),正在朝著使用FPGA預(yù)處理器和/或協(xié)處理器的方向發(fā)展。這一最新發(fā)
    發(fā)表于 09-29 16:28

    FPGA干貨分享六】基于FPGA協(xié)處理器的算法加速的實(shí)現(xiàn)

    APU接口。通過(guò)FPGA中嵌入一個(gè)處理器,現(xiàn)在就有機(jī)會(huì)在單芯片上實(shí)現(xiàn)完整的處理系統(tǒng)。帶APU接口的PowerPC使得在
    發(fā)表于 02-02 14:18

    FPGA 嵌入式處理器實(shí)現(xiàn)高性能浮點(diǎn)元算

    仿真或者專用軟邏輯 FPU 在 PowerPC 上自如地實(shí)現(xiàn)浮點(diǎn)運(yùn)算。圖 1 顯示了通過(guò) FCB 將 PowerPC 440 處理器連接至 Virtex-5 APU-FPU 的典型實(shí)施方案。圖 1
    發(fā)表于 08-03 11:15

    【詳解】FPGA深度學(xué)習(xí)的未來(lái)?

    的未來(lái)方向提出關(guān)鍵建議,幫助解決今后深度學(xué)習(xí)所面臨的問(wèn)題。2. FPGA傳統(tǒng)來(lái)說(shuō),在評(píng)估硬件平臺(tái)的加速時(shí),必須考慮到靈活性和性能之間的權(quán)衡。一方面,通用
    發(fā)表于 08-13 09:33

    采用Sitara處理器PRU-ICSS的高性能脈沖序列輸出 (PTO)

    控制和同步無(wú)需使用外部 ASIC 或 FPGA借助 Sitara 處理器在 PRU-ICSS 上實(shí)現(xiàn)包含源代碼形式的 PRU-ICSS 固件并可供客戶采用通過(guò) TMDSICE3359
    發(fā)表于 12-17 16:03

    飛思卡爾高性能ColdFire微處理器簡(jiǎn)介

    最新款的ColdFire微處理器在大約380 mW的功率上提供了410 Dhrystone MIPS(DMIPS)的內(nèi)核性能,能夠輕松滿足開(kāi)發(fā)人員的系統(tǒng)功率預(yù)算,同時(shí)實(shí)現(xiàn)卓越的系統(tǒng)級(jí)性能
    發(fā)表于 07-18 06:23

    怎么實(shí)現(xiàn)多內(nèi)核處理器開(kāi)發(fā)趨勢(shì)下的高性能視頻系統(tǒng)設(shè)計(jì)?

    怎么實(shí)現(xiàn)多內(nèi)核處理器開(kāi)發(fā)趨勢(shì)下的高性能視頻系統(tǒng)設(shè)計(jì)?
    發(fā)表于 06-03 06:19

    什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?

    頻率低于 CPU 和 GPU,除非設(shè)計(jì)實(shí)現(xiàn),否則性能往往較差。與 CPU 和 GPU 相比實(shí)施成本高,FPGA 上支持深度學(xué)習(xí)的軟件較少很多
    發(fā)表于 02-17 16:56

    基于FPGA的1024點(diǎn)高性能FFT處理器的設(shè)計(jì)鐘冠文

    基于FPGA的1024點(diǎn)高性能FFT處理器的設(shè)計(jì)_鐘冠文
    發(fā)表于 03-19 11:36 ?10次下載

    FPGA是如何實(shí)現(xiàn)30倍速度的云加速的?

    硬件編程,可將性能提升至通用CPU服務(wù)的30倍以上。同時(shí),與已經(jīng)深入人心的高性能計(jì)算的代表GPU相比,FPGA具有硬件可編程、低功耗、
    的頭像 發(fā)表于 05-29 13:44 ?5150次閱讀
    <b class='flag-5'>FPGA</b>是如何<b class='flag-5'>實(shí)現(xiàn)</b>30倍速度的云加速的?

    通過(guò)利用FPGA協(xié)處理器實(shí)現(xiàn)對(duì)汽車(chē)娛樂(lè)系統(tǒng)進(jìn)行優(yōu)化設(shè)計(jì)

    集成了數(shù)據(jù)通信,定位服務(wù)和視頻娛樂(lè)的高端汽車(chē)信息娛樂(lè)系統(tǒng)需要高性能的可編程處理技術(shù),其最佳實(shí)現(xiàn)方法是在主流汽車(chē)信息通信系統(tǒng)構(gòu)架中集成FPGA協(xié)處理器
    發(fā)表于 07-24 15:25 ?672次閱讀
    <b class='flag-5'>通過(guò)</b>利用<b class='flag-5'>FPGA</b>協(xié)<b class='flag-5'>處理器</b><b class='flag-5'>實(shí)現(xiàn)</b>對(duì)汽車(chē)娛樂(lè)系統(tǒng)進(jìn)行優(yōu)化設(shè)計(jì)

    FPGA和DSP兩種處理器之間實(shí)現(xiàn)SRIO協(xié)議的方法

    通過(guò) 電路設(shè)計(jì) 和利用處理器的開(kāi)發(fā)工具 編程 實(shí)現(xiàn)了兩種處理器間的高速通信。經(jīng)測(cè)試,該系統(tǒng)具有較高的傳輸效率。 引言 隨著高性能信號(hào)
    的頭像 發(fā)表于 03-20 15:00 ?1900次閱讀

    中科億海微推出高性能FPGA加速卡系列產(chǎn)品

    產(chǎn)品概述中科億海微面向延時(shí)高帶寬的數(shù)據(jù)加速應(yīng)用推出高性能FPGA加速卡系列產(chǎn)品。產(chǎn)品采用高性能混合并行計(jì)算
    的頭像 發(fā)表于 07-20 18:04 ?888次閱讀
    中科億海微推出<b class='flag-5'>高性能</b><b class='flag-5'>FPGA</b>加速卡系列產(chǎn)品