洋具软件下载,久久天堂AV女色优精品

圖像識(shí)別和分析對(duì)于產(chǎn)品創(chuàng)新至關(guān)重要，但需要高工作負(fù)載，對(duì)服務(wù)質(zhì)量要求嚴(yán)格。解決方案如GPU無(wú)法滿足低延遲和高性能要求。DLP FPGA是一種可行的選擇，本文將探討如何實(shí)現(xiàn)這種技術(shù)。

圖像識(shí)別和分析在各種產(chǎn)品創(chuàng)新中具有重要作用。然而，這些應(yīng)用通常涉及高工作負(fù)載，對(duì)服務(wù)質(zhì)量有嚴(yán)格要求。目前的解決方案，如GPU，無(wú)法同時(shí)兼顧低延遲和高性能要求。

為了在應(yīng)用深度學(xué)習(xí)的同時(shí)提供良好的用戶體驗(yàn)，可以在FPGA上架構(gòu)一個(gè)超低延遲和高性能的DLP（深度學(xué)習(xí)處理器）。

DLP FPGA可以同時(shí)支持稀疏卷積和低精度數(shù)據(jù)計(jì)算，同時(shí)定義了一個(gè)定制的ISA（指令集架構(gòu)），以滿足對(duì)靈活性和用戶體驗(yàn)的要求。使用Resnet18（稀疏內(nèi)核）的延遲測(cè)試結(jié)果顯示，F(xiàn)PGA的延遲只有0.174ms。

在本文中，我們將簡(jiǎn)要討論如何通過(guò)新的DLP FPGA實(shí)現(xiàn)這樣的結(jié)果。

1 架構(gòu)

新開(kāi)發(fā)的DLP有4種模塊，根據(jù)其功能進(jìn)行分類:

計(jì)算：卷積、批量歸一化、激活和其他計(jì)算

數(shù)據(jù)路徑：數(shù)據(jù)存儲(chǔ)、移動(dòng)和重塑

參數(shù)：存儲(chǔ)權(quán)重和其他參數(shù)，解碼

指令：指令單元和全局控制

DLP中的Protocal Engine（PE）可以支持：

Int4數(shù)據(jù)類型輸入。

Int32數(shù)據(jù)類型輸出。

Int16量化

這種PE能提供超過(guò)90%的效率。此外，DLP的重量加載支持CSR解碼器和數(shù)據(jù)預(yù)取。

2 訓(xùn)練

需要重新訓(xùn)練來(lái)開(kāi)發(fā)一個(gè)高精確度的模型。下面有4個(gè)主要步驟來(lái)獲得稀疏權(quán)重和低精度數(shù)據(jù)特征圖。

我們用一種有效的方法將Resnet18模型訓(xùn)練到稀疏和低精度（1707.09870）。我們方法中的關(guān)鍵部分是離散化。我們專注于壓縮和加速深度模型，其網(wǎng)絡(luò)權(quán)重由非常小的比特?cái)?shù)表示，被稱為極低比特神經(jīng)網(wǎng)絡(luò)。然后我們將這個(gè)問(wèn)題建模為一個(gè)離散約束的優(yōu)化問(wèn)題。

借用乘法交替方向法（ADMM）的思想，我們將連續(xù)參數(shù)與網(wǎng)絡(luò)的離散約束解耦，并將原來(lái)的硬問(wèn)題鑄成幾個(gè)子問(wèn)題。我們建議使用梯度外算法和迭代量化算法來(lái)解決這些子問(wèn)題，與傳統(tǒng)的優(yōu)化方法相比，這些算法會(huì)導(dǎo)致更快的收斂。

在圖像識(shí)別和物體檢測(cè)方面的大量實(shí)驗(yàn)證明，當(dāng)涉及到極低比特的神經(jīng)網(wǎng)絡(luò)時(shí)，所提出的算法比最先進(jìn)的方法更有效。

3 ISA/編譯器

如前所述，對(duì)于大多數(shù)在線服務(wù)和使用場(chǎng)景，僅有低延遲是不夠的，因?yàn)樗惴Ｐ蜁?huì)經(jīng)常變化。正如我們所知，F(xiàn)PGA的開(kāi)發(fā)周期非常長(zhǎng)；通常需要幾周或幾個(gè)月的時(shí)間來(lái)完成一個(gè)定制的設(shè)計(jì)。為了解決這一挑戰(zhàn)，我們?cè)O(shè)計(jì)了工業(yè)標(biāo)準(zhǔn)架構(gòu)（ISA）和編譯器，以減少模型升級(jí)的時(shí)間，使之僅為幾分鐘。

SW-HW共同開(kāi)發(fā)平臺(tái)由以下項(xiàng)目組成：

編譯器：模型圖分析和指令生成。

API/驅(qū)動(dòng)：CPU-FPGA DMA圖片重塑，重量壓縮。

ISA控制器：指令解碼、任務(wù)調(diào)度、多線程流水線管理。

4 硬件卡

DLP是在FPGA卡上實(shí)現(xiàn)的，它有PCIe和DDR4內(nèi)存。DLP與該FPGA卡相結(jié)合，可以使在線圖片搜索等應(yīng)用場(chǎng)景更高效用戶體驗(yàn)更好。

5 結(jié)果

使用Resnet18的FPGA測(cè)試結(jié)果表明，我們的設(shè)計(jì)實(shí)現(xiàn)了超低水平的延遲，同時(shí)在低于70W的芯片功率下保持了非常高的性能。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19032

瀏覽量
228448
FPGA

FPGA

+關(guān)注

關(guān)注
1624

文章
21538

瀏覽量
600461
圖像識(shí)別

圖像識(shí)別

+關(guān)注

關(guān)注
9

文章
514

瀏覽量
38191
dlp

dlp

+關(guān)注

關(guān)注
6

文章
354

瀏覽量
61058
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5431

瀏覽量
120790

原文標(biāo)題：使用FPGA制作低延時(shí)高性能的深度學(xué)習(xí)處理器

文章出處：【微信號(hào)：FPGA研究院，微信公眾號(hào)：FPGA研究院】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？

的能量浪費(fèi)。與傳統(tǒng)的通用處理器相比，FPGA 在相同的性能要求下能夠降低功耗，這對(duì)于邊緣設(shè)備和嵌入式系統(tǒng)等對(duì)功耗敏感的場(chǎng)景非常重要，有助于延長(zhǎng)設(shè)備的續(xù)航時(shí)間并降低散熱成本。 ? 高性能

發(fā)表于 09-27 20:53

FPGA構(gòu)建高性能DSP

為設(shè)計(jì)提供可編程邏輯解決方案所固有的靈活性特點(diǎn),以及定制門(mén)陣列(如ASIC)解決方案所具有的高性能及集成度。　　增強(qiáng)DSP處理能力的傳統(tǒng)方法是采用多個(gè)處理器。選擇此類方案的缺點(diǎn)是成本昂貴,需要眾多附加

發(fā)表于 02-17 11:21

FPGA協(xié)處理器的優(yōu)勢(shì)

　　傳統(tǒng)的、基于通用DSP處理器并運(yùn)行由C語(yǔ)言開(kāi)發(fā)的算法的高性能DSP平臺(tái)，正在朝著使用FPGA預(yù)處理器和/或協(xié)處理器的方向發(fā)展。這一最新發(fā)

發(fā)表于 09-29 16:28

【FPGA干貨分享六】基于FPGA協(xié)處理器的算法加速的實(shí)現(xiàn)

APU接口。通過(guò)在FPGA中嵌入一個(gè)處理器，現(xiàn)在就有機(jī)會(huì)在單芯片上實(shí)現(xiàn)完整的處理系統(tǒng)。帶APU接口的PowerPC使得在

發(fā)表于 02-02 14:18

用FPGA 嵌入式處理器實(shí)現(xiàn)高性能浮點(diǎn)元算

仿真或者專用軟邏輯 FPU 在 PowerPC 上自如地實(shí)現(xiàn)浮點(diǎn)運(yùn)算。圖 1 顯示了通過(guò) FCB 將 PowerPC 440 處理器連接至 Virtex-5 APU-FPU 的典型實(shí)施方案。圖 1

發(fā)表于 08-03 11:15

【詳解】FPGA：深度學(xué)習(xí)的未來(lái)？

的未來(lái)方向提出關(guān)鍵建議，幫助解決今后深度學(xué)習(xí)所面臨的問(wèn)題。2. FPGA傳統(tǒng)來(lái)說(shuō)，在評(píng)估硬件平臺(tái)的加速時(shí)，必須考慮到靈活性和性能之間的權(quán)衡。一方面，通用

發(fā)表于 08-13 09:33

采用Sitara處理器PRU-ICSS的高性能脈沖序列輸出 (PTO)

控制和同步無(wú)需使用外部 ASIC 或 FPGA借助 Sitara 處理器在 PRU-ICSS 上實(shí)現(xiàn)包含源代碼形式的 PRU-ICSS 固件并可供客戶采用通過(guò) TMDSICE3359

發(fā)表于 12-17 16:03

飛思卡爾高性能ColdFire微處理器簡(jiǎn)介

最新款的ColdFire微處理器在大約380 mW的功率上提供了410 Dhrystone MIPS（DMIPS）的內(nèi)核性能，能夠輕松滿足開(kāi)發(fā)人員的系統(tǒng)功率預(yù)算，同時(shí)實(shí)現(xiàn)卓越的系統(tǒng)級(jí)性能

發(fā)表于 07-18 06:23

怎么實(shí)現(xiàn)多內(nèi)核處理器開(kāi)發(fā)趨勢(shì)下的高性能視頻系統(tǒng)設(shè)計(jì)？

怎么實(shí)現(xiàn)多內(nèi)核處理器開(kāi)發(fā)趨勢(shì)下的高性能視頻系統(tǒng)設(shè)計(jì)？

發(fā)表于 06-03 06:19

什么是深度學(xué)習(xí)？使用FPGA進(jìn)行深度學(xué)習(xí)的好處？

頻率低于 CPU 和 GPU，除非設(shè)計(jì)實(shí)現(xiàn)，否則性能往往較差。與 CPU 和 GPU 相比實(shí)施成本高，FPGA 上支持深度學(xué)習(xí)的軟件較少很多

發(fā)表于 02-17 16:56

基于FPGA的1024點(diǎn)高性能FFT處理器的設(shè)計(jì)鐘冠文

基于FPGA的1024點(diǎn)高性能FFT處理器的設(shè)計(jì)_鐘冠文

發(fā)表于 03-19 11:36 ?10次下載

FPGA是如何實(shí)現(xiàn)30倍速度的云加速的？

硬件編程，可將性能提升至通用CPU服務(wù)器的30倍以上。同時(shí)，與已經(jīng)深入人心的高性能計(jì)算的代表GPU相比，FPGA具有硬件可編程、低功耗、低

發(fā)表于 05-29 13:44 ?5150次閱讀

通過(guò)利用FPGA協(xié)處理器實(shí)現(xiàn)對(duì)汽車(chē)娛樂(lè)系統(tǒng)進(jìn)行優(yōu)化設(shè)計(jì)

集成了數(shù)據(jù)通信，定位服務(wù)和視頻娛樂(lè)的高端汽車(chē)信息娛樂(lè)系統(tǒng)需要高性能的可編程處理技術(shù)，其最佳實(shí)現(xiàn)方法是在主流汽車(chē)信息通信系統(tǒng)構(gòu)架中集成FPGA協(xié)處理器

發(fā)表于 07-24 15:25 ?672次閱讀

在FPGA和DSP兩種處理器之間實(shí)現(xiàn)SRIO協(xié)議的方法

通過(guò) 電路設(shè)計(jì) 和利用處理器的開(kāi)發(fā)工具編程 實(shí)現(xiàn)了兩種處理器間的高速通信。經(jīng)測(cè)試，該系統(tǒng)具有較高的傳輸效率。引言隨著高性能信號(hào)

發(fā)表于 03-20 15:00 ?1900次閱讀

中科億海微推出高性能FPGA加速卡系列產(chǎn)品

產(chǎn)品概述中科億海微面向低延時(shí)高帶寬的數(shù)據(jù)加速應(yīng)用推出高性能FPGA加速卡系列產(chǎn)品。產(chǎn)品采用高性能混合并行計(jì)算

發(fā)表于 07-20 18:04 ?888次閱讀