現(xiàn)如今,深度神經(jīng)網(wǎng)絡(luò)正在以越來(lái)越大的規(guī)模部署,橫跨了從云端,自動(dòng)駕駛到IoT等平臺(tái)。比如用于圖像識(shí)別,語(yǔ)音識(shí)別及翻譯,癌癥檢測(cè)以及自動(dòng)駕駛中對(duì)感知層海量數(shù)據(jù)的處理等。在很多領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)的精度已經(jīng)超越人類,它的優(yōu)越性來(lái)源于它對(duì)原始數(shù)據(jù)的特征提取,并通過(guò)對(duì)大量數(shù)據(jù)的學(xué)習(xí)來(lái)獲取輸入空間的有效表征,但是它的高精度是以超高計(jì)算復(fù)雜度為代價(jià)。因此很多廠商都在追逐NPU的算力來(lái)解決這些復(fù)雜問(wèn)題,但是隨著算力的提高,NPU設(shè)計(jì)也越來(lái)越復(fù)雜,將伴隨著面積和功耗的增加,這對(duì)于那些面積和功耗有很大限制的設(shè)備帶來(lái)了挑戰(zhàn),因此如何提升NPU的能效比就成了亟待解決的問(wèn)題。
NPU通過(guò)數(shù)據(jù)分區(qū)和有效調(diào)度,利用數(shù)據(jù)的重用以及執(zhí)行分段來(lái)提高能效比和硬件利用率,而實(shí)現(xiàn)高利用率,數(shù)據(jù)重用將直接依賴于如何調(diào)度深度神經(jīng)網(wǎng)絡(luò)的計(jì)算和如何將這些計(jì)算有效的映射到NPU的硬件單元上。以CNN為例,數(shù)據(jù)流無(wú)非包含三個(gè)方面filter(Weight),ifmap和ofmap,如下圖。
因此在設(shè)計(jì)NPU時(shí)需要考慮如利用內(nèi)存的層次結(jié)構(gòu),決定哪些數(shù)據(jù)要讀到那一層的內(nèi)存中以及什么時(shí)候被處理,如何可以重用filter,ifmap和ofmap,將他們存放在本地內(nèi)存中,從而大大減少DRAM的訪問(wèn)次數(shù),這將在很大程度上提高NPU的硬件利用率及性能,并減少由于DRAM訪問(wèn)帶了的額外功耗。根據(jù)數(shù)據(jù)處理特征可以將數(shù)據(jù)流分為以下幾類:
1)、靜態(tài)weight
weight靜態(tài)數(shù)據(jù)流的設(shè)計(jì)是通過(guò)在PE的RF(Register File)中存取weight,來(lái)減少讀取weight產(chǎn)生的功耗。weight從DRAM讀取到RF并保持靜態(tài)以供進(jìn)一步訪問(wèn),NPU在計(jì)算時(shí)盡可能多的利用RF中的weight以達(dá)到最大程度的重用。通常的實(shí)現(xiàn)是將ifmap廣播給所有的PE,部分和(Psum)將穿過(guò)所有的PE來(lái)完成空間上的累加。
2)、靜態(tài)輸出
輸出靜態(tài)數(shù)據(jù)流的設(shè)計(jì)是通過(guò)將accumulator產(chǎn)生的Psum存放到本地的RF中,以避免將Psum剛寫入DRAM再讀回,從而減少因Psum讀寫產(chǎn)生的功耗。通常的實(shí)現(xiàn)是流式輸入Activation,并將weight廣播給所有的PE。
3)、無(wú)本地重用
如果考慮到RF會(huì)增大面積,可以將所有的數(shù)據(jù)都存放到Global Buffer中,這樣沒有任何數(shù)據(jù)會(huì)留在PE的RF,也不會(huì)增設(shè)RF單元來(lái)減小面積,但是增加了PE和Global Buffer的數(shù)據(jù)交互。具體來(lái)說(shuō)是通過(guò)多廣播Activation,單廣播Weight以及Psum穿過(guò)所有的PE進(jìn)行累加來(lái)實(shí)現(xiàn)的。
4)、靜態(tài)行
靜態(tài)行數(shù)據(jù)流的目標(biāo)是將所有的數(shù)據(jù)類型(Activation,weight, psum)的重用和計(jì)算都在RF中完成,來(lái)提升總體的能效。它區(qū)別于上面的靜態(tài)weight和靜態(tài)輸出,只是分別對(duì)weight和psum進(jìn)行優(yōu)化。
具體選用哪種數(shù)據(jù)流方式要結(jié)合NPU微架構(gòu)的設(shè)計(jì)。下面總結(jié)了來(lái)自于幾個(gè)廠家的NPU,它們分別利用了不同數(shù)據(jù)流類型來(lái)提高能效比。
參考文獻(xiàn):
【1】Vivienne S. Yu-Hsin C.and etc., “Ef?cient Processing of Deep Neural Networks: A Tutorial and Survey”
關(guān)于復(fù)睿微電子:
復(fù)睿微電子是世界500強(qiáng)企業(yè)復(fù)星集團(tuán)出資設(shè)立的先進(jìn)科技型企業(yè)。復(fù)睿微電子植根于創(chuàng)新驅(qū)動(dòng)的文化,通過(guò)技術(shù)創(chuàng)新改變?nèi)藗兊纳?、工作、學(xué)習(xí)和娛樂(lè)方式。公司成立于2022年1月,目標(biāo)成為世界領(lǐng)先的智能出行時(shí)代的大算力方案提供商,致力于為汽車電子、人工智能、通用計(jì)算等領(lǐng)域提供以高性能芯片為基礎(chǔ)的解決方案。
目前主要從事汽車智能座艙、ADS/ADAS芯片研發(fā),以領(lǐng)先的芯片設(shè)計(jì)能力和人工智能算法,通過(guò)底層技術(shù)賦能,推動(dòng)汽車產(chǎn)業(yè)的創(chuàng)新發(fā)展,提升人們的出行體驗(yàn)。在智能出行的時(shí)代,芯片是汽車的大腦。復(fù)星智能出行集團(tuán)已經(jīng)構(gòu)建了完善的智能出行生態(tài),復(fù)睿微是整個(gè)生態(tài)的通用大算力和人工智能大算力的基礎(chǔ)平臺(tái)。復(fù)睿微以提升客戶體驗(yàn)為使命,在后摩爾定律時(shí)代持續(xù)通過(guò)先進(jìn)封裝、先進(jìn)制程和解決方案提升算力,與合作伙伴共同面對(duì)汽車智能化的新時(shí)代。
審核編輯 :李倩
-
芯片
+關(guān)注
關(guān)注
452文章
49938瀏覽量
419620 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4722瀏覽量
100308 -
NPU
+關(guān)注
關(guān)注
2文章
252瀏覽量
18480
原文標(biāo)題:ADS算力芯片NPU數(shù)據(jù)流的重用性
文章出處:【微信號(hào):zuosiqiche,微信公眾號(hào):佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論