0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何選合適的AI硬件加速方案

jmiy_worldofai ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-10-29 11:40 ? 次閱讀

從很多方面來(lái)看,AI加速熱潮與1990年代末期和2000年代初的DSP淘金熱很類似;在那個(gè)時(shí)候,隨著有線和無(wú)線通信起飛,市場(chǎng)上紛紛推出高性能DSP協(xié)同處理器(co-processor)以因應(yīng)基帶處理的挑戰(zhàn)。與DSP協(xié)同處理器一樣,AI加速器的目標(biāo)是找到最快速、最節(jié)能的方法來(lái)執(zhí)行所需的運(yùn)算任務(wù)。

從云端的大數(shù)據(jù)(big data)處理到邊緣端的關(guān)鍵詞識(shí)別和影像分析,人工智能(AI)應(yīng)用的爆炸式成長(zhǎng)促使專家們前仆后繼地開發(fā)最佳架構(gòu),以加速機(jī)器學(xué)習(xí)(ML)算法的處理。各式各樣的新興解決方案都凸顯了設(shè)計(jì)人員在選擇硬件平臺(tái)之前,明確定義應(yīng)用及其需求的重要性。

從很多方面來(lái)看,AI加速熱潮與1990年代末期和2000年代初的DSP淘金熱很類似;在那個(gè)時(shí)候,隨著有線和無(wú)線通信起飛,市場(chǎng)上紛紛推出高性能DSP協(xié)同處理器(co-processor)以因應(yīng)基帶處理的挑戰(zhàn)。與DSP協(xié)同處理器一樣,AI加速器的目標(biāo)是找到最快速、最節(jié)能的方法來(lái)執(zhí)行所需的運(yùn)算任務(wù)。

神經(jīng)網(wǎng)絡(luò)處理背后的數(shù)學(xué),涉及統(tǒng)計(jì)學(xué)、多元微積分(multivariable calculus)、線性代數(shù)、數(shù)值優(yōu)化(numerical optimization)和機(jī)率等;雖然很復(fù)雜,也是高度可平行化的(parallelizable)。但事實(shí)上這是令人尷尬的可平行化──與分布式計(jì)算不同,在路徑的輸出被重組并產(chǎn)生輸出結(jié)果之前,很容易被分解為沒有分支(branches)或從屬關(guān)系(dependencies)的平行路徑。

在各種神經(jīng)網(wǎng)絡(luò)算法中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)特別擅長(zhǎng)對(duì)象識(shí)別類任務(wù)——也就是從影像中過(guò)濾篩選出感興趣的對(duì)象。CNN以多維矩陣(multidimensional matrices)──即張量(tensor)──架構(gòu)來(lái)理解資料,將超出第三個(gè)維度的每個(gè)維度都嵌入到子數(shù)組中(如圖1),每個(gè)添加的維度稱為“階”(order),因此,五階張量會(huì)有五個(gè)維度。

圖1:CNN以張量架構(gòu)攝取數(shù)據(jù),也就是可被可視化為3D立方體的數(shù)字矩陣(數(shù)據(jù)集);每個(gè)數(shù)組中還有一個(gè)子數(shù)組,該數(shù)字定義了CNN的深度。

與數(shù)學(xué)相關(guān)度不高,AI重點(diǎn)在于快速反復(fù)運(yùn)算

這種多維分層對(duì)于理解CNN所需之加速的本質(zhì)很重要,卷積過(guò)程使用乘法在數(shù)學(xué)上將兩個(gè)函數(shù)“卷繞”(roll)在一起,因此廣泛使用乘加(multiply-accumulate,MAC)數(shù)學(xué)運(yùn)算;舉例來(lái)說(shuō),在對(duì)象識(shí)別中,一個(gè)函數(shù)是源影像,另一個(gè)函數(shù)是用來(lái)識(shí)別特征然后將其映像到特征空間的過(guò)濾器(filter)。每個(gè)過(guò)濾器都要多次執(zhí)行這種“卷繞”,以識(shí)別影像中的不同特征,因此數(shù)學(xué)運(yùn)算變得非常重復(fù),且是令人尷尬(或令人愉悅)的可平行化。

為此,某些AI加速器的設(shè)計(jì)采用多個(gè)獨(dú)立的處理器核心(高達(dá)數(shù)百或上千個(gè)),與內(nèi)存子系統(tǒng)一起整合在單芯片中,以減輕數(shù)據(jù)存取延遲并降低功耗。然而,由于業(yè)界已設(shè)計(jì)了繪圖處理器(GPU)來(lái)對(duì)圖像處理功能進(jìn)行高度平行處理,因此它們對(duì)于AI所需的這種神經(jīng)網(wǎng)絡(luò)處理也可以實(shí)現(xiàn)很好的加速。AI應(yīng)用的多樣性和深度,特別是在語(yǔ)音控制、機(jī)器人、自動(dòng)駕駛和大數(shù)據(jù)分析等方面,已經(jīng)吸引了GPU供應(yīng)商將重點(diǎn)轉(zhuǎn)移到AI處理硬件加速的開發(fā)。

然而AI硬件加速的問(wèn)題,在于有如此多的數(shù)據(jù),所需的準(zhǔn)確性和響應(yīng)時(shí)間又有如此大的差別,設(shè)計(jì)人員必須對(duì)于架構(gòu)的選擇非常講究。例如數(shù)據(jù)中心是數(shù)據(jù)密集型的,其重點(diǎn)是盡可能快速處理數(shù)據(jù),因此功耗并非特別敏感的因素——盡管能源效率有利于延長(zhǎng)設(shè)備使用壽命,降低設(shè)施的整體能耗和冷卻成本,這是合理的考慮。百度的昆侖(Kunlun)處理器耗電量為100W,但運(yùn)算性能達(dá)到260 TOPS,就是一款特別適合數(shù)據(jù)中心應(yīng)用的處理器。

接下來(lái)看另一個(gè)極端的案例。如關(guān)鍵詞語(yǔ)音識(shí)別這樣的任務(wù)需要與云端鏈接,以使用自然語(yǔ)言識(shí)別來(lái)執(zhí)行進(jìn)一步的命令?,F(xiàn)在這種任務(wù)在采用法國(guó)業(yè)者GreenWaves Technologies之GAP8處理器的電池供電邊緣設(shè)備上就可以實(shí)現(xiàn);該處理器是專為邊緣應(yīng)用設(shè)計(jì),強(qiáng)調(diào)超低功耗。

介于中間的應(yīng)用,如自動(dòng)駕駛車輛中的攝影機(jī),則需要盡可能接近實(shí)時(shí)反應(yīng),以識(shí)別交通號(hào)志、其他車輛或行人,同時(shí)仍需要最小化功耗,特別是對(duì)于電動(dòng)車來(lái)說(shuō);這種情況或許需要選擇第三種方案。云端連結(jié)在此類應(yīng)用中也很重要,如此才能實(shí)時(shí)更新所使用的模型和軟件,以確保持續(xù)提高準(zhǔn)確度、反應(yīng)時(shí)間和效率。

ASIC還不足以托付AI加速任務(wù)

正因?yàn)檫@是一個(gè)在軟、硬件方面都迅速發(fā)展,需要在技術(shù)上持續(xù)更新的領(lǐng)域,并不建議將AI神經(jīng)網(wǎng)絡(luò)(NN)加速器整合到ASIC或是系統(tǒng)級(jí)封裝(SiP)中——盡管這樣的整合具有低功耗、占用空間小、成本低(大量時(shí))和內(nèi)存訪問(wèn)速度快等優(yōu)點(diǎn)。加速器、模型和神經(jīng)網(wǎng)絡(luò)算法的變動(dòng)太大,其靈活性遠(yuǎn)超過(guò)指令導(dǎo)向(instruction-driven)方法,只有像Nvidia這種擁有先進(jìn)技術(shù)、資金雄厚的玩家才能夠負(fù)擔(dān)得起不斷在硬件,而在硬件上根據(jù)特定方法進(jìn)行迭代。

這種硬件加速器開發(fā)工作的一個(gè)很好的例子,就是Nvidia在其Tesla V100 GPU中增加了640個(gè)Tensor核心,每個(gè)核心在一個(gè)頻率周期內(nèi)可以執(zhí)行64次浮點(diǎn)(FP)融合乘加(fused-multiply-add,F(xiàn)MA)運(yùn)算,可為訓(xùn)練和推理應(yīng)用提供125 TFLOPS的運(yùn)算性能。借助該架構(gòu),開發(fā)人員可以使用FP16和FP32累加的混合精度(mixed precision)進(jìn)行深度學(xué)習(xí)訓(xùn)練,指令周期比Nvidia自家上一代Pascal架構(gòu)高3倍。

混合精度方法很重要,因?yàn)殚L(zhǎng)期以來(lái)人們已經(jīng)認(rèn)識(shí)到,雖然高性能運(yùn)算(HPC)需要使用32~256位FP的精確運(yùn)算,但深度神經(jīng)網(wǎng)絡(luò)(DNN)不需要這么高的精度;這是因?yàn)榻?jīng)常用于訓(xùn)練DNN的反向傳播算法(back-propagation algorithm)對(duì)誤差具有很強(qiáng)的彈性,因此16位半精度(FP16)對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練就足夠了。

此外,儲(chǔ)存FP16數(shù)據(jù)比儲(chǔ)存FP32或FP64數(shù)據(jù)的內(nèi)存效率更高,從而可以訓(xùn)練和部署更多的網(wǎng)絡(luò),而且對(duì)許多網(wǎng)絡(luò)來(lái)說(shuō),8位整數(shù)運(yùn)算(integer computation)就足夠了,對(duì)準(zhǔn)確性不會(huì)有太大影響。

這種使用混合精度運(yùn)算的能力在邊緣甚至?xí)鼘?shí)用,當(dāng)數(shù)據(jù)輸入的來(lái)源是低精度、低動(dòng)態(tài)范圍的傳感器——例如溫度傳感器、MEMS慣性傳感器(IMU)和壓力傳感器等——還有低分辨率視頻時(shí),開發(fā)人員可以折衷精度以取得低功耗。

AI架構(gòu)的選擇利用霧計(jì)算從邊緣擴(kuò)展至云端

可擴(kuò)充處理(scalable processing)的概念已經(jīng)擴(kuò)展到更廣泛的網(wǎng)絡(luò)——利用霧運(yùn)算(fog computing)概念,透過(guò)在網(wǎng)絡(luò)上的最佳位置執(zhí)行所需的處理,來(lái)彌補(bǔ)邊緣和云端之間的能力差距;例如可以在本地物聯(lián)網(wǎng)(IoT)網(wǎng)關(guān)或更接近應(yīng)用現(xiàn)場(chǎng)的本地端服務(wù)器上進(jìn)行神經(jīng)網(wǎng)絡(luò)圖像處理,而不必在云端進(jìn)行。這樣做有三個(gè)明顯的優(yōu)勢(shì):一是能減少由于網(wǎng)絡(luò)等待時(shí)間造成的時(shí)延,二來(lái)可以更安全,此外還能為必須在云端處理的數(shù)據(jù)釋出可用的網(wǎng)絡(luò)帶寬;在更高的層面上,這種方法也通常更節(jié)能。

因此,許多設(shè)計(jì)師正在開發(fā)內(nèi)建攝影機(jī)、影像預(yù)處理和神經(jīng)網(wǎng)絡(luò)AI信號(hào)鏈(signal chains)功能的獨(dú)立產(chǎn)品,這些產(chǎn)品僅在相對(duì)較閉回路(closed-loop)的運(yùn)作中呈現(xiàn)輸出,例如已識(shí)別標(biāo)志(自駕車)或人臉(家用安防系統(tǒng))。在更極端的案例中,例如設(shè)置在偏遠(yuǎn)或難以到達(dá)之處,以電池或太陽(yáng)能供電的設(shè)備,可能需要長(zhǎng)時(shí)間地進(jìn)行這種處理。

圖2:GreenWave的GAP8采用9個(gè)RISC-V處理器核心,針對(duì)網(wǎng)絡(luò)邊緣智能設(shè)備上的低功耗AI處理進(jìn)行了優(yōu)化。

為了幫助降低這種邊緣AI圖像處理的功耗,GreenWaves Technologies的GAP8處理器整合了9個(gè)RISC-V核心;其中一個(gè)核心負(fù)責(zé)硬件和I/O控制功能,其余8個(gè)核心則圍繞共享數(shù)據(jù)和指令內(nèi)存形成一個(gè)叢集(如圖2)。這種結(jié)構(gòu)形成了CNN推理引擎加速器,具備額外的RISC-V ISA指令來(lái)強(qiáng)化DSP類型的運(yùn)算。

GAP8是為網(wǎng)絡(luò)邊緣的智能設(shè)備量身打造,在功耗僅幾十毫瓦(mW)的情況下可實(shí)現(xiàn)8GOPS運(yùn)算,或者在1mW時(shí)可實(shí)現(xiàn)200 MOPS運(yùn)算;它完全可以用C/C++語(yǔ)言來(lái)編程,最小待機(jī)電流為70nA。

AI處理器架構(gòu)比一比:RISC-V vs. Arm

RISC-V開放性硬件架構(gòu)在一開始遭到質(zhì)疑,因?yàn)槟切枰粋€(gè)忠實(shí)穩(wěn)固的使用者社群,以提供一系列豐富的支持工具和軟件;而隨著該架構(gòu)透過(guò)各種測(cè)試芯片和硬件實(shí)作吸引更多開發(fā)者加入,那些質(zhì)疑也逐漸消退。RISC-V吸引人之處在于它正成為Arm處理器的強(qiáng)勁對(duì)手,特別是在超低功耗、低成本應(yīng)用上;只要談到低成本就會(huì)錙銖必較,因此免費(fèi)方案總是會(huì)感覺比需要支付授權(quán)費(fèi)的方案更好。

不過(guò)雖然RISC-V架構(gòu)的GAP8可以節(jié)能并且針對(duì)邊緣神經(jīng)網(wǎng)絡(luò)處理進(jìn)行了高度優(yōu)化,從系統(tǒng)開發(fā)的角度來(lái)看仍然需要考慮周邊功能,例如攝影機(jī)傳感器本身和網(wǎng)絡(luò)通訊接口,以及是采用有線還是無(wú)線技術(shù)等;依據(jù)系統(tǒng)通訊和處理影像的次數(shù)頻率,這些功能占用的功耗比例可能較高。根據(jù)GreenWaves的說(shuō)法,GAP8若采用3.6Wh的電池供電,能以每3分鐘分類一張QVGA影像的頻率持續(xù)工作長(zhǎng)達(dá)10年;但該數(shù)字并未考慮整體系統(tǒng)中其他因素的影響。

GreenWaves將其GAP8處理器與采用Arm Cortex-M7核心、運(yùn)作頻率216MHz的意法半導(dǎo)體(ST)處理器STM32 F7進(jìn)行了直接比較(圖3);兩者以CIFAR-10數(shù)據(jù)集的影像進(jìn)行訓(xùn)練,權(quán)重量化為8位定點(diǎn)(fixed point)。

圖3:GreenWaves Technologies的GAP8與ST的STM32 F7處理器性能比較。

雖然GAP8因?yàn)閾碛邪撕诵募軜?gòu)而呈現(xiàn)更高效率,并能以較低時(shí)鐘速率與更少的周期實(shí)現(xiàn)推理,Arm架構(gòu)也不遑多讓──Arm已經(jīng)發(fā)表了針對(duì)行動(dòng)設(shè)備和其他相鄰、網(wǎng)絡(luò)邊緣應(yīng)用的機(jī)器學(xué)習(xí)(ML)處理器,其應(yīng)用場(chǎng)景包括AR/VR、醫(yī)療、消費(fèi)性電子產(chǎn)品以及無(wú)人機(jī)等;該架構(gòu)采用固定功能引擎(fixed-function engines)來(lái)執(zhí)行CNN層,并采用可程序化層(programmable layer)引擎來(lái)執(zhí)行非卷積層以及實(shí)現(xiàn)所選基元(primitive)和運(yùn)算符(operator),參考圖4。

圖4:Arm的ML處理器設(shè)計(jì)用于CNN類型固定功能以及可程序化層引擎的低功耗邊緣處理。

有趣的是,ML處理器是以高度可擴(kuò)充架構(gòu)為基礎(chǔ),因此同一處理器和工具可用于開發(fā)從物聯(lián)網(wǎng)到、嵌入式工業(yè)和交通,到網(wǎng)絡(luò)處理和服務(wù)器等各種應(yīng)用,運(yùn)算性能要求從20 MOPS到70 TOPS以上不等。

如果開發(fā)團(tuán)隊(duì)希望從云端往下擴(kuò)充,或從邊緣往上擴(kuò)充,那么這種可擴(kuò)充性比較適合之前討論的霧運(yùn)算概念。此外該處理器本身與主流神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架緊密整合,例如Google的TensorFlow和TensorFlow Lite,以及Caffe和Caffe 2;它還針對(duì)Arm Cortex CPU和Arm Mali GPU進(jìn)行了優(yōu)化。

在異構(gòu)處理體系架構(gòu)中部署AI

透過(guò)ML處理器,Arm還強(qiáng)調(diào)了異質(zhì)(heterogenous)方法對(duì)AI應(yīng)用之神經(jīng)網(wǎng)絡(luò)的重要性,但僅限于其CPU和GPU的狹窄范圍內(nèi)。從更廣泛的角度來(lái)看,英特爾(Intel)的OpenVINO (Visual Inference & Neural Network Optimization,視覺推理和神經(jīng)網(wǎng)絡(luò)優(yōu)化)工具套件可以實(shí)現(xiàn)異質(zhì)混合架構(gòu)的開發(fā),包括CPU、GPU與FPGA,當(dāng)然還有英特爾自家的Movidius視覺處理器(VPU)和基于Atom的圖像處理器(IPU)。利用通用API以及針對(duì)OpenCV和OpenVX優(yōu)化的呼叫(call),英特爾聲稱其深度學(xué)習(xí)性能可以提高19倍。

異質(zhì)方法對(duì)于針對(duì)AI的神經(jīng)網(wǎng)絡(luò)處理既有好處又不可或缺;當(dāng)從頭開始一個(gè)設(shè)計(jì),這種方法能開啟更多的處理可能性和潛在的優(yōu)化機(jī)會(huì)。但許多嵌入式系統(tǒng)已經(jīng)部署了相關(guān)硬件,通常是混合了MCU、CPU、GPU和FPGA,因此如果有開發(fā)工具可以在這樣的已設(shè)置硬件基礎(chǔ)上開發(fā)AI應(yīng)用,并透過(guò)單一API進(jìn)行相對(duì)應(yīng)的優(yōu)化(假設(shè)像OpenVINO這樣的工具套件是與底層硬件兼容),可以解決很多問(wèn)題。

百度將AI處理性能推向新高

在今年7月初于北京舉行的百度開發(fā)者大會(huì)Create 2018上,該公司發(fā)表了昆侖(圖5),號(hào)稱是中國(guó)首款從云端到邊緣的AI芯片組,包括818-300訓(xùn)練芯片和818-100推理芯片。

圖5:百度的昆侖是中國(guó)第一款從云端到邊緣的AI處理器芯片組,雖然其架構(gòu)細(xì)節(jié)尚未公布,但號(hào)稱比百度2011年發(fā)表、基于FPGA的AI加速器快30倍。

昆侖號(hào)稱比百度2011年發(fā)表、基于FPGA的AI加速器快30倍,達(dá)到260 TOPS@100W;該芯片將采用三星(Samsung)的14納米工藝,內(nèi)存帶寬為512GB/s。雖然百度尚未公布其架構(gòu)參數(shù),但它可能包含數(shù)千個(gè)核心,能為百度自己的數(shù)據(jù)中心進(jìn)行巨量數(shù)據(jù)的高速平行處理;該公司也有計(jì)劃針對(duì)各種客戶端設(shè)備和邊緣處理應(yīng)用推出低性能版本。

在百度的昆侖發(fā)表前不久,Google于5月份也發(fā)表了TPU 3.0;Google并未透露該芯片細(xì)節(jié),只說(shuō)速度比去年的版本快8倍,達(dá)到100 PFLOPS。

使用現(xiàn)有技術(shù)來(lái)啟動(dòng)AI設(shè)計(jì)

雖然還有許多其他新興的神經(jīng)網(wǎng)絡(luò)處理架構(gòu),如果是對(duì)“運(yùn)算性能vs.實(shí)時(shí)性能要求”有合理期望,目前也有許多處理器和工具套件能充分滿足邊緣運(yùn)算需求。例如,基本的家用保全系統(tǒng)可能包括一臺(tái)攝影機(jī),負(fù)責(zé)人臉識(shí)別處理并透過(guò)Wi-Fi連接到家庭網(wǎng)關(guān)或路由器,這用市面上現(xiàn)有的處理器或工具套件就可以實(shí)現(xiàn)。

想嘗試這種設(shè)計(jì)的開發(fā)人員不必從零開始,而是只要選擇一個(gè)已經(jīng)獲得廣泛支持的平臺(tái),具備各種CPU、視頻與圖片處理GPU、高速內(nèi)存、內(nèi)建無(wú)線和有線通訊模塊,還有恰當(dāng)?shù)?a target="_blank">操作系統(tǒng)支持和廣泛、活躍的用戶生態(tài)系統(tǒng)。

圖6:NXP的i.MX 8M解決了快速啟動(dòng)開發(fā)的問(wèn)題,同時(shí)還可以使用基于Arm的處理器來(lái)擴(kuò)展AI應(yīng)用。

恩智浦半導(dǎo)體(NXP)的i.MX 8M就是一個(gè)合適的起點(diǎn)(圖6)。該方案實(shí)際上是一系列處理器,配備最多達(dá)四個(gè)的1.5GHz Arm Cortex-A53和Cortex-M4核心;內(nèi)含兩個(gè)GPU類型處理器,一個(gè)可用于影像預(yù)處理,另一個(gè)用于神經(jīng)網(wǎng)絡(luò)加速。

另一個(gè)關(guān)鍵設(shè)計(jì)需求是現(xiàn)場(chǎng)使用壽命要夠長(zhǎng),也就是系統(tǒng)要能夠耐受惡劣使用環(huán)境,特別像是安裝在室外的攝影機(jī);還要能隨著時(shí)間持續(xù)更新。后者特別重要,因?yàn)樵O(shè)計(jì)人員得確保設(shè)計(jì)中預(yù)留足夠的空間,以便在功能增加時(shí)實(shí)現(xiàn)更高的處理性能要求;同時(shí)還要保證低功耗,特別是對(duì)電池供電產(chǎn)品來(lái)說(shuō)。

AI加速的重要性在于,其處理能力需求正從傳統(tǒng)的CPU和FPGA轉(zhuǎn)移到GPU和VPU,或者所有以上處理器的異質(zhì)組合;當(dāng)然這取決于應(yīng)用。在此同時(shí),即使針對(duì)越來(lái)越龐大數(shù)據(jù)集的AI加速成為主流,CPU的關(guān)鍵控制功能仍將保持不變。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 無(wú)線通信
    +關(guān)注

    關(guān)注

    58

    文章

    4459

    瀏覽量

    143294
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29438

    瀏覽量

    267765

原文標(biāo)題:如何針對(duì)不同的應(yīng)用,選合適的AI硬件加速方案?

文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    RISC-V跑AI算法能加速嗎?

    現(xiàn)在好多ARM單片機(jī)都帶機(jī)器學(xué)習(xí)加速,RISC-V有這方面的硬件加速嗎?
    發(fā)表于 10-10 22:14

    基于 DSP5509 進(jìn)行數(shù)字圖像處理中 Sobel 算子邊緣檢測(cè)的硬件連接電路圖

    以下是基于 DSP5509 進(jìn)行數(shù)字圖像處理中 Sobel 算子邊緣檢測(cè)的硬件設(shè)計(jì)方案: 一、總體架構(gòu) 圖像采集:使用合適的圖像傳感器,如 CMOS 傳感器,通過(guò)相應(yīng)的接口(如 SPI、I2C 等
    發(fā)表于 09-25 15:25

    TDA4VM上的硬件加速運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)算法

    電子發(fā)燒友網(wǎng)站提供《TDA4VM上的硬件加速運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)算法.pdf》資料免費(fèi)下載
    發(fā)表于 09-24 11:39 ?0次下載
    TDA4VM上的<b class='flag-5'>硬件加速</b>運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)算法

    AM62A SoC通過(guò)硬件加速視覺處理改進(jìn)條形碼讀取器

    電子發(fā)燒友網(wǎng)站提供《AM62A SoC通過(guò)硬件加速視覺處理改進(jìn)條形碼讀取器.pdf》資料免費(fèi)下載
    發(fā)表于 09-04 09:52 ?0次下載
    AM62A SoC通過(guò)<b class='flag-5'>硬件加速</b>視覺處理改進(jìn)條形碼讀取器

    適用于數(shù)據(jù)中心應(yīng)用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案

    電子發(fā)燒友網(wǎng)站提供《適用于數(shù)據(jù)中心應(yīng)用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案.pdf》資料免費(fèi)下載
    發(fā)表于 08-26 09:38 ?0次下載
    適用于數(shù)據(jù)中心應(yīng)用中的<b class='flag-5'>硬件加速</b>器的直流/直流轉(zhuǎn)換器解決<b class='flag-5'>方案</b>

    西門子推出Catapult AI NN軟件,賦能神經(jīng)網(wǎng)絡(luò)加速器設(shè)計(jì)

    西門子數(shù)字化工業(yè)軟件近日發(fā)布了Catapult AI NN軟件,這款軟件在神經(jīng)網(wǎng)絡(luò)加速器設(shè)計(jì)領(lǐng)域邁出了重要一步。Catapult AI NN軟件專注于在專用集成電路(ASIC)和芯片級(jí)系統(tǒng)(SoC)上實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的高層次綜合(H
    的頭像 發(fā)表于 06-19 11:27 ?755次閱讀

    PSoC 6 MCUBoot和mbedTLS是否支持加密硬件加速?

    。 使用 MCUBoot 驗(yàn)證兩個(gè)應(yīng)用程序時(shí),運(yùn)行時(shí)間大約需要五秒鐘。 在 README.md 的 \"安全 \"一欄中寫道 與軟件實(shí)現(xiàn)相比,硬件加速加密技術(shù)將啟動(dòng)時(shí)間縮短了四倍多
    發(fā)表于 05-29 08:17

    新思科技硬件加速解決方案技術(shù)日在成都和西安站成功舉辦

    近日,【新思科技技術(shù)日】硬件加速驗(yàn)證解決方案專場(chǎng)成都站和西安站順利舉行,來(lái)自國(guó)內(nèi)領(lǐng)先的系統(tǒng)級(jí)公司、芯片設(shè)計(jì)公司以及高校的250多名開發(fā)者們積極參與。
    的頭像 發(fā)表于 04-19 17:35 ?397次閱讀

    Elektrobit利用其首創(chuàng)的硬件加速軟件優(yōu)化汽車通信網(wǎng)絡(luò)的性能

    Elektrobit今日宣布推出 EB zoneo GatewayCore——首款支持、配置和集成現(xiàn)代微控制器新一代硬件加速器的軟件產(chǎn)品,可應(yīng)用于先進(jìn)的汽車電子/電氣架構(gòu)(基于被廣泛采用
    的頭像 發(fā)表于 04-17 09:51 ?298次閱讀

    用DE1-SOC進(jìn)行硬件加速的2D N-Body重力模擬器設(shè)計(jì)

    該項(xiàng)目的目標(biāo)是創(chuàng)建一個(gè)用DE1-SOC進(jìn)行硬件加速的2D N-Body重力模擬器。
    的頭像 發(fā)表于 04-09 11:08 ?457次閱讀
    用DE1-SOC進(jìn)行<b class='flag-5'>硬件加速</b>的2D N-Body重力模擬器設(shè)計(jì)

    【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】(原創(chuàng))7.硬件加速Sora文生視頻源代碼

    算法,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或Transformer,用于文本處理,以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)或生成對(duì)抗網(wǎng)絡(luò)(GAN)用于視頻生成。通常涉及對(duì)模型中的計(jì)算密集型部分進(jìn)行硬件加速。文本到視頻生成模型
    發(fā)表于 02-22 09:49

    音視頻解碼器硬件加速:實(shí)現(xiàn)更流暢的播放效果

    隨著多媒體內(nèi)容的日益豐富和高清化,傳統(tǒng)的軟件解碼已經(jīng)難以滿足人們對(duì)流暢播放體驗(yàn)的需求。因此,音視頻解碼器硬件加速技術(shù)的出現(xiàn),為提升播放效果帶來(lái)了革命性的改變。 硬件加速的原理 硬件加速的核心
    的頭像 發(fā)表于 02-21 14:40 ?830次閱讀
    音視頻解碼器<b class='flag-5'>硬件加速</b>:實(shí)現(xiàn)更流暢的播放效果

    【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】(原創(chuàng))5.FPGA的AI加速源代碼

    使用硬件加速器來(lái)進(jìn)一步提升性能。我寫的這個(gè)簡(jiǎn)化的代碼只是為了幫助理解FPGA如何可能參與AI計(jì)算的過(guò)程。在實(shí)際的FPGA AI加速項(xiàng)目中,還需要考慮如何有效地處理數(shù)據(jù)流、優(yōu)化內(nèi)存訪問(wèn)、
    發(fā)表于 02-12 16:18

    深入探討工業(yè)AI/ML技術(shù)的發(fā)展趨勢(shì)及相關(guān)解決方案

    芯科科技已經(jīng)創(chuàng)建了一套完整的硬件和軟件解決方案,可支持開發(fā)用于工業(yè)市場(chǎng)的工業(yè)AI/ML解決方案。具體來(lái)說(shuō),我們的Sub-GHz、藍(lán)牙和802.15.4產(chǎn)品內(nèi)置了
    的頭像 發(fā)表于 01-29 09:42 ?428次閱讀

    在Sigma 300里面使用硬件加速器slew,slew mode為RC type時(shí)不同的time constant的值有什么用?

    請(qǐng)問(wèn)下在Sigma 300里面使用硬件加速器slew,slew mode為RC type時(shí),對(duì)應(yīng)的time constant 與數(shù)據(jù)從當(dāng)前值到目標(biāo)值得時(shí)間有什么關(guān)系,或者說(shuō)不同的time constant的值有什么用? 謝謝, 中 J Jj
    發(fā)表于 11-29 07:25