半導(dǎo)體技術(shù)、算法和數(shù)據(jù)科學(xué)的持續(xù)創(chuàng)新使得在越來越多的邊緣設(shè)備中融入一定程度的人工智能推理功能成為可能。今天,我們在計算機(jī)視覺應(yīng)用中看到了它,例如從手機(jī)和筆記本電腦到安全攝像頭的產(chǎn)品上的物體識別、面部識別和圖像分類。在工業(yè)系統(tǒng)中,推理可以實現(xiàn)預(yù)測性設(shè)備維護(hù),并允許機(jī)器人獨(dú)立執(zhí)行任務(wù)。對于物聯(lián)網(wǎng)和智能家居產(chǎn)品,人工智能推理可以實時監(jiān)控和響應(yīng)各種傳感器輸入。
目前支持AI推理的最低成本處理解決方案是用于物聯(lián)網(wǎng)系統(tǒng)的現(xiàn)成單芯片微控制器。這種芯片將通用CPU、SRAM和IO功能與非易失性存儲器(NVM)相結(jié)合。然而,這些芯片在CPU上運(yùn)行的軟件中實現(xiàn)了AI算法,這些算法只能提供適度的性能,并且僅適用于基本推理。擴(kuò)展單芯片解決方案以提供更高性能的推理對設(shè)計人員來說是一個挑戰(zhàn)。
如今,有望為要求苛刻的推理算法提供多個 Teraflops 性能的解決方案必須使用專用的 AI 加速硬件。為了在實現(xiàn)所需性能的同時將功耗降至最低,它們必須采用領(lǐng)先的工藝制造。事實上,如今市場上有許多片上系統(tǒng) (SoC) 采用先進(jìn)的工藝幾何形狀開發(fā)的專用 AI 加速硬件,效率相當(dāng)高。
但是,這些通常是雙芯片解決方案,其中AI計算引擎采用高級工藝(通常為22nm或更低)實現(xiàn),NVM設(shè)備采用較舊的工藝技術(shù)。這是因為嵌入式閃存在 40nm 以下無法很好地擴(kuò)展;在28nm時,成本對于大多數(shù)應(yīng)用來說變得令人望而卻步,因此在28nm時不存在嵌入式閃存。這意味著無法將閃存和高性能推理引擎集成到單個 SoC 中。
對于成本次于性能的應(yīng)用,這種雙芯片解決方案可能是可行的(想想像自動駕駛汽車這樣的產(chǎn)品,它們需要存儲在固態(tài)硬盤[SSD]中并通過DRAM運(yùn)行的大型AI模型)。然而,對于低功耗邊緣AI產(chǎn)品,雙芯片解決方案的成本可能令人望而卻步。在雙芯片解決方案中,還需要連續(xù)從外部存儲器獲取權(quán)重,從而導(dǎo)致延遲和功耗增加。此外,雙芯片解決方案存在潛在的安全風(fēng)險,因為通過外部總線讀取或修改NVM更有可能破解系統(tǒng)。
低成本、低功耗系統(tǒng)的“圣杯”是將加速器、NVM、SRAM 和 IO 組合在單個 SoC 上的單芯片(SoC 或 MCU)。從資源的角度來看,大多數(shù)小型低功耗物聯(lián)網(wǎng)和其他AI邊緣應(yīng)用實際上并不需要雙芯片解決方案。在這些應(yīng)用中,AI 模型可以足夠小,以適應(yīng) SoC 的內(nèi)部 NVM。只有閃存有限的可擴(kuò)展性才是挑戰(zhàn)。
單芯片解決方案不僅可以節(jié)省成本;這將有可能實現(xiàn)更高的性能和更低的功耗,這既是因為存儲器和執(zhí)行單元之間的帶寬更高,也是因為不需要跨芯片邊界獲取權(quán)重。而且,由于這些應(yīng)用程序中的AI模型相對較小并且更新頻率不高,因此片上NVM不僅可以用于代碼存儲的傳統(tǒng)NVM任務(wù);它還可用于保存AI權(quán)重和CPU固件。
如今,AI權(quán)重和CPU固件是從片上SRAM讀取的。這種方法有幾個缺點(diǎn)。首先,將權(quán)重存儲在SRAM中意味著需要比其他方式更大的SRAM陣列。這增加了成本,因為SRAM本身就很昂貴,而且還增加了整體芯片尺寸,導(dǎo)致進(jìn)一步的成本。此外,由于SRAM是一種易失性存儲器技術(shù),因此在啟動時仍需要從外部閃存加載代碼。沒有即時啟動。
利用 ReRAM 實現(xiàn)單芯片解決方案
電阻式 RAM(ReRAM 或 RRAM)是一種創(chuàng)新的 NVM 技術(shù),可實現(xiàn)用于邊緣 AI 推理的低成本、低功耗單芯片解決方案的愿景。ReRAM可以與芯片的其余部分一起擴(kuò)展到高級工藝節(jié)點(diǎn),因此它可以在與AI引擎相同的高級工藝上實現(xiàn)。
ReRAM可用于取代大型片上SRAM,以存儲AI權(quán)重和CPU固件。由于該技術(shù)是非易失性的,因此無需在啟動時等待從外部 NVM 加載 AI 模型。它比SRAM密度大得多,這使得它的每比特成本低于SRAM,因此可以在片上集成更多的存儲器,以支持更大的神經(jīng)網(wǎng)絡(luò),而芯片尺寸和成本相同。雖然數(shù)據(jù)存儲仍然需要片上SRAM,但陣列將更小,整體解決方案更具成本效益。
雖然數(shù)據(jù)存儲仍然需要片上SRAM,但用ReRAM取代大型片上SRAM來存儲AI權(quán)重和CPU固件,可以減小芯片尺寸,提供更具成本效益的整體解決方案。(圖片:Weebit Nano)
借助 ReRAM,設(shè)計人員可以在單個 IC 中實現(xiàn)高級 AI 的單芯片實現(xiàn),同時節(jié)省芯片尺寸和成本。
展望未來:未來的 AI 架構(gòu)
展望未來,ReRAM也將成為邊緣AI未來的構(gòu)建模塊:神經(jīng)形態(tài)計算(也稱為內(nèi)存模擬處理)。在此范例中,計算資源和內(nèi)存駐留在同一位置,因此無需移動權(quán)重。神經(jīng)網(wǎng)絡(luò)矩陣成為ReRAM單元的數(shù)組,突觸權(quán)重成為驅(qū)動乘法運(yùn)算的NVM單元的電導(dǎo)。
未來的系統(tǒng)將模仿人腦的行為,對大量數(shù)據(jù)進(jìn)行快速實時處理。(圖片:Weebit Nano)
由于ReRAM細(xì)胞與人腦中的突觸具有物理和功能相似性,因此可以使用ReRAM模擬人腦的行為,以便對大量數(shù)據(jù)進(jìn)行快速實時處理。這樣的解決方案將比當(dāng)今傳統(tǒng)處理器上的神經(jīng)網(wǎng)絡(luò)模擬能效高出幾個數(shù)量級。Weebit正在與眾多學(xué)術(shù)和商業(yè)合作伙伴合作,以在這一領(lǐng)域取得進(jìn)展。
編輯:黃飛
-
cpu
+關(guān)注
關(guān)注
68文章
10781瀏覽量
210521 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2899文章
43822瀏覽量
369340 -
AI
+關(guān)注
關(guān)注
87文章
29438瀏覽量
267758 -
NVM
+關(guān)注
關(guān)注
1文章
39瀏覽量
19102 -
非易失性存儲器
+關(guān)注
關(guān)注
0文章
107瀏覽量
23404
發(fā)布評論請先 登錄
相關(guān)推薦
評論