0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用基于SRAM的測試芯片實(shí)現(xiàn)加速AI推理

石玉蘭 ? 來源:小點(diǎn)zze ? 作者:小點(diǎn)zze ? 2022-07-21 15:50 ? 次閱讀

瑞薩電子開發(fā)了一種新的內(nèi)存處理器 (PIM) 技術(shù),用于在低功耗邊緣設(shè)備中加速 AI 推理。用于基于 SRAM 技術(shù)的測試芯片實(shí)現(xiàn)了 8.8 TOPS/W 的運(yùn)行卷積神經(jīng)網(wǎng)絡(luò) (CNN) 工作負(fù)載,這是最常用于圖像識(shí)別的算法類型。

瑞薩電子現(xiàn)有一代 AI 推理加速器基于其動(dòng)態(tài)可重構(gòu)處理器 (DRP) 架構(gòu),達(dá)到 1 TOPS/W 量級,足以在終端節(jié)點(diǎn)實(shí)現(xiàn)實(shí)時(shí)圖像識(shí)別。該公司表示,新的 PIM 技術(shù)在 TOPS/W 方面幾乎提高了一個(gè)數(shù)量級,并且可能成為在端點(diǎn)實(shí)施增量學(xué)習(xí)的基礎(chǔ)。

內(nèi)存處理器是一種越來越流行的人工智能推理工作負(fù)載技術(shù),其中涉及將大量輸入數(shù)據(jù)與權(quán)重因子相乘。在 PIM 設(shè)備中,當(dāng)讀取數(shù)據(jù)時(shí),在存儲(chǔ)器本身中執(zhí)行乘法累加 (MAC) 操作。

在瑞薩電子設(shè)備中,存儲(chǔ)權(quán)重的存儲(chǔ)單元可以通過控制單元的輸出開關(guān)與輸入數(shù)據(jù)相乘,從而控制輸出電流。測量位線中的電流然后有效地將所有輸出加在一起。以這種方式在內(nèi)存中執(zhí)行 MAC 操作,通過避免不必要的數(shù)據(jù)傳輸,消除了內(nèi)存和處理器之間的瓶頸。

三元SRAM

在接受 EETimes 的獨(dú)家采訪時(shí),瑞薩電子高級首席工程師 Koichi Nose 解釋了用于提高精度和降低功耗的新技術(shù)。

“傳統(tǒng)的內(nèi)存處理器技術(shù)無法為大規(guī)模計(jì)算提供足夠的精度,”Nose 說,并強(qiáng)調(diào)了傳統(tǒng)上需要解決的變通辦法,以規(guī)避由工藝變化引起的低可靠性?!岸M(jìn)制數(shù)據(jù)也不足以表達(dá)一些復(fù)雜的神經(jīng)網(wǎng)絡(luò)……它會(huì)導(dǎo)致準(zhǔn)確性下降?!?/p>

新的 PIM 技術(shù)是三元的,這意味著每個(gè)單元都具有三種狀態(tài):-1、0 或 1。Nose 解釋說,這允許表示比二進(jìn)制單元更復(fù)雜的數(shù)據(jù)。

如果三進(jìn)制存儲(chǔ)單元保持+1或-1,則電流可以流入位線,但如果存儲(chǔ)單元存儲(chǔ)0,則沒有電流流動(dòng),這有助于保持低功耗。

“此外,重量數(shù)據(jù)可以很容易地?cái)U(kuò)展到任意位數(shù),”Nose 說。“神經(jīng)網(wǎng)絡(luò)中的權(quán)重?cái)?shù)據(jù)是多位信息,一個(gè)零或一個(gè)大的正負(fù)值。在二進(jìn)制單元中表達(dá)多位符號(hào)信息很困難。所提出的存儲(chǔ)器電路可以通過利用三元單元和簡單的數(shù)字計(jì)算塊的組合來輕松表達(dá)任意符號(hào)位操作......因?yàn)檫@可以支持每個(gè)用戶所需的不同計(jì)算精度,用戶可以優(yōu)化精度和精度之間的平衡能量消耗。”

能量消耗

Nose 表示,傳統(tǒng)的 PIM 拓?fù)涫褂?ADC 將位線電流轉(zhuǎn)換為輸出數(shù)據(jù)值,但盡管 ADC 很有效,但它們耗電大且占用寶貴的芯片面積。

瑞薩電子的 PIM 技術(shù)使用標(biāo)準(zhǔn) SRAM 宏中的 1 位讀出放大器作為比較器,與可靈活控制電流的復(fù)制單元(相當(dāng)于存儲(chǔ)單元的當(dāng)前生成部分)結(jié)合使用。將復(fù)制單元電流與三元單元電流進(jìn)行比較有效地檢測三元單元的電流輸出。

零檢測器還有助于降低功耗。如果 MAC 運(yùn)算結(jié)果等于 0,則停止比較器的操作以節(jié)省能量。

“在 [典型] 神經(jīng)網(wǎng)絡(luò)電路中,幾乎所有節(jié)點(diǎn)都分配為零;只有少量的神經(jīng)元被激活,大約 1%。所以幾乎所有的計(jì)算結(jié)果都?xì)w零,”Nose 說?!凹せ盍銠z測器電路會(huì)關(guān)閉比較器并有助于降低功耗。通過將比較器 AD 轉(zhuǎn)換器技術(shù)和零檢測器技術(shù)相結(jié)合,可以將功耗降低一個(gè)數(shù)量級?!?/p>

工藝變化

在 SRAM 陣列中,制造工藝的變化經(jīng)常導(dǎo)致故障。由于這些工藝變化,當(dāng)將數(shù)據(jù)寫入具有顯著不同電氣特性的單個(gè)單元時(shí),就會(huì)出現(xiàn)錯(cuò)誤。

“為了避免這個(gè)問題,我們使用了神經(jīng)網(wǎng)絡(luò)的相同特征——幾乎所有節(jié)點(diǎn)都分配為零,”他說。“我們可以通過改組數(shù)據(jù)來避免計(jì)算錯(cuò)誤,以便將零存儲(chǔ)在 [不利] 受影響的單元格中。”

在三進(jìn)制存儲(chǔ)單元中,如果存儲(chǔ)零,則位線中沒有電流流動(dòng),因此求和結(jié)果不依賴于單元電流。

如何識(shí)別受到不利影響的細(xì)胞?

“我們正在開發(fā)其他一些錯(cuò)誤單元檢測方法,但在這個(gè)芯片中,我們使用了一種簡單的方法,”他說?!拔覀儨y量神經(jīng)網(wǎng)絡(luò)的輸出并檢查結(jié)果是否正確,以識(shí)別[不存儲(chǔ)]正確輸出值的錯(cuò)誤單元?!?/p>

測試芯片

Renesas 的 3×3 mm 測試芯片基于 12nm 工藝技術(shù)構(gòu)建,由四個(gè)集群組成,每個(gè)集群可以同時(shí)運(yùn)行不同的 AI 工藝。在每個(gè)集群中,神經(jīng)網(wǎng)絡(luò)權(quán)重?cái)?shù)據(jù)存儲(chǔ)在 PIM 塊中,MAC 運(yùn)算結(jié)果存儲(chǔ)在標(biāo)準(zhǔn) SRAM 塊中。

測試芯片包含 4 Mb 的 PIM 計(jì)算內(nèi)存和 1.5 MB 的 SRAM,足以在不使用外部存儲(chǔ)器的情況下評估緊湊型 CNN。該芯片實(shí)現(xiàn)了8.8 TOPS/W的功率效率。

原型 AI 模塊中的測試芯片的簡單演示還結(jié)合了小型電池、微控制器、相機(jī)和其他外圍設(shè)備,表明只需 5 mW 即可實(shí)現(xiàn)用于實(shí)時(shí)人員檢測的推理。

審核編輯 黃昊宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    452

    文章

    50027

    瀏覽量

    419839
  • sram
    +關(guān)注

    關(guān)注

    6

    文章

    761

    瀏覽量

    114562
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29438

    瀏覽量

    267759
收藏 人收藏

    評論

    相關(guān)推薦

    李開復(fù):中國擅長打造經(jīng)濟(jì)實(shí)惠的AI推理引擎

    10月22日上午,零一萬物公司的創(chuàng)始人兼首席執(zhí)行官李開復(fù)在與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)在推理成本上已實(shí)現(xiàn)了顯著優(yōu)勢,比OpenAI的GPT-4o模型低了31倍。他強(qiáng)調(diào),中國擅長打造經(jīng)濟(jì)實(shí)惠的AI
    的頭像 發(fā)表于 10-22 16:54 ?220次閱讀

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

    提高成本效率。HyperAccel 針對新興的生成式 AI 應(yīng)用提供超級加速芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng),
    的頭像 發(fā)表于 09-18 09:37 ?286次閱讀
    AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創(chuàng)新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產(chǎn)算力,東華軟件打造安全可信的基于私有化大模型的“智多型(A.I.Cogniflex)”
    的頭像 發(fā)表于 07-31 10:51 ?586次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、
    的頭像 發(fā)表于 07-24 11:38 ?657次閱讀

    英特爾助力京東云CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈

    英特爾助力京東云CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈
    的頭像 發(fā)表于 05-27 11:50 ?452次閱讀
    英特爾助力京東云<b class='flag-5'>用</b>CPU<b class='flag-5'>加速</b><b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型構(gòu)建數(shù)智化供應(yīng)鏈

    Marvell獲AI芯片訂單,2026財(cái)年將貢獻(xiàn)25億美元營收

    根據(jù)Marvell透露,已經(jīng)開始為客戶A和B批量生產(chǎn)AI訓(xùn)練及推理加速器,且預(yù)期最早于2025年和2026年實(shí)現(xiàn)對客戶A和C的AI
    的頭像 發(fā)表于 04-15 15:38 ?456次閱讀

    開發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

    Network Runtime 神經(jīng)網(wǎng)絡(luò)運(yùn)行時(shí),作為中間橋梁連通上層AI推理框架和底層加速芯片,實(shí)現(xiàn)A
    發(fā)表于 04-11 16:14

    Groq LPU崛起,AI芯片主戰(zhàn)場從訓(xùn)練轉(zhuǎn)向推理

    人工智能推理的重要性日益凸顯,高效運(yùn)行端側(cè)大模型及AI軟件背后的核心技術(shù)正是推理。不久的未來,全球芯片制造商的主要市場將全面轉(zhuǎn)向人工智能推理
    的頭像 發(fā)表于 02-29 16:46 ?1026次閱讀

    使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測

    這家云計(jì)算巨頭的計(jì)算機(jī)視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。
    的頭像 發(fā)表于 02-29 14:04 ?517次閱讀

    AI算法在RZ/V芯片中的移植推理流程

    之前文章已介紹了一些AI算法Demo的應(yīng)用 ,我們提供從模型訓(xùn)練到RZ/V系列嵌入式端推理應(yīng)用的完整流程。整體流程如下圖所示。
    的頭像 發(fā)表于 12-20 12:21 ?968次閱讀
    <b class='flag-5'>AI</b>算法在RZ/V<b class='flag-5'>芯片</b>中的移植<b class='flag-5'>推理</b>流程

    芯曜途科技發(fā)布適用于MEMS傳感器陣列的STN100近感AI推理芯片

    近日,芯曜途科技發(fā)布了適用于MEMS傳感器陣列的STN100近感AI推理芯片。
    的頭像 發(fā)表于 12-15 15:51 ?1007次閱讀

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)在圖像分類、目標(biāo)識(shí)別、人臉識(shí)別、文字識(shí)別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    瞬變對AI加速卡供電的影響

    圖形處理單元(GPU)、張量處理單元(TPU)和其他類型的專用集成電路(ASIC)通過提供并行處理能力來實(shí)現(xiàn)高性能計(jì)算,以滿足加速人工智能(AI)訓(xùn)練和推理工作負(fù)載的需求 。
    的頭像 發(fā)表于 12-01 18:10 ?363次閱讀
    瞬變對<b class='flag-5'>AI</b><b class='flag-5'>加速</b>卡供電的影響

    瞬變對AI加速卡供電的影響

    圖形處理單元(GPU)、張量處理單元(TPU)和其他類型的專用集成電路(ASIC)通過提供并行處理能力來實(shí)現(xiàn)高性能計(jì)算,以滿足加速人工智能(AI)訓(xùn)練和推理工作負(fù)載的需求。
    的頭像 發(fā)表于 11-16 17:23 ?872次閱讀
    瞬變對<b class='flag-5'>AI</b><b class='flag-5'>加速</b>卡供電的影響

    SRAM,存儲(chǔ)器的新未來

    SRAM 的數(shù)量是任何人工智能處理解決方案的關(guān)鍵要素,它的數(shù)量在很大程度上取決于您是在談?wù)摂?shù)據(jù)中心還是設(shè)備,或者是訓(xùn)練還是推理。但我想不出有哪些應(yīng)用程序在處理元件旁邊沒有至少大量的 SRAM,用于運(yùn)行人工智能訓(xùn)練或
    的頭像 發(fā)表于 11-12 10:05 ?801次閱讀