操三八男人的天堂,久久精品人人槡人妻人人玩,久久狼人大香伊蕉国产

存算一體技術(shù)產(chǎn)業(yè)發(fā)展研究

摘要：基于存算一體技術(shù)產(chǎn)業(yè)發(fā)展實(shí)際情況，結(jié)合人工智能算力快速發(fā)展的背景，從基礎(chǔ)硬件、計(jì)算架構(gòu)、技術(shù)挑戰(zhàn)等維度分析存算一體技術(shù)發(fā)展現(xiàn)狀和趨勢，研究存算一體產(chǎn)業(yè)結(jié)構(gòu)、主要應(yīng)用、產(chǎn)業(yè)發(fā)展面臨的機(jī)遇和挑戰(zhàn)，最后根據(jù)我國算力技術(shù)產(chǎn)業(yè)發(fā)展實(shí)際情況，提出存算一體發(fā)展策略。

關(guān)鍵詞：內(nèi)存計(jì)算；存算一體；非易失性存儲器件；人工智能

00.引言

隨著人工智能技術(shù)產(chǎn)業(yè)的演進(jìn)和向云端、邊緣側(cè)的深入，多種依托人工智能算力的新應(yīng)用、新業(yè)態(tài)不斷涌現(xiàn)。其中，以ChatGPT等大模型訓(xùn)練推理為代表的一系列高算力人工智能應(yīng)用掀起了算力競賽浪潮，使得突破經(jīng)典馮·諾依曼架構(gòu)，探索新算力再次成為計(jì)算技術(shù)突破的重大議題。存算一體技術(shù)具備高能效比、可快速進(jìn)行矩陣運(yùn)算等特點(diǎn)，是實(shí)現(xiàn)人工智能算力提升的重要候選架構(gòu)。筆者重點(diǎn)對存算一體技術(shù)的產(chǎn)生背景、發(fā)展歷程、核心技術(shù)發(fā)展態(tài)勢、產(chǎn)業(yè)和應(yīng)用發(fā)展態(tài)勢等方面進(jìn)行分析和研究，以期為我國存算一體技術(shù)產(chǎn)業(yè)發(fā)展提出建設(shè)性意見。

01.存算一體技術(shù)背景及發(fā)展歷程

1.1 存算一體技術(shù)背景

1.1.1 “馮·諾依曼瓶頸”問題

在馮·諾依曼架構(gòu)中，數(shù)據(jù)從存儲單元外的存儲器獲取，處理完畢后再寫回存儲器，計(jì)算核心與存儲器之間有限的總帶寬直接限制了交換數(shù)據(jù)的速度，計(jì)算核心處理速度和訪問存儲器速度的差異進(jìn)一步減緩處理速度，即“馮·諾依曼瓶頸”[1-2]。

一方面，處理器和存儲器二者的需求、工藝不同，性能差距也就越來越大。存儲器數(shù)據(jù)訪問速度遠(yuǎn)低于中央處理器（Central Processing Unit，CPU）的數(shù)據(jù)處理速度，即“存儲墻”問題。另一方面，數(shù)據(jù)搬運(yùn)的能耗比浮點(diǎn)計(jì)算高1~2 個數(shù)量級[3]。芯片內(nèi)一級緩存功耗達(dá)25 pJ/bit，動態(tài)隨機(jī)存取內(nèi)存（Dynamic Random Access Memory，DRAM）訪問功耗達(dá)1.3~2.6 nJ/bit[4]，是芯片內(nèi)緩存功耗的50~100 倍，進(jìn)一步增加了數(shù)據(jù)訪問能耗。數(shù)據(jù)訪問和存儲已成為算力使用的最大能耗，即“功耗墻”問題。

此外，摩爾定律放緩，工藝尺寸微縮變得越來越困難，甚至趨近極限；傳統(tǒng)架構(gòu)提升使得性能增長速度也在變緩，人們試圖尋找一種新的計(jì)算范式來取代現(xiàn)有計(jì)算范式以跳出馮·諾依曼架構(gòu)和摩爾定律的圍墻，并進(jìn)行多種路徑嘗試。

1.1.2 高算力需求的挑戰(zhàn)

當(dāng)前，算力需求快速增長與算力提升放緩形成尖銳矛盾。以人工智能為例，從1960年到2010年算力需求每兩年提升一倍，而從2012年Alexnet使用圖形處理器（Graphics Processing Unit，GPU）進(jìn)行訓(xùn)練開始，算力每3~4個月提升一倍[5]。谷歌AlphaGo在與李世石對弈中僅需要使用1 920 個CPU和280 個GPU[6]；而谷歌GPT-3開源人工智能模型有1 746 億個參數(shù)，按照訓(xùn)練10天估算，需要3 000~5 000 塊英偉達(dá)A100 GPU；GPT-3.5訓(xùn)練顯卡數(shù)量進(jìn)一步增至2 萬塊；預(yù)計(jì)GPT-4訓(xùn)練參數(shù)在萬億的數(shù)量級[7]，是GPT-3的6倍以上，運(yùn)行成本和算力需求將大幅高于GPT-3.5。

1.2 存算一體技術(shù)解決方案

1.2.1 高帶寬數(shù)據(jù)通信

高帶寬數(shù)據(jù)通信主要包括光互聯(lián)技術(shù)和2.5D/3D堆疊技術(shù)。其中光互聯(lián)技術(shù)具有高帶寬、長距離、低損耗、無串?dāng)_和電磁兼容等優(yōu)勢，但是光互聯(lián)器件難以在芯片內(nèi)布設(shè)，且光交換重新連接開銷和延遲較大，實(shí)用化成本較高，難以大規(guī)模應(yīng)用。

2.5 D/3D堆疊技術(shù)通過增大并行帶寬或利用串行傳輸提升存儲帶寬，簡化系統(tǒng)存儲控制設(shè)計(jì)難度，具有高集成度、高帶寬、高能效等性能優(yōu)勢。但是目前2.5D/3D堆疊技術(shù)僅對分立器件或芯片內(nèi)部進(jìn)行優(yōu)化設(shè)計(jì)，“存”和“算”從本質(zhì)上依然是分離的，難以彌合“存—算”之間的鴻溝。

1.2.2 緩解訪存延遲和功耗的內(nèi)存計(jì)算

為了逾越“存—算”之間的巨大鴻溝，內(nèi)存計(jì)算的概念應(yīng)運(yùn)而生。內(nèi)存計(jì)算有兩種技術(shù)類型，一種是橫向擴(kuò)展（Scale-out），主要是分布式內(nèi)存計(jì)算，典型代表有Spark架構(gòu)，是一種軟件的方案；另一種是縱向擴(kuò)展（Scale-up），又分為兩種，一種是近數(shù)據(jù)端處理（Near Data Processing，NDP），包括近存儲計(jì)算和近內(nèi)存計(jì)算，另一種是存算一體，依賴經(jīng)典存儲器件或新型的存算器件，如圖1所示。

圖1 內(nèi)存計(jì)算體系

分布式內(nèi)存計(jì)算是較早前誕生的基于軟件的內(nèi)存計(jì)算方案。2003年谷歌公司提出的MapReduce計(jì)算框架，能夠處理TB級數(shù)據(jù)量，是一種“分而治之再規(guī)約”的計(jì)算模型，用多個計(jì)算節(jié)點(diǎn)來計(jì)算。但缺點(diǎn)是在反復(fù)迭代計(jì)算過程中，數(shù)據(jù)要落盤，從而影響數(shù)據(jù)計(jì)算速度。2010年，美國加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室提出的分布式計(jì)算框架Spark，能夠充分利用內(nèi)存高速的數(shù)據(jù)傳輸速率，同時某些數(shù)據(jù)集已經(jīng)能全部放在內(nèi)存中進(jìn)行計(jì)算，數(shù)據(jù)盡量留存在內(nèi)存中，從而避免落盤，隨著內(nèi)存容量持續(xù)增長，Spark依然活躍在工業(yè)界。

近數(shù)據(jù)端處理又分為兩種,一種是近存儲計(jì)算（In-Storage Computing，ISC），即在非易失存儲模塊中（固態(tài)硬盤等）加入現(xiàn)場可編程邏輯門陣列（Field Programmable Gate Array，FPGA）、ARM處理器核等計(jì)算單元。三星在2019年展示產(chǎn)品Smart SSD（PM1725），集成了數(shù)字?jǐn)?shù)據(jù)處理器（Numeric Data Processor，NDP），可以通過一些編程模型、庫和編譯器進(jìn)行程序編譯后在硬盤內(nèi)計(jì)算。近數(shù)據(jù)端計(jì)算的另一種方式是近內(nèi)存計(jì)算（In-Memory Computing，IMC），數(shù)據(jù)直接在內(nèi)存中計(jì)算后返回，通過將存儲層和邏輯層堆疊實(shí)現(xiàn)大通道計(jì)算，目前業(yè)界有三星、英偉達(dá)、UPMem等企業(yè)跟進(jìn)。

以上基于軟件的分布式內(nèi)存計(jì)算和拉近存儲與計(jì)算距離的近數(shù)據(jù)端處理，依然保留了經(jīng)典馮·諾依曼架構(gòu)的數(shù)據(jù)處理特點(diǎn)，而基于器件層面實(shí)現(xiàn)的存算一體是真正打破了存算分離架構(gòu)壁壘的非馮·諾依曼架構(gòu)。一方面，存算一體將計(jì)算和訪存融合，在存儲單元內(nèi)實(shí)現(xiàn)計(jì)算，從體系結(jié)構(gòu)上消除了訪存操作，從而避免了訪存延遲和訪存功耗，解決了“馮·諾依曼瓶頸”。另一方面，存算一體恰好能滿足人工智能算法的訪存密集、規(guī)則運(yùn)算、低精度特性。因此，存算一體是解決“存儲墻”“功耗墻”問題的有效方案之一。

02.存算一體核心技術(shù)發(fā)展態(tài)勢

存算一體技術(shù)體系包含基礎(chǔ)理論、基礎(chǔ)硬件、計(jì)算架構(gòu)、軟件算法和應(yīng)用五部分。其中基礎(chǔ)理論包含近存儲計(jì)算、計(jì)算型存儲、歐姆定律、基爾霍夫定律等；基礎(chǔ)硬件又包含非易失性存儲和易失性存儲兩大類，非易失性存儲又包含基于傳統(tǒng)浮柵器件/閃存的存算一體和基于新型非易失性存儲器件（Non-Volatile Memory，NVM），包括基于相變存儲器（Phase-Change Memory，PCM）的存算一體、基于阻變存儲器（Resistive Random Access Memory，ReRAM）的存算一體和基于自旋轉(zhuǎn)移矩磁存儲器（Spin-Transfer Torque Magnetoresistence Random Access Menory，STT-MRAM，簡稱“MRAM”）的存算一體；易失性存儲計(jì)算則主要基于靜態(tài)隨機(jī)存取存儲器（Static Random-Access Memory，SRAM）和DRAM兩類器件。計(jì)算架構(gòu)方面包括邏輯計(jì)算、模擬計(jì)算、搜索計(jì)算三大類型；軟件算法包括TensorFlow、卷積神經(jīng)網(wǎng)絡(luò)框架（Convolutional Architecture for Fast Feature Embeddin，Caffe）、卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）、深度神經(jīng)網(wǎng)絡(luò)（Deep-Learning Neural Network，DNN）、長短期記憶（Long Short-Term Memory，LSTM）等人工智能相關(guān)軟件和算法；應(yīng)用主要包括人工智能、智能物聯(lián)網(wǎng)（Artificial Intelligence & Internet of Things，AIoT）、圖計(jì)算、感存算一體等（如圖2所示）。

圖2 存算一體技術(shù)體系

2.1 存算一體基礎(chǔ)硬件

2.1.1 易失性存儲器件：運(yùn)算較快，但難以實(shí)現(xiàn)大規(guī)模擴(kuò)展

存算一體器件與一般MOSFET器件的區(qū)別在于能“存”，“存”又包括易失性存儲和非易失性存儲，其中易失性存儲的SRAM和DRAM成為人們優(yōu)先嘗試的對象。

SRAM二值MAC運(yùn)算可以把網(wǎng)絡(luò)權(quán)重存儲于SRAM單元中，利用外圍電路可以快速實(shí)現(xiàn)異或非（XNOR）累加運(yùn)算，且能夠?qū)崿F(xiàn)二值神經(jīng)網(wǎng)絡(luò)運(yùn)算[8]。DRAM則利用單元之間的電荷共享機(jī)制來實(shí)現(xiàn)存算一體，實(shí)現(xiàn)較快的運(yùn)算速度，但是計(jì)算對數(shù)據(jù)具有破壞性，且功耗較大，以上兩種存算一體架構(gòu)均難以在實(shí)現(xiàn)大陣列運(yùn)算的同時保證計(jì)算精度。

總的來說，基于易失性存儲器件SRAM或者DRAM存儲器的存算一體架構(gòu)可以實(shí)現(xiàn)較快的運(yùn)算速度，但是難以實(shí)現(xiàn)大陣列擴(kuò)展運(yùn)算。此外，基于DRAM存儲器的存算一體架構(gòu)對數(shù)據(jù)具有破壞性，并帶來顯著的功耗問題。

2.1.2 浮柵器件/閃存：工藝成熟，率先應(yīng)用于存算一體芯片

浮柵器件工藝成熟，編程時間10~1 000 ns，可編程次數(shù)達(dá)105 次，存儲陣列大，可實(shí)現(xiàn)量產(chǎn)，運(yùn)算精度高、密度大、效率高、成本低[9]。NAND Flash用于存算一體最大的難點(diǎn)是地址和命令只能在I/O上傳遞，不能直接使用，需要十分復(fù)雜的技術(shù)才能實(shí)現(xiàn)模擬計(jì)算的功能。因此目前主要使用Nor Flash來制造存算一體芯片。

2.1.3 相變存儲器：成本及功耗高，已應(yīng)用于存儲級內(nèi)存中

相變存儲器是基于硫?qū)倩锊ＡР牧?，施加合適電流將介質(zhì)從晶態(tài)變?yōu)榉蔷B(tài)并再變回晶態(tài)，基于材料導(dǎo)電性差異存儲數(shù)據(jù)，如圖3所示。非晶態(tài)相變材料電阻率高、阻值大；多晶態(tài)相變材料的電阻率低、阻值小。通過控制脈沖電壓幅度產(chǎn)生熱量可以實(shí)現(xiàn)非晶體和多晶態(tài)間轉(zhuǎn)換，從而控制阻值大小，實(shí)現(xiàn)存儲（阻值態(tài)）和計(jì)算。優(yōu)點(diǎn)是高讀寫速度、壽命長、工藝簡單、可以進(jìn)行多態(tài)存儲和多層存儲；缺點(diǎn)主要是單bit成本高、發(fā)熱量大功耗高、電路設(shè)計(jì)不完善[10]。

圖3 PCM器件結(jié)構(gòu)和R-V特性

2.1.4 阻變存儲器：契合存算一體對器件的需求

ReRAM是“三明治”結(jié)構(gòu)，包含了上下金屬電極和中間的阻變絕緣體層，初始狀態(tài)為高阻態(tài)，需要在兩端施加大的電壓脈沖“激活”，通過正向/反向電壓“擊穿”金屬氧化層形成導(dǎo)電細(xì)絲/氧原子復(fù)位，完成在低阻態(tài)與高阻態(tài)間的轉(zhuǎn)換（如圖4所示）。優(yōu)點(diǎn)主要包括可高速讀寫編程、壽命長、具備多位存儲能力、與CMOS工藝兼容、功耗低、可3D集成；缺點(diǎn)主要有絲狀電阻擴(kuò)展難、相鄰單元串?dāng)_和器件微縮能力難以兼顧。在商業(yè)化上，Crossbar、昕原半導(dǎo)體、松下、Adesto、Elpida、東芝、索尼、海力士、富士通等廠商都在開展ReRAM的研究和生產(chǎn)。

圖4 ReRAM器件結(jié)構(gòu)和脈沖響應(yīng)特性

2.1.5 自旋轉(zhuǎn)移矩磁存儲器：容量提升有待進(jìn)一步突破

MRAM基本結(jié)構(gòu)包含三層，其中底層磁化的方向不變，稱為參考層；頂層磁化方向可被編程發(fā)生變化，稱為自由層；中間層稱為隧道層。由于隧道磁阻效應(yīng)，參考層和自由層的相對磁化方向決定了磁效應(yīng)憶阻器的阻值大小。參考層和自由層的磁化方向一致時（P態(tài)），磁效應(yīng)憶阻器的阻值最??；如果磁化方向不一致時（AP態(tài)），磁效應(yīng)憶阻器的阻值最大（如圖5所示）。優(yōu)點(diǎn)主要是讀寫高速、壽命長，和邏輯芯片整合度高、功耗低；缺點(diǎn)包括臨近存儲單元之間存在磁場疊加，互相干擾嚴(yán)重。

圖5 MRAM器件結(jié)構(gòu)和R-V特性

2.1.6 小結(jié)

Nor Flash工藝成熟，已率先應(yīng)用于存算一體芯片。SRAM制作工藝、研發(fā)工具都更加成熟穩(wěn)定，具有耐久性強(qiáng)且操作速度快的特點(diǎn)，可以實(shí)時在存算單元中刷新計(jì)算數(shù)據(jù)，具備大算力場景應(yīng)用潛力。ReRAM工藝可以與互補(bǔ)金屬氧化物半導(dǎo)體（Complementary Metal-Oxide-Semiconductor，CMOS）兼容，具有高速讀出、壽命長、功耗低、可3D集成等優(yōu)點(diǎn)，初具產(chǎn)業(yè)化潛力，其相關(guān)性能如表1所示。臺積電正開展MRAM攻關(guān)，未來有望實(shí)現(xiàn)突破。但是新型非易失存儲器在存算一體技術(shù)的應(yīng)用還存在諸多問題，從實(shí)驗(yàn)室到產(chǎn)業(yè)化還有一定差距。

表1 存儲器件相關(guān)性能總結(jié)

2.2 存算一體技術(shù)計(jì)算架構(gòu)

2.2.1 邏輯計(jì)算：二值憶阻器可以實(shí)現(xiàn)完備的布爾邏輯

基于新型憶阻器的存算一體技術(shù)架構(gòu)可實(shí)現(xiàn)完備的布爾邏輯計(jì)算。如圖6所示，在R-R邏輯運(yùn)算中，基于歐姆定律和基爾霍夫電壓電流定律，根據(jù)輸入將兩個憶阻器件寫到對應(yīng)高低阻態(tài)，分別施加電壓，輸出結(jié)果存在X2。在V-R邏輯運(yùn)算中，輸入是通過施加在單個憶阻器兩端的電壓幅值X1、X2來表示，而邏輯輸出Y則由高低阻態(tài)來表示。在V-V邏輯運(yùn)算中，根據(jù)歐姆定律，輸入和輸出通過電壓幅值低高來分別表示邏輯0和1，需要額外的比較器設(shè)計(jì)，構(gòu)成與、或、非3類邏輯[10]。

圖6 R-R、V-R和V-V三種邏輯運(yùn)算電路

破壞性是指是否會擦除輸入的初態(tài)。如表2所示，只有R-R因?yàn)檩斎胼敵龆际菓涀杵鞯淖柚担暂敵龊笤柚禃徊脸?，所以具有破壞性；但是電路簡單且易級?lián)。V-R電路具有非破壞性的優(yōu)點(diǎn)，但是需要額外比較電路，電路復(fù)雜度上升。V-V電路復(fù)雜度最高。綜合考慮級聯(lián)性、電路復(fù)雜性、破壞性等特性，目前R-R和V-R更具實(shí)用價值。

表2 R-R、V-R和V-V三種邏輯運(yùn)算電路的比較

2.2.2 模擬計(jì)算：行列式與矩陣乘運(yùn)算

基于新型憶阻器的存算一體技術(shù)架構(gòu)，利用歐姆定律和基爾霍夫定律，通過網(wǎng)絡(luò)陣列可進(jìn)行矩陣向量乘法運(yùn)算，如圖7所示。單個存儲單元即可完成8 bit乘加法運(yùn)算（原需2 500 個晶體管），可并行完成整個矩陣的運(yùn)算，效率提高50~100 倍。適用于人工智能訓(xùn)練（超過90%的運(yùn)算為矩陣運(yùn)算）等大數(shù)據(jù)、低精度、簡單乘加運(yùn)算等場景[1]。

圖7 基于新型憶阻器的向量矩陣乘法

2.2.3 搜索計(jì)算：特殊搜索問題具有較高的效能

清華大學(xué)的SQL-PIM是基于存算一體技術(shù)的搜索計(jì)算。SQL-PIM能在不改變結(jié)構(gòu)化存儲的前提下支持增、刪、改、查操作。針對數(shù)據(jù)量大的數(shù)據(jù)庫表，SQL-PIM利用一種特殊的關(guān)聯(lián)分割方法，將大表存儲在多個存內(nèi)計(jì)算陣列中，同時減少每個計(jì)算陣列之間的相互通信。與傳統(tǒng)的數(shù)據(jù)庫相比，SQL-PIM能節(jié)約4~6 個數(shù)量級的能耗[11]。但是整體而言，存算一體技術(shù)應(yīng)用于搜索運(yùn)算還停留在實(shí)驗(yàn)室階段，尚未實(shí)現(xiàn)產(chǎn)業(yè)化或商業(yè)化應(yīng)用。

2.3 存算一體技術(shù)挑戰(zhàn)

2.3.1 器件特性難以滿足全部需求

存算一體技術(shù)功能器件紛繁多樣，然而目前尚未有一種器件的性能能滿足全部應(yīng)用需求。器件存在均一性差、循環(huán)耐久性差、器件狀態(tài)漂移等問題，目前已有一些優(yōu)化和解決的方法，但尚未根本解決上述問題。

2.3.2 陣列存在泄露路徑、寫串?dāng)_以及寄生電容電阻問題

存算一體芯片網(wǎng)格陣列面臨泄露路徑、寫串?dāng)_以及寄生電容電阻三大問題。在讀取器件阻值時，泄露路徑的存在引入了并聯(lián)的電流通路，可能造成錯誤的讀取結(jié)果。泄露路徑還會帶來額外的功耗，并隨著陣列規(guī)模的擴(kuò)大而變得更加嚴(yán)重。由于陣列高度并行性帶來的寫串?dāng)_問題會使未被選中器件的阻值受到一定影響。寄生電容、電阻會使電路延遲增加，使遠(yuǎn)端器件工作異常[12]。

2.3.3 現(xiàn)有集成電路設(shè)計(jì)與集成技術(shù)難以滿足需求

控制輔助電路面積和功耗占比太高，外圍的器件比存算的部分大很多，外圍功耗也會減少存算一體的收益。設(shè)計(jì)方面，CMOS走在前沿，與存儲存在工藝差距，而統(tǒng)一制程將增加硬件開銷，獨(dú)立制程又將增加系統(tǒng)復(fù)雜度。3D異質(zhì)集成是可行的路徑。

2.3.4 架構(gòu)設(shè)計(jì)與開發(fā)工具有待標(biāo)準(zhǔn)化

計(jì)算的多樣性與計(jì)算定制性之間存在矛盾。不同計(jì)算網(wǎng)絡(luò)需要定制化的存算一體架構(gòu)，而全定制又不利于推廣。軟件和開發(fā)工具方面，缺少標(biāo)準(zhǔn)化的異構(gòu)編程框架；數(shù)據(jù)映射、數(shù)據(jù)流配置缺少工具；模擬計(jì)算的“模糊/隨機(jī)性”還需要進(jìn)行圖靈完備性的檢驗(yàn)。

03.存算一體技術(shù)產(chǎn)業(yè)和應(yīng)用發(fā)展態(tài)勢

3.1 產(chǎn)業(yè)發(fā)展現(xiàn)狀

3.1.1 科研巨頭加速布局

IBM公司重點(diǎn)布局PCM。2018年IBM公司通過PCM實(shí)現(xiàn)在數(shù)據(jù)存儲的位置執(zhí)行計(jì)算來加速全連接神經(jīng)網(wǎng)絡(luò)訓(xùn)練，該芯片的能效比是傳統(tǒng)GPU的280 倍，單位面積算力是傳統(tǒng)GPU的100 倍[13]。

三星集團(tuán)重點(diǎn)布局DRAM和MRAM。2017年，三星電子存儲部門聯(lián)合加州大學(xué)圣巴巴拉分校推出DRISA架構(gòu)，實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算功能，在提供大規(guī)模片上存儲的同時也具備較高的計(jì)算性能。2022年初，三星電子在《Nature》上發(fā)表了首個基于MRAM的存算一體芯片，三星電子采用28 nm CMOS工藝重新構(gòu)建MRAM陣列結(jié)構(gòu)，以“電阻總和”（Resistance Sum）的存內(nèi)計(jì)算結(jié)構(gòu)代替了傳統(tǒng)的“電流總和”（Current Sum），或電荷共享式的存內(nèi)計(jì)算架構(gòu)，通過測試分類識別等算法，得到98%的準(zhǔn)確率[14]。

英特爾公司重點(diǎn)布局SRAM。英特爾公司聯(lián)合美國密歇根州立大學(xué)從2016年開始展開基于SRAM的計(jì)算型存儲/存算一體技術(shù)研究。2016年，基于SRAM實(shí)現(xiàn)了支持邏輯操作的存儲器，并在此基礎(chǔ)上實(shí)現(xiàn)了支持無進(jìn)位乘法運(yùn)算的計(jì)算型緩存[15]。2018年英特爾公司發(fā)布了面向深度學(xué)習(xí)算法的神經(jīng)緩存，可以實(shí)現(xiàn)加法、乘法和減法操作[16]。

3.1.2 初創(chuàng)企業(yè)涌現(xiàn)，投融資進(jìn)入活躍期，迎來產(chǎn)業(yè)化轉(zhuǎn)折點(diǎn)

存算一體初創(chuàng)公司蓬勃發(fā)展，在北美和我國先后涌現(xiàn)多家初創(chuàng)公司。較早成立的初創(chuàng)公司傾向于采用較為成熟的Nor Flash器件，知存科技等多家企業(yè)在2021年實(shí)現(xiàn)Nor Flash存算一體芯片量產(chǎn)，2021年成為存算一體產(chǎn)業(yè)化元年。近幾年，初創(chuàng)企業(yè)加快布局SRAM領(lǐng)域，但是ReRAM等新型非易失存儲器件還只在初創(chuàng)企業(yè)的藍(lán)圖中，尚未實(shí)現(xiàn)流片量產(chǎn)。

存算一體技術(shù)近年來受到資本市場高度關(guān)注，在中美兩國涌現(xiàn)的初創(chuàng)企業(yè)均獲得投融資機(jī)會。從2021年開始，在我國半導(dǎo)體產(chǎn)業(yè)政策和基金雙重助力下，存算一體領(lǐng)域投融資尤為活躍，多家初創(chuàng)企業(yè)獲得上億元融資。

3.1.3 存算一體技術(shù)與類腦計(jì)算具有深度關(guān)聯(lián)

存算一體技術(shù)是大腦最主要的特征之一，也是實(shí)現(xiàn)高算力、高能效計(jì)算的一項(xiàng)關(guān)鍵技術(shù)。以清華大學(xué)為代表的涉及憶阻器領(lǐng)域的科研院校同時進(jìn)行存算一體技術(shù)和類腦計(jì)算研究，在材料、器件研發(fā)、芯片設(shè)計(jì)、性能測試等方面深度關(guān)聯(lián)。

存算一體技術(shù)和類腦計(jì)算具有相同點(diǎn)和不同點(diǎn)。相同點(diǎn)是器件方面均采用憶阻器作為核心器件；應(yīng)用都主要面向人工智能。不同點(diǎn)是類腦計(jì)算的神經(jīng)形態(tài)器件更復(fù)雜，而存算一體器件較為基礎(chǔ)；類腦芯片主要采用脈沖神經(jīng)網(wǎng)絡(luò)的架構(gòu)，具有專用性，存算一體技術(shù)主要是矩陣結(jié)構(gòu)，具有通用性。

3.2 存算一體技術(shù)應(yīng)用

3.2.1 AI訓(xùn)練和推理：圖像識別、大模型訓(xùn)練推理

2017年，清華大學(xué)團(tuán)隊(duì)制備了128×8的多值憶阻器陣列，對包含320（20×16）個像素點(diǎn)的人臉圖像進(jìn)行訓(xùn)練和識別。單幅圖像識別耗能可低達(dá)61.16 nJ，識別速度可高達(dá)34.8 ms，識別率超過85%[17]。

2023年3月，南京大學(xué)王欣然教授團(tuán)隊(duì)與清華大學(xué)吳華強(qiáng)教授團(tuán)隊(duì)合作，提出基于二維半導(dǎo)體鐵電晶體管的新型存內(nèi)計(jì)算器件架構(gòu)，通過調(diào)節(jié)鐵電勢阱，實(shí)現(xiàn)了同時滿足AI訓(xùn)練和推理需求的底層器件，并展現(xiàn)了高達(dá)103 TOPS/W級別的能效潛力。該成果突破了邊緣端人工智能硬件的關(guān)鍵瓶頸之一[18]。

由于GPT等大模型訓(xùn)練中占比80%~85%的線性計(jì)算（Linear）、前饋計(jì)算（Feed Forward）、歸一化（Layer Norm）以及參數(shù)變量乘積等計(jì)算流程在進(jìn)行分解后都可以通過存算一體技術(shù)完成，因此存算一體技術(shù)在大模型訓(xùn)練方面有望取得應(yīng)用突破。

與此同時，存算一體計(jì)算精度會受到模擬計(jì)算低信噪比的影響，通常精度上限在8 bit左右，難以實(shí)現(xiàn)精準(zhǔn)的浮點(diǎn)數(shù)計(jì)算?，F(xiàn)階段GPT大模型訓(xùn)練也主要依賴H100/A100等英偉達(dá)GPU的絕對算力，短期內(nèi)對能效比等因素不敏感。產(chǎn)業(yè)界目前使用的Nor Flash、SRAM為主導(dǎo)的存算一體芯片僅在能效比方面擁有優(yōu)勢，在絕對算力方面難以滿足智能計(jì)算算力需求，難以應(yīng)用于智能計(jì)算中心。

3.2.2 AIoT：終端應(yīng)用、無人駕駛

隨著AIoT的快速發(fā)展，針對時延、帶寬、功耗、隱私/安全性等特殊應(yīng)用需求，驅(qū)動邊緣側(cè)和端側(cè)智能應(yīng)用場景爆發(fā)。借助邊緣端/終端有限的處理能力，可以過濾掉大部分無用數(shù)據(jù)，從而大幅度提高用戶體驗(yàn)。存算一體技術(shù)具有低功耗和適用于低精度AI的特性，能夠作為協(xié)處理器應(yīng)用于智能終端等AIoT場景。

AIoT是存算一體技術(shù)目前布局的重點(diǎn)領(lǐng)域。知存科技重點(diǎn)布局語言喚醒語音活動檢測（Voice Activity Detection，VAD）、語音識別、通話降噪、聲紋識別等，可以應(yīng)用在很多嵌入式領(lǐng)域中，包括健康監(jiān)測以及較低功耗（毫安級）的視覺識別；九天睿芯產(chǎn)品主要用于語音喚醒，或者時間序列傳感器信號計(jì)算處理；定位推廣可穿戴及超低功耗IoT設(shè)備；后摩智能相關(guān)芯片應(yīng)用于無人車邊緣端以及云端推理和培訓(xùn)等場景，2022年5月，后摩智能自主研發(fā)的存算一體技術(shù)大算力AI芯片跑通智能駕駛算法模型。

存算一體技術(shù)在向邊緣側(cè)延伸過程中面臨專用集成電路（Application Specific Integrated Circuit，ASIC）、微控制單元（Microcontroller Unit，MCU）以及邊緣計(jì)算中心的競爭壓力，尚未成為低功耗場景的唯一方案。在語音喚醒等場景中，MCU足以滿足低功耗需求，存算一體芯片不具備優(yōu)勢。隨著5G等技術(shù)的發(fā)展，數(shù)據(jù)處理不再拘泥于本地，邊緣計(jì)算中心成為端側(cè)智能計(jì)算的新路徑，存算一體技術(shù)面臨新的競爭。隨著無線充電等新技術(shù)的崛起，依賴極低功耗的高續(xù)航已經(jīng)不再是剛需，存算一體芯片低功耗優(yōu)勢場景面臨進(jìn)一步壓縮。

3.2.3 感存算一體：在科研領(lǐng)域已取得諸多進(jìn)展

感存算一體包括觸覺/壓力感存算一體、視覺/光學(xué)感存算一體和嗅覺/氣體感存算一體三大類。觸覺/壓力感存算一體方面，2016年，新加坡南洋理工大學(xué)將阻變壓力傳感器和阻變存儲器串聯(lián)起來形成觸覺記憶單元。視覺/光學(xué)感存算一體方面，2019年，中國香港理工大學(xué)提出的Pd/MoOx/ITO雙端光電阻存儲器件（ORRAM），不僅可以進(jìn)行圖像感知和記憶，而且實(shí)現(xiàn)了降低圖像背景噪聲等圖像預(yù)處理功能。嗅覺/氣體感存算一體方面，2017年，美國斯坦福大學(xué)團(tuán)隊(duì)將100多萬個憶阻器與200多萬個碳納米管晶體管（Carbon-Nanotube Field-Effect Transistors，CNTFET）集成感知周圍氣體，并轉(zhuǎn)化為電信號存儲在ReRAM中。與之前訓(xùn)練學(xué)習(xí)的氣體數(shù)據(jù)進(jìn)行對比，從而識別出所檢測的氣體種類[19]。

3.2.4 矩陣與搜索：圖計(jì)算和基因工程

圖計(jì)算中大量操作都可以轉(zhuǎn)換成矩陣乘的形式，因此可以用存算一體技術(shù)來處理，在預(yù)處理、稀疏矩陣的分隔和映射、硬件控制和數(shù)據(jù)流設(shè)計(jì)等環(huán)節(jié)能夠?qū)崿F(xiàn)超過傳統(tǒng)計(jì)算的能效比。生物數(shù)據(jù)的暴增給諸如基因序列查找/匹配的應(yīng)用帶來了很大的挑戰(zhàn)?；诖嫠阋惑w技術(shù)的搜索計(jì)算能級能夠提供高硬件并行度，適用于大規(guī)模生物數(shù)據(jù)處理[11]。

04.結(jié)束語

存算一體技術(shù)應(yīng)作為我國先進(jìn)計(jì)算產(chǎn)業(yè)發(fā)展的重點(diǎn)之一，需保持長期關(guān)注，要做好中長期路線制定，在支持現(xiàn)有Nor Flash的基礎(chǔ)上加強(qiáng)對ReRAM等新型非易失存儲的研究，并對存算一體相關(guān)基礎(chǔ)材料、設(shè)計(jì)工具等加強(qiáng)研發(fā)。但是也要明確其短期內(nèi)難以為我國基礎(chǔ)算力技術(shù)產(chǎn)業(yè)發(fā)展發(fā)揮巨大作用，因此要向領(lǐng)先國家和企業(yè)吸取相關(guān)經(jīng)驗(yàn)教訓(xùn)，避免超前投入。此外，要加快推進(jìn)存算一體應(yīng)用融合，在未來3~5年內(nèi)通過自主創(chuàng)新開發(fā)專門的存算一體芯片設(shè)計(jì)工具等基礎(chǔ)性產(chǎn)品，提升綜合性能，加強(qiáng)“器件—芯片—算法—應(yīng)用”跨層協(xié)同，構(gòu)建存算一體芯片的產(chǎn)業(yè)化應(yīng)用與生態(tài)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

半導(dǎo)體

半導(dǎo)體

+關(guān)注

關(guān)注
334

文章
26658

瀏覽量
212863
晶體管

晶體管

+關(guān)注

關(guān)注
77

文章
9582

瀏覽量
137475
矩陣

矩陣

+關(guān)注

關(guān)注
0

文章
418

瀏覽量
34453

原文標(biāo)題：從基礎(chǔ)硬件、計(jì)算架構(gòu)到技術(shù)挑戰(zhàn)，詳解存算一體技術(shù)發(fā)展現(xiàn)狀與趨勢

文章出處：【微信號：算力基建，微信公眾號：算力基建】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

SRAM存算一體芯片的研究現(xiàn)狀和發(fā)展趨勢

其在兼容性、魯棒性、靈活性等方面的優(yōu)勢，已經(jīng)得到多個旗艦公司的認(rèn)可和相關(guān)領(lǐng)域的產(chǎn)業(yè)布局。本文回顧SRAM存算一體芯片領(lǐng)域近年來的研究現(xiàn)狀和發(fā)展趨勢

發(fā)表于 01-02 11:02 ?2185次閱讀

探索存內(nèi)計(jì)算—基于 SRAM 的存內(nèi)計(jì)算與基于 MRAM 的存算一體的探究

本文深入探討了基于SRAM和MRAM的存算一體技術(shù)在計(jì)算領(lǐng)域的應(yīng)用和發(fā)展。首先，介紹了基于SRA

發(fā)表于 05-16 16:10 ?2202次閱讀

存算一體技術(shù)路線如何選

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）過去幾年，越來越多企業(yè)加入到存算一體技術(shù)的研究中，如今，存

發(fā)表于 06-21 09:27 ?4130次閱讀

存算一體技術(shù)發(fā)展現(xiàn)狀和未來趨勢

存算一體

電子發(fā)燒友網(wǎng)官方
發(fā)布于 :2023年04月25日 17:21:41

無線傳感器網(wǎng)絡(luò)技術(shù)發(fā)展現(xiàn)狀

無線傳感器網(wǎng)絡(luò)技術(shù)發(fā)展現(xiàn)狀

發(fā)表于 08-14 22:31

談?wù)剻C(jī)電一體化技術(shù)的現(xiàn)狀及發(fā)展趨勢

和應(yīng)用。取得了一定成果,它的發(fā)展和進(jìn)步依賴并促進(jìn)相關(guān)技術(shù)的發(fā)展和進(jìn)步。機(jī)電一體化已成為一門有著自

發(fā)表于 10-16 11:16

廣播電視發(fā)展現(xiàn)狀及趨勢

廣播電視發(fā)展現(xiàn)狀及趨勢【摘要】近年來，隨著信息技術(shù)的不斷發(fā)展，數(shù)字、網(wǎng)絡(luò)等先進(jìn)的信息技術(shù)成為時代主體，為避免傳統(tǒng)廣播電視行業(yè)受到?jīng)_擊，廣播

發(fā)表于 07-21 09:43

云計(jì)算產(chǎn)業(yè)發(fā)展現(xiàn)狀及趨勢

云計(jì)算產(chǎn)業(yè)發(fā)展現(xiàn)狀及趨勢，本文講的是云計(jì)算時代IT產(chǎn)業(yè)六大發(fā)展趨勢，【IT168 資訊】1946年2月14日第

發(fā)表于 07-27 06:25

寬帶無線移動通信技術(shù)發(fā)展現(xiàn)狀及趨勢

寬帶無線移動通信技術(shù)發(fā)展現(xiàn)狀及趨勢：無線移動技術(shù)發(fā)展趨勢WiMAX與3G及其演進(jìn)技術(shù)的關(guān)系寬帶無線接入在中國的研究現(xiàn)狀

發(fā)表于 08-05 15:17 ?32次下載

網(wǎng)絡(luò)與通信技術(shù)發(fā)展現(xiàn)狀及趨勢分析

網(wǎng)絡(luò)與通信技術(shù)發(fā)展現(xiàn)狀及趨勢分析，網(wǎng)絡(luò)通信的發(fā)展與趨勢，很好的資料

發(fā)表于 03-21 16:24 ?18次下載

一文解析算網(wǎng)一體的關(guān)鍵技術(shù)和發(fā)展前景

本白皮書旨在面向算網(wǎng)一體的演進(jìn)，研判基于網(wǎng)絡(luò)和計(jì)算深度融合的算網(wǎng)一-體

發(fā)表于 09-26 17:24 ?872次閱讀

2023年存算一體是芯片設(shè)計(jì)的技術(shù)趨勢

存算一體旨在計(jì)算單元與存儲單元融合，在實(shí)現(xiàn)數(shù)據(jù)存儲的同時直接進(jìn)行計(jì)算，以消除數(shù)據(jù)搬移帶來的開銷，極大提升運(yùn)算效率，以實(shí)現(xiàn)

發(fā)表于 01-13 15:26 ?2201次閱讀

深度解讀工控安全技術(shù)發(fā)展現(xiàn)狀與應(yīng)用趨勢

本文將分析工控安全技術(shù)發(fā)展現(xiàn)狀，盤點(diǎn)國內(nèi)外工控安全主流廠商發(fā)展態(tài)勢，分析我國工控安全市場發(fā)展現(xiàn)狀，展望未來工控安全技術(shù)的發(fā)展與應(yīng)用

發(fā)表于 05-25 10:42 ?3614次閱讀

存算一體芯片的技術(shù)壁壘

作為后摩爾時代發(fā)展的必然趨勢之一，存算一體越來越受到行業(yè)的關(guān)注。在

發(fā)表于 09-22 14:16 ?748次閱讀

存算一體技術(shù)發(fā)展現(xiàn)狀和未來趨勢

什么是存算一體　　近存計(jì)算：主要是通過先進(jìn)封裝等方式，拉近存儲和計(jì)算單元的距離。　　

發(fā)表于 10-18 15:46 ?10次下載