在高級(jí)節(jié)點(diǎn)使用 SRAM 需要新的方法。
SRAM無法擴(kuò)展,這給功耗和性能目標(biāo)帶來了挑戰(zhàn),迫使設(shè)計(jì)生態(tài)系統(tǒng)提出從硬件創(chuàng)新到重新思考設(shè)計(jì)布局的策略。與此同時(shí),盡管 SRAM 的初始設(shè)計(jì)已經(jīng)存在很長(zhǎng)的歷史,并且目前還存在擴(kuò)展限制,但它已成為人工智能的主力存儲(chǔ)器。
SRAM 配置有六個(gè)晶體管,這使其訪問時(shí)間比 DRAM 更快,但代價(jià)是在讀取和寫入時(shí)消耗更多能量。相比之下,DRAM 采用一個(gè)晶體管/一個(gè)電容器的設(shè)計(jì),這使得它更便宜。但 DRAM 會(huì)影響性能,因?yàn)?a href="http://srfitnesspt.com/tags/電容/" target="_blank">電容器因電荷泄漏而需要刷新。因此,自推出 60 多年以來,SRAM 一直是優(yōu)先考慮較低延遲和可靠性的應(yīng)用中的首選存儲(chǔ)器。
圖 1:SRAM 單元尺寸縮小得比進(jìn)程更慢。來源:新興內(nèi)存技術(shù)報(bào)告
事實(shí)上,對(duì)于 AI/ML 應(yīng)用來說,SRAM 不僅僅具有其自身的優(yōu)勢(shì)?!癝RAM 對(duì)于 AI 至關(guān)重要,尤其是嵌入式 SRAM。它是性能最高的存儲(chǔ)器,您可以將其直接與高密度邏輯芯片集成。僅出于這些原因,這一點(diǎn)就很重要?!盇lphawave Semi首席技術(shù)官托尼·陳·卡魯松 (Tony Chan Carusone) 說道。
功耗和性能挑戰(zhàn)
但是,在跟上 CMOS 縮放的步伐時(shí),SRAM 卻表現(xiàn)不佳,這對(duì)功耗和性能產(chǎn)生了影響?!霸趥鹘y(tǒng)的平面器件縮放中,柵極長(zhǎng)度和柵極氧化物厚度一起按比例縮小,以提高性能和對(duì)短溝道效應(yīng)的控制。更薄的氧化物可以在更低的 VDD 電平下實(shí)現(xiàn)性能增益,這有利于 SRAM 減少泄漏和動(dòng)態(tài)功耗?!?a href="http://srfitnesspt.com/tags/西門子/" target="_blank">西門子 EDA的存儲(chǔ)器技術(shù)專家 Jongsin Yun 說道?!叭欢?,在最近的技術(shù)節(jié)點(diǎn)遷移中,我們幾乎沒有看到氧化層或 VDD 電平進(jìn)一步縮小。此外,晶體管的幾何收縮導(dǎo)致金屬互連更薄,從而導(dǎo)致寄生電阻增加,這就導(dǎo)致更多的功率損耗和 RC 延遲。
隨著人工智能設(shè)計(jì)越來越需要更多的內(nèi)部存儲(chǔ)器訪問,SRAM 在技術(shù)節(jié)點(diǎn)遷移中進(jìn)一步擴(kuò)大其功耗和性能優(yōu)勢(shì)已成為一項(xiàng)重大挑戰(zhàn)?!?/p>
這些問題加上 SRAM 的高成本,不可避免地會(huì)導(dǎo)致性能下降。Rambus的杰出發(fā)明家 Steve Woo 表示:“如果無法獲得足夠的 SRAM 來滿足處理器內(nèi)核的數(shù)據(jù)存儲(chǔ)需求,那么內(nèi)核最終將不得不將數(shù)據(jù)移至更遠(yuǎn)的地方?!?“在 SRAM 和 DRAM 之間移動(dòng)數(shù)據(jù)需要額外的電力,因此系統(tǒng)消耗更多的電力,從 DRAM 訪問數(shù)據(jù)需要更長(zhǎng)的時(shí)間,因此性能會(huì)下降。”
imecDTCO 項(xiàng)目總監(jiān) Geert Hellings 表示:“展望納米片,SRAM 的尺寸縮放預(yù)計(jì)會(huì)非常小?!?“可以說,如果所有其他工藝/布局裕度保持不變,用納米片(~15nm 寬)替換鰭片(約 15nm 寬)將使 SRAM 位單元高度增加 40nm(每個(gè) 4 個(gè)鰭片)。顯然,這不是一個(gè)很好的價(jià)值主張。因此,工藝/布局余量的改進(jìn)有望抵消這一點(diǎn)。然而,將SRAM從finFET擴(kuò)展到納米片是一場(chǎng)艱苦的戰(zhàn)斗。
Flex Logix曾在幾個(gè)最低節(jié)點(diǎn)工作過,包括臺(tái)積電的 N7 和 N5,最近還收到了英特爾 1.8A節(jié)點(diǎn)的 PDK。Flex Logix 首席執(zhí)行官 Geoffrey Tate 表示:“我們使用先進(jìn)節(jié)點(diǎn)的客戶都抱怨該邏輯的擴(kuò)展性比 SRAM 更好、更快?!?“這對(duì)于處理器來說是一個(gè)問題,因?yàn)閾碛斜日麄€(gè)處理器更大的緩存內(nèi)存是不尋常的。但如果你把它放在芯片外,你的性能就會(huì)急劇下降?!?/p>
臺(tái)積電正在聘請(qǐng)更多內(nèi)存設(shè)計(jì)師來提高 SRAM 密度,但他們是否能從 SRAM 中獲得更多收益還有待觀察。Tate說:“有時(shí),你可以通過雇傭更多的人來讓事情變得更好,但僅限于一定程度?!?“隨著時(shí)間的推移,客戶將需要考慮不再像現(xiàn)在那樣頻繁使用 SRAM 的架構(gòu)?!?/p>
事實(shí)上,早在 20 納米時(shí)代,SRAM 就無法與邏輯相稱地?cái)U(kuò)展,這預(yù)示著當(dāng)片上存儲(chǔ)器變得比芯片本身更大時(shí),將會(huì)出現(xiàn)功耗和性能挑戰(zhàn)。針對(duì)這些問題,系統(tǒng)設(shè)計(jì)人員和硬件開發(fā)人員都在應(yīng)用新的解決方案并開發(fā)新技術(shù)。
沿著這些思路,AMD采取了不同的方法。Rambus 的 Woo 表示:“他們推出了一種名為 3D V-Cache 的技術(shù),該技術(shù)允許將單獨(dú)芯片上的附加 SRAM 高速緩存存儲(chǔ)器堆疊在處理器頂部,從而增加處理器內(nèi)核可用的高速緩存量?!?“額外的芯片增加了成本,但允許訪問額外的 SRAM。另一種策略是擁有多級(jí)緩存。處理器內(nèi)核可以擁有只有它們才能訪問的私有(非共享)一級(jí)和二級(jí)緩存,以及在處理器內(nèi)核之間共享的更大的末級(jí)緩存 (LLC)。由于處理器擁有如此多的內(nèi)核,共享 LLC 允許某些內(nèi)核使用更多容量,以便在所有處理器內(nèi)核上更有效地使用總?cè)萘??!?/p>
糾錯(cuò)
縮放也增加了可靠性問題。Flex Logix 首席技術(shù)官 Cheng Wang 表示:“SRAM 傳統(tǒng)上使用比邏輯單元更激進(jìn)、更小的尺寸,但它與傳統(tǒng)邏輯門不同,傳統(tǒng)邏輯門永遠(yuǎn)不會(huì)發(fā)生爭(zhēng)用,并且您總是在其中寫入新值?!?由于 SRAM 只有六個(gè)晶體管,因此您無法添加大量門來使其在寫入時(shí)變?nèi)?,在不寫入時(shí)放大。你也不能讓 SRAM 太小,因?yàn)檫@可能會(huì)因 α 粒子等問題導(dǎo)致單粒子擾動(dòng) (SEU),其中離子的能量壓倒 SRAM 單元中的能量,隨著 SRAM 縮小,這種情況更容易發(fā)生。
Wang 表示,糾錯(cuò)可能會(huì)成為一項(xiàng)常見要求,特別是對(duì)于汽車設(shè)備。
權(quán)衡
這導(dǎo)致設(shè)計(jì)方面發(fā)生很多變化?!懊總€(gè)人都試圖在芯片上使用更少的 SRAM?!盬ang 說。設(shè)計(jì)人員采取的另一種方法是盡可能只使用單核存儲(chǔ)器?!霸谳^舊的工藝節(jié)點(diǎn)中,當(dāng)我們編寫寄存器文件時(shí),使用雙核內(nèi)存的可能性要大得多,”他說。“但所有這些都增加了面積。因此,在較低的節(jié)點(diǎn)中,設(shè)計(jì)人員試圖讓所有東西都從內(nèi)存中的單個(gè)端口運(yùn)行,因?yàn)檫@些是可用的最小、最密集的全功率選項(xiàng)。他們不一定會(huì)放棄SRAM,但他們會(huì)盡可能地使用單核存儲(chǔ)器。他們?cè)噲D使用更小的內(nèi)存,并選擇SRAM作為可用帶寬,而不是真正的大存儲(chǔ)。大型存儲(chǔ)要么轉(zhuǎn)移到 DRAM,如果你能承受延遲,要么轉(zhuǎn)移到 HBM,如果你能負(fù)擔(dān)得起成本。
替代方法:新架構(gòu)
為了不斷提高 SRAM 的功耗性能,我們已經(jīng)評(píng)估和應(yīng)用了超出位單元設(shè)計(jì)的許多更新,包括 SRAM 外圍設(shè)計(jì)中的附加支持電路,Yun 表示。
“SRAM 和外圍設(shè)備不再共享電源。取而代之的是,采用雙電源軌來單獨(dú)利用最有效的電壓水平,”西門子的 Yun 說道?!霸谀承┰O(shè)計(jì)中,SRAM 可以進(jìn)入休眠模式,施加保留數(shù)據(jù)所需的最低電壓,直到 CPU 下次訪問數(shù)據(jù)。這帶來了顯著的功耗優(yōu)勢(shì),因?yàn)槁╇娏髋c VDD 呈指數(shù)關(guān)系。一些 SRAM 設(shè)計(jì)采用了額外的電路來解決操作弱點(diǎn),旨在提高最低工作電壓。”
例如,高密度 (HD) SRAM 單元可以通過對(duì) 6 個(gè)晶體管使用單鰭晶體管來實(shí)現(xiàn)最小的幾何形狀。然而,由于相同尺寸的上拉 (PU) 和通柵極 (PG) 晶體管在寫入操作期間存在爭(zhēng)用問題,HD 單元在低電壓操作中面臨挑戰(zhàn)。
“在SRAM輔助電路中,如負(fù)位線,瞬態(tài)電壓崩潰技術(shù)被廣泛采用,以緩解這些問題并增強(qiáng)低電壓操作,”Yun說。“為了減輕寄生電阻效應(yīng),最新的位單元設(shè)計(jì)使用雙軌或三軌金屬線作為合并位線(BL)或字線(WL)。BL方法根據(jù)操作選擇性地連接金屬軌道,降低有效電阻并平衡陣列頂部和底部之間的放電率。在持續(xù)的開發(fā)中,正在探索埋地電源軌以進(jìn)一步降低布線電阻。這涉及將所有電源軌放置在晶體管下方,從而緩解晶體管上方的信號(hào)路徑擁塞?!?/p>
其他存儲(chǔ)器、其他結(jié)構(gòu)
新的嵌入式存儲(chǔ)器類型通常被提出作為 SRAM 的替代品,但每種類型都有自己的一系列問題?!爸饕母?jìng)爭(zhēng)者M(jìn)RAM和ReRAM僅占用一個(gè)晶體管面積,”Yun 說。“雖然它比 SRAM 中的晶體管大,但它們的整體單元尺寸仍約為 SRAM 的三分之一,最終的宏觀尺寸目標(biāo)(包括外圍電路)約為 SRAM 尺寸的一半。有明顯的尺寸優(yōu)勢(shì),但寫入速度的表現(xiàn)仍然遠(yuǎn)慢于SRAM。實(shí)驗(yàn)室在寫入速度和耐用性方面取得了一些成果,但在汽車用閃存替代 MRAM 生產(chǎn)之后,高速 MRAM 的開發(fā)計(jì)劃已經(jīng)延長(zhǎng)。L3 緩存替換的尺寸優(yōu)勢(shì)當(dāng)然值得考慮,但 eflash 類型 MRAM 的生產(chǎn)必須有一個(gè)提前的提升。”
如果物理學(xué)不允許使用更小的 SRAM,則替代方案將需要重新考慮架構(gòu)并采用小芯片?!叭绻?SRAM 無法在 N3 或 N2 中擴(kuò)展,那么可以將更先進(jìn)的邏輯芯片與采用舊技術(shù)制造的 SRAM 芯片結(jié)合起來,”imec 的 Hellings 說?!斑@種方法將受益于邏輯 PPA 的改進(jìn),同時(shí)為 SRAM 使用經(jīng)濟(jì)高效的(較舊的,可能更高的產(chǎn)量和更便宜的)技術(shù)節(jié)點(diǎn)。原則上,AMD 基于 V 緩存的系統(tǒng)可以進(jìn)行擴(kuò)展,僅將邏輯芯片移動(dòng)到下一個(gè)節(jié)點(diǎn),然后需要使用 3D 集成或小芯片方法 (2.5D) 組合兩個(gè)芯片?!?/p>
Ambiq 首席技術(shù)官 Scott Hanson 指出,chiplet 解決方案非常適合正在進(jìn)行的集成革命?!?a href="http://srfitnesspt.com/analog/" target="_blank">模擬電路很久以前就停止了縮放,出于功耗、性能和成本方面的原因,從 DRAM 到 SRAM 到 NVM 的所有類型的存儲(chǔ)器都更喜歡在不同的節(jié)點(diǎn)上制造。邏輯芯片更喜歡在仍然滿足成本和泄漏要求的最小節(jié)點(diǎn)上制造。通過多芯片集成,可以將芯片組合到單個(gè)封裝中。許多人在移動(dòng)和數(shù)據(jù)中心領(lǐng)域都聽說過這一點(diǎn),但它也在人工智能和物聯(lián)網(wǎng)領(lǐng)域迅速發(fā)生?!?/p>
在有限的情況下,系統(tǒng)技術(shù)協(xié)同優(yōu)化 (STCO) 也可以提供幫助。“對(duì)于某些應(yīng)用,原則上不需要片上緩存,”Hellings 說。“例如,在人工智能訓(xùn)練中,訓(xùn)練數(shù)據(jù)僅使用一次,而模型參數(shù)應(yīng)該可以在芯片上輕松訪問。軟件和芯片架構(gòu)可以繞過緩存層次結(jié)構(gòu),促進(jìn)這種一次性數(shù)據(jù)移動(dòng),具有很大的潛力?!?/p>
所有這些都激發(fā)了人們對(duì)新布局和互連協(xié)議(例如 UCIe 和 CXL)的興趣?!爱?dāng)你有更大的人工智能工作負(fù)載時(shí),內(nèi)存會(huì)隨著計(jì)算而擴(kuò)展,但如果其中一個(gè)組件的擴(kuò)展速度比另一個(gè)組件快一點(diǎn),根據(jù)系統(tǒng)的設(shè)計(jì)方式,你會(huì)遇到不同的瓶頸,”新思科技的戰(zhàn)略營銷經(jīng)理 Ron Lowman 說。“人工智能工作負(fù)載大大增加了所需處理器陣列的數(shù)量。他們甚至突破了芯片掩模版尺寸的限制,因此現(xiàn)在您需要用于芯片到芯片系統(tǒng)的高速互連(例如 UCIe),這意味著多芯片系統(tǒng)不可避免地要處理人工智能工作負(fù)載。”
解決問題的新堆棧
華邦電子通過其 CUBE 堆棧(定制超帶寬元素)重新思考了內(nèi)存架構(gòu)。“我們使用 DRAM 作為存儲(chǔ)單元,但也通過過孔進(jìn)行 3D 堆疊,”華邦 DRAM 營銷經(jīng)理 Omar Ma 解釋道。“您可以提供從底部基板一直到 SoC 芯片的連接。它更具成本效益,因?yàn)?DRAM 不使用 SRAM 的六個(gè)晶體管。”
CUBE 可以提供足夠高的密度來替代 SRAM 直至 3 級(jí)緩存?!盀榱诉_(dá)到一定的帶寬要求,只有兩個(gè)選擇——提高時(shí)鐘速度或增加 I/O 數(shù)量,”O(jiān)mar Ma 解釋道?!笆褂?CUBE,您可以根據(jù)需要增加它們,同時(shí)減少時(shí)鐘。這在系統(tǒng)層面帶來了很多好處,包括減少對(duì)電力的需求?!?CUBE 目前處于原型階段,但預(yù)計(jì)將于 2024 年第四季度或 2025 年初投入生產(chǎn)。
結(jié)論
SRAM 被完全取代,這似乎不太可能,至少在短期內(nèi)是這樣?!皫啄昵埃⑻貭栄菔玖耸褂描F電存儲(chǔ)器作為緩存,”O(jiān)bjective Analysis 總經(jīng)理吉姆·漢迪 (Jim Handy) 說?!八麄冋f這是 DRAM,但說實(shí)話,這是 FRAM。他們表示,優(yōu)勢(shì)在于他們能夠使用3D NAND技術(shù)使其變得非常緊密。換句話說,他們展示了一個(gè)擁有大量?jī)?nèi)存的微小空間。其中一種類型的研究工作(無論是像英特爾所展示的那樣還是 MRAM 等其他方法)很可能最終會(huì)取代 SRAM 的位置,但這可能不會(huì)很快發(fā)生。”
Handy 預(yù)計(jì)它會(huì)導(dǎo)致架構(gòu)和操作系統(tǒng)軟件發(fā)生變化。“你不太可能看到同一個(gè)處理器同時(shí)具有 SRAM 緩存和鐵電緩存,因?yàn)檐浖仨氝M(jìn)行一些更改才能利用這一點(diǎn),”他說。“此外,緩存的結(jié)構(gòu)將略有不同。主緩存可能會(huì)稍微縮小,而輔助緩存可能會(huì)變得非常大。在某個(gè)時(shí)候,具有 SRAM 緩存的處理器將會(huì)問世。下一代處理器將具有鐵電或 MRAM 緩存或類似的東西,并對(duì)軟件進(jìn)行重大更改以使該配置更好地工作?!?/p>
審核編輯:劉清
-
CMOS
+關(guān)注
關(guān)注
58文章
5638瀏覽量
234826 -
電容器
+關(guān)注
關(guān)注
63文章
6159瀏覽量
98888 -
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7401瀏覽量
163383 -
sram
+關(guān)注
關(guān)注
6文章
760瀏覽量
114549 -
VDD
+關(guān)注
關(guān)注
1文章
311瀏覽量
32915
原文標(biāo)題:SRAM如何克服其擴(kuò)展問題?
文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論