來(lái)源:半導(dǎo)體芯科技編譯
Mark Liu 是臺(tái)灣積體電路制造股份有限公司董事長(zhǎng)。
Philip Wong 是斯坦福大學(xué)工程學(xué)院教授兼臺(tái)積電首席科學(xué)家。
TSMC
1997 年,IBM "深藍(lán) "超級(jí)計(jì)算機(jī)擊敗了國(guó)際象棋世界冠軍加里·卡斯帕羅夫。這是超級(jí)計(jì)算機(jī)技術(shù)的一次開(kāi)創(chuàng)性展示,也是高性能計(jì)算有朝一日可能超越人類智能的初露端倪。在隨后的 10 年中,我們開(kāi)始將人工智能用于許多實(shí)際任務(wù),如面部識(shí)別、語(yǔ)言翻譯、推薦電影和商品等。
又過(guò)了十五年,人工智能已經(jīng)發(fā)展到可以 "合成知識(shí) "的地步。生成式人工智能,如 ChatGPT 和 Stable Diffusion,可以作詩(shī)、創(chuàng)作藝術(shù)品、診斷疾病、撰寫(xiě)總結(jié)報(bào)告和計(jì)算機(jī)代碼,甚至可以設(shè)計(jì)與人類制造的集成電路相媲美的集成電路。
人工智能將面臨巨大的機(jī)遇,成為人類所有工作的數(shù)字化助手。ChatGPT 就是一個(gè)很好的例子,它說(shuō)明了人工智能如何使高性能計(jì)算的使用平民化,為社會(huì)中的每一個(gè)人帶來(lái)益處。
所有這些令人驚嘆的人工智能應(yīng)用都?xì)w功于三個(gè)因素:高效機(jī)器學(xué)習(xí)算法的創(chuàng)新、可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的海量數(shù)據(jù)的可用性,以及通過(guò)半導(dǎo)體技術(shù)的進(jìn)步在高能效計(jì)算方面取得的進(jìn)展。盡管生成式人工智能革命的貢獻(xiàn)無(wú)處不在,但卻沒(méi)有得到應(yīng)有的贊譽(yù)。
在過(guò)去的三十年里,人工智能領(lǐng)域的重大里程碑都得益于當(dāng)時(shí)領(lǐng)先的半導(dǎo)體技術(shù),沒(méi)有這些技術(shù)是不可能實(shí)現(xiàn)的?!吧钏{(lán)”采用 0.6 微米和 0.35 微米節(jié)點(diǎn)的混合芯片制造技術(shù)實(shí)現(xiàn)的。在 ImageNet 比賽中獲勝、開(kāi)啟了當(dāng)前機(jī)器學(xué)習(xí)時(shí)代的深度神經(jīng)網(wǎng)絡(luò),是采用 40 納米技術(shù)實(shí)現(xiàn)的。AlphaGo 采用 28 納米技術(shù)征服了圍棋比賽,而 ChatGPT 的最初版本是在采用 5 納米技術(shù)制造的計(jì)算機(jī)上進(jìn)行訓(xùn)練的。最新版本的 ChatGPT 由采用更先進(jìn)的 4 納米技術(shù)的服務(wù)器驅(qū)動(dòng)。相關(guān)計(jì)算機(jī)系統(tǒng)的每一層,從軟件和算法到架構(gòu)、電路設(shè)計(jì)和設(shè)備技術(shù),都是人工智能性能的倍增器。但公平地說(shuō),基礎(chǔ)晶體管-器件技術(shù)是上述各層技術(shù)進(jìn)步的基礎(chǔ)。
如果AI革命要以目前的速度繼續(xù)下去,那么半導(dǎo)體行業(yè)將需要更多的努力。在十年內(nèi),它將需要一個(gè) 1 萬(wàn)億晶體管 GPU,也就是說(shuō),GPU 的設(shè)備數(shù)量是當(dāng)今典型設(shè)備的 10 倍。
AI模型規(guī)模持續(xù)增長(zhǎng)
在過(guò)去五年中,人工智能訓(xùn)練所需的計(jì)算量和內(nèi)存訪問(wèn)量呈數(shù)量級(jí)增長(zhǎng)。例如,訓(xùn)練 GPT-3 需要相當(dāng)于每秒 50 億億次以上的運(yùn)算量(即每天 5,000 petaflops )和 3 萬(wàn)億字節(jié)(3 TB)的內(nèi)存容量。
新的生成式人工智能應(yīng)用所需的計(jì)算能力和內(nèi)存訪問(wèn)能力都在持續(xù)快速增長(zhǎng)。我們現(xiàn)在需要回答一個(gè)緊迫的問(wèn)題: 半導(dǎo)體技術(shù)如何才能跟上步伐?
從集成器件到集成芯片
自集成電路發(fā)明以來(lái),半導(dǎo)體技術(shù)一直在縮小特征尺寸,以便在拇指指甲大小的芯片中塞進(jìn)更多的晶體管。如今,集成度更上一層樓;我們正在超越二維擴(kuò)展,進(jìn)入三維系統(tǒng)集成?,F(xiàn)在,我們正在把許多芯片組裝成一個(gè)緊密集成、大規(guī)模互連的系統(tǒng)。這是半導(dǎo)體技術(shù)集成的范式轉(zhuǎn)變。
在AI時(shí)代,系統(tǒng)的能力與集成到系統(tǒng)中的晶體管數(shù)量成正比。其中一個(gè)主要限制因素是,光刻芯片制造工具的設(shè)計(jì)是為了制造不超過(guò) 800 平方毫米的集成電路,這就是所謂的 “光罩極限”(reticle limit)。但是,我們現(xiàn)在可以將集成系統(tǒng)的尺寸擴(kuò)展到光刻的光罩極限之外。通過(guò)將多個(gè)芯片連接到更大的中介層(一塊內(nèi)置互連的硅片)上,我們可以集成一個(gè)包含比單個(gè)芯片上更多器件的系統(tǒng)。例如,臺(tái)積電CoWoS技術(shù)(
chip-on-wafer-on-substrate )可容納多達(dá)六個(gè)光罩場(chǎng)的計(jì)算芯片,以及十幾個(gè)高帶寬內(nèi)存(HBM)芯片。
Nvidia 如何使用 CoWoS 先進(jìn)封裝技術(shù)
CoWoS是臺(tái)積電的硅上芯片先進(jìn)封裝技術(shù),目前已應(yīng)用于產(chǎn)品中。。示例包括 Nvidia Ampere 和 Hopper GPU。每個(gè)都由一個(gè) GPU 芯片和六個(gè)高帶寬內(nèi)存立方體組成,全部位于硅中介層上。計(jì)算GPU芯片的大小與芯片制造工具目前允許的大小差不多。Ampere 有 540 億個(gè)晶體管,Hopper 有 800 億個(gè)。從 7 納米技術(shù)到更密集的 4 納米技術(shù)的轉(zhuǎn)變使得在基本相同的面積上封裝 50% 以上的晶體管成為可能。Ampere 和 Hopper 是當(dāng)今大型語(yǔ)言模型 (LLM) 訓(xùn)練的主力軍。訓(xùn)練 ChatGPT 需要數(shù)以萬(wàn)計(jì)的此類處理器。
HBM 是另一個(gè)對(duì) AI 日益重要的關(guān)鍵半導(dǎo)體技術(shù)的實(shí)例:通過(guò)將芯片堆疊在一起來(lái)集成系統(tǒng)的能力,我們臺(tái)積電稱之為系統(tǒng)級(jí)集成芯片 (SoIC:
system-on-integrated-chips )。HBM 由控制邏輯 IC 頂部的一組垂直互連的 DRAM 芯片組成。它使用稱為硅通孔 (TSV) 的垂直互連來(lái)獲取信號(hào),并通過(guò)每個(gè)芯片和焊料凸點(diǎn)來(lái)形成存儲(chǔ)芯片之間的連接。如今,高性能 GPU 廣泛使用 HBMm。
展望未來(lái),3D SoIC 技術(shù)可以為當(dāng)今的傳統(tǒng) HBM 技術(shù)提供“無(wú)凸通替代方案”(bumpless alternative),在堆疊芯片之間提供更密集的垂直互連。最近的進(jìn)展表明,HBM 測(cè)試結(jié)構(gòu)具有 12 層芯片堆疊,使用混合鍵合,這種銅對(duì)銅的連接密度比焊接凸點(diǎn)更高。該存儲(chǔ)器系統(tǒng)在較大的基礎(chǔ)邏輯芯片上低溫鍵合,總厚度僅為 600 μm。
高性能計(jì)算系統(tǒng)由大量運(yùn)行大型人工智能模型的芯片組成,高速有線通信可能會(huì)迅速限制計(jì)算速度。如今,光互連已被用于連接數(shù)據(jù)中心的服務(wù)器機(jī)架。不久的將來(lái),我們將需要基于硅光子技術(shù)的光接口,與 GPU 和 CPU 封裝在一起。這樣就能為 GPU 與 GPU 之間的直接光通信提供更高的能效和面積效率帶寬,從而使數(shù)百臺(tái)服務(wù)器能夠像擁有統(tǒng)一內(nèi)存的單個(gè)巨型 GPU 一樣運(yùn)行。由于人工智能應(yīng)用的需求,硅光子技術(shù)將成為半導(dǎo)體行業(yè)最重要的使能技術(shù)之一。
邁向萬(wàn)億晶體管 GPU
AMD 如何使用 3D 技術(shù)
AMD MI300A 加速處理器單元不僅利用了 CoWoS,還利用了臺(tái)積電的 3D 技術(shù)——SoIC。MI300A 結(jié)合了 GPU 和 CPU 內(nèi)核,旨在處理最大的AI工作負(fù)載。GPU 執(zhí)行AI的密集矩陣乘法運(yùn)算,而 CPU 則控制整個(gè)系統(tǒng)的運(yùn)行,高帶寬內(nèi)存 (HBM) 則統(tǒng)一為兩者服務(wù)。9 個(gè)采用 5 納米技術(shù)制造的計(jì)算芯片堆疊在 4 個(gè)采用 6 納米技術(shù)制造的基礎(chǔ)芯片之上,這些芯片專門(mén)用于緩存和 I/O 流量?;A(chǔ)芯片和 HBM 再硅中介層之上。處理器的計(jì)算部分由 1500 億個(gè)晶體管組成。
如前所述,用于人工智能訓(xùn)練的典型 GPU 芯片已經(jīng)達(dá)到了光罩極限 (reticle field limit)。它們的晶體管數(shù)量約為 1000 億個(gè)。晶體管數(shù)量繼續(xù)增加的趨勢(shì)將需要多個(gè)芯片,通過(guò) 2.5D 或 3D 集成相互連接來(lái)執(zhí)行計(jì)算。通過(guò) CoWoS 或 SoIC 以及相關(guān)的先進(jìn)封裝技術(shù)將多個(gè)芯片集成在一起,可使每個(gè)系統(tǒng)的晶體管總數(shù)大大超過(guò)單個(gè)芯片的晶體管總數(shù)。我們預(yù)測(cè),十年內(nèi)多芯片 GPU 的晶體管數(shù)量將超過(guò) 1 萬(wàn)億個(gè)。
我們需要在3D堆棧中將所有這些芯片連接在一起,但幸運(yùn)的是,業(yè)界已經(jīng)能夠迅速縮小垂直互連的間距,提高連接密度。而且還有足夠的空間容納更多。我們認(rèn)為互連密度沒(méi)有理由不能增長(zhǎng)一個(gè)數(shù)量級(jí),甚至更高。
GPU 的高能效性能趨勢(shì)
那么,所有這些創(chuàng)新硬件技術(shù)是如何提升系統(tǒng)性能的呢?
如果我們看看能效性能指標(biāo)(EEP:energy-efficient performance)的穩(wěn)步提升,就能發(fā)現(xiàn)服務(wù)器 GPU 的發(fā)展趨勢(shì)。EEP是對(duì)系統(tǒng)能效和速度的綜合衡量。在過(guò)去的 15 年中,半導(dǎo)體行業(yè)每?jī)赡昃湍軐⒛苄阅芴岣呒s三倍。我們相信,這一趨勢(shì)將以歷史性的速度持續(xù)下去。推動(dòng)這一趨勢(shì)的將是多方面的創(chuàng)新,包括新材料、器件和集成技術(shù)、極紫外線(EUV)光刻技術(shù)、電路設(shè)計(jì)、系統(tǒng)架構(gòu)設(shè)計(jì)以及所有這些技術(shù)要素的共同優(yōu)化等等。
特別是,我們?cè)诖擞懻摰南冗M(jìn)封裝技術(shù)將有助于提高 EEP。此外,系統(tǒng)技術(shù)協(xié)同優(yōu)化(STCO: system-technology co-optimization)等概念也將變得越來(lái)越重要,在STCO 中,GPU 的不同功能部分被分離到各自的芯片上,并使用性能最好、最經(jīng)濟(jì)的技術(shù)來(lái)構(gòu)建每個(gè)部分。
3D集成電路的Mead-Conway時(shí)刻
1978 年,加州理工學(xué)院教授 Carver Mead 和施樂(lè) PARC的 Lynn Conway 發(fā)明了一種集成電路計(jì)算機(jī)輔助設(shè)計(jì)方法。他們使用一套設(shè)計(jì)規(guī)則來(lái)描述芯片的縮放比例,這樣工程師們就可以輕松地設(shè)計(jì)超大規(guī)模集成電路(VLSI),而無(wú)需太多的工藝技術(shù)知識(shí)。
3D芯片設(shè)計(jì)也需要這種能力。如今,設(shè)計(jì)人員需要了解芯片設(shè)計(jì)、系統(tǒng)架構(gòu)設(shè)計(jì)以及硬件和軟件優(yōu)化。制造商需要了解芯片技術(shù)、3D IC技術(shù)和先進(jìn)的封裝技術(shù)。正如我們?cè)?1978 年所做的那樣,我們?cè)俅涡枰环N通用語(yǔ)言,以電子設(shè)計(jì)工具能夠理解的方式來(lái)描述這些技術(shù)。這種硬件描述語(yǔ)言可以讓設(shè)計(jì)人員自由地進(jìn)行 3D 集成電路系統(tǒng)設(shè)計(jì),而無(wú)需考慮底層技術(shù)。它即將問(wèn)世: 一種名為 3Dblox 的開(kāi)源標(biāo)準(zhǔn)已被當(dāng)今大多數(shù)技術(shù)公司和電子設(shè)計(jì)自動(dòng)化 (EDA) 公司所采用。
隧道之外的未來(lái)
在人工智能時(shí)代,半導(dǎo)體技術(shù)是實(shí)現(xiàn)新的人工智能能力和應(yīng)用的關(guān)鍵因素。新型 GPU 不再受限于過(guò)去的標(biāo)準(zhǔn)尺寸和外形尺寸。新的半導(dǎo)體技術(shù)也不再局限于在二維平面上縮小下一代晶體管的尺寸。一個(gè)集成的人工智能系統(tǒng)可以由盡可能多的高能效晶體管、適用于專業(yè)計(jì)算工作負(fù)載的高效系統(tǒng)架構(gòu)以及優(yōu)化的軟硬件關(guān)系組成。
在過(guò)去的 50 年里,半導(dǎo)體技術(shù)的發(fā)展就像在隧道里行走。前方的道路是清晰的,因?yàn)橛幸粭l明確的道路。每個(gè)人都知道需要做什么:縮小晶體管。
現(xiàn)在,我們已經(jīng)走到了隧道的盡頭。從這里開(kāi)始,半導(dǎo)體技術(shù)將越來(lái)越難發(fā)展。然而,在隧道之外,還有更多的可能性。我們不再受過(guò)去的束縛。
審核編輯 黃宇
-
半導(dǎo)體
+關(guān)注
關(guān)注
334文章
26658瀏覽量
212851 -
gpu
+關(guān)注
關(guān)注
27文章
4635瀏覽量
128451 -
晶體管
+關(guān)注
關(guān)注
77文章
9582瀏覽量
137475 -
AI
+關(guān)注
關(guān)注
87文章
29399瀏覽量
267695 -
人工智能
+關(guān)注
關(guān)注
1789文章
46368瀏覽量
236541
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論