挑戰(zhàn)硬件的物理極限總是一件有趣的事,Preferred Networks公司正在做的事著實(shí)震驚了很多人。Preferred Networks公司是從東京大學(xué)(Tokyo University)衍生出來(lái)的,它正在將幾個(gè)大芯片植入一張PCIe卡中,以實(shí)現(xiàn)峰值性能和峰值功率。他們已經(jīng)準(zhǔn)備將超過(guò)10,000張芯片部署到一臺(tái)定制的超級(jí)計(jì)算機(jī)中。
讓我們從7225平方毫米的封裝開(kāi)始。這是典型的BGA封裝,帶有其他6457個(gè)引腳。封裝內(nèi)有四個(gè)基于TSMC 12FFC的硅芯片,每個(gè)硅芯片面積為756.7 mm2(32.2 mm x 23.5 mm),這意味著該處理器總計(jì)有3026.8 mm2的硅面積。這比高端計(jì)算GPU中使用的800 mm2的硅面積以及高端EPYC CPU中使用的1000 mm2以上的硅面積多太多了。這實(shí)在是一個(gè)令人難以置信的數(shù)字,特別是對(duì)于要插入PCIe卡的產(chǎn)品而言。
與相關(guān)的散熱片一起,芯片位于32GiB某種形式的存儲(chǔ)器所包圍的PCB上。整個(gè)設(shè)備是一個(gè)深度學(xué)習(xí)加速器,旨在為性能和功率提供關(guān)鍵指標(biāo)。在半精度(FP16)的524萬(wàn)億次浮點(diǎn)運(yùn)算性能下,該芯片還有一個(gè)500W的TDP,這意味著該芯片的目標(biāo)達(dá)到了每瓦1.05 TFLOPs。在0.55 V時(shí),這意味著芯片最高工作電流接近1000安培,因此需要自定義PCB設(shè)計(jì),但仍可通過(guò)PCIe啟用。該卡是擴(kuò)展的PCIe設(shè)計(jì),具有強(qiáng)制冷卻功能(即使在服務(wù)器中也是如此),并將安裝在7U機(jī)架式機(jī)箱中。每個(gè)服務(wù)器都是一個(gè)雙插槽CPU,最多可包含四個(gè)卡,從而提供半精度DL計(jì)算的2 PetaFLOPs算力。通過(guò)卡上的散熱,現(xiàn)在每張卡在服務(wù)器內(nèi)部的最大功率為600W。
該芯片是MN-Core系列的一部分。Preferred Networks是一家專門制造有特定需求的私有超級(jí)計(jì)算機(jī)的公司。自2014年成立以來(lái),該公司已投入1.3億美元資金,其中近9700萬(wàn)美元來(lái)自豐田。從2017年起,Preferred Networks公司已經(jīng)為東京大學(xué)建造了三臺(tái)人工智能超級(jí)計(jì)算機(jī),大部分使用P100和V100 NVIDIA加速器,最新的MN-2使用了1024個(gè)V100 SXM2部件,達(dá)到了128 PetaFLOPs。這款新芯片位于Preferred Networks最新的MN-3超級(jí)計(jì)算機(jī)的中心,將是第一個(gè)采用定制芯片的。
MN-3將在每臺(tái)7U服務(wù)器上配置4個(gè)這樣的芯片,使性能提高到2.1 PF。每個(gè)機(jī)架將有4臺(tái)服務(wù)器,大約300個(gè)機(jī)架,4800個(gè)網(wǎng)核板。這將提供2.5 ExaFLOPs的總半精度峰值性能。Wikichip的David Schor估計(jì)總耗電量約為3.36兆瓦,比市場(chǎng)上其他系統(tǒng)的效率要高得多。MN-3預(yù)計(jì)將于2020年投入使用。
戴維(David)還對(duì)這種芯片的結(jié)構(gòu)做了一些挖掘。從圖片中,我們可以在芯片上清楚地看到單詞‘ GRAPE-PFN2 ’,它代表GRAPE(東京大學(xué)內(nèi)部芯片項(xiàng)目的名稱)和PFN2(或首選網(wǎng)絡(luò))。東京大學(xué)在GRAPE旗下有許多定制的芯片項(xiàng)目:可以用于重力計(jì)算,多物體計(jì)算和分子動(dòng)力學(xué)等。Preferred Networks團(tuán)隊(duì)的成員以前曾在GRAPE-DR物理協(xié)處理器上工作,包括Hiraki教授,這就是為什么超級(jí)計(jì)算中顯示的架構(gòu)圖如此相似的原因。
每個(gè)芯片都包含兩個(gè)管芯到管芯的互連,并與一些調(diào)度引擎,PCIe架構(gòu)配合使用,計(jì)算在四個(gè)大的“二級(jí)塊(L2Bs)”中進(jìn)行。每個(gè)L2B有8個(gè)L1B和一個(gè)共享緩存,L1B內(nèi)部有16個(gè)矩陣運(yùn)算塊(abs)和一個(gè)L1共享緩存。每個(gè)MAB有四個(gè)處理引擎(PEs)和一個(gè)矩陣運(yùn)算單元(MAU),它似乎是為執(zhí)行矩陣乘法和加法而構(gòu)建的。一個(gè)裸片總共將具有512個(gè)MAB,其中包括2048個(gè)PE和512個(gè)MAU。因此,整個(gè)芯片將具有2048個(gè)MAB,8192個(gè)PE和2048個(gè)MAU。不斷擴(kuò)大規(guī)模,顯然可以實(shí)現(xiàn)高性能數(shù)字。通常,所有這些單元都以16位工作,盡管結(jié)合PE意味著可以實(shí)現(xiàn)更高的精度。
責(zé)任編輯:pj
-
芯片
+關(guān)注
關(guān)注
452文章
50005瀏覽量
419729 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8866瀏覽量
84963 -
管芯
+關(guān)注
關(guān)注
0文章
10瀏覽量
8157
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論