亚洲成av人片在线观看天堂无码,91精品国产麻豆国产自产在线

挑戰(zhàn)硬件的物理極限總是一件有趣的事，Preferred Networks公司正在做的事著實(shí)震驚了很多人。Preferred Networks公司是從東京大學(xué)（Tokyo University）衍生出來(lái)的，它正在將幾個(gè)大芯片植入一張PCIe卡中，以實(shí)現(xiàn)峰值性能和峰值功率。他們已經(jīng)準(zhǔn)備將超過(guò)10，000張芯片部署到一臺(tái)定制的超級(jí)計(jì)算機(jī)中。

讓我們從7225平方毫米的封裝開(kāi)始。這是典型的BGA封裝，帶有其他6457個(gè)引腳。封裝內(nèi)有四個(gè)基于TSMC 12FFC的硅芯片，每個(gè)硅芯片面積為756.7 mm2（32.2 mm x 23.5 mm），這意味著該處理器總計(jì)有3026.8 mm2的硅面積。這比高端計(jì)算GPU中使用的800 mm2的硅面積以及高端EPYC CPU中使用的1000 mm2以上的硅面積多太多了。這實(shí)在是一個(gè)令人難以置信的數(shù)字，特別是對(duì)于要插入PCIe卡的產(chǎn)品而言。

與相關(guān)的散熱片一起，芯片位于32GiB某種形式的存儲(chǔ)器所包圍的PCB上。整個(gè)設(shè)備是一個(gè)深度學(xué)習(xí)加速器，旨在為性能和功率提供關(guān)鍵指標(biāo)。在半精度（FP16）的524萬(wàn)億次浮點(diǎn)運(yùn)算性能下，該芯片還有一個(gè)500W的TDP，這意味著該芯片的目標(biāo)達(dá)到了每瓦1.05 TFLOPs。在0.55 V時(shí)，這意味著芯片最高工作電流接近1000安培，因此需要自定義PCB設(shè)計(jì)，但仍可通過(guò)PCIe啟用。該卡是擴(kuò)展的PCIe設(shè)計(jì)，具有強(qiáng)制冷卻功能（即使在服務(wù)器中也是如此），并將安裝在7U機(jī)架式機(jī)箱中。每個(gè)服務(wù)器都是一個(gè)雙插槽CPU，最多可包含四個(gè)卡，從而提供半精度DL計(jì)算的2 PetaFLOPs算力。通過(guò)卡上的散熱，現(xiàn)在每張卡在服務(wù)器內(nèi)部的最大功率為600W。

該芯片是MN-Core系列的一部分。Preferred Networks是一家專門制造有特定需求的私有超級(jí)計(jì)算機(jī)的公司。自2014年成立以來(lái)，該公司已投入1.3億美元資金，其中近9700萬(wàn)美元來(lái)自豐田。從2017年起，Preferred Networks公司已經(jīng)為東京大學(xué)建造了三臺(tái)人工智能超級(jí)計(jì)算機(jī)，大部分使用P100和V100 NVIDIA加速器，最新的MN-2使用了1024個(gè)V100 SXM2部件，達(dá)到了128 PetaFLOPs。這款新芯片位于Preferred Networks最新的MN-3超級(jí)計(jì)算機(jī)的中心，將是第一個(gè)采用定制芯片的。

MN-3將在每臺(tái)7U服務(wù)器上配置4個(gè)這樣的芯片，使性能提高到2.1 PF。每個(gè)機(jī)架將有4臺(tái)服務(wù)器，大約300個(gè)機(jī)架，4800個(gè)網(wǎng)核板。這將提供2.5 ExaFLOPs的總半精度峰值性能。Wikichip的David Schor估計(jì)總耗電量約為3.36兆瓦，比市場(chǎng)上其他系統(tǒng)的效率要高得多。MN-3預(yù)計(jì)將于2020年投入使用。

戴維（David）還對(duì)這種芯片的結(jié)構(gòu)做了一些挖掘。從圖片中，我們可以在芯片上清楚地看到單詞‘ GRAPE-PFN2 ’，它代表GRAPE（東京大學(xué)內(nèi)部芯片項(xiàng)目的名稱）和PFN2（或首選網(wǎng)絡(luò)）。東京大學(xué)在GRAPE旗下有許多定制的芯片項(xiàng)目：可以用于重力計(jì)算，多物體計(jì)算和分子動(dòng)力學(xué)等。Preferred Networks團(tuán)隊(duì)的成員以前曾在GRAPE-DR物理協(xié)處理器上工作，包括Hiraki教授，這就是為什么超級(jí)計(jì)算中顯示的架構(gòu)圖如此相似的原因。

每個(gè)芯片都包含兩個(gè)管芯到管芯的互連，并與一些調(diào)度引擎，PCIe架構(gòu)配合使用，計(jì)算在四個(gè)大的“二級(jí)塊（L2Bs）”中進(jìn)行。每個(gè)L2B有8個(gè)L1B和一個(gè)共享緩存，L1B內(nèi)部有16個(gè)矩陣運(yùn)算塊（abs）和一個(gè)L1共享緩存。每個(gè)MAB有四個(gè)處理引擎（PEs）和一個(gè)矩陣運(yùn)算單元（MAU），它似乎是為執(zhí)行矩陣乘法和加法而構(gòu)建的。一個(gè)裸片總共將具有512個(gè)MAB，其中包括2048個(gè)PE和512個(gè)MAU。因此，整個(gè)芯片將具有2048個(gè)MAB，8192個(gè)PE和2048個(gè)MAU。不斷擴(kuò)大規(guī)模，顯然可以實(shí)現(xiàn)高性能數(shù)字。通常，所有這些單元都以16位工作，盡管結(jié)合PE意味著可以實(shí)現(xiàn)更高的精度。
責(zé)任編輯:pj

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴