久久综合97丁香色香蕉,9191精品国产综合久久久久久 ,中国人看视频免费

10月17日，美國更新出口管制標(biāo)準(zhǔn)，要求先進(jìn)芯片性能超過特定閾值，即需要申請出口許可。在嚴(yán)苛的限制條件下，英偉達(dá)針對中國市場的特供版H800、A800兩款芯片也面臨禁售，以下為美國商務(wù)部對先進(jìn)芯片性能的劃定標(biāo)準(zhǔn)：

●總算力之和≥4800TOPS，

●總算力≥1600，且性能密度≥5.92；

●2400≤總算力＜4800，且1.6＜性能密度＜5.92；

●總算力≥1600，且3.2≤性能密度＜5.92。

面對新的管制條例，英偉達(dá)給了兩個(gè)解法：其一，溝通美國商務(wù)部申請?jiān)S可，給特定的中國客戶“開白”；其二，針對新的管制條例，再次定制全新的特供版本。

剛剛舉辦的第三財(cái)季電話會議上，英偉達(dá)首席財(cái)務(wù)官科萊特·克雷斯確認(rèn)了這一消息?？死姿贡硎?，英偉達(dá)正在與中東和中國的一些客戶合作，以獲得美國政府銷售高性能產(chǎn)品的許可。此外，英偉達(dá)正試圖開發(fā)符合政府政策且不需要許可證的新數(shù)據(jù)中心產(chǎn)品。

01.H800是如何“閹割”成為H20？

英偉達(dá)試圖開發(fā)的新的特供版，即業(yè)內(nèi)盛傳的H20、L20等產(chǎn)品，最新消息顯示，相關(guān)產(chǎn)品的上市計(jì)劃已經(jīng)延后至2024年第一季度。

問題在于，H20等全新特供芯片的研發(fā)、設(shè)計(jì)、生產(chǎn)，完全跳出了常規(guī)芯片的節(jié)奏，英偉達(dá)是如何在短時(shí)間內(nèi)拿出這套特供解決方案？

它的答案就是我們這篇文章要討論的關(guān)鍵問題之一：后道點(diǎn)斷生產(chǎn)工藝，用大家更為常用的詞匯總結(jié)即——閹割。

HGXH20-L20PCIe-L2PCIe-產(chǎn)品規(guī)格

按正常的設(shè)計(jì)、生產(chǎn)周期和產(chǎn)品發(fā)布節(jié)奏來推斷，特供中國市場的H20/ L20等型號的芯片在這個(gè)時(shí)間節(jié)點(diǎn)發(fā)布，不太可能是重做光罩、重新投片的產(chǎn)物，一個(gè)相對合理的推論——即它們是通過半導(dǎo)體后道的物理點(diǎn)斷工藝的改造+再封裝，進(jìn)而推出的新SKUs。

點(diǎn)斷工藝是半導(dǎo)體制造的后道工序（BEOL）中的改造方法，可以在無需重做光罩的前提下使用一些管/線修補(bǔ)工藝，包括表面激光點(diǎn)斷、CoWoS層面點(diǎn)斷，甚至通過隧道鏡手工雕線。

芯片制造主要流程，來源：東吳證券

可以假定一下這樣的場景，代工英偉達(dá)H800的臺積電南科Fab18A、臺中Fab15B和臺中先進(jìn)封裝5廠的潔凈室里，此前降規(guī)生產(chǎn)的幾批次裸片，還沒來得及切割、鍍上金屬線和電極，還未封裝成H800和L40S，轉(zhuǎn)而通過后道點(diǎn)斷生產(chǎn)工藝再封裝成H20、L20。

02.表面激光點(diǎn)斷是半導(dǎo)體制造傳統(tǒng)藝能

行業(yè)慣例來說，一顆數(shù)字邏輯芯片的緩存大小(CacheSize)、底層物理互連（PHYchannels）都可以通過在后道封測環(huán)節(jié)重修/點(diǎn)斷做失效屏蔽處理的，尤其是針對低分?jǐn)?shù)裸片的改造方法算是幾十年的傳統(tǒng)藝能，例如早期的奔騰、賽揚(yáng)處理器的重要區(qū)別之一就是點(diǎn)斷緩存。

倘若是局部微小部分，曾經(jīng)可以手工完成（相當(dāng)于微雕）；面積稍大的部分，可以重新設(shè)計(jì)Layout預(yù)留點(diǎn)斷位置，再由機(jī)器完成點(diǎn)斷失效。

一種內(nèi)置數(shù)字顯示的溫度傳感器設(shè)計(jì)版圖實(shí)操上，通常的晶圓廠都會配置專業(yè)設(shè)備，由激光直接在裸片上切割線路/溝槽，而在亞利桑那錢德勒市的Intel Fab42工廠里，還有直接在專用隧道鏡下面手工雕刻晶體管的設(shè)備，宣稱是原子尺度的，不同于尋常的掃描隧道顯微鏡，幾年前Intel有個(gè)宣傳視頻，提到這臺設(shè)備，據(jù)傳全球持證的操作手不超過14人。其實(shí)在平面晶體管以前，顯微鏡手雕不算是高難度動(dòng)作，但進(jìn)入FinFET以后，由于垂直方向的3D柵極結(jié)構(gòu)，手雕設(shè)備的代價(jià)和操作員就變得遙不可及了。具體到H20/L20，這兩款特供產(chǎn)品，是如何通過H800、L40S降規(guī)而來？可以先看看相關(guān)參數(shù)： H20：對應(yīng)H100/800系列，Hopper架構(gòu)（HBM3、2.5D CoWoS封裝、NVLink） L20：對應(yīng)L40S系列，Ada Lovelace架構(gòu)（GDDR6，2D InFO封裝，PCIe Gen4）

*注：固件相應(yīng)修改；

回顧H100/H800相同架構(gòu)之間比較關(guān)鍵的底層物理互連（SerDes PHY）的差異，H100降規(guī)閹割成H800，可以通過局部物理點(diǎn)斷失效處理來實(shí)現(xiàn)；但相比之下，H20雖然與前面兩款產(chǎn)品同構(gòu)，但推測割掉的Dark Si面積可能較大，不確定常規(guī)點(diǎn)斷操作是否不值得，也許需要重新做Layout。

但是除了底層物理層互連（SerDes PHY）的區(qū)別，還有雙精度浮點(diǎn)計(jì)算（FP64）單元面積、張量核（用于矩陣、卷積類計(jì)算任務(wù)）單元面積的區(qū)別，這部分不好定論，但可以推測是類似利用物理冗余設(shè)計(jì)并加以屏蔽的操作，畢竟如今的設(shè)計(jì)方法學(xué)都是推動(dòng)模塊化的，流片后的測試原本就會有70分 die與90分 die的區(qū)別，以及GPU芯片上也不止一個(gè)FP64，局部操作物理點(diǎn)斷失效也是合理的。

03.設(shè)計(jì)冗余為點(diǎn)斷創(chuàng)造條件，也是大廠基操

舉個(gè)例子：A、如今市面仍可見的Intel F系列CPU，就是點(diǎn)斷顯核的70分die；B、Apple Si的前兩代，官宣8核NPU，實(shí)際有9個(gè)，就是設(shè)計(jì)冗余。以上這些，在晶圓制造工序中也算是基本操作，特別是中試廠/線，Alpha - Beta流片的過渡期間，有小錯(cuò)就會直接手改，不會返回修改掩膜重新流片的。從芯片設(shè)計(jì)者的角度來看，設(shè)計(jì)冗余度是在芯片開發(fā)流程中原本存在的，因?yàn)榍暗拦饪踢^程是強(qiáng)調(diào)高良率的，具體到失效晶體管數(shù)，測試環(huán)節(jié)判斷模塊級別的良率，壞點(diǎn)可以直接電路割斷，后續(xù)引線、封蓋工藝流程都不變。例如3年前，Intel曾向市場推出過不帶顯核的F系列CPU，就是物理降規(guī)/閹割的產(chǎn)物，點(diǎn)斷顯核，重新封裝銷售。但是該款芯片偶爾耗電巨大，經(jīng)用戶投訴，建環(huán)境驗(yàn)證后發(fā)現(xiàn)就是原本通過物理點(diǎn)斷失效的顯核在接電之后不受控制而導(dǎo)致的莫名電源故障。這個(gè)案例反映的情況就是我們上文所講的，同一條流水線，經(jīng)過點(diǎn)斷失效的芯片，后續(xù)的導(dǎo)線/引腳和封裝過程不變，可以繼續(xù)銷售。尤其早期Intel 10nm的良率很低，積壓很多這樣的低分片，才會把顯核失效的芯片加印F標(biāo)繼續(xù)銷售。如今這個(gè)“冗余度”可能有很大空間，畢竟H100已然是814平方毫米的大芯片，幾乎接近光罩尺寸邊緣（26mm*33mm=858mm2）。而如今發(fā)布的H20降規(guī)型號，大概是H100 15%的性能，但是其物料成本幾近相同。

04.封裝層面點(diǎn)斷可操作性、經(jīng)濟(jì)性更好

除了在邏輯芯片表面的激光點(diǎn)斷工藝之外，還有針對某些特殊位置的點(diǎn)斷要求，比如CoWoS中介層的點(diǎn)斷。 CoWoS作為臺積電的2.5D封裝方案，可以使得多顆芯片封裝到一起，互連和內(nèi)存等器件均通過硅中介層互聯(lián)，達(dá)到了封裝體積小，功耗低，引腳少的效果。相比表面激光點(diǎn)斷，在CoWoS的前道部分——即CoW部分是硅通孔和中介層——在該層面操作點(diǎn)斷，做差異化，反而更經(jīng)濟(jì)，也更容易保證良率。因?yàn)樗懔壿嬓酒虸/O芯片是分列的，可以屏蔽底層物理互連的通道，也可以縮減HBM3內(nèi)存性能，而且在硅中介層修改差異化更容易，相比全部在邏輯芯片上修改的代價(jià)更低，因?yàn)橹薪閷由喜僮鞯木€寬精度可以較低，甚至點(diǎn)斷最上面那層金屬的線寬即可。但是，CoWoS中介層上面是只能夠屏蔽物理互連和HBM內(nèi)存，但是無法屏蔽FP64單元、Tensor core單元這樣的計(jì)算邏輯芯片面積，這就需要補(bǔ)充用到前文所說的在邏輯die表面點(diǎn)斷失效的方法。另外，正常情況下，物理點(diǎn)斷失效的電路是不能從外部第三方察覺的，且工藝不可逆；尤其如今芯片都是十幾層金屬，裸片的表面修改了，上面金屬層是看不穿的，除非是用到反工程的透視掃描。綜上，我們看到進(jìn)一步特供/降規(guī)生產(chǎn)的H20/L20等型號，可以判斷是H800和L40S的裸片的后道物理點(diǎn)斷工序的改造產(chǎn)物，同時(shí)重新封裝、重新修改固件，成為新的SKUs。回想Nvidia之前積壓的、原本銷往中國的50億美元的GPU產(chǎn)品尚未交付，如今返廠做了后道改造才得以如此快速的發(fā)布新的SKU，那么猜測國內(nèi)廠商的50億美元訂單也許會轉(zhuǎn)換為這三個(gè)型號。

05.“閹割”后的H20的能與不能

核心AI芯片相關(guān)參數(shù)及出口管制情況，APPLIES對應(yīng)受管制，DOESN'TAPPLY對應(yīng)不受管制

如下是針對H20與H100/H800/A100的產(chǎn)品橫向比較，比較維度包括“產(chǎn)品規(guī)格、單卡和集群算力效能、物料成本、定價(jià)體系”等四個(gè)方面：

集群綜合算力方面，H100/H800目前是AIDC算力集群的頂流部署；其中H100理論擴(kuò)容極限是5萬張卡集群，最多可達(dá)10萬P算力；H800最大集群是2-3萬張卡，合計(jì)4萬P算力；A100最大集群是1.6萬張卡，合計(jì)9600P算力。然而對于H20，其集群的理論擴(kuò)容極限是5萬張卡，以單卡算力0.148P（FP16/BF16）計(jì)算，集群合計(jì)提供7400P算力，遠(yuǎn)低于H100/H800/A100。

同時(shí)，基于算力與通信均衡度預(yù)估，5萬張H20合理的整體算力中位數(shù)約為3000P左右，倘若H20面對千億級參數(shù)模型訓(xùn)練，恐怕捉襟見肘，需要集群網(wǎng)絡(luò)拓?fù)溆懈蟮耐庋訑U(kuò)展。

但從HGX H20的硬件參數(shù)綜合來看，幾乎把美國商務(wù)部性能密度禁令中嚴(yán)格限制的算力門檻以外的指標(biāo)全部拉滿，顯然是定位為一顆訓(xùn)推通用的處理器。

只是針對LLM大模型業(yè)態(tài)而言，實(shí)際使用H20做千卡分布式訓(xùn)練，雖然大部分有效利用時(shí)間都是GPU上的矩陣乘加計(jì)算的時(shí)間，通信和訪存的時(shí)間占比縮小，但畢竟單卡算力規(guī)格較低，超限度的千卡集群擴(kuò)展反而會使其費(fèi)效比降低，H20更適用于垂直類模型的訓(xùn)練/推理，不容易滿足千億參數(shù)級LLM的訓(xùn)練需求。

需要注意的是，選用更多低規(guī)格、更廉價(jià)的GPU并聯(lián)集群，試圖追平或是超過一臺超高算力的GH200效能，這是一種悖論。

因?yàn)檫@種方案的掣肘很多，環(huán)境搭建和運(yùn)行的ROI并不高。因?yàn)樵谒懔寐省⒉⑿胁呗缘膱?zhí)行、集群綜合能耗、硬件成本和組網(wǎng)成本等等方面都不可能獲得理想方案；H20集群與A800集群效能可以同比，對比H100/GH200集群效能則是不實(shí)際的。

H20的基本規(guī)格方面，算力水平約等于50%A100和15%H100，單卡算力是0.148P（FP16）/0.296P（Int8），900GB/S NVLink，6顆HBM3e（顯存的物料與H100 SXM版本配置相同，即6*16GB=96GB容量），die size同樣都是814mm2 。

考慮到H100GPU單卡物料成本中的HBM顆粒成本獨(dú)占55%-60%，整卡的物料成本約3320美元（H20成本相近，甚至由于增配的L2Cache以及追加了點(diǎn)斷工序而成本更高，且相比H800更加增配了HBM3容量和NVLinklanes帶寬），那么對應(yīng)最終的渠道定價(jià)規(guī)則，H20的渠道單價(jià)可能與H100/H800處于相近水平。

同比參考幾個(gè)市面流通價(jià)格（來自某一線互聯(lián)網(wǎng)公司和某一線服務(wù)器廠的渠道貨價(jià)）：

-DGXA800PCIe8卡服務(wù)器約145萬元/臺，NVLink版本200萬元/臺

-DGXH800NVLink版本服務(wù)器，國內(nèi)渠道報(bào)價(jià)約310萬元/臺（不含IB）

-DGXH100NVLink版本服務(wù)器，香港渠道報(bào)價(jià)約45萬美元/臺（不含IB）

-H100PCIe單卡報(bào)價(jià)約2.5-3萬美元，H800PCIe單卡尚不確定，且單卡流通渠道不正規(guī)

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
452

文章
49934

瀏覽量
419590
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3677

瀏覽量
90473
算力

算力

+關(guān)注

關(guān)注
1

文章
867

瀏覽量
14649

原文標(biāo)題：英偉達(dá)為中國“降規(guī)”：H800變身為H20，技術(shù)如何實(shí)現(xiàn)、性能夠用嗎？

文章出處：【微信號：算力基建，微信公眾號：算力基建】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

英偉達(dá)為中國“降規(guī)”：H800變身為H20，技術(shù)如何實(shí)現(xiàn)、性能夠用嗎？

評論

英偉達(dá)H20芯片助力，預(yù)計(jì)在華銷售額將破120億美元

英偉達(dá)H20 AI芯片:中國市場新動(dòng)向與業(yè)績預(yù)期

英偉達(dá)下調(diào)中國特供H20芯片價(jià)格

英偉達(dá)H20芯片降價(jià)引關(guān)注，供應(yīng)鏈呼吁市場回歸理性

英偉達(dá)H20芯片價(jià)格下調(diào)，供應(yīng)充足，顯示市場需求疲軟

英偉達(dá)H200和H800的區(qū)別

消息稱英偉達(dá)中國特定AI芯片H20開啟預(yù)售

英偉達(dá)H20芯片在華銷量低迷，訂單量縮減

NVIDIA特供中國的芯片，AI性能大降10%售價(jià)依然高

英偉達(dá)推出為中國大陸定制的H20 AI GPU芯片

英偉達(dá)中國定制版H20芯片推遲至明年Q1發(fā)布

騰訊英偉達(dá)H800 AI芯片儲備已足夠開發(fā)好幾代通用大模型

英偉達(dá)特供版芯片性能降80%！

英偉達(dá)確認(rèn)為中國推三款改良AI芯片性能暴降80%

傳英偉達(dá)新AI芯片H20綜合算力比H100降80%

搜索歷史

英偉達(dá)為中國“降規(guī)”：H800變身為H20，技術(shù)如何實(shí)現(xiàn)、性能夠用嗎？

評論

英偉達(dá)為中國“降規(guī)”：H800變身為H20，技術(shù)如何實(shí)現(xiàn)、性能夠用嗎？