摘要:在后摩爾時代,集成電路設計理念正向Chiplet架構轉變。本文從D2D接口IP設計,D2D封裝和D2D測試三個方面介紹了Chiplet D2D的解決方案,并給出了采用此解決方案的XSR 112G D2D的測試結果。
1.后摩爾時代向Chiplet的戰(zhàn)略轉變
當前摩爾定律逐步趨向物理極限,半導體行業(yè)正在發(fā)生重大的戰(zhàn)略轉變?;贑hiplet架構的芯片設計理念逐漸成為行業(yè)主流。這一戰(zhàn)略轉變的驅動因素主要有以下幾種:
1)單芯片的尺寸變得太大,無法制造;
2)充分利用已有KGD(Known Good Die)芯片實現(xiàn)復雜功能芯片,可以減少設計周期和成本,并提高良率。
在這些驅動因素下,整個Chiplet行業(yè)在2031年有望達到471.9億美元[1],如圖1所示,Chiplet市場在2021~2031十年期年復合增長率保持36.4%;其中實現(xiàn)Die to Die(D2D)互連的接口IP市場在2026達到3.24億美元[2],D2D IP市場在2021~2026五年期年復合增長率高達50%,如下圖2所示。
圖1 Chiplet市場
圖2 D2D IP市場趨勢
Chiplet應用場景主要分兩種,第一種是將同工藝大芯片分割成多個小芯片,然后通過接口IP互連在一起實現(xiàn)算力堆疊;第二種是將不同工藝不同功能的芯片通過接口IP互連并封裝在一起實現(xiàn)異構集成,如圖3所示。算力堆疊主要應用于CPU、TPU和AI芯片等,對接口IP的要求是低延遲和低誤碼率,通常采用并行接口IP。異構集成,主要應用于CPU、FPGA和通信芯片等,對接口IP的要求是標準化,兼容性,可移植性和生態(tài)系統(tǒng)等,通常采用串行接口IP。
圖3 典型應用場景
為了便于組裝不同供應商開發(fā)的芯粒,需要標準化的芯粒間互連標準,行業(yè)聯(lián)盟已共同定義出多種芯?;ミB標準,如XSR,BoW,OpenHBI,UCIe等。它們的主要性能指標如圖4所示。其中,XSR采用差分串行結構,目前最高速率達112Gbps,可用于異構集成連接IO die;后3種采用單端并行結構,目前最高速率是UCIe的32Gbps, 同時它還定義了完整的協(xié)議層,繼承了CXL和PCIe的生態(tài)優(yōu)勢,可用于算力堆疊中計算IP間的互連。
圖4 主流D2D的關鍵指標
完整的D2D解決方案包括:D2D接口IP設計、D2D封裝設計和D2D測試,下面分別做詳細介紹。
2.D2D接口IP設計解決方案
D2D接口IP由物理層(PHY)和控制器組成,如下圖5所示。物理層PHY是封裝介質的電氣接口。從分層結構上分為模擬PHY和數(shù)字PHY,模擬PHY包括電氣AFE(發(fā)射器、接收器)以及邊帶信道,可實現(xiàn)兩個晶粒之間的參數(shù)交換和協(xié)商。數(shù)字PHY包括鏈路初始化、訓練和校準算法以及測試和修復功能。從接口類型上分并行接口和串行接口。
控制器由鏈路層(Link layer)和邏輯物理層(Physical Layer Logical)。鏈路層負責上層協(xié)議接口適配,協(xié)議仲裁和協(xié)商,以及基于 CRC,可選的FEC(Forward Error Correction)和重傳機制來確保鏈路可靠地傳輸數(shù)據(jù);邏輯物理層負責鏈路訓練和管理功能以及具體的PHY適配(比如加擾,解擾,塊對齊,OS插入和提取等)。在鏈路初始化時,邏輯物理層會等待 PHY 完成鏈路初始化,通過鏈路狀態(tài)機進入工作模式。鏈路層會通過協(xié)商確定使用哪個協(xié)議(如果實施了多個協(xié)議)??刂破飨蛏现С諧XS、AXI、FDI(Filt aware D2D interface)接口來支持PCIe、CXL、UCIe以及SOC和RAW協(xié)議層;向下兼容RDI(Raw D2D interface)和PIPE接口來適配不同的物理電氣層[3][4][5]。
下面分別介紹一下并口和串口的D2D PHY架構。
圖5 D2D分層架構
2.1 并口D2D PHY架構
為了滿足低延遲,高能效,低誤碼率要求,物理層接口采用單端并口傳輸,使用2.5D封裝形式。并口D2D物理層結構如圖6所示:
圖6 并口D2D PHY系統(tǒng)框架
并口物理層模擬部分包括4個LM(Lane module),每個LM數(shù)據(jù)位寬為單向16bit,共64bit??梢愿鶕?jù)所需帶寬靈活配置LM數(shù)目。每個LM還可以配置1~2個Slicer用于Filt Header或CRC校驗。每Lane具備高精度和高解析度自校準延遲線,RX線性連續(xù)時間均衡器(CTLE)和DFE均衡器以實現(xiàn)高速性能,并根據(jù)走線長度可關閉DFE均衡器,以降低功耗。
并口物理層數(shù)字部分包括的功能塊有RDI_TX/RX_MAP實現(xiàn)RDI接口到LM的映射;SPU(Sideband Process Unit)/TFSM(Train FSM)/LSM(Link SM)實現(xiàn)PHY啟動,Lane修復/反轉,TX/RX訓練,VREF訓練,眼圖訓練,自適應,鏈路狀態(tài)管理,鏈路雙方配置等功能。
芯耀輝實現(xiàn)的并口物理層采用DDR模式傳輸數(shù)據(jù),數(shù)據(jù)率為16Gbps,符合UCIe和CCITA發(fā)布的《小芯片接口總線技術要求》標準;使用Forward clock模式簡化接收端設計,可以減小延遲,降低功耗;延遲時間從本端FDI到對端FDI小于2ns;能效0.5~1pJ/bit。
2.2串口D2D PHY架構
為了滿足高帶寬,較長距傳輸,較低封裝成本的要求,物理層接口采用差分串口傳輸,使用2D substrate封裝形式。串口D2D物理層結構如下圖7所示:
圖7 串口D2D PHY架構
串口物理層模擬部分包括8通道Analog Lane,每通道由TX和RX組成,可實現(xiàn)雙向8通道全雙工差分信號傳輸,兼容NRZ和PAM4信令,數(shù)據(jù)率覆蓋2.5~112Gbps[6]。為適應較差的信道,TX采用3 Taps FFE均衡器,RX采用線性均衡器。為了優(yōu)化延遲,時鐘架構可采用Forward clock架構。為了優(yōu)化功耗,每個通道可獨立開關,獨立運行。
串口物理層數(shù)字部分包括PMA Digital Control和PHY處理單元(PPU)。主要實現(xiàn)PHY上下電時序控制;上電時TX/RX校準、自適應算法及順序控制;正常運行時,實時自適應校準;內建測試邏輯控制等功能。
芯耀輝實現(xiàn)的串口物理層兼容CEI-112G-XSR協(xié)議,最高速率達112Gbps,可均衡通道損耗達-10dB,帶寬線密度約1Tbps/mm,能效1.5pJ/bit,延遲時間小于6ns,誤碼率小于1e-15。
3.D2D封裝方案
適合D2D的封裝類型包括傳統(tǒng)的2D有機基板(Substrate),先進2.5D封裝(RDL Fanout和Silicon Interposer)及3D封裝(Hybrid Bonding)。具體選用那種封裝類型,需綜合考慮IO數(shù)量,IO密度,數(shù)據(jù)率,成本,復雜度和接口類型等因素,如圖8所示[7]。通常對于高速串行接口,數(shù)據(jù)率越高,IO數(shù)量越少,IO密度越低,復雜度和成本也越低,建議采用2D或者RDL Fanout 2.5D封裝類型。對于高密度并行接口,數(shù)據(jù)率越低,IO數(shù)量越多,IO密度越高,復雜度和成本也越高,建議采用2.5D或者3D封裝類型。
圖8 D2D封裝類型選擇
考慮到出Pin密度,電源Drop,信號完整性,減小基板層數(shù),降低成本等因素。Bump map和互連走線采用如圖9所示結構[2]。圖中TX信號bump和RX信號bump分開單獨放一起,可以方便對端Die的互連,減小走線間Cross talk;兩個Die之間bump采用相隔近的與相隔近的互連,相隔遠的與相隔遠的互連,可以減少基板疊層,減小信號走線間交疊,從而減少成本,提高信號完整性。但這樣會造成線與線間延遲時間的輕微差別,可以通過Die內Deskew功能去除。從信號完整性角度來看,還需要考慮Bump阻抗不連續(xù),Via阻抗不連續(xù),走線阻抗不連續(xù)和噪聲耦合等問題。
圖9 Bump map方案
封裝設計好后,需要抽取S參數(shù),并利用IBIS-AMI模型驗證信號質量。能建模IBIS-AMI并驗證走線S參數(shù)的工具有很多,它們中大部分都提供了自動化IBIS-AMI建模流程,可以基于圖形界面設計[8]。如圖10和圖11所示,用戶可以使用軟件內建的常用算法模型,來快速對TX的FFE去加重預加重均衡和模擬輸出(AnalogOut)以及RX的模擬輸入(AnalogIn),CTLE連續(xù)時間線性均衡,AGC自動增益放大, DFE自適應判決反饋均衡和CDR時鐘恢復等進行建模,既可設置為NRZ模式也可設置為PAM4模式,而且內建的Channel模型可以很方便調用Touchstone格式的通道S參數(shù)。
圖10中,Channel調用的通道S參數(shù)為-10dB@28GHz;TX設置為NRZ模式,數(shù)據(jù)率為56Gbps,擺幅為500mV,輸入信號為PRBS31,F(xiàn)FE均衡不使能;RX 設置CTLE gain-boost從0dB到-10dB,AGC增益設置為1,DFE不使能,CDR使能。仿真得到的眼高175mV,眼寬15.76ps,COM為15.7dB。圖11中,將設置改為PAM4模式,數(shù)據(jù)率為112Gbps,輸入信號為QPRBS13,其它不變的情況下。仿真得到的眼圖的三個眼高基本一致為40mV,眼的線性度RLM為99.8%。
圖10
用IBIS-AMI模型進行NRZ信號通道分析
圖11
用IBIS-AMI模型進行PAM4信號通道分析
4.D2D測試方案
以串口D2D為例。為了全面測試和debug數(shù)據(jù)鏈路,D2D接口IP在設計時,需考慮全面的環(huán)回測試路徑,如圖12所示。數(shù)據(jù)通路測試路徑包括:數(shù)字側近端環(huán)回路徑A:本端數(shù)字部分內環(huán)測試;模擬側近端環(huán)回路徑B:本端模擬部分內環(huán)測試;模擬側遠端環(huán)回路徑C:對端模擬部分外環(huán)測試;數(shù)字側遠端環(huán)回路徑D:對端數(shù)字部分外環(huán)測試。時鐘通路測試路徑包括:時鐘近端環(huán)回路徑E:本端發(fā)送時鐘至接收時鐘的環(huán)回測試;時鐘遠端環(huán)回路徑F:對端接收時鐘至發(fā)送時鐘的環(huán)回測試。
圖12 環(huán)回測試模式
由于D2D高速引腳一般封裝在Package內,不引出。這樣對D2D IP的測試造成了一定的不方便。因此,測試方案和Package設計都需要特殊考慮。如圖13所示[9][10],測試需要2個Die(Octal Macro)實現(xiàn)TX到RX的環(huán)回測試。為了驗證D2D IP能過不同的通道損耗,通道損耗設計為1dB~10dB@28GHz。為了真實測試出D2D IP的性能,需要對從PCB連接器處到封裝基板的走線做去嵌處理。
圖13
D2D test setup and package view
采用以上測試方案,通道損耗為-10dB@28GHz時,芯耀輝設計的112G 串口D2D 樣片TX輸出的測試結果如圖14所示。圖中56G-NRZ測試采用PRBS31碼型,眼高為363mV,Rj為345fs(rms);56G-PAM4測試采用QPRBS13碼型,三個眼高從上到下分別為224.6mV,235.6mV,229.0mV,RLM=97.7%;112G-PAM4測試采用QPRBS13碼型,三個眼高從上到下分別為為99mV,109.2mV,97mV,RLM=95.3%。測試結果滿足CEI-112G-XSR協(xié)議要求。
圖14XSR D2D TX測試結果
5.結束語
多晶粒Chiplet已成為芯片設計行業(yè)主流系統(tǒng)方案,D2D接口規(guī)范為設計人員帶來了極具競爭力的性能優(yōu)勢,包括高能效 (pJ/b),高帶寬線密度 (Tbps/mm) 和低延遲 (ns),支持主流IO協(xié)議以及任何用戶定義的協(xié)議,支持多種封裝類型。本文從接口IP設計到封裝設計再到測試方案,詳細介紹了Chiplet D2D解決方案。參照此方案可輕松實現(xiàn)多晶粒系統(tǒng)互連。
2022年4月,芯耀輝作為首批會員加入了UCIe組織,推出支持UCIe協(xié)議且兼容多樣化D2D和C2C場景的“并口D2D PHY IP”以及高能效比和高寬帶利用率的“串口112G D2D SerDes PHY IP”的完整D2D解決方案,如圖15所示。同年10月,芯耀輝承接了國家科技部重點研發(fā)專項,作為國家隊成員著力推動國內Chiplet標準CCITA的產業(yè)化落地。公司一直專注于高速接口IP領域,積累了豐富的經驗和技術能力,已經為客戶提供了5G、數(shù)據(jù)中心、網(wǎng)絡交換機等相關芯片IP產品,率先實現(xiàn)了市場客戶的量產。隨著產業(yè)進一步的發(fā)展,以及相關的下游的封裝等一些技術的成熟,Chiplet在國內的發(fā)展前景可期。
圖15 芯耀輝完整IP解決方案
-
封裝
+關注
關注
126文章
7657瀏覽量
142483 -
IP
+關注
關注
5文章
1585瀏覽量
149161 -
chiplet
+關注
關注
6文章
414瀏覽量
12529
原文標題:特刊收錄丨后摩爾時代的Chiplet D2D解決方案
文章出處:【微信號:AkroStar-Tech,微信公眾號:芯耀輝科技】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論