国产一区二区高h在线观看,婷婷综合在线

摘要：在后摩爾時代，集成電路設計理念正向Chiplet架構轉變。本文從D2D接口IP設計，D2D封裝和D2D測試三個方面介紹了Chiplet D2D的解決方案，并給出了采用此解決方案的XSR 112G D2D的測試結果。

1.后摩爾時代向Chiplet的戰(zhàn)略轉變

當前摩爾定律逐步趨向物理極限，半導體行業(yè)正在發(fā)生重大的戰(zhàn)略轉變?；贑hiplet架構的芯片設計理念逐漸成為行業(yè)主流。這一戰(zhàn)略轉變的驅動因素主要有以下幾種：

1)單芯片的尺寸變得太大，無法制造；

2)充分利用已有KGD（Known Good Die）芯片實現(xiàn)復雜功能芯片，可以減少設計周期和成本，并提高良率。

在這些驅動因素下，整個Chiplet行業(yè)在2031年有望達到471.9億美元[1]，如圖1所示，Chiplet市場在2021~2031十年期年復合增長率保持36.4%；其中實現(xiàn)Die to Die（D2D）互連的接口IP市場在2026達到3.24億美元[2]，D2D IP市場在2021~2026五年期年復合增長率高達50%，如下圖2所示。

圖1 Chiplet市場

圖2 D2D IP市場趨勢

Chiplet應用場景主要分兩種，第一種是將同工藝大芯片分割成多個小芯片，然后通過接口IP互連在一起實現(xiàn)算力堆疊；第二種是將不同工藝不同功能的芯片通過接口IP互連并封裝在一起實現(xiàn)異構集成，如圖3所示。算力堆疊主要應用于CPU、TPU和AI芯片等，對接口IP的要求是低延遲和低誤碼率，通常采用并行接口IP。異構集成，主要應用于CPU、FPGA和通信芯片等，對接口IP的要求是標準化，兼容性，可移植性和生態(tài)系統(tǒng)等，通常采用串行接口IP。

圖3 典型應用場景

為了便于組裝不同供應商開發(fā)的芯粒，需要標準化的芯粒間互連標準，行業(yè)聯(lián)盟已共同定義出多種芯?；ミB標準，如XSR，BoW，OpenHBI，UCIe等。它們的主要性能指標如圖4所示。其中，XSR采用差分串行結構，目前最高速率達112Gbps，可用于異構集成連接IO die；后3種采用單端并行結構，目前最高速率是UCIe的32Gbps, 同時它還定義了完整的協(xié)議層，繼承了CXL和PCIe的生態(tài)優(yōu)勢，可用于算力堆疊中計算IP間的互連。

圖4 主流D2D的關鍵指標

完整的D2D解決方案包括：D2D接口IP設計、D2D封裝設計和D2D測試,下面分別做詳細介紹。

2.D2D接口IP設計解決方案

D2D接口IP由物理層(PHY)和控制器組成，如下圖5所示。物理層PHY是封裝介質的電氣接口。從分層結構上分為模擬PHY和數(shù)字PHY，模擬PHY包括電氣AFE（發(fā)射器、接收器）以及邊帶信道，可實現(xiàn)兩個晶粒之間的參數(shù)交換和協(xié)商。數(shù)字PHY包括鏈路初始化、訓練和校準算法以及測試和修復功能。從接口類型上分并行接口和串行接口。

控制器由鏈路層（Link layer）和邏輯物理層（Physical Layer Logical）。鏈路層負責上層協(xié)議接口適配，協(xié)議仲裁和協(xié)商，以及基于 CRC，可選的FEC（Forward Error Correction）和重傳機制來確保鏈路可靠地傳輸數(shù)據(jù)；邏輯物理層負責鏈路訓練和管理功能以及具體的PHY適配（比如加擾，解擾，塊對齊，OS插入和提取等）。在鏈路初始化時，邏輯物理層會等待 PHY 完成鏈路初始化，通過鏈路狀態(tài)機進入工作模式。鏈路層會通過協(xié)商確定使用哪個協(xié)議（如果實施了多個協(xié)議）?？刂破飨蛏现С諧XS、AXI、FDI（Filt aware D2D interface）接口來支持PCIe、CXL、UCIe以及SOC和RAW協(xié)議層；向下兼容RDI(Raw D2D interface)和PIPE接口來適配不同的物理電氣層[3][4][5]。

下面分別介紹一下并口和串口的D2D PHY架構。

圖5 D2D分層架構

2.1 并口D2D PHY架構

為了滿足低延遲，高能效，低誤碼率要求，物理層接口采用單端并口傳輸，使用2.5D封裝形式。并口D2D物理層結構如圖6所示：

圖6 并口D2D PHY系統(tǒng)框架

并口物理層模擬部分包括4個LM（Lane module），每個LM數(shù)據(jù)位寬為單向16bit，共64bit?？梢愿鶕?jù)所需帶寬靈活配置LM數(shù)目。每個LM還可以配置1~2個Slicer用于Filt Header或CRC校驗。每Lane具備高精度和高解析度自校準延遲線，RX線性連續(xù)時間均衡器（CTLE）和DFE均衡器以實現(xiàn)高速性能，并根據(jù)走線長度可關閉DFE均衡器，以降低功耗。

并口物理層數(shù)字部分包括的功能塊有RDI_TX/RX_MAP實現(xiàn)RDI接口到LM的映射；SPU（Sideband Process Unit）/TFSM（Train FSM）/LSM（Link SM）實現(xiàn)PHY啟動，Lane修復/反轉，TX/RX訓練，VREF訓練，眼圖訓練，自適應，鏈路狀態(tài)管理，鏈路雙方配置等功能。

芯耀輝實現(xiàn)的并口物理層采用DDR模式傳輸數(shù)據(jù)，數(shù)據(jù)率為16Gbps，符合UCIe和CCITA發(fā)布的《小芯片接口總線技術要求》標準；使用Forward clock模式簡化接收端設計，可以減小延遲，降低功耗；延遲時間從本端FDI到對端FDI小于2ns；能效0.5~1pJ/bit。

2.2串口D2D PHY架構

為了滿足高帶寬，較長距傳輸，較低封裝成本的要求，物理層接口采用差分串口傳輸，使用2D substrate封裝形式。串口D2D物理層結構如下圖7所示：

圖7 串口D2D PHY架構

串口物理層模擬部分包括8通道Analog Lane，每通道由TX和RX組成，可實現(xiàn)雙向8通道全雙工差分信號傳輸，兼容NRZ和PAM4信令，數(shù)據(jù)率覆蓋2.5~112Gbps[6]。為適應較差的信道，TX采用3 Taps FFE均衡器，RX采用線性均衡器。為了優(yōu)化延遲，時鐘架構可采用Forward clock架構。為了優(yōu)化功耗，每個通道可獨立開關，獨立運行。

串口物理層數(shù)字部分包括PMA Digital Control和PHY處理單元（PPU）。主要實現(xiàn)PHY上下電時序控制；上電時TX/RX校準、自適應算法及順序控制；正常運行時，實時自適應校準；內建測試邏輯控制等功能。

芯耀輝實現(xiàn)的串口物理層兼容CEI-112G-XSR協(xié)議，最高速率達112Gbps，可均衡通道損耗達-10dB，帶寬線密度約1Tbps/mm，能效1.5pJ/bit，延遲時間小于6ns，誤碼率小于1e-15。

3.D2D封裝方案

適合D2D的封裝類型包括傳統(tǒng)的2D有機基板（Substrate），先進2.5D封裝（RDL Fanout和Silicon Interposer）及3D封裝（Hybrid Bonding）。具體選用那種封裝類型，需綜合考慮IO數(shù)量，IO密度，數(shù)據(jù)率，成本，復雜度和接口類型等因素，如圖8所示[7]。通常對于高速串行接口，數(shù)據(jù)率越高，IO數(shù)量越少，IO密度越低，復雜度和成本也越低，建議采用2D或者RDL Fanout 2.5D封裝類型。對于高密度并行接口，數(shù)據(jù)率越低，IO數(shù)量越多，IO密度越高，復雜度和成本也越高，建議采用2.5D或者3D封裝類型。

圖8 D2D封裝類型選擇

考慮到出Pin密度，電源Drop，信號完整性，減小基板層數(shù)，降低成本等因素。Bump map和互連走線采用如圖9所示結構[2]。圖中TX信號bump和RX信號bump分開單獨放一起，可以方便對端Die的互連，減小走線間Cross talk；兩個Die之間bump采用相隔近的與相隔近的互連，相隔遠的與相隔遠的互連，可以減少基板疊層，減小信號走線間交疊，從而減少成本，提高信號完整性。但這樣會造成線與線間延遲時間的輕微差別，可以通過Die內Deskew功能去除。從信號完整性角度來看，還需要考慮Bump阻抗不連續(xù)，Via阻抗不連續(xù)，走線阻抗不連續(xù)和噪聲耦合等問題。

圖9 Bump map方案

封裝設計好后，需要抽取S參數(shù)，并利用IBIS-AMI模型驗證信號質量。能建模IBIS-AMI并驗證走線S參數(shù)的工具有很多，它們中大部分都提供了自動化IBIS-AMI建模流程，可以基于圖形界面設計[8]。如圖10和圖11所示，用戶可以使用軟件內建的常用算法模型，來快速對TX的FFE去加重預加重均衡和模擬輸出（AnalogOut）以及RX的模擬輸入（AnalogIn），CTLE連續(xù)時間線性均衡，AGC自動增益放大， DFE自適應判決反饋均衡和CDR時鐘恢復等進行建模，既可設置為NRZ模式也可設置為PAM4模式，而且內建的Channel模型可以很方便調用Touchstone格式的通道S參數(shù)。

圖10中，Channel調用的通道S參數(shù)為-10dB@28GHz；TX設置為NRZ模式，數(shù)據(jù)率為56Gbps，擺幅為500mV，輸入信號為PRBS31，F(xiàn)FE均衡不使能；RX 設置CTLE gain-boost從0dB到-10dB，AGC增益設置為1，DFE不使能，CDR使能。仿真得到的眼高175mV，眼寬15.76ps，COM為15.7dB。圖11中，將設置改為PAM4模式，數(shù)據(jù)率為112Gbps，輸入信號為QPRBS13，其它不變的情況下。仿真得到的眼圖的三個眼高基本一致為40mV，眼的線性度RLM為99.8%。

圖10

用IBIS-AMI模型進行NRZ信號通道分析

圖11

用IBIS-AMI模型進行PAM4信號通道分析

4.D2D測試方案

以串口D2D為例。為了全面測試和debug數(shù)據(jù)鏈路，D2D接口IP在設計時，需考慮全面的環(huán)回測試路徑，如圖12所示。數(shù)據(jù)通路測試路徑包括：數(shù)字側近端環(huán)回路徑A：本端數(shù)字部分內環(huán)測試；模擬側近端環(huán)回路徑B：本端模擬部分內環(huán)測試；模擬側遠端環(huán)回路徑C：對端模擬部分外環(huán)測試；數(shù)字側遠端環(huán)回路徑D：對端數(shù)字部分外環(huán)測試。時鐘通路測試路徑包括：時鐘近端環(huán)回路徑E：本端發(fā)送時鐘至接收時鐘的環(huán)回測試；時鐘遠端環(huán)回路徑F：對端接收時鐘至發(fā)送時鐘的環(huán)回測試。

圖12 環(huán)回測試模式

由于D2D高速引腳一般封裝在Package內，不引出。這樣對D2D IP的測試造成了一定的不方便。因此，測試方案和Package設計都需要特殊考慮。如圖13所示[9][10]，測試需要2個Die（Octal Macro）實現(xiàn)TX到RX的環(huán)回測試。為了驗證D2D IP能過不同的通道損耗，通道損耗設計為1dB~10dB@28GHz。為了真實測試出D2D IP的性能，需要對從PCB 連接器處到封裝基板的走線做去嵌處理。

圖13

D2D test setup and package view

采用以上測試方案，通道損耗為-10dB@28GHz時，芯耀輝設計的112G 串口D2D 樣片TX輸出的測試結果如圖14所示。圖中56G-NRZ測試采用PRBS31碼型，眼高為363mV，Rj為345fs(rms)；56G-PAM4測試采用QPRBS13碼型，三個眼高從上到下分別為224.6mV，235.6mV，229.0mV，RLM=97.7%；112G-PAM4測試采用QPRBS13碼型，三個眼高從上到下分別為為99mV，109.2mV，97mV，RLM=95.3%。測試結果滿足CEI-112G-XSR協(xié)議要求。

圖14XSR D2D TX測試結果

5.結束語

多晶粒Chiplet已成為芯片設計行業(yè)主流系統(tǒng)方案，D2D接口規(guī)范為設計人員帶來了極具競爭力的性能優(yōu)勢，包括高能效 (pJ/b)，高帶寬線密度 (Tbps/mm) 和低延遲 (ns)，支持主流IO協(xié)議以及任何用戶定義的協(xié)議，支持多種封裝類型。本文從接口IP設計到封裝設計再到測試方案，詳細介紹了Chiplet D2D解決方案。參照此方案可輕松實現(xiàn)多晶粒系統(tǒng)互連。

2022年4月，芯耀輝作為首批會員加入了UCIe組織，推出支持UCIe協(xié)議且兼容多樣化D2D和C2C場景的“并口D2D PHY IP”以及高能效比和高寬帶利用率的“串口112G D2D SerDes PHY IP”的完整D2D解決方案，如圖15所示。同年10月，芯耀輝承接了國家科技部重點研發(fā)專項，作為國家隊成員著力推動國內Chiplet標準CCITA的產業(yè)化落地。公司一直專注于高速接口IP領域，積累了豐富的經驗和技術能力，已經為客戶提供了5G、數(shù)據(jù)中心、網(wǎng)絡交換機等相關芯片IP產品，率先實現(xiàn)了市場客戶的量產。隨著產業(yè)進一步的發(fā)展，以及相關的下游的封裝等一些技術的成熟，Chiplet在國內的發(fā)展前景可期。