0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

高端路由器內部的各種組件以及它們如何影響整體功耗研究

SDNLAB ? 來源:SDNLAB ? 2023-08-16 15:34 ? 次閱讀

高端路由器——基礎知識

高端路由器通常有兩種形式:獨立系統(tǒng)或模塊化系統(tǒng)。獨立路由器通常是一個 1RU(機架單元)到 3 RU 高的盒子,其前面板具有固定數(shù)量的端口,主要用于中小型企業(yè)網(wǎng)絡或數(shù)據(jù)中心內部。

隨著網(wǎng)絡 ASIC 占用的帶寬越來越多,這些獨立系統(tǒng)的吞吐量將達到 14.4Tbps。針對 400G 端口密度進行優(yōu)化的 14.4Tbps 系統(tǒng)需要前面板容納 36 個 400G 端口,這可能會占據(jù)前面板的大部分區(qū)域。大于 14.4Tbps 的路由器通常需要 800G 光學器件才能使系統(tǒng)帶寬完全飽和。

線卡包含一個或兩個網(wǎng)絡 ASIC,用于接收來自前面板網(wǎng)絡端口的流量。這些 ASIC 可以通過高速串行器/解串器 (SerDes) 和背板連接器與背板中的所有交換fabric卡進行通信。這提供了任意到任意的連接,其中線卡的網(wǎng)絡端口可以發(fā)送和接收來自系統(tǒng)中任何其他線路卡的流量。

這些系統(tǒng)通常有 4-20 個插槽配置。它們的規(guī)模更大,客戶可以根據(jù)需要靈活地購買線卡來升級帶寬。如今,密度超過 14.4Tbps 的線卡并不罕見。對于 8 插槽機箱,這相當于 115Tbps 的系統(tǒng)帶寬!在這樣的規(guī)模下,向線路卡和結構卡內的各種組件供電以及冷卻(消除這些組件產生的熱量)是一項挑戰(zhàn)。

路由器組件

為了更好地了解路由器功率,了解系統(tǒng)內不同組件的功能和功率要求非常重要,它們共同構成了總功率。

前面板/光模塊

前面板附近有光籠,用于連接光模塊。這些光模塊承載進出系統(tǒng)的網(wǎng)絡流量。光模塊在較高速度下會消耗大量功率。這些模塊所消耗的功率根據(jù)模塊的類型和傳輸距離(光信號在沒有信號衰減的情況下可以傳輸?shù)臅r間)而有很大差異。在36 x 400G 端口的 14.4Tbps 線卡中,光模塊本身在完全填充和加載時可能消耗 500-860W 的功率。類似的,一個 36 x 800G 端口的 28.8Tbps 線卡,光模塊需要約 1100W 的功率。

wKgZomTcfDWAZxV4AAA4aPvdk9I205.jpg

降低光傳輸過程中的成本/功耗是近十年來研究的熱點話題。

在這方面也不斷有創(chuàng)新,一些供應商提供硅光子收發(fā)器,將分立元件集成在光子集成電路中,以減少面積/成本和功耗。用于實現(xiàn)更高數(shù)據(jù)速率的 PAM4 信號傳輸、不主動傳輸時的低功耗模式以及改進的激光器、光電二極管、調制器和數(shù)字信號處理器 (DSP) 電路都有助于降低光學器件的功耗。因此,當在特定范圍內從 400G 光學器件變?yōu)?800G 光學器件時,功率僅增加了 1.5 倍,如上表所示。

Flyover cables

Flyover cables是高性能銅纜,可用于將 ASIC 的高速 SerDes 接口連接到前面板光學籠或背板連接器。

隨著系統(tǒng)吞吐量的增加,電路板上的空間有限,幾乎不可能僅使用 PCB 走線來路由所有高速信號。Flyover cables可有效利用電路板空間,不易受到電磁干擾,還可以通過減少信號路徑的電容來幫助降低功耗。然而,如果放置和固定不當,它們可能會對氣流造成一些阻礙,并可能給熱管理系統(tǒng)帶來一些挑戰(zhàn)。

CPU復合

高端路由器中的 CPU 復合體提供在復雜網(wǎng)絡環(huán)境中管理和操作路由器所需的控制平面處理、管理配置、安全、服務、監(jiān)控和報告功能。它有自己的 DRAM 作為外部存儲器。中檔 Intel/AMD 處理器通常用于此復合。

網(wǎng)絡 ASIC

這些芯片是路由器的核心。它們通過跨接電纜或電路板上的 PCB 走線從連接到前面板端口的光模塊接收網(wǎng)絡流量,檢查各種接頭并采取措施。數(shù)據(jù)包處理描述了檢查數(shù)據(jù)包標頭并決定后續(xù)步驟的任務。

該操作可以是確定數(shù)據(jù)包必須通過其離開路由器的最終物理接口、排隊并調度從該接口發(fā)出、在違反流量規(guī)則/檢查時丟棄數(shù)據(jù)包,或者將數(shù)據(jù)包發(fā)送到控制平面以進行進一步處理、檢查等。這些芯片包含數(shù)十億個晶體管來執(zhí)行這些功能。它們具有數(shù)百兆字節(jié)的片上內存,用于延遲帶寬緩沖和數(shù)據(jù)結構,并且通常在封裝中與高帶寬存儲器 (HBM) 集成。網(wǎng)絡芯片消耗了路由器很大一部分功率。

在模塊化系統(tǒng)線卡中使用的網(wǎng)絡 ASIC 還具有連接到背板交換fabric的高速接口。

wKgaomTcfDSAeiNSAAEyrhZsAvQ925.jpg

| 具有網(wǎng)絡 ASIC 和光學器件的 PCB 板的概念圖

可選重定時器

網(wǎng)絡 ASIC 通過高速 SerDes 接收來自網(wǎng)絡端口或背板的流量。這些高速 SerDes 將并行數(shù)據(jù)轉換為串行格式,并通過銅介質(PCB 走線或Flyover cables)高速傳輸。高速信號在傳輸介質中存在信號衰減和退化的情況。

SerDes 的范圍是 SerDes 在不使用信號調節(jié)或其他信號增強技術的情況下可以可靠地傳輸數(shù)據(jù)的最大距離。它由數(shù)據(jù)速率、傳輸介質類型和傳輸信號的質量決定。由于衰減、失真和噪聲,信號質量在較高數(shù)據(jù)速率下可能會下降,這使得接收端的信號檢測和解碼變得更加困難,進而SerDes 無錯誤傳輸數(shù)據(jù)的最大距離也縮小了。

當網(wǎng)絡ASIC向網(wǎng)絡端口傳輸數(shù)據(jù)時,ASIC內部的SerDes只需將信號驅動至前面板光模塊即可。這些光模塊通常帶有集成重定時器。重定時器是一種信號調節(jié)裝置,有助于清理高速數(shù)據(jù)。它通過捕獲輸入信號并以正確的幅度和時間重新生成信號,從而實現(xiàn)重傳。

在模塊化系統(tǒng)中,當 ASIC 通過交換結構將信號傳輸?shù)搅硪粋€線卡時,信號可能會通過線卡走線、連接線卡和交換結構卡之間的連接器以及通過交換結構的走線導致衰減很多。一些高速鏈路可能需要線卡或結構卡中的重定時器。這些重定時器非常耗電,并且它們基本上包含一對 SerDes,用于每個方向的發(fā)送和接收。

供電系統(tǒng)

供電系統(tǒng)通常由一個AC/DC轉換器和多個本地降壓DC/DC轉換器組成。大多數(shù)系統(tǒng)為 AC/DC 轉換器提供 1+1 冗余。這些轉換器將墻壁插座的交流電轉換為直流電,從而產生約 12-16V 的直流輸出電壓。轉換過程中由于散熱和電阻會造成一定的能量損失。典型轉換器的效率損失在 5-10% 之間。因此,一個2200W AC/DC 轉換器在滿載時可能消耗 2300-2440W 的功率。

網(wǎng)絡系統(tǒng)中的每個組件都需要特定的功率才能運行。所需功率由器件的電壓和電流參數(shù)相乘計算得出。某些組件(例如網(wǎng)絡 ASIC)需要多個電壓軌。例如,在典型的網(wǎng)絡 ASIC 中,數(shù)字邏輯需要比 SerDes 等模擬組件更小的電壓(0.75-0.90V 之間),而模擬組件的運行可能需要 1-1.1V 之間的電壓。同樣,系統(tǒng)中的CPU和其他FPGA也有自己的電壓和電流要求。

AC/DC轉換器的直流輸出電壓通常為12V或更高。本地 DC/DC 轉換器或負載點 (POL) 轉換器用于將此電壓降壓至各種組件所需的 <1.5V。通過在靠近負載的位置提供電源轉換,POL 轉換器可以提高電源效率、減少電壓降并提高整體系統(tǒng)性能。

這些 POL 轉換器的效率在 90-95% 之間。此外,該系統(tǒng)還配備了熱插拔轉換器,可以保護內部組件免受電流和電壓尖峰的影響。

通過使用高質量元件、最小化元件電阻以及優(yōu)化開關頻率,可以提高這些 AC/DC 和 POL 轉換器的效率。

配電網(wǎng)絡

電力輸送(或在指定電壓下向系統(tǒng)中的每個組件提供指定電流)通常是通過 PCB 板中的銅跡線完成的,這些銅跡線在電源單元 (PSU) 和 POL 轉換器之間以及從轉換器到系統(tǒng)的各個組件之間傳輸電流。這些銅跡線的電阻有限,因此當電流通過時,它們會耗散功率,這稱為焦耳熱。使用更寬的走線、優(yōu)化更短的走線、減少過孔、多個電源層以及探索其他低電阻材料作為銅走線的替代品等方式都可以用來減少焦耳熱。

轉換器的低效率和通過銅跡線的功耗將要求為系統(tǒng)提供比所有組件消耗的總功率更大的功率。

熱管理系統(tǒng)

所有組件(光學器件、CPU、ASIC、重定時器、轉換器)在運行過程中消耗電能時都會產生熱量。如果熱量不能有效消散,可能會使組件內部過熱并導致其失效或故障。

例如,在 ASIC 中,結溫(晶體管結溫)是晶體管內兩種不同半導體材料相遇的接觸點處的溫度。結溫隨著晶體管功耗的增加而增加。結溫影響晶體管的性能和可靠性。半導體制造商設定了最高結溫,超過該結溫 ASIC 就不再可靠,通常還會導致晶體管永久損壞。因此,任何熱管理解決方案都應在結溫超出規(guī)格之前有效地消除 ASIC 散發(fā)的熱量,從而使 ASIC 的結溫保持在規(guī)格范圍內。同樣的,其他系統(tǒng)組件也都有自己必須滿足的溫度規(guī)格。

>散熱片

熱管理系統(tǒng)主要由散熱器和風扇模塊組成。散熱器基本上由銅或鋁等導熱材料組成。它們直接位于芯片上方,與 ASIC 封裝或無蓋封裝中的 ASIC 芯片本身直接接觸,有助于將熱量從芯片中散發(fā)出去。這些散熱器的設計是為了最大化與ASIC的接觸面積。

散熱器也集成了頂部的均熱板。均熱板是一種由薄金屬片制成的密封容器,里面裝著少量工作流體,例如水或酒精。散熱器將熱量傳遞至均熱板,這導致液體蒸發(fā)并變成蒸汽,然后蒸氣移動到腔室的冷端,凝結成液體,將其吸收的熱量釋放到周圍空氣中。

液體被輸送回腔室的加熱端,在那里可以再次蒸發(fā)。通過將均熱板集成到散熱器中,可以顯著提高散熱器的散熱能力。散熱器表面有小而薄的矩形突出物,稱為翅片。這些翅片平行排列,以增加散熱器的表面積,有助于更快地散熱。散熱器是無源元件,不需要任何電源即可運行。

wKgaomTcfDWAT9BoAADvfPhVmn8782.jpg

| 頂部附有散熱器的 ASIC 概念圖

網(wǎng)絡ASIC不會在整個芯片區(qū)域均勻地耗散功率。有一些熱點或功率密度非常高的區(qū)域。這是因為晶體管和存儲器并不是均勻分布在整個芯片上,某些 IP/邏輯可以看到更高的晶體管活動(例如 SerDes 和數(shù)學密集型加密/解密邏輯)。熱工程師使用軟件來模擬存在這些熱點的散熱器性能,并提出散熱器設計參數(shù)來處理這些它們。在某些情況下,這些 IP /邏輯的放置需要根據(jù)這些模擬的反饋在芯片平面中進行調整,以減輕熱點效應。

>風扇模塊

每個系統(tǒng)還包含多個風扇模塊,用于排出產生的熱量。當系統(tǒng)啟動時,風扇開始旋轉并產生空氣流過機箱,冷卻內部組件并排出熱空氣。風扇從機箱前部吸入冷空氣,并通過后面板排出熱空氣。

風扇速度可根據(jù)內部組件的溫度自動調節(jié)。溫度傳感器位于機箱的不同位置。網(wǎng)絡 ASIC 和 CPU 還集成了熱二極管,用于測量這些芯片的結溫。如果組件的溫度超過特定閾值,風扇將自動加速以提供額外的散熱。為了使風扇有效工作,空氣流動應暢通無阻。

wKgZomTcfDWAZRWxAAKD0bU68SE958.jpg

| 帶有風扇模塊和電源的獨立路由器后面板

wKgZomTcfDWARR0RAANfgHU4UOU987.jpg

| 帶有風扇和電源的模塊化系統(tǒng)后面板

**液體冷卻 ** (作為散熱器/空氣冷卻的替代品)在消除高功率 ASIC 散發(fā)的大量熱量方面更有效。在液體冷卻中,液體冷卻劑流過一系列與系統(tǒng)中的熱部件直接接觸的管道(閉環(huán))。當液體吸收組件的熱量時,它會變得更熱。較熱的液體流向散熱器或熱交換器,將熱量散發(fā)到空氣或其他冷卻劑中。

然而,與空氣冷卻相比,液體冷卻的前期成本更高,實施和維護起來也更昂貴、更復雜。并非所有電子元件都設計為與液體冷卻系統(tǒng)一起使用,因為這就要求系統(tǒng)同時支持兩種冷卻模式,進一步增加了成本。

系統(tǒng)電源

>獨立系統(tǒng)

所有有源組件都貢獻了系統(tǒng)消耗總功率的一部分,但他們之間的差異很大。為了了解功率故障,這里以一個具有14.4Tbps網(wǎng)絡芯片和36 x 400G前面板端口的假設獨立系統(tǒng)為例。每個組件的最小和最大功率通常在下表中列出的范圍內。

wKgaomTcfDWAHfkdAADIYsHPGuk732.jpg

| 網(wǎng)絡 ASIC 占系統(tǒng)總功耗的很大一部分

從表中可以看出,網(wǎng)絡 ASIC 的功耗占系統(tǒng)總功耗的很大一部分。一個典型的高端網(wǎng)絡芯片在 7/5nm 工藝節(jié)點中可以獲得 0.035 - 0.055W 的每 Gbps 功率。光學器件消耗的功率與網(wǎng)絡 ASIC 相同或更高,具體取決于插入的光學模塊的類型。AC/DC 和 POL 轉換器的效率損失對總功率影響很大。如果為任何 WAN 端口添加重定時器和變速箱,也會增加功率。

請注意,系統(tǒng)消耗的總功耗在很大程度上取決于流量模式和網(wǎng)絡端口上的總負載。但是,對于熱電源設計,需要考慮最壞情況下的功耗。

>模塊化系統(tǒng)

在模塊化系統(tǒng)中,線卡中的網(wǎng)絡 ASIC 可能比獨立的對應器件消耗更多功率,因為它們可能需要通過高速 SerDes 接口向背板中的交換fabric卡發(fā)送/接收高達 100% 的流量。風扇模塊和電源單元通常位于機箱背面,滿足所有線卡和交換fabric卡的需求。交換fabric卡消耗的功耗在很大程度上取決于fabric交換芯片的設計。

基于單元的交換效率更高,需要的fabric交換機和高速接口數(shù)量更少。因此,對模塊化機箱功率進行一般估計是很困難的。假設每個LC功率至少為2400W,16槽模塊化系統(tǒng)中的16個線卡消耗高達38KW功率!各個組件之間的功率分配遵循與獨立系統(tǒng)相同的趨勢(ASIC 和光學器件消耗超過 60-70% 的系統(tǒng)功率)。

設計低功耗網(wǎng)絡芯片

隨著系統(tǒng)總吞吐量的增加,網(wǎng)絡ASIC所占系統(tǒng)功率的比例也相應增加。網(wǎng)絡芯片的高功耗面臨著一些挑戰(zhàn)。

能夠高效地將電力傳輸至 ASIC,且在傳輸過程中不會出現(xiàn)重大損耗。

能夠有效地散發(fā) ASIC 產生的熱量,使 ASIC 的結溫保持在規(guī)格范圍內。由于單芯片和多芯片封裝內功能的大量集成,可能會產生高功率密度的熱點,因此這一點變得越來越具有挑戰(zhàn)性。

在下面的部分中,讓我們看看網(wǎng)絡芯片供應商用來降低功耗的不同技術。在引用 ASIC 功率時,我們經常使用“每千兆比特每秒功率”這個術語,因為絕對功率數(shù)可能會根據(jù)每個 ASIC 支持的總吞吐量(以 Gbps 為單位)而變化。

任何集成電路消耗的功率都由三個主要部分組成:泄漏功率、有功功率和短路功率。

>泄露功率

泄漏功率是 ASIC 通電后、ASIC 內的任何時鐘開始切換之前消耗的功率。即使晶體管沒有開關,該功率也會由于流過晶體管的漏電流而消耗。

泄漏功率已成為使用先進工藝節(jié)點制造芯片中的一個重要問題。這是因為較小的晶體管具有較短的溝道長度和較薄的柵極氧化物,這可能導致較高的漏電流。隨著晶體管尺寸的縮小,同一芯片區(qū)域中可以封裝更多的晶體管,從而導致更多的漏電流。

漏電流還取決于晶體管的結構。FinFET晶體管結構(用于臺積電7 nm和5nm工藝)比CMOS 結構具有更好的泄漏特性。臺積電 3nm 工藝采用的全柵 (GAA) 晶體管架構提供了更嚴格的控制,因為柵極四面包圍通道,并且電荷載流子泄漏的表面積較小,從而減少了泄漏電流。

泄漏功率是電源電壓 (Vdd) 和泄漏電流的乘積,也就是說在較小的電源電壓下可以降低泄漏功率,但當晶體管的閾值電壓與電源電壓之間的差值減小時,泄漏電流本身可能在較小的Vdd下增加。雖然漏電流略有增加,但電源電壓的降低總體上降低了漏功率。然而過度降低電源電壓可能會影響晶體管的性能。因此,在選擇 ASIC 的工作電壓時必須仔細權衡。

電源門控,其中電源電壓在啟動時被切斷,用于未使用的邏輯部分(例如,如果某個功能可以針對某些網(wǎng)絡應用被禁用),也可以消除通過未使用邏輯的泄漏電流。然而,這伴隨著電壓軌實施的額外復雜性,并且只有確保能明顯節(jié)約的情況下才考慮。

>動態(tài)功率

ASIC 的動態(tài)或有功功率由開關功率和短路功率組成。開關功率是芯片中的邏輯元件在開/關時消耗的功率。這是由于與晶體管和互連相關的電容的充電和放電造成的。該功率與晶體管和互連的電容 (Ceff)、邏輯元件的開關頻率 (f) 以及電源電壓 (Vdd) 的平方成正比。ASIC 的總開關功率是所有邏輯(組合門、觸發(fā)器、模擬電路和存儲單元)開關功率的總和。

>短路功率

短路功耗是當數(shù)字電路的輸出從一種邏輯狀態(tài)切換到另一種邏輯狀態(tài),并且 n 型和 p 型晶體管同時導通,從而為電流從電源到地創(chuàng)造了一條直接路徑(Isc)而導致的功率損耗。短路功率是一種瞬態(tài)效應,僅在兩個晶體管都導通的短暫時間間隔內發(fā)生。該間隔的持續(xù)時間取決于電路的開關頻率和供電電壓水平。因此,該功率與電源電壓 ( Vdd ) 和頻率 ( f )成正比。仔細布局庫元件可以減少晶體管之間的重疊并限制短路功率:

wKgaomTcfDWANivDAAEKSuHCu4g964.jpg

在降低功耗方面,主要關注的是降低動態(tài)功耗(因為在典型 IC 中動態(tài)功耗占總功耗的 75% 以上)。

降低動態(tài)功耗的方法包括降低時鐘頻率、總開關活動、互連和晶體管電容以及電源電壓。所有這些都有各自的挑戰(zhàn)和優(yōu)缺點。讓我們回顧一下這些功耗降低技術。

最佳電源電壓 (Vdd) 選擇

由于“平方”依賴性,降低工作電壓會顯著影響功率。二十年前,我們可以每兩到三年將晶體管性能提高一倍,同時降低其運行所需的工作電壓 (Vdd)。例如,180nm 工藝節(jié)點的典型電源電壓約為 2.5V,而在 45nm 工藝節(jié)點則降至約 1.1V。在 14 nm工藝節(jié)點中,該電壓進一步降至約 0.90V。

但是,隨著轉換器尺寸的縮小,要在不影響晶體管性能的情況下顯著降低每一個新的處理節(jié)點的供電電壓變得越來越困難。因此,從 7nm 工藝節(jié)點開始,工作電壓的改進幾乎停止了,工作電壓徘徊在 0.75V - 0.85V 之間。大多數(shù)硅代工廠為每個電壓軌提供一個范圍)。

一些代工廠提供電壓分級(voltage binning),根據(jù)芯片的工藝節(jié)點(快與慢),可以調整工作電壓。快角的芯片具有更快的晶體管。我們可以利用這一點,降低工藝角落芯片的電源電壓,使其在不降低性能的情況下消耗更少的功率。不過這需要制造商的支持,根據(jù)工藝特性對 ASIC 芯片進行分類。

工作頻率選擇

降低操作頻率很顯然是會降低功耗的,但同時它也會降低性能,因為 ASIC 無法足夠快地處理數(shù)據(jù)包并通過現(xiàn)有數(shù)據(jù)路徑移動它們。然后,為了從網(wǎng)絡系統(tǒng)獲得相同的總體吞吐量,我們必須在 ASIC 內部添加更多邏輯,或在線卡/系統(tǒng)中添加更多 ASIC。兩者都會增加系統(tǒng)的總功率/成本。

具有每秒數(shù)十太比特帶寬的高端網(wǎng)絡芯片通常具有數(shù)據(jù)包處理單元和數(shù)據(jù)路徑。數(shù)據(jù)包處理單元可以在固定管道架構中實現(xiàn),也可以運行到完成架構中實現(xiàn)。

假設在固定管道架構中,一個數(shù)據(jù)包處理管道每個周期可以接收一個數(shù)據(jù)包。在 1.25GHz 時鐘頻率下,這相當于每秒 12.5 億個數(shù)據(jù)包。如果我們希望將下一代處理管道的性能提高到每秒 14 億個數(shù)據(jù)包,顯而易見的選擇是將時鐘頻率提高到 1.4GHz。在這個更高的時鐘頻率下,管道中的每個階段都必須在更短的時間內完成相同數(shù)量的處理。

如果我們切換到下一代 ASIC 的新處理節(jié)點,預計邏輯速度至少會提高 20-30%。如果我們想保持 1.25GHz 頻率以降低功耗怎么辦?在這種情況下,要每秒獲取 14 億個數(shù)據(jù)包,管道每個周期需要處理 1.12 個數(shù)據(jù)包。這很難實現(xiàn),因為它不是一個整數(shù)值。在這種情況下,設計人員傾向于將邏輯過度設計為每個周期處理2個數(shù)據(jù)包。這樣做將需要幾乎雙倍的邏輯量,這將占用更多的芯片面積和功耗。

類似地,在數(shù)據(jù)路徑內部,如果頻率降低以獲得相同的千兆/秒性能,則需要加寬在芯片內部承載數(shù)據(jù)包數(shù)據(jù)的總線(往返于 WAN 端口到中央緩沖區(qū)和其他結構),以便在每個周期承載更多的比特。當總線加寬時,會增加頂層的擁塞,需要通過提供更多的布線區(qū)域來緩解,從而增加芯片的尺寸。

內部存儲器 (SRAM) 在頻率決策中也發(fā)揮著關鍵作用。SRAM 性能可能不會隨著頻率的提高而擴展,因此為了實現(xiàn)邏輯存儲器,我們將被迫使用多個堆疊在一起的較小 SRAM 結構,這增加了額外的開銷和SRAM訪問時間。在決定操作頻率時,需要在多個不同的頻率下對片上緩沖區(qū)和數(shù)據(jù)庫、它們到庫中的SRAM的映射以及每個邏輯內存如何分片進行詳細分析。

ASIC 調度和 IP(實現(xiàn)特定功能的模塊)重用也在頻率選擇中發(fā)揮作用。在某些情況下,重用現(xiàn)有IP以加快周轉是非常可取的。在這種情況下,我們受到現(xiàn)有IP在沒有任何設計更改的情況下可以運行的最大頻率的限制。

因此,頻率選擇涉及到最佳功率、性能和面積設計點的多重權衡。在一個芯片中看到多個時鐘域的情況并不少見,其中不同的子系統(tǒng)可以使用不同的頻率進行計時。它增加了時鐘樹結構的復雜性,并增加了設計和驗證時間,但與對 ASIC 的所有功能使用相同的頻率相比,它可以提供更好的設計點。

減少開關活動

如前所述,ASIC 中的邏輯門和觸發(fā)器在其輸出改變狀態(tài)時會消耗開關功率。關鍵的是要確保如果觸發(fā)器的輸出沒有在特定的時鐘周期中使用,它就不應該在該周期中切換。這可以通過時鐘門控來實現(xiàn),即在不使用觸發(fā)器輸出的周期中移除(或門控)觸發(fā)器的時鐘,因此觸發(fā)器輸出保持與前一個周期相同的狀態(tài)。通過這樣做,由該觸發(fā)器提供的所有組合邏輯的切換也會減少,這被稱為動態(tài)時鐘門控。

當設計者以特定格式編寫觸發(fā)器的代碼時,EDA工具在合成(將Verilog行為RTL代碼轉換為門)期間推斷出動態(tài)時鐘門控。但采用這種方法的時鐘門控效率在很大程度上取決于設計者在識別所有時鐘門控機會方面的專業(yè)知識。有一些功能強大的 EDA 工具可以識別設計中的所有時鐘門控機會,有些甚至可以在 RTL 中自行進行時鐘門控。使用先進的 EDA 工具,網(wǎng)絡芯片的動態(tài)時鐘門控效率可達到 98% 以上。

此外,某些功能/IP 可以進行靜態(tài)時鐘門控。例如,如果網(wǎng)絡芯片提供集成的 MACsec,并且如果某些應用程序/客戶不需要此功能,則整個模塊可以從啟動時間開始進行時鐘門控。

工藝/技術節(jié)點選擇

制造ASIC的半導體工藝在整體功耗中也起著關鍵作用。在十年之前,每個新的工藝節(jié)點都可以在相同的面積內封裝雙倍數(shù)量的晶體管,并獲得比以前的工藝節(jié)點雙倍或更高的功率效率。

過去幾年這一趨勢有所放緩。例如,當從 5nm 工藝節(jié)點轉向 3nm 工藝節(jié)點時,功耗僅提高了 30%(對于相同的性能)或 1.42 倍。大部分的改進來自邏輯,而存儲能力的改進微乎其微。這意味著即使我們可以通過從 5nm 升級到 3nm,將 ASIC 封裝內的吞吐量提高一倍,也會多消耗 42% 的功耗。當網(wǎng)絡系統(tǒng)的容量翻倍時,硬件工程師需要為 ASIC 的額外功耗做好預算。

隨著工藝節(jié)點的縮小,制造變得更加復雜并且需要更高的精度。這可能導致設備和生產成本增加。由于更小的特征尺寸和更高的晶體管密度,成品率也會降低。這導致客戶的每芯片成本增加,而且為新工藝節(jié)點開發(fā) SerDes 和其他 IP 的成本可能會很高。此外,在較小的工藝節(jié)點上構建芯片通常需要使用更先進和更昂貴的材料,這會增加生產成本。

總的來說,與7nm芯片相比,5/3nm芯片的制造成本更高。但是,如果我們可以用下一代工藝節(jié)點將ASIC封裝內的密度提高一倍,而不會使功率增加一倍,那么它仍然可以節(jié)省系統(tǒng)的整體成本(因為系統(tǒng)中其他組件的成本,如機箱硬件、CPU復合體、PCB板、熱管理等,并不總是增加一倍)。因此,在決定過程節(jié)點時必須考慮整體系統(tǒng)成本和功率效率。

高能效數(shù)據(jù)路徑/處理架構

正如在前一節(jié)中所看到的,在增加ASIC和系統(tǒng)的吞吐量時,僅改進工藝節(jié)點是不足以降低功耗的。高能效ASIC架構在降低網(wǎng)絡ASIC整體功耗方面也起著重要作用。

網(wǎng)絡 ASIC 架構隨著時間的推移不斷發(fā)展,以解決以下限制:

SRAM 的面積/功耗沒有像新工藝節(jié)點上的邏輯那樣擴展。

盡管晶體管密度不斷提高,但新工藝節(jié)點的功耗并沒有多大改善。

外部存儲器的擴展速度也不夠快,無法跟上邏輯擴展的速度。在這方面,雖然 HBM(ASIC 封裝內的高帶寬內存)供應商通過使用新的內存節(jié)點、堆疊更多芯片以及提高HBM和ASIC芯片之間的數(shù)據(jù)傳輸速率,大約每 3 年將這些內存的性能和密度提高一倍。但每個 HBM 部件提供的帶寬遠不及網(wǎng)絡芯片所支持的數(shù)據(jù)吞吐量。

例如,每個 HBM3P部件理論上可以提供 8Tbps 的原始總數(shù)據(jù)速率。由于讀/寫周轉和其他瓶頸導致總線效率損失 20%,這足以緩沖 3.2Tbps 的無線接入網(wǎng)絡 (WAN) 流量。高端網(wǎng)絡芯片供應商希望在每個 ASIC 封裝中封裝 >14.4Tbps。顯然,并非所有流量都可以使用單個 HBM 部件進行緩沖。添加更多 HBM 部件可能會占用 WAN 端口所需的芯片邊緣區(qū)域。

這意味著簡單通過將數(shù)據(jù)路徑切片加倍來使下一代 ASIC 吞吐量加倍的方式是不可行的。對片上和外部存儲器的訪問需要盡可能地優(yōu)化。為了實現(xiàn)這一目標,網(wǎng)絡供應商使用了各種技術:

# 具有淺片上延遲帶寬緩沖器的超額訂閱外部延遲帶寬緩沖器

在這種架構中,數(shù)據(jù)包首先在片上緩沖區(qū)中排隊,只有擁塞的隊列才會移動到外部存儲器。隨著擁塞減少,這些隊列移回到片上緩沖區(qū)。這減少了總體數(shù)據(jù)移動以及與之相關的功耗。

# 虛擬輸出隊列 (VOQ) 架構

在這里,所有延遲帶寬緩沖都在入口數(shù)據(jù)包轉發(fā)實體 (PFE) 或切片中完成。數(shù)據(jù)包在入口 PFE 的虛擬輸出隊列中排隊。VOQ 唯一對應于數(shù)據(jù)包需要離開的最終 PFE/輸出鏈路/輸出隊列。數(shù)據(jù)包通過出口處的復雜調度程序從入口 PFE 移動到出口 PFE,僅當它可以將數(shù)據(jù)包調度出其輸出鏈路時,該調度程序才會從入口 PFE 提取數(shù)據(jù)包。與組合輸入和輸出隊列 (CIOQ) 架構相比,VOQ 架構中的數(shù)據(jù)移動較少。這會導致開關功率降低。

# 固定管道數(shù)據(jù)包處理

處理網(wǎng)絡協(xié)議標頭時,在專用硬件中對解析/查找和標頭修改進行硬編碼可以實現(xiàn)高效的實現(xiàn),從而節(jié)省數(shù)據(jù)包處理過程中的面積和功耗。為了獲得面積/功耗優(yōu)勢,所有高端網(wǎng)絡供應商都已轉向固定管道處理。

# 共享數(shù)據(jù)結構

當在一個芯片中集成多個 PFE 或切片時,一些網(wǎng)絡芯片供應商共享大型數(shù)據(jù)結構,這些數(shù)據(jù)結構在這些切片上保存路由表 (FIB) 和其他結構。這樣做會增加對這些共享結構的訪問次數(shù)。但是,在大多數(shù)情況下,這些大型邏輯結構是使用許多離散的 SRAM 組來實現(xiàn)的,并且訪問可以在客戶端和組之間靜態(tài)復用。由于內存控制邏輯需要適應的熱存儲和無序讀取返回,這可能導致訪問時間不確定。通常,面積/功耗優(yōu)勢超過了控制邏輯的復雜性。

但是,當將數(shù)據(jù)結構移動到集中位置時,往返于集中內存的路由所消耗的功率有時可能超過內存訪問功率。因此,架構師在共享數(shù)據(jù)結構時需要考慮權衡。

# 高速緩存(Cache)

高速緩存的層次結構可用于減少對具有時間或空間局部性的共享結構(片上或外部存儲器)的訪問。這減少了長電線上的數(shù)據(jù)移動,從而減少了功耗。

# 布隆過濾器

這是一種流行的方法,用于減少對駐留在外部內存中的哈希表或查找表的訪問次數(shù)。布隆過濾器是一種節(jié)省空間的概率數(shù)據(jù)結構,用于測試元素是否是集合的成員。該數(shù)據(jù)結構通常保存在片上 SRAM 中。探測布隆過濾器中的“鍵”可以指示它是否存在于片外表中。使用這種方法可以將某些網(wǎng)絡功能對中央和片外存儲器的訪問減少 70-80%。

# 壓縮數(shù)據(jù)結構

某些數(shù)據(jù)結構可以被壓縮和存儲,以減少讀取這些結構時的內存占用和切換功率。

# 系統(tǒng)級封裝 (SiP) 與小芯片的集成

在過去的三到四年里,小芯片設計的發(fā)展勢頭迅猛,多個小芯片(ASIC核心)可以集成在一個具有低功耗芯片接口的封裝中,如UCIE或短距離serdes(XSR)。

# 功能蠕變

最后,功耗與芯片設計以線速處理的功能數(shù)量成比例增加。一些可能不需要線速處理的功能可以轉移到CPU復合體中,由軟件來處理,以節(jié)省面積/功耗。這些網(wǎng)絡通常具有較大的最大傳輸單元 (MTU),即可以在網(wǎng)絡上發(fā)送的最大數(shù)據(jù)包大小。因此,核心網(wǎng)中很少需要對數(shù)據(jù)包進行分段。在這些情況下,網(wǎng)絡芯片不需要在線實現(xiàn)此功能。然而,芯片應該檢測到需要分段或重組的數(shù)據(jù)包,并將它們發(fā)送到 CPU 復合體進行處理。

同樣,通過仔細分析用例和對利基功能使用替代方法來最大限度地減少功能蠕變對于降低功耗至關重要。

微架構注意事項

如果芯片模塊沒有采用高效的微架構,那么高效架構所提供的部分或全部節(jié)能優(yōu)勢就會喪失。塊微架構在很大程度上取決于設計者的專業(yè)知識。以下是需要關注的部分:

# 過度流水線

添加比實現(xiàn)功能所需的更多的流水線階段。

# SRAM 選擇不當

單端口 SRAM 在功耗/面積方面比兩個或雙端口 SRAM 更高效。需要正確規(guī)劃 SRAM 訪問以選擇正確的 SRAM 類型。類似地,使用算法存儲器增加某些數(shù)據(jù)結構的端口數(shù)量以進行同時訪問確實有助于降低面積/功耗。

# 沒有優(yōu)化邏輯內存以提高功耗

SRAM 庫供應商通常提供內存編譯器,讓用戶輸入邏輯內存尺寸,編譯器會為該內存提供不同的內存/平鋪選項。這些編譯器可以根據(jù)用戶提供的權重在總體面積和功率之間取得平衡。

# 過度緩沖

一些設計傾向于在處理過程中多次緩沖數(shù)據(jù)/控制邏輯。而且緩沖區(qū)往往會被過度設計。需要詳細檢查緩沖區(qū)及其大小,以移除填充。

# 設計重用

設計重用有時可能會造成傷害。雖然重用有利于項目進度,但這些設計可能沒有最佳的微架構或實現(xiàn)技術來節(jié)省電力。

物理設計考慮因素

在過去的十年里,用于芯片/模塊布局規(guī)劃和布局的EDA工具在優(yōu)化網(wǎng)表和布局以降低功耗方面取得了長足的進步。這些工具通過物理設計感知 RTL 綜合、優(yōu)化數(shù)據(jù)移動的 P&R、位置感知時鐘門控、回收非關鍵路徑上的功率等來降低功耗。

這些工具可以接受用戶輸入的各種流量場景,并優(yōu)化物理設計以降低峰值功率。利用 EDA 工具的進步進行物理設計可以比通過前面提到的其他技術實現(xiàn)的動態(tài)功耗額外降低 4-5%。

EDA 工具還支持功率門控、動態(tài)電壓/頻率降低或多電壓/頻率島方法,并在RTL合成和物理設計階段為實現(xiàn)這些技術提供自動化和檢查。

電源監(jiān)控

雖然提高能效對于高端 ASIC 來說是一件好事,但如果沒有可量化的目標,它可能會導致架構和實施方面的各種變化,從而增加進度延遲和投片后問題的風險。必須與硬件和產品管理團隊合作,為 ASIC 定義功率目標(每 Gbps 功率),并在整個開發(fā)階段持續(xù)估計和監(jiān)控功率,以保持正常運行。

在架構階段,功耗估算通常使用基本技術來完成,例如從先前的設計進行推斷以及使用新工藝節(jié)點的擴展。在設計實現(xiàn)階段,多種 EDA 工具可以隨著設計通過 RTL 和 P&R 的進展來估計和監(jiān)控功耗,為工程師提供節(jié)能機會的選擇和建議。

光學新趨勢

在OFC 2023會議上,多家供應商展示了用于數(shù)據(jù)中心和企業(yè)應用的線性驅動(或直接驅動)非 DSP 可插拔短/中程光模塊的原型系統(tǒng)。這些光模塊沒有耗電的 DSP 電路,并使用線性放大器來轉換電信號和光信號。

這與傳統(tǒng)的相干收發(fā)器形成鮮明對比,傳統(tǒng)的相干收發(fā)器使用 DSP 和相位調制器進行這種轉換。這些系統(tǒng)依賴于網(wǎng)絡 ASIC 內部的長距離 (LR) SerDes 功能強大,以彌補光學器件內部 DSP 的不足。

線性驅動光模塊非常節(jié)能,一些供應商聲稱與傳統(tǒng)光收發(fā)器相比,節(jié)能高達 25%。在 800Gbps/1.6Tbps 速度下,使用線性驅動光學器件可以顯著降低系統(tǒng)成本和功耗。

寫在最后

盡管本文主要關注用于降低網(wǎng)絡芯片和光學器件功耗的趨勢和技術,但考慮每個新系統(tǒng)設計中所有系統(tǒng)組件的功耗以及冷卻和熱管理解決方案的效率同樣重要。

例如,即使是AC/DC轉換器效率的微小改進,也可以在高功率系統(tǒng)中顯著節(jié)省功率。盡管最初的前期成本很高,但在每秒處理數(shù)百兆比特的模塊化系統(tǒng)的生命周期內,投資液體冷卻也可以顯著節(jié)省成本。

隨著ASIC架構師的優(yōu)化選擇用盡,技術節(jié)點的節(jié)能開始減少,探索降低系統(tǒng)功耗和冷卻成本的替代解決方案至關重要。讓我們繼續(xù)推動 ASIC 內外的創(chuàng)新,使網(wǎng)絡系統(tǒng)更高效,更具成本效益。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 轉換器
    +關注

    關注

    27

    文章

    8578

    瀏覽量

    146572
  • 連接器
    +關注

    關注

    98

    文章

    14083

    瀏覽量

    135729
  • 路由器
    +關注

    關注

    22

    文章

    3684

    瀏覽量

    113300
  • 解串器
    +關注

    關注

    1

    文章

    102

    瀏覽量

    13199
  • ASIC芯片
    +關注

    關注

    2

    文章

    91

    瀏覽量

    23696

原文標題:高端路由器功耗性能大作戰(zhàn):優(yōu)化網(wǎng)絡芯片和光學器件

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    高端路由器供電系統(tǒng)的設計

    的大小、效率、PCB板面積、動態(tài)響應和濾波等要求來綜合考慮,以獲得一個最優(yōu)的供電方案。某高端路由器供電系統(tǒng)設計設計要求在某型號高端路由器的設計中,需要給三種插件卡供電,電源需求和
    發(fā)表于 09-10 09:28

    低端路由器高端路由的區(qū)別

       最近看到有網(wǎng)友在論壇上提問:“低端路由器高端路由器都是差不多的用法,為什么價格會相差這么遠啊?”其實這個問題提得很不錯,不少不熟悉產品技術的朋友基本上都會
    發(fā)表于 06-26 14:11

    路由器分類

    路由器分類概述當前路由器分類方法各異,一般來說可以按照交換能力、系統(tǒng)結構、在網(wǎng)絡中的位置、 設備功能以及接口性能等劃分。各種分類方法有一定的關聯(lián),但是并不完全一致。上面提到 的
    發(fā)表于 06-15 10:09

    路由器測試的類型和方法

    路由器需要連接兩個或多個邏輯端口,至少擁有一個物理端口。路由器根據(jù)收到的數(shù)據(jù)包中網(wǎng)絡層地址以及路由器內部維護的
    發(fā)表于 12-12 18:32

    設計高端路由器需要考慮哪些問題?

    設計高端路由器需要考慮哪些問題?
    發(fā)表于 05-27 07:05

    路由器的種類

    。通常情況下,高端路由器是模塊化結構,低端路由器是非模塊化結構的。3、按所處網(wǎng)絡位置劃分為“邊界路由器”和“中間節(jié)點路由器”。在廣域網(wǎng)范圍內
    發(fā)表于 03-17 12:16

    快速路由器路由查找和流分類算法研究

    分析了路由器的體系結構發(fā)展,研究路由查找算法和流分類算法在快速路由器中的應用。研究表明,基于分段壓縮的
    發(fā)表于 03-08 18:05 ?16次下載

    路由器原理及路由協(xié)議

    路由器原理及路由協(xié)議 本文通過闡述TCP/IP網(wǎng)絡中路由器的基本工作原理,介紹了IP路由器的幾大功能,給出了靜態(tài)路由協(xié)議和動態(tài)
    發(fā)表于 08-01 11:53 ?814次閱讀

    路由器,路由器原理,路由器協(xié)議,路由器算法

    路由器,路由器原理,路由器協(xié)議,路由器算法 路由器:連接因特網(wǎng)中各局域網(wǎng)、廣域網(wǎng)的設備,它會根據(jù)信道的情況自動選擇和設定路
    發(fā)表于 03-29 17:44 ?1365次閱讀

    什么是軟件路由器/高端路由器

    什么是軟件路由器/高端路由器 軟件路由器 路由器是網(wǎng)絡中的核心設備。硬件路由器是大家所熟悉的
    發(fā)表于 04-03 14:21 ?668次閱讀

    小米路由器HD怎么樣?小米路由器HD拆解圖

    現(xiàn)在高端路由器沒個千兆,你都不好意思叫高端路由器,最近小米推出了旗下的高端路由器——小米
    發(fā)表于 05-05 10:41 ?2w次閱讀
    小米<b class='flag-5'>路由器</b>HD怎么樣?小米<b class='flag-5'>路由器</b>HD拆解圖

    智能路由器和普通路由器的區(qū)別

    路由器,是連接因特網(wǎng)中各局域網(wǎng)、廣域網(wǎng)的設備,它會根據(jù)信道的情況自動選擇和設定路由,以最佳路徑,按前后順序發(fā)送信號。 路由器是互聯(lián)網(wǎng)絡的樞紐,“交通警察”。目前路由器已經廣泛應用于各行
    發(fā)表于 01-04 15:58 ?1607次閱讀

    智能路由器和普通路由器的區(qū)別

    智能路由器和普通路由器是基于不同的技術原理和功能設計的網(wǎng)絡設備,它們在性能、功能和用戶體驗等方面存在著明顯的區(qū)別。下面將詳細介紹智能路由器和普通路由
    的頭像 發(fā)表于 12-26 14:26 ?1157次閱讀

    高端路由器和低端路由器有哪些區(qū)別呢?

    高端路由器和低端路由器有哪些區(qū)別呢? 高端路由器和低端路由器是網(wǎng)絡設備市場上常見的兩種類型,
    的頭像 發(fā)表于 12-27 16:27 ?906次閱讀

    千兆路由器和百兆路由器的區(qū)別 萬兆路由器有什么好處?

    千兆路由器和百兆路由器的主要區(qū)別在于它們的傳輸速率和端口速率。千兆路由器的傳輸速率可以達到1000Mbps,而百兆路由器的傳輸速率僅為100
    的頭像 發(fā)表于 01-29 11:24 ?1934次閱讀