0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AMD帶領(lǐng)GPU進入Chiplet時代 RDNA3架構(gòu)深入解讀

Hack電子 ? 來源:半導體行業(yè)觀察 ? 2023-06-12 10:14 ? 次閱讀

11月3日,AMD 透露了其 RDNA 3 GPU 架構(gòu)和 Radeon RX 7900 系列顯卡的關(guān)鍵細節(jié)。這是一個公開宣布,全世界都被邀請觀看。宣布后不久,AMD 邀請媒體和分析師進行了閉門采訪,以更深入地研究是什么讓 RDNA 3 起作用——或者它是否起作用?

對架構(gòu)的深入研究主要集中在 RX 7900 XTX/XT (Navi 31) GPU 上,但在接下來的幾個月中,我們了解了更多細節(jié)。這些 GPU 旨在與Nvidia Ada Lovelace 和 RTX 40 系列 GPU競爭,以打造最佳顯卡. 我們從 AMD 提供的其他簡報中獲得了額外的 RDNA 3 詳細信息,我們將立即對其進行分類。自從我們最初發(fā)布此 RDNA 3 架構(gòu)深入研究以來,我們已經(jīng)審查了Radeon RX 7900 XTX 和 7900 XT,以及Radeon RX 7600。

由于使用了Chiplet設(shè)計,AMD 的 RDNA 3 架構(gòu)從根本上改變了 GPU 的幾個關(guān)鍵設(shè)計元素。這是一個很好的起點。

AMD 已經(jīng)正式推出了 RX 7900 XTX/XT 和 RX 7600。介于 RX 7800 系列和 RX 7700 系列之間的部分仍然是 MIA,但有傳言稱它們可能會在 2023 年 7 月到達。所有規(guī)格和細節(jié)都在7800/7700 是目前最好的猜測。

在頂部,AMD 為 Navi 31 提供了多達 96 個計算單元 (CU),但這并不能說明全部情況。相對于之前的 RDNA 2 架構(gòu),每個 GPU“核心”的吞吐量都翻了一番。因此,RX 7900 XTX 上的 6144 個內(nèi)核提供理論上 61.4 teraflops 的 FP32 性能,是 FP16 的兩倍。相比之下,RX 6950 XT 有 5120 個內(nèi)核,但計算能力僅為 23.7 teraflops。

L0/L1/L2 緩存的緩存大小更大,但 Infinity Cache(即 L3)在 7900 XTX 上已減少到最大 96MB。其他 GPU 包括每個 64 位接口 16MB 的緩存。

與 RDNA 2 代相比,時鐘速度有所提高,具體取決于您正在查看的 GPU。Navi 21 部件的官方加速時鐘高達 2.31 GHz,而 Navi 31 將其增加到 2.5 GHz。然而,其他 Navi 2x GPU 的時鐘頻率往往已經(jīng)在 2.5 GHz 范圍內(nèi)。

到目前為止,定價至少在理論上與上一代產(chǎn)品相當或更好。實際上,一旦以太坊挖礦結(jié)束,之前的部分價格暴跌,目前 RX 6950 XT 的售價為 600 ~ 700 美元。同樣,RX 7600 的廠商建議零售價為 269 美元,而之前的 RX 6650 XT 的廠商建議零售價為 399 美元,但至少從 10 月開始,6650 XT 的售價一直在 250 美元至 275 美元之間。

讓我們繼續(xù)討論 RDNA 3 架構(gòu)的其他細節(jié)。

AMD RDNA 3 和 GPU 小芯片

Navi 31 由兩個核心部分組成,即圖形計算芯片 (GCD) 和內(nèi)存緩存芯片 (MCD)。這與 AMD 對其 Zen 2/3/4 CPU 所做的事情有相似之處,但一切都經(jīng)過調(diào)整以適應圖形世界的需求。

629d4318-08c5-11ee-962d-dac502259ad0.png

對于 Zen 2 及更高版本的 CPU,AMD 使用連接到系統(tǒng)內(nèi)存的輸入/輸出芯片 (IOD),并為 PCIe Express 接口、USB 端口以及最近的 (Zen 4) 圖形和視頻等提供所有必要的功能功能。IOD 然后通過 AMD 的 Infinity Fabric 連接到一個或多個核心計算芯片(CCD — 或者“核心復雜芯片”),CCD 包含 CPU 核心、緩存和其他元素。

62fcbfdc-08c5-11ee-962d-dac502259ad0.png

設(shè)計中的一個關(guān)鍵點是典型的通用計算算法——在 CPU 內(nèi)核上運行的東西——將主要適合各種 L1/L2/L3 緩存。直到 Zen 4 的現(xiàn)代 CPU 只有兩個用于系統(tǒng) RAM 的 64 位內(nèi)存通道(盡管EPYC Genoa 服務器處理器最多可以有十二個 DDR5 通道)。

6325122a-08c5-11ee-962d-dac502259ad0.png

CCD 很小,IOD 范圍從大約 125mm2(Ryzen 3000)到 416mm2(EPYC xxx2 代)。最近,Zen 4 Ryzen 7000 系列 CPU 的 IOD 使用 TSMC N6 制造,尺寸僅為 122mm2,帶有一個或兩個在 TSMC N5 上制造的 70mm2 CCD,而 EPYC xxx4 代使用相同的 CCD,但具有相對巨大的 IOD 尺寸為 396mm2(仍由 TSMC N6 制造)。

6336b7dc-08c5-11ee-962d-dac502259ad0.png

GPU 有非常不同的要求。大型緩存可以提供幫助,但 GPU 也非常喜歡擁有大量內(nèi)存帶寬來滿足所有 GPU 核心的需求。例如,即使是配備 12 通道 DDR5 配置的 EPYC 9654 也“僅”提供高達 460.8 GB/s 的帶寬。RTX 4090 等最快的顯卡可以輕松將其翻倍。

換句話說,AMD 需要做一些不同的事情來讓 GPU 小芯片有效地工作。該解決方案最終幾乎與 CPU 小芯片相反,內(nèi)存控制器和緩存被放置在多個較小的芯片上,而主要計算功能位于中央 GCD 小芯片中。

GCD 包含所有計算單元 (CU) 以及其他核心功能,如視頻編解碼器硬件、顯示接口和 PCIe 連接。Navi 31 GCD 有多達 96 個 CU,這是典型的圖形處理發(fā)生的地方。但它的頂部和底部邊緣也有一個 Infinity Fabric(通過某種總線連接到芯片的其余部分),然后連接到 MCD。

MCD,顧名思義(Memory Cache Dies)主要包含大型 L3 緩存塊(Infinity Cache),以及物理 GDDR6 內(nèi)存接口。它們還需要包含 Infinity Fabric 鏈接以連接到 GCD,您可以在沿著 MCD 面向中心的邊緣拍攝的芯片中看到這一點。

GCD 使用臺積電的 N5 節(jié)點,將 457 億個晶體管封裝到一個 300mm2 的芯片中。與此同時,MCD 建立在臺積電的 N6 節(jié)點上,每個芯片在尺寸僅為 37mm2 的芯片上封裝了 20.5 億個晶體管。高速緩存和外部接口是現(xiàn)代處理器中擴展性最差的一些元素,我們可以看到總體上 GCD 平均每 mm2 有 1.523 億個晶體管,而 MCD 平均只有 5540 萬個晶體管/mm2。

這里值得一提的是,雖然 Navi 31(可能還有 Navi 32)使用 GPU 小芯片,但最小的 Navi 33 裸片(用于Radeon RX 7600和其他移動 GPU)由構(gòu)建在臺積電 N6 節(jié)點上的單片裸片組成。成本節(jié)約措施顯然是各種 RDNA 3 設(shè)計的主要因素。

AMD 的高性能扇出互連

GPU 上的小芯片方法的一個潛在問題是所有 Infinity Fabric 鏈路需要多少功率——外部芯片幾乎總是使用更多功率。例如,Zen CPU 有一個制造成本相對較低的有機基板中介層,但它消耗 1.5 pJ/b(每比特皮焦耳)。將其擴展到 384 位接口會消耗相當大的功率,因此 AMD 努力改進與 Navi 31 的接口。

63585cfc-08c5-11ee-962d-dac502259ad0.png

結(jié)果就是 AMD 所謂的高性能扇出互連。上圖并沒有把事情說清楚,但左邊較大的接口是 Zen CPU 上使用的有機基板互連。右邊是 Navi 31 上使用的高性能扇出橋,“大致按比例”。

636d7330-08c5-11ee-962d-dac502259ad0.png

您可以清楚地看到用于 CPU 的 25 根電線,而用于 GPU 的 50 根電線被擠在一個小得多的區(qū)域中,因此您甚至看不到單獨的電線。對于相同的目的,它大約是高度和寬度的 1/8,這意味著大約是總面積的 1/64。這反過來又大大降低了功耗要求,AMD 表示,所有 Infinity Fanout 鏈接組合起來可提供 3.5 TB/s 的有效帶寬,而僅占 GPU 總功耗的不到 5%。

6380c7be-08c5-11ee-962d-dac502259ad0.png63aeb7be-08c5-11ee-962d-dac502259ad0.png646e8b34-08c5-11ee-962d-dac502259ad0.png

這里有一個有趣的地方:GCD 和 MCD 上的所有 Infinity Fabric 邏輯都占用了相當大的裸片空間。從裸片照片來看,GCD 上的六個 Infinity Fabric 接口使用了大約 9% 的裸片面積,而這些接口大約占 MCD 上總裸片尺寸的 15%。

64a29406-08c5-11ee-962d-dac502259ad0.png

去掉 Infinity Fabric 接口并將整個芯片構(gòu)建為臺積電 N5 節(jié)點上的單片部件,它的尺寸可能只有 ~400mm2。顯然,臺積電 N5 的成本遠高于 N6,因此值得采用小芯片路線,這說明了較小制造節(jié)點的成本不斷增加。要么是這樣,要么是 AMD 正在為未來設(shè)計架構(gòu),現(xiàn)在接受打擊并希望以后獲得更大的收益。

64c72f5a-08c5-11ee-962d-dac502259ad0.png

與此相關(guān),我們知道芯片設(shè)計的某些方面可以隨著工藝的縮小而更好地擴展。外部接口——比如 GDDR6 物理接口——幾乎停止了擴展。緩存的擴展性也很差。有趣的是,AMD 的下一代 GPU(Navi 4x / RDNA 4)是否會利用與 RDNA 3 相同的 MCD,同時將 GCD 轉(zhuǎn)移到 N3 等未來的臺積電節(jié)點。

AMD RDNA 3 架構(gòu)升級

這涉及到設(shè)計的小芯片方面,所以現(xiàn)在讓我們來看看 GPU 各個部分的架構(gòu)變化。這些可以大致分為四個方面:芯片設(shè)計的一般變化、GPU 著色器(流處理器)的增強、改進光線追蹤性能的更新以及矩陣運算硬件的改進。

65028f82-08c5-11ee-962d-dac502259ad0.png

查看原始規(guī)格,AMD 似乎并沒有將時鐘速度提高那么多,但之前我們只有游戲時鐘數(shù)據(jù)。現(xiàn)在我們可以說加速時鐘更高了,在一般情況下,AMD 的 RDNA 3 GPU 甚至會超過官方的加速時鐘——換句話說,它們是保守的加速。

AMD 表示 RDNA 3 的設(shè)計可以達到 3 GHz 的速度。參考 7900 XTX / XT 上的官方升壓時鐘遠低于該標記,但我們也認為 AMD 的參考設(shè)計更側(cè)重于最大限度地提高效率。第三方 AIB 卡可以大大提高功率限制、電壓和時鐘速度。我們會看到 3 GHz 出廠超頻嗎?7900 系列沒有發(fā)生這種情況,但也許其他 GPU 中的一個會走那么遠。

根據(jù) AMD 的說法,RDNA 3 GPU 可以在使用一半功率的情況下達到與 RDNA 2 GPU 相同的頻率,或者在使用相同功率的情況下達到 1.3 倍的頻率。最終,AMD 希望平衡頻率和功率以提供最佳的整體體驗。實際上,頂級 GPU 上的時鐘比上一代高幾百 MHz。

AMD 提出的另一點是,它已將硅利用率提高了約 20%。換句話說,RDNA 2 GPU 上有一些功能單元,其中部分芯片經(jīng)常處于閑置狀態(tài),即使在卡處于滿載狀態(tài)下也是如此。不幸的是,我們沒有直接衡量這一點的好方法,所以我們會接受 AMD 的話,但最終這應該會帶來更高的性能。

AMD RDNA 3 計算單元增強功能

在小芯片之外,許多最大的變化發(fā)生在計算單元 (CU) 和工作組處理器 (WGP) 中。其中包括對 L0/L1/L2 緩存大小的更新、用于 FP32 和矩陣工作負載的更多 SIMD32 寄存器,以及某些元素之間更廣泛和更快的接口。

6528f6cc-08c5-11ee-962d-dac502259ad0.png

AMD 的 Mike Mantor 展示了上面和下面的幻燈片,它們很密集!他基本上在一個小時的大部分時間里不停地講話,試圖涵蓋 RDNA 3 架構(gòu)所做的一切,但時間遠遠不夠。上面的幻燈片涵蓋了全局概覽,但讓我們逐步了解一些細節(jié)。

65b67934-08c5-11ee-962d-dac502259ad0.png

RDNA 3 帶有增強的計算單元對——成為 RDNA 芯片主要構(gòu)建塊的雙 CU。這與 RDNA 2 不同,但請注意調(diào)度程序和矢量 GPR(通用寄存器)的第一個塊表示“Float / INT / Matrix SIMD32”,然后是第二個塊表示“Float / Matrix SIMD32”。第二個塊是 RDNA 3 的新塊,它基本上意味著浮點吞吐量翻倍。

65e2d240-08c5-11ee-962d-dac502259ad0.png

您可以選擇以兩種方式之一查看事物:每個 CU 現(xiàn)在有 128 個流處理器(SP 或 GPU 著色器),并且您總共獲得 12,288 個著色器 ALU(算術(shù)邏輯單元),或者您可以將其視為 64”與上一代 RDNA 2 CU 相比,F(xiàn)P32 吞吐量恰好翻了一番。

6602a8c2-08c5-11ee-962d-dac502259ad0.png

這有點好笑,因為有些地方說 Navi 31 有 6,144 個著色器,而其他地方說有 12,288 個著色器,所以我特地問了 AMD 的首席 GPU 架構(gòu)師和 RDNA 3 設(shè)計背后的主要負責人 Mike Mantor,它是否是 6,144或 12,288。他拿出計算器,敲了幾個數(shù)字,說:“嗯,應該是12288?!?然而,在某些方面,事實并非如此。

AMD 自己的規(guī)格說 7900 XTX 有 6,144 個 SP 和 96 個 CU,而 7900 XT 有 84 個 CU 和 5,376 個 SP,因此 AMD 正在采取使用較低數(shù)量的方法。但是,原始 FP32 計算(和矩陣計算)增加了一倍。就我個人而言,將其稱為每個 CU 128 個 SP 比 64 個更有意義,整體設(shè)計看起來類似于 Nvidia 的 Ampere 和 Ada Lovelace 架構(gòu)?,F(xiàn)在每個流式多處理器 (SM) 有 128 個 FP32 CUDA 內(nèi)核,還有 64 個 INT32 單元。但無論如何,AMD 并沒有使用更大的數(shù)字。

除了額外的 32 位浮點計算,AMD 還將矩陣 (AI) 吞吐量提高了一倍,并且 AI 矩陣加速器共享許多著色器執(zhí)行資源。AI 單元的新功能是 BF16(大腦浮動 16 位)支持,以及 INT4 WMMA Dot4 指令(波形矩陣乘積),并且與 FP32 吞吐量一樣,矩陣運算速度整體提高了 2.7 倍。

這 2.7 倍似乎來自時鐘對時鐘性能的總體增長 17.4%,加上 CU 增加 20% 以及每個 CU 的 SIM32 單元增加一倍。

AMD RDNA 3:更大更快的緩存和互連

緩存以及緩存與系統(tǒng)其余部分之間的接口都已升級。例如,L0 緩存現(xiàn)在是 32KB(雙倍 于RDNA 2),L1 緩存是 256KB(又是雙倍于 RDNA 2),而 L2 緩存增加到 6MB(比 RDNA 2 大 1.5 倍)。

6644e5d4-08c5-11ee-962d-dac502259ad0.png

主處理單元和 L1 緩存之間的鏈接現(xiàn)在寬 1.5 倍,每個時鐘吞吐量為 6144 字節(jié)。同樣,L1 和 L2 緩存之間的鏈接也寬 1.5 倍(每個時鐘 3072 字節(jié))。

L3 緩存,也稱為 Infinity Cache,相對于 Navi 21 確實縮小了?,F(xiàn)在是 96MB 對 128MB。然而,L3 到 L2 鏈路現(xiàn)在寬了 2.25 倍(每個時鐘 2304 字節(jié)),因此總吞吐量要大得多更高。事實上,AMD 給出了 5.3 TB/s 的數(shù)字——在 2.3 GHz 的速度下為 2304 B/clk。RX 6950 XT 只有 1024 B/clk 鏈接到其 Infinity Cache(最大值),RDNA 3 提供高達 2.7 倍的峰值接口帶寬。

請注意,這些數(shù)字僅適用于 7900 XTX 中完全配置的 Navi 31 解決方案。7900 XT 有五個 MCD,下降到 320 位 GDDR6 接口和 1920 B/clk 鏈接到組合的 80MB Infinity Cache。我們將自然而然地看到較低層級的 RDNA 3 部件,它們會進一步縮減接口寬度和性能。

最后,現(xiàn)在有多達六個 64 位 GDDR6 接口,用于連接到 GDDR6 內(nèi)存的組合 384 位鏈接。VRAM 的時鐘頻率也為 20 Gbps(后來的 6x50 卡為 18 Gbps,原始 RDNA 2 芯片為 16 Gbps),總帶寬為 960 GB/s。

有趣的是,這一代 GDDR6 和 GDDR6X 之間的差距縮小了多少,至少在出貨配置方面是這樣。AMD 在 RX 7900 XTX 上的 960 GB/s 僅比現(xiàn)在 RTX 4090 的 1008 GB/s 低 5%,而 RX 6900 XT 和 RTX 3090 僅比 Nvidia 的 936 GB/s 高 512 GB/s?;氐?2020 年。Nvidia 當然也采用了更大的緩存大小及其Ada Lovelace 架構(gòu)。

AMD RDNA 3:第二代光線追蹤

RDNA 2 架構(gòu)上的光線追蹤總是感覺像是事后才想到的——為了滿足 DirectX 12 Ultimate 所需的功能清單而附加的東西。AMD 的 RDNA 2 GPU 缺乏專用的 BVH 遍歷硬件,選擇通過其他共享單元來完成這項工作,這至少部分歸咎于它們較弱的 RT 性能。

6673c2dc-08c5-11ee-962d-dac502259ad0.png

RDNA 2 射線加速器每個時鐘最多可以進行四次射線/盒子相交,或一次射線/三角形相交。相比之下,英特爾的 Arc Alchemist 每個時鐘每個 RTU 最多可以進行 12 次射線/盒子交叉,而 Nvidia 沒有提供具體數(shù)字,但在 Ampere 上每個 RT 內(nèi)核最多可以進行 2 次射線/三角形交叉,最多可以進行 4 次射線/Ada Lovelace 上每個時鐘的三角形交叉點。

66aea820-08c5-11ee-962d-dac502259ad0.png

目前尚不清楚 RDNA 3 是否真的直接改進了這些數(shù)字,或者 AMD 是否專注于其他增強功能以減少執(zhí)行的光線/盒子相交的數(shù)量。也許兩者都有。我們所知道的是,RDNA 3 將改進 BVH(邊界體積層次)遍歷,這將提高光線追蹤性能。

6721a186-08c5-11ee-962d-dac502259ad0.png

RDNA 3 還具有大 1.5 倍的 VGPR(矢量通用寄存器),這意味著飛行中的射線數(shù)量增加了 1.5 倍。還有其他堆棧優(yōu)化可以減少 BVH 遍歷所需的指令數(shù)量,并且可以使用專門的框排序算法(最接近優(yōu)先、最大優(yōu)先、最接近中點)來提取提高的效率。

總的來說,由于新功能、更高的頻率和更多的射線加速器數(shù)量,AMD 表示與 RDNA 2 相比,RDNA 3 的射線追蹤性能應該提高 1.8 倍。這應該會縮小 AMD 和 Nvidia Ampere 之間的差距。盡管如此,Nvidia 似乎還在 Ada Lovelace 的光線追蹤硬件上加倍投入,因此我們不會指望 AMD 能夠提供與 RTX 40 系列 GPU 相當?shù)男阅堋?/p>

AMD RDNA 3:其他架構(gòu)改進

最后,RDNA 3 調(diào)整了與命令處理器、幾何形狀和像素管道相關(guān)的架構(gòu)的其他元素。還有一個新的雙媒體引擎,支持 AV1 編碼/解碼、AI 增強視頻解碼和新的 Radiance 顯示引擎。

678a1ee6-08c5-11ee-962d-dac502259ad0.png

命令處理器 (CP) 更新應提高某些工作負載的性能,同時減少驅(qū)動程序和 API 端的 CPU 瓶頸。基于硬件的剔除性能在事物的幾何方面也快了 50%,并且每個時鐘的峰值光柵化像素增加了 50%。

最后一個似乎是將 Navi 21 上的 ROP(渲染輸出)數(shù)量從 128 個增加到 Navi 31 上的 192 個的結(jié)果。這是有道理的,因為內(nèi)存通道也增加了 50%,AMD 希望擴展其他元素與此同步。

雙媒體引擎應該使 AMD 在視頻方面與 Nvidia 和 Intel 持平,盡管我們最近的視頻編解碼器質(zhì)量和性能測試表明它仍然落后于 Intel 和 Nvidia。另請注意,AV1 更多的是關(guān)于擺脫 HEVC 的版稅,而不是提高質(zhì)量,盡管性能可能有點不確定。

AMD 還因為包含對 DisplayPort 2.1 的支持而獲得了至少幾點。英特爾的 Arc GPU 也支持 DP2,但最高可達 40 Gbps (UHBR 10),而 AMD 可以達到 54 Gbps (UHBR 13.5)。AMD 的顯示輸出可以在 229 Hz 下驅(qū)動高達 4K,無需壓縮 8 位色深,或 187 Hz 10 位色。Display Stream Compression 可以將其提高一倍以上,允許 4K 和 480 Hz 或 8K 和 165 Hz——并不是說我們離擁有實際支持這種速度的顯示器還差得很遠。

實際上,我們不得不懷疑 DP2.1 UHBR 13.5 對 RDNA 3 顯卡的重要性。首先,您需要一臺支持 DP2.1 的新顯示器,其次,問題是 4K 180 Hz 之類的東西在使用和不使用 DSC 時看起來有多好——因為 DP1.4a 仍然可以使用 DSC 處理該分辨率,而 UHBR 13.5 可以在沒有 DSC 的情況下完成。我們一直在使用三星 Odyssey Neo G8 32 英寸顯示器,通過 DSC 支持 4K 240 Hz,并且沒有發(fā)現(xiàn)任何質(zhì)量下降。

AMD RDNA 3:結(jié)語

總的來說,這聽起來像是一項令人印象深刻的工程壯舉。

AMD 可以很好地與 Nvidia 的 RTX 4080 卡競爭,至少在非光線追蹤和非 AI 工作負載方面是這樣。另一方面,如果您想要最快的 GPU,AMD 甚至不會嘗試與更大的RTX 4090正面交鋒。

簡單的數(shù)學提供了大量的思考。FP32 6,144 個著色器以 2.5 GHz 運行,ALU 吞吐量翻倍,而 Nvidia 的 16,384 個著色器以 2.52 GHz 運行,Nvidia 顯然具有原始計算優(yōu)勢——61 teraflops 對比 83 teraflops。如前所述,添加更多 FP32 單元使 AMD 的 RDNA 3 看起來更像 Ampere 和 Ada Lovelace。

除了原始計算,我們還有晶體管數(shù)量和芯片尺寸。Nvidia 堅持為 Ada Lovelace 使用單片芯片,包括 AD102、AD103、AD104、AD106 和 AD107 芯片。最大的一個在 608mm2芯片中有 763 億個晶體管。即使 AMD 正在開發(fā)具有 580 億個晶體管的單片 522mm2芯片,我們也希望 Nvidia 具有一些優(yōu)勢。然而,GPU 小芯片方法意味著一些區(qū)域和晶體管被用于與性能不直接相關(guān)的事情。

與此同時,Nvidia 的倒數(shù)第二個 Ada 芯片,即RTX 4080 中使用的 AD103 ,落在了柵欄的另一邊。憑借 256 位接口、459 億個晶體管和 368.6mm2裸片尺寸,Navi 31 應該具有一些明顯的優(yōu)勢——無論是 RX 7900 XTX 還是稍低一些的 7900 XT。然后是具有 358 億個晶體管和 294.5mm2裸片的 AD104,即“未發(fā)布”的 RTX 4080 12GB,最終演變?yōu)?RTX 4070 Ti。

但性能比紙面規(guī)格更重要。Nvidia 將晶體管投入到 DLSS(張量核心)、DLSS 3(光流加速器)和光線追蹤硬件等功能中。AMD 似乎更愿意放棄一些光線追蹤性能,同時提升更常見的用例。實際上,在我們的GPU 基準測試層次結(jié)構(gòu)中,RX 7900 XTX 在光柵化性能方面幾乎領(lǐng)先于 RTX 4080 ,而在光線追蹤性能方面,它更接近于上一代RTX 3090。

對于那些對價格在 900 美元或以上的顯卡不感興趣的人,還有RTX 4070 Ti、RTX 4070、RTX 4060 Ti和RX 7600等顯卡. 我們?nèi)栽诘却?AMD 的 RX 7800 和 7700 產(chǎn)品,這可能會在 AMD 等待清理剩余的 Navi 2x 庫存時推遲。據(jù)傳,Navi 32 使用相同的 MCD,但具有更小的 GCD,而 Navi 33 已經(jīng)作為仍然構(gòu)建在 N6 節(jié)點上的單片芯片推出。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • CCD
    CCD
    +關(guān)注

    關(guān)注

    32

    文章

    874

    瀏覽量

    141988
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4631

    瀏覽量

    128440
  • GCDM
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    2132
  • RDNA
    +關(guān)注

    關(guān)注

    0

    文章

    19

    瀏覽量

    1892

原文標題:AMD帶領(lǐng)GPU進入Chiplet時代,RDNA 3架構(gòu)深入解讀

文章出處:【微信號:Hack電子,微信公眾號:Hack電子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    X86架構(gòu)處理器有哪些優(yōu)點和缺點

    X86架構(gòu)處理器作為計算機領(lǐng)域的重要組成部分,具有多個顯著的優(yōu)點和一定的缺點。以下是對X86架構(gòu)處理器優(yōu)缺點的詳細分析。
    的頭像 發(fā)表于 08-22 11:25 ?931次閱讀

    X86架構(gòu)和ARM架構(gòu)有什么區(qū)別

    X86架構(gòu)和ARM架構(gòu)是兩種主流的CPU架構(gòu),它們在多個方面存在顯著的差異。以下是對這兩種架構(gòu)的詳細比較,涵蓋了追求目標、應用領(lǐng)域、技術(shù)特點、性能功耗比、軟件生態(tài)以及未來趨勢等方面。
    的頭像 發(fā)表于 08-22 11:21 ?5435次閱讀

    ElfBoard技術(shù)貼|如何將libwebsockets庫編譯為x86架構(gòu)

    在之前的文章中,我們已經(jīng)詳細介紹了如何交叉編譯libwebsockets并將其部署到ELF1開發(fā)板上。然而在調(diào)試階段,發(fā)現(xiàn)將libwebsockets在Ubuntu環(huán)境下編譯為x86架構(gòu)可能更為方便
    的頭像 發(fā)表于 07-10 09:38 ?1089次閱讀
    ElfBoard技術(shù)貼|如何將libwebsockets庫編譯為x86<b class='flag-5'>架構(gòu)</b>

    AMD RDNA4顯卡全部搭載18Gbps顯存,帶寬略遜于部分RDNA3產(chǎn)品

    現(xiàn)行的零售版RadeonRX7900XT、7900XT搭載的是20Gbps的GDDR6顯存,而RX7800XT則采用了19.5Gbps的顯存。因此,RDNA4顯卡的顯存速度可能不及部分RDNA3產(chǎn)品,與RX7900GRE、RX7700XT及以下型號保持一致。
    的頭像 發(fā)表于 04-23 16:37 ?685次閱讀

    AMD Radeon RX 7000M系列顯卡特性分析

    AMD RDNA 3架構(gòu) – 新的計算單元在渲染、AI和光線追蹤之間共享資源,以更有效地利用每個晶體管,實現(xiàn)快速又高效的性能。
    發(fā)表于 04-15 11:31 ?420次閱讀
    <b class='flag-5'>AMD</b> Radeon RX 7000M系列顯卡特性分析

    AMD推出銳龍8000嵌入式處理器,AI算力高達39 T

    此款CPU選用4納米制程、AMD基于“Zen 4”架構(gòu)的CPU核心以及使用RDNA 3架構(gòu)GPU
    的頭像 發(fā)表于 04-03 10:39 ?724次閱讀

    AMD Zen6架構(gòu)繼續(xù)飛躍!核顯跨越下下代RDNA5

    AMD的下一代Zen5 CPU架構(gòu)還沒來,Zen6的消息就已經(jīng)多次傳出,現(xiàn)在又提到了所集成的GPU核顯,居然將會搭配同樣下下一代的RDNA5。
    的頭像 發(fā)表于 02-22 09:53 ?744次閱讀
    <b class='flag-5'>AMD</b> Zen6<b class='flag-5'>架構(gòu)</b>繼續(xù)飛躍!核顯跨越下下代<b class='flag-5'>RDNA</b>5

    arm架構(gòu)和x86架構(gòu)區(qū)別 linux是x86還是arm

    ARM架構(gòu)和x86架構(gòu)是兩種不同的計算機處理器架構(gòu),它們在體系結(jié)構(gòu)、指令集、應用領(lǐng)域等方面有著明顯的區(qū)別。Linux操作系統(tǒng)則具有廣泛的適配性,可以運行在各種架構(gòu)上,包括x86和ARM
    的頭像 發(fā)表于 01-30 13:46 ?1.6w次閱讀

    AMD全新的銳龍8000G系列臺式機處理器介紹

    在PC芯片方面,AMD則帶來了全新的銳龍8000G系列臺式機處理器,它是AMD首款同時集成RDNA 3高性能圖形核心、Ryzen AI NPU,基于Zen 4
    發(fā)表于 01-12 10:12 ?967次閱讀
    <b class='flag-5'>AMD</b>全新的銳龍8000G系列臺式機處理器介紹

    深入解讀AMD最新GPU架構(gòu)

    GCN 取代了 Terascale,并強調(diào) GPGPU 和圖形應用程序的一致性能。然后,AMD 將其 GPU 架構(gòu)開發(fā)分為單獨的 CDNA 和 RDNA 線路,分別專門用于計算和圖形。
    發(fā)表于 01-08 10:12 ?1066次閱讀
    <b class='flag-5'>深入</b><b class='flag-5'>解讀</b><b class='flag-5'>AMD</b>最新<b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>

    AMDGPU架構(gòu)GCN現(xiàn)代化解讀

    隨著HD 5000和6000系列的發(fā)展,AMD的Terascale(萬億級)架構(gòu)變得非常具有競爭力。
    的頭像 發(fā)表于 01-08 09:58 ?997次閱讀
    <b class='flag-5'>AMD</b>的<b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>GCN現(xiàn)代化<b class='flag-5'>解讀</b>

    值得入手的AMD Radeon 顯卡推薦—— AMD Radeon RX 7900 XT

    結(jié)合5nm和6nm工藝節(jié)點,采用先進的小芯片(Chiplets)設(shè)計,全新的計算單元和第二代AMD高速緩存技術(shù),相比AMD RDNA 2架構(gòu)的每瓦性能提高54%;
    的頭像 發(fā)表于 01-04 16:27 ?1137次閱讀
    值得入手的<b class='flag-5'>AMD</b> Radeon 顯卡推薦—— <b class='flag-5'>AMD</b> Radeon RX 7900 XT

    Debian宣布停止i386架構(gòu)支持

    近日,在英國劍橋市舉行的小規(guī)模DebConf活動中,Debian GNU/Linux的發(fā)布團隊召開春季會議,探討了未來發(fā)展方向,其中包括停止對i386架構(gòu)的支持。
    的頭像 發(fā)表于 12-19 10:16 ?739次閱讀

    AMD Zen6升級CCD 2nm工藝:輕松256核心!

    AMD Zen5架構(gòu)產(chǎn)品還沒發(fā),Zen6架構(gòu)的不少細節(jié)就被曝光,看起來令人極為振奮。
    的頭像 發(fā)表于 12-04 09:31 ?1987次閱讀
    <b class='flag-5'>AMD</b> Zen6升級CCD 2nm工藝:輕松256核心!

    AMD突然改主意:銳龍7000G APU沒了!銳龍8000G來了!

    銳龍8000G系列將有兩種不同核心芯片,其中銳龍3 8300G、銳龍5 8500G采用小號的Phoenix2,Zen4+Zen4c兩種核心,分別是1+3 4核心8線程、2+4 6核心12線程,都有4個RDNA3
    的頭像 發(fā)表于 11-10 16:59 ?1172次閱讀
    <b class='flag-5'>AMD</b>突然改主意:銳龍7000G APU沒了!銳龍8000G來了!