0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從GTX到NVIDIA GPU架構(gòu)的變遷史

t1PS_TechSugar ? 來源:fqj ? 2019-04-29 17:11 ? 次閱讀

在現(xiàn)代GPU發(fā)展史上,2006年是一個(gè)不能錯(cuò)過的節(jié)點(diǎn)——這一年AMD以54億美元的代價(jià)收購了ATI公司,從此手握CPU及GPU兩張好牌,AMD此后一直以此為榮,強(qiáng)調(diào)他們是業(yè)界唯一能夠同時(shí)提供高性能CPU及高性能GPU的公司,CPU拳打NVIDIA,GPU腳踢英特爾。當(dāng)年另外一件事就是微軟在DX10 API上推出了統(tǒng)一渲染架構(gòu),NVIDIA 2006年發(fā)布的G80架構(gòu)GeForce 8800 GTX顯卡率先支持統(tǒng)一渲染,從此NVIDIA的CUDA也閃亮登場了。

2006年發(fā)生的這兩件事本質(zhì)上沒什么關(guān)聯(lián),但是回想起當(dāng)年及之后的GPU發(fā)展情況,總?cè)滩蛔″谙胍幌氯绻?dāng)年ATI沒被AMD收購,ATI、NVIDIA兩家GPU公司今天的發(fā)展會(huì)如何?因?yàn)樵?006年前后,ATI在獨(dú)顯GPU市場上的份額與NVIDIA并沒有多大差距,05年之前市場份額甚至還領(lǐng)先一些,但2006年被收購之后由于兩家公司需要整合,AMD/ATI兩邊的CPU、GPU產(chǎn)品路線圖都不免受到影響,也是從那個(gè)時(shí)候AMD顯卡的份額不斷下滑,與NVIDIA的差距不斷拉大,從曾經(jīng)的55開變成了46開、37開,直到今年初雙方的差距已經(jīng)是28開了。

Reddit上有帖子討論了2002年到2017年GPU市場的份額變化

NVIDIA做大靠的是AMD收購ATI的機(jī)遇嗎?也許有天時(shí)地利的因素,但從根本上來說雙方差距的拉大還是源于產(chǎn)品/技術(shù)的差異,NVIDIA在G80架構(gòu)之后就開始占上風(fēng)了,期間雖然也有GTX 480這樣的翻車事故,但總體上還是一路上揚(yáng)的,40nm Fermi費(fèi)米架構(gòu)之后Kepler、Maxwell、Pascal、Volta(這代只有Titan V這一個(gè)桌面版顯卡),再到去年的Turing圖靈顯卡,NVIDAI在GPU市場上的地位已經(jīng)穩(wěn)如狗了,AMD近幾代顯卡掀不起大風(fēng)大浪了。

NVIDIA的GPU路線圖已經(jīng)四五年沒更新了,最新的還是15年版

NVIDIA以往會(huì)在GTC大會(huì)上提前兩三年公布GPU路線圖,不過2015年之后更新過Pascal顯卡之后就不再推新的GPU路線圖了,Turing圖靈顯卡發(fā)布之前就沒在路線圖上出現(xiàn)過,圖靈之后的GPU架構(gòu)官方也是守口如瓶,目前的說法稱之為Amper安培,但最終是否如此還是未知數(shù)。

今天的超能課堂里我們就來回顧下NVIDIA GPU的發(fā)展過程,回頭來看下這10年中NVIDIA GPU都經(jīng)歷了怎樣的變化。同樣地,后續(xù)還有AMD的GPU發(fā)展路程姊妹篇,敬請期待。

NVIDIA G80到GF100架構(gòu):40nm費(fèi)米GPU的教訓(xùn)

NVIDIA的GPU發(fā)展史少說也要從G80時(shí)代CUDA架構(gòu)開始講起,不過限于篇幅原因,這里不打算再挖墳這么深了,G80及衍生版的G92核心在NVIDIA GPU中非常經(jīng)典,馬甲卡當(dāng)初就是形容這一時(shí)期變化的,可以說花樣頻出,比現(xiàn)在的刀法精湛多了。

microway之前總結(jié)過GF100架構(gòu)及之前的NVIDIA GPU架構(gòu)情況

曾經(jīng)有段時(shí)間業(yè)界形容AMD、NVIDA在GPU策略上的不同是“AMD擅長小核心,性能適中,但是低功耗、NVIDIA偏重大核心,性能強(qiáng),但功耗高、成本更貴”,NVIDIA在GT200核心上確實(shí)是大核心策略,在GF100核心上達(dá)到了巔峰,從SP單精度、DP雙精度配比上大家應(yīng)該可以看出來,這時(shí)候NVIDIA已經(jīng)在大幅提升GPU的計(jì)算性能了。

在40nm Fermi費(fèi)米架構(gòu)中,NVIDIA一下子將CUDA核心數(shù)提升到了512個(gè),是GT200核心的兩倍,而且單雙精度達(dá)到了1:2,大量核心用于雙精度計(jì)算。但是第一代費(fèi)米核心的GTX 480顯卡也因此翻車了,還記得那個(gè)著名的顯卡紅外溫度100°C+的圖片嗎?說的就是GTX 480時(shí)代的事。

當(dāng)年的GTX 480顯卡(上)與GTX 580顯卡(下)

GTX 480在功耗、發(fā)熱上的翻車教訓(xùn)導(dǎo)致NVIDIA一度很難堪,直到后來推出了GTX 580顯卡才有所緩解。

總的來說,40nm費(fèi)米架構(gòu)這一代,NVIDIA在GPU設(shè)計(jì)上有了一次飛躍,規(guī)格大幅提升,不僅注重游戲性能,也重視計(jì)算性能,為此塞入了更多的雙精度計(jì)算單元,但也因此帶來了諸多問題,GTX 480翻車事故帶給NVIDIA很多教訓(xùn),多多少少都影響了后來的GPU架構(gòu)設(shè)計(jì)。

2012年NVIDIA Kepler架構(gòu):游戲、計(jì)算GPU分離,NVIDIA后發(fā)制人

距離GTX 580顯卡發(fā)布一年半時(shí)間后,2012年3月22日NVIDIA推出了GTX 680顯卡,由此28nm工藝的Kepler架構(gòu)閃亮登場。這時(shí)候AMD基于全新GCN架構(gòu)的HD 7970顯卡已經(jīng)發(fā)布將近3個(gè)月了(海外市場2011年12月底發(fā)布,國內(nèi)是次年1月初),后者當(dāng)時(shí)光芒萬丈,GCN架構(gòu)同時(shí)融合了計(jì)算及游戲的優(yōu)點(diǎn),性能比之前的VLIW架構(gòu)顯卡有了明顯進(jìn)步,而且還首發(fā)了臺(tái)積電28nm工藝、PCIe 3.0等等。

GTX 680發(fā)布于2012年3月底

GTX 680顯卡使用的是Kepler家族中的GK104核心,但GK104反應(yīng)的架構(gòu)設(shè)計(jì)思路早在GF100到GF104、GF114架構(gòu)中就有所體現(xiàn)了,那就是減少SM單元數(shù)(NVIDA這代的正式稱呼是SMX單元),提升每組SM單元中的CUDA核心數(shù),GF100時(shí)代每組SM單元還是32個(gè)CUDA核心,GF104/GF114則是每組SM單元48個(gè)CUDA核心,而到了Kepler時(shí)代,每組SM單元的CUDA核心數(shù)一下子提升到了192個(gè),紋理單元也增加到16組,前端渲染單元也增加到四組,同時(shí)SFU以及LD/ST單元也是水漲船高,增加到32組,紋理單元再次翻倍,8組SMX單元總計(jì)有1536個(gè)流處理器、128個(gè)紋理單元以及32個(gè)ROP單元。

GF110 SM單元(左)、GF114 SM單元(中)以及GK104 SMX單元(右)對比

除了SM單元大變之外,NVIDIA在Kepler架構(gòu)中還做了一項(xiàng)重要改變——從Kepler開始,NVIDIA以往堅(jiān)持的Core:Shader=1:2的分頻模式已經(jīng)沒有了,以前采用這種方式是因?yàn)楹诵念l率不能大幅提高,為了提高性能就必須讓CUDA的核心頻率增加一倍,但是這也意味著更高的能耗。

GK104架構(gòu)的一大特點(diǎn)就是CUDA規(guī)模大幅增長

GTX 680中NVIDIA將SMX單元中的CUDA核心數(shù)提高至原來的3倍,而且核心頻率也達(dá)到1GHz以上,不再需要Shader異步了,二者將同頻運(yùn)行,有助于降低顯卡功耗,因此GTX 680在CUDA數(shù)量暴增的同時(shí)功耗更低,而每瓦性能比更是提高了一倍。

在Kepler時(shí)代,NVIDIA還改變了一個(gè)潛規(guī)則——以往GPU發(fā)布是首發(fā)大核心,比如費(fèi)米時(shí)代的GF100到GF104/GF106,而Kepler時(shí)代是首發(fā)GK104,更大的核心GK110是后面才發(fā)布的。不過這次改變也只是Kepler時(shí)代出現(xiàn)的,在后面的Pascal、Volta及現(xiàn)在的Turing中多是大核心先發(fā)(GTC大會(huì)上首發(fā),Tesla計(jì)算卡先用),GX104/106核心后續(xù)才會(huì)跟進(jìn)。

GTX 680顯卡的發(fā)布解決了NVIDIA的燃眉之急,游戲性能小幅領(lǐng)先AMD的HD 7970,扳回了一局,不過計(jì)算性能上不如后者,畢竟GK104并不是為計(jì)算而生的架構(gòu)。對NVIDIA來說,Kepler是他們真正貫徹了游戲、計(jì)算卡徹底分離的產(chǎn)品,想要更好的計(jì)算性能?那就找大核心的GK110核心吧。

2012的GTC大會(huì)上NVIDIA就展示了GK110大核心的威力,年底的SC超算大會(huì)上正式發(fā)布了基于GK110的Tesla K20X及Tesla K20加速卡,完整版GK110核心擁有15組SMX單元,總計(jì)2880個(gè)CUDA核心,集成了71億晶體管,核心面積也達(dá)到了551mm^2。

從GTX到NVIDIA GPU架構(gòu)的變遷史

GK110核心的SMX單元中依然有192個(gè)CUDA核心,但DP雙精度單元數(shù)量從GK104的8個(gè)提升到了64組,這樣一來但雙精度的比例就變成了1:3,雖然還沒有達(dá)到費(fèi)米時(shí)代1:2那么夸張的地步,但遠(yuǎn)高于GK104的1:24了,再加上總性能的提升,GK110核心的計(jì)算性能總體來說還是進(jìn)步的。

此外,GK110不僅僅是計(jì)算規(guī)模的增加,還增加了一些計(jì)算專用的新技術(shù),比如NVIDIA開發(fā)的Grid Management Unit、GPUDirect、Hyper-Q以及Dynamic Parallelism動(dòng)態(tài)并行技術(shù)。

在消費(fèi)級顯卡中,GK110首先用于2013年3月發(fā)布的GTX Titan顯卡中,自此NVIDIA也開辟了一條新的產(chǎn)品線——Titan顯卡,售價(jià)是999美元起步,比當(dāng)時(shí)的高端顯卡翻倍。

此外,Titan顯卡的公版設(shè)計(jì)也與之前的顯卡大為不同,并影響了后面的GTX XX80/80 Ti系列公版顯卡的設(shè)計(jì)。

Titan顯卡不是一般人買得起的,2013年11月份NVIDIA又推出了基于GK110核心的GTX 780系列顯卡,其中GTX 780 Ti使用的是GK110-425-B1新核心,與此前的GK110還有所不同,核心面積更小一些,而且啟用了完整版SMX單元,導(dǎo)致它的規(guī)格實(shí)際上比Titan顯卡更好,性能更強(qiáng),以致于后面NVIDIA又推出了完整版GK110核心的Titan Black顯卡。

在Kpler架構(gòu)的尾聲階段,NVIDIA還推出了GK210核心,它可以說是GK110核心的再改良版,也被稱為Kepler 2.0,CUDA計(jì)算能力從GK104的3.0、GK110的3.5升級到了CUDA 3.7。

此外,NVIDIA并沒有改變CUDA核心數(shù)或者CUDA的架構(gòu),他們改進(jìn)的只是SMX單元之間的內(nèi)存子系統(tǒng),GK110(B)的SMX單元擁有256KB寄存器文件,64KB共享緩存,GK210的規(guī)模翻倍,擁有512KB寄存器文件,128KB共享緩存,因此它改進(jìn)了SMX單元的數(shù)據(jù)吞吐量,提高了效率,確保CUDA核心的更容易頻繁使用。

不過GK210架構(gòu)主要是用在計(jì)算卡上, 消費(fèi)級顯卡中沒有,所以DIY玩家的影響力非常少,倒是有同樣Kpler 2.0的GK208等核心用于低端的GT 740/730/720及移動(dòng)版產(chǎn)品中。

2014年NVIDIA Maxwell架構(gòu):SMM單元又重組,更注重能效

在Kpler時(shí)代,NVIDIA顯卡從AMD HD 7970顯卡的陰影中走出來了,GK104核心的GTX 680追上了HD 7970,但沒有全面優(yōu)勢,GK110大核心的GTX 780系列性能上有絕對優(yōu)勢了,只是功耗要高,但此時(shí)的NVIDIA已經(jīng)掌握主動(dòng)權(quán)了,畢竟AMD后來推出HD 7970繼任者的R9 290X同樣存在功耗、發(fā)熱的問題。

根據(jù)NVIDIA的路線圖,Kepler之后就是Maxwell架構(gòu)了,這時(shí)候制程工藝還是28nm,Maxwell架構(gòu)的重點(diǎn)則是改進(jìn)能效。在這個(gè)階段,NVIDIA又上演了一次出人意料的舉動(dòng),Maxwell架構(gòu)既不是GM200也不是GM204,而是GM107,用在了GTX 750 Ti及GTX 750顯卡,從命名上也不是更新一代的,還是沿用了GTX 700系列的。

GM107核心使用的是Maxwel一代架構(gòu),其最大變化就是將SM單元(這一代稱為SMM單元)再次重組,從Kpler時(shí)代的每組SM單元192個(gè)CUDA核心減少到了每組128個(gè),但是每個(gè)SMM單元將將擁有更多的邏輯控制電路,便于精確控制,這使得GM107核心的每核心效能提升了35%,每瓦功耗比提升了一倍。

這種全新的 SM 架構(gòu)可大幅提升節(jié)能性,而且在著色器有限的工作場合中可令每個(gè)CUDA核心的性能提升 35%。實(shí)現(xiàn)這些進(jìn)步需要對架構(gòu)進(jìn)行大量重大更改。 NVIDIA重新編寫了SM調(diào)度器架構(gòu)和算法,使其更加智能,避免了不必要的停頓,同時(shí)進(jìn)一步降低了調(diào)度每條指令所需的能耗。

當(dāng)然,SMM單元也有很多改進(jìn)的地方,比如L2緩存容量從之前的256KB大幅增加到2MB,H.264及NVENC編碼/解碼能力也提升了,指令周期性能也改善了。

反映到顯卡上,GTX 750 Ti及GTX 750顯卡擁有極好的能效比,游戲功耗比同期的HD 7770、GTX 660甚至GTX 650 Ti功耗要低很多,而且溫度、噪音也非常低,這款顯卡可以說是近年來的一代經(jīng)典。

在GM107核心的Maxwell一代架構(gòu)之后,NVIDIA又在2014年9月份推出了GTX 980/970顯卡,它們使用的是GM204核心,也被稱為Maxwell 2.0架構(gòu)。整個(gè)GM204核心可分為4組GPC單元,每組GPC則包含4個(gè)SMM單元,每個(gè)SMM單元又包含128個(gè)CUDA核心,8個(gè)紋理單元以及一個(gè)多邊形引擎單元(PolyMorph Engine 3.0),總計(jì)2048個(gè)CUDA核心,128個(gè)紋理單元。

在桌面級顯卡命名上,NVIDIA這次跳過了GTX 800系列(OEM及移動(dòng)版GPU上有GTX 800系列),直接進(jìn)入了GTX 900系列,GTX 980使用的是GM204-400核心,搭配4GB GDDR5顯存,但它的性能已經(jīng)超過了GK110大核心的GTX 780 Ti顯卡,TDP則從250W直降到165W,整機(jī)功耗測試中也印證了功耗的大幅下降,可以說能效優(yōu)勢非常明顯,不論是對AMD的顯卡還是對自家上代顯卡而言都是如此,能效簡直是碾壓般的存在。

在GM107、GM204、GM206核心之后,NVIDIA在Titan X顯卡上又使用了GM200核心,而且是完整版的GM200-400核心,該卡發(fā)布于2015年3月18日,它使用的GM200核心擁有6組GPC單元,24組SMM單元,每組SMM單元128個(gè)CUDA核心,總計(jì)3072個(gè)CUDA核心,而顯存控制器也從之前4組64bit GDDR5變成了6組,位寬384bit。

不過6月1日NVIDIA又推出了GTX 980 Ti顯卡,使用的也是GM200大核心,但是閹割版的GM200-310核心,CUDA核心數(shù)為2816個(gè)。GTX 980 Ti顯卡的詳細(xì)規(guī)格如下:

2016年NVIDIA Pascal架構(gòu):16nm制程紅利,計(jì)算游戲核心再分離

時(shí)間很快到了2016年,4月初的GTC大會(huì)上NVIDIA發(fā)布了Tesla P100加速卡,使用的是GP100核心,這是pascal架構(gòu)的大核心,制程工藝升級到了16nm,這種工藝則是高性能工藝,所以在Pascal顯卡上其GPU頻率大幅提升,起步就達(dá)到了1.6GHz,加速頻率達(dá)到2GHz稀松平常。

在Pascal顯卡上,最大的特色就是先進(jìn)工藝帶來的制程紅利,不過這時(shí)候的GPU架構(gòu)再次出現(xiàn)了游戲、計(jì)算的分離,出現(xiàn)了GP100、GP102兩種大核心,而且使用的架構(gòu)、顯存都是不同的,其中GP100是純粹的計(jì)算核心,不僅有3584個(gè)單精度CUDA核心,雙精度核心也達(dá)到了1792個(gè),重新回到了1:2的比例。

此外,計(jì)算用的GP100核心使用的是HBM 2顯存,等效位寬4096bit,帶寬達(dá)到了720GB/s,雖然沒有實(shí)現(xiàn)HBM2顯存1TB/s的滿速帶寬,但帶寬已經(jīng)比當(dāng)時(shí)的GDDR5顯存大幅提升了,只不過HBM2顯存實(shí)在太貴了,別說2016年,直到2019年的今天都遠(yuǎn)未普及。

2016年7月份NVIDIA推出了Titan X Pascal顯卡,它使用的也是16nm Pascal架構(gòu),但核心是GP102,全規(guī)格的GP102核心確實(shí)可以稱為目前最強(qiáng)大的微架構(gòu):120億晶體管、3584個(gè)流處理器、12GB GDDR5X 顯存、384-Bit位寬,相比Tesla P10的HBM 2顯存和NVLink有所妥協(xié),所以顯存帶寬為480GB/s,8+6Pin供電,顯示接口提供Display Port 1.4、HDMI 2.0b以及雙鏈DVI,最大支持7680*4320@60Hz輸出,性能上達(dá)到11TFLOPS。

在Titan X Pascal之外,桌面的GTX 1080 Ti顯卡也是GP102核心,除了顯存容量、位寬的變化之外,GP102核心的SM單元架構(gòu)也跟GP100核心不同,后者為了追求更高的計(jì)算性能,每組SM單元的CUDA核心數(shù)減少到了64個(gè),但集成了更多組SM單元,高達(dá)56組,而GP102核心雖然也是3584個(gè)CUDA核心總數(shù),但只有28組,每組SM單元的數(shù)量回歸到了Maxwell的128個(gè),所以這一代游戲及計(jì)算再次分離,本質(zhì)上來說GP100是真正的Pascal核心,而GP102核心是16nm加強(qiáng)版的Maxwell架構(gòu)。

從GTX 1080的GP104到GTX 1080 Ti的GP102核心,它們的SM單元架構(gòu)倒是一致的,只是CUDA核心數(shù)量的區(qū)別。

除此之外,GTX 1080系列顯卡在在技術(shù)上也比GTX 980系列有所增強(qiáng),使用了頻率更高的GDDR5X顯存及更先進(jìn)的內(nèi)存壓縮算法,改進(jìn)了異步運(yùn)算及對VR的支持。

2017年NVIDIA Volta:真正為計(jì)算而生的GPU,支持AI加速

在NVIDIA的路線圖上,原本Maxwell之后是Volta,后者技術(shù)邁進(jìn)的更多,但因?yàn)榉N種原因,Volta顯卡進(jìn)度不如預(yù)期,所以中間多了個(gè)Pascal顯卡,這也可以解釋為什么GP102/104核心的架構(gòu)其實(shí)比Maxwell沒什么質(zhì)的變化。

但是Volta就不同了,這又是一款真正為計(jì)算而生的顯卡架構(gòu)了,與Pascal相比,GV100核心的CUDA核心數(shù)一下子增加到了5120個(gè),盡管使用了16nm改良版的12nm FFN工藝,但它各方面規(guī)格都很驚人——815mm2核心面積、211億晶體管、5120個(gè)CUDA核心、15TFLOPS浮點(diǎn)性能等等。

在GV100大核心中,每組GPC單元是14個(gè)SM單元,總數(shù)應(yīng)該是84組SM單元,但是現(xiàn)在Tesla V100跟Tesla P100一樣都不是完全體,前者啟用了56組SM單元,后者啟用了80組SM單元,總計(jì)80x64=5120個(gè)CUDA核心。

除此之外還有FP64單元,GV100依然延續(xù)了GP100中FP32:FP64=2:1的比例,每個(gè)SM單元中有32個(gè)FP64單元,理論上有2688個(gè)FP64單元,實(shí)際啟用的是2560個(gè)。

更重要的是,Volta架構(gòu)在傳統(tǒng)的單雙精度計(jì)算之外還增加了專用的Tensor Core張量單元,用于深度學(xué)習(xí)、AI運(yùn)算等,在GV100大核心中,每組SM單元中還有8個(gè)Tensor單元,這樣整個(gè)SM單元中就是FP32:FP64:Tensor=64:32:8的比例存在,GV100也因此有了Tensor計(jì)算能力這個(gè)指標(biāo),Tesla P100的Tensor計(jì)算能力高達(dá)120TFLOPS,NVIDIA宣稱它的Tensor性能是Pascal架構(gòu)的12倍。

Volta架構(gòu)如此之特殊,以致于NVIDIA并沒有推出對應(yīng)的消費(fèi)級產(chǎn)品,除了TITAN V這一款顯卡,TITAN V從Tesla V100的4096-bit、16GB縮減為3072-bit、12GB的HBM2顯存,顯存頻率850MHz,等效數(shù)據(jù)頻率1700MHz,帶寬高達(dá)652.8GB/s,另外TITAN V的L2緩存減少到4.5MB,這些使得在深度學(xué)習(xí)運(yùn)算性能上稍不如Tesla V100(112TFLOPS),顯卡供電接口是6+8pin,顯卡TDP 250W,顯示接口為3個(gè)DP+1個(gè)HDMI。

2018年NVIDIA Turing架構(gòu):追光十二年,RTX全新品牌誕生

Volta這一代沒有什么主流游戲卡問世,但這也沒影響NVIDIA的顯卡布局,GTX 10系列顯卡時(shí)代恰逢礦卡市場再次火爆,導(dǎo)致GTX 1060等顯卡完全不愁銷路,2017到2018年上半年的時(shí)候NVIDIA及AMD都不擔(dān)心互相搶市場了,光是賣礦卡就大賺特賺了,所以GTX 10系列的Pascal顯卡升級換代周期長達(dá)2年多,發(fā)布2年之后不光沒有退市,還沒有降價(jià),簡直是顯卡市場上的奇跡。

不過2018年下半年了,礦卡崩了,NVIDIA及顯卡廠商即便有礦卡庫存問題,還是要推新架構(gòu),8月底的德國科隆游戲展上NVIDIA正式發(fā)布了Turing圖靈架構(gòu),當(dāng)然這次其實(shí)是游戲展之前的SIGRAPH大會(huì)上現(xiàn)發(fā)布了面向工作站的Quadro RTX 8000/6000系列專業(yè)卡。

對于圖靈顯卡,我們已經(jīng)很熟悉了,這一代顯卡最大的變化首先是全新的品牌命名,從GTX變成了RTX,而RTX代表就是實(shí)時(shí)光線追蹤技術(shù),因?yàn)檫@是圖靈顯卡技術(shù)升級最多的地方,NVIDIA CEO黃仁勛在發(fā)布會(huì)熱情表態(tài)圖靈是他們12年來GPU架構(gòu)變化最大的一次,原因就是RTX,通過專用的RT Core核心,NVIDIA實(shí)現(xiàn)了游戲中可用的實(shí)時(shí)光線追蹤渲染。

除了RTX之外,圖靈顯卡也支持Volta的Tensor Core,可以用于AI加速,NVIDIA之前也提供了多種顯卡可用的AI玩法,比如DLSS抗鋸齒技術(shù),不過相比RTX光追技術(shù),AI加速在游戲中應(yīng)用太少,不夠吸引人。

在SM單元架構(gòu)中,圖靈這一代又有所不同了,不同于Pascal架構(gòu)中的GP102/GP104核心,更像是Volta架構(gòu)的GV100大核心,因?yàn)槊拷MSM單元又變成了64個(gè)CUDA核心,其中RTX 2080 Ti使用的TU102核心一共分為6組GPC單元,每組GPC單元又擁有12個(gè)SM單元,一共是72個(gè)SM單元,但RTX 2080 Ti也只用到其中的68個(gè)而已,算下來68×64=4352個(gè)CUDA流處理器。

至于RTX 2080顯卡使用的TU104核心,完整版的TU104核心依然是6組GPC單元,不過每組GPC改為8個(gè)SM單元,一共是6×8=48個(gè),而RTX 2080的GPU核心是TU104-400,只用上了46組,還有預(yù)留有2組空缺的,46×64=2944個(gè),規(guī)模要比RTX 2080 Ti小多了。

支持RTX光追是圖靈顯卡的特色,不過RTX光追除了游戲數(shù)量的問題之外,還有一個(gè)問題就是它對性能的要求還是太高了,所以在圖靈顯卡這一代中NVIDIA的市場策略也不同,支持RTX技術(shù)的顯卡主要是RTX Titan、RTX 2080 Ti、RTX 2080、RTX 2070及RTX 2060,而不支持RTX的則變成了GTX 16系列,包括GTX 1660 Ti、GTX 1660及剛剛發(fā)布的GTX 1650顯卡。

總結(jié):五代GPU性能大幅提升,能效更高,但價(jià)格也更高

從2012年的Kepler顯卡到今天為止,NVIDIA的顯卡已經(jīng)推出了五代架構(gòu),如果算上每代中的大核心與游戲核心,那就是至少10款了,這些顯卡的制程工藝也從28nm一路升級到16nm、12nm。在游戲性能上,根據(jù)超能網(wǎng)的顯卡天梯榜,如今的RTX 2080 Ti顯卡的性能是GTX 480顯卡的7倍左右,而GPU的晶體管數(shù)量也從30億增長到了210億,與性能增幅基本同步。

如果考慮到性能、功耗,那么多年來NVIDIA顯卡的能效增長還是很明顯的,畢竟大核心的TDP功耗多年來一直維持在250-300W之間,但性能已經(jīng)增長了6-7倍。

此外,前面我們沒有詳細(xì)提及歷代顯卡的價(jià)格,但是這個(gè)趨勢也很明顯了,GTX 400到GTX 700階段中,高端顯卡的售價(jià)都是3999元,但是這幾年來價(jià)格已經(jīng)水水漲船高,NVIDIA這邊尤其明顯,Titan顯卡從最初7999元的價(jià)格一路漲到了2萬元,而主流市場上的旗艦顯卡價(jià)格也漲到了6000元以上,RTX 20這一代漲價(jià)更多,RTX 2080 Ti售價(jià)直奔9999元,這是以往Titan顯卡的級別了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 顯卡芯片
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    10944
  • 游戲開發(fā)
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    8194
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3680

    瀏覽量

    90479

原文標(biāo)題:【歷史】從GTX到RTX,NVIDIA GPU架構(gòu)的變遷史

文章出處:【微信號:TechSugar,微信公眾號:TechSugar】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

    EPYC9004處理器 6.7 Sapphire Rapids 微架構(gòu)Xeon處理器 6.8 Tesla Dojo超級計(jì)算機(jī)和D處理器 第7章 圖形計(jì)算的 GPU
    發(fā)表于 10-15 22:08

    暴漲預(yù)警!NVIDIA GPU供應(yīng)大跳水

    gpu
    jf_02331860
    發(fā)布于 :2024年07月26日 09:41:42

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    1.8TB的GPUGPU互連速度、InfiniBand網(wǎng)絡(luò)和NVIDIA Magnum IO?軟件的第五代NVLink技術(shù),GB200 NVL72性能顯著提升。 此外,GB200 N
    發(fā)表于 05-13 17:16

    NVIDIA推出兩款基于NVIDIA Ampere架構(gòu)的全新臺(tái)式機(jī)GPU

    兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。
    的頭像 發(fā)表于 04-26 11:25 ?516次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于
    的頭像 發(fā)表于 04-20 09:39 ?569次閱讀

    RTX 5880 Ada Generation GPU與RTX? A6000 GPU對比

    NVIDIA RTX? 5880 Ada Generation GPU 是目前國內(nèi)重量級 GPU,基于全新 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 04-19 10:20 ?1401次閱讀
    RTX 5880 Ada Generation <b class='flag-5'>GPU</b>與RTX? A6000 <b class='flag-5'>GPU</b>對比

    全新NVIDIA RTX A400和A1000 GPU全面加強(qiáng)AI設(shè)計(jì)與生產(chǎn)力工作流

    兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。
    的頭像 發(fā)表于 04-18 10:29 ?401次閱讀

    英偉達(dá)GTX 16系列GPU全面停產(chǎn),無替代型號

    品牌廠商,相關(guān) GPU 預(yù)計(jì)將會(huì)在 1 3 個(gè)月的時(shí)間內(nèi)消化完庫存。 實(shí)際上,去年 12 月就有消息稱英偉達(dá)計(jì)劃 2024 年第一季度開始
    的頭像 發(fā)表于 03-06 18:32 ?638次閱讀

    NVIDIA暫停生產(chǎn)GTX 16系列GPU,預(yù)計(jì)一三個(gè)月完成庫存消化

    如今,這些芯片剩余庫存已分配至各大AIC廠商運(yùn)作,預(yù)期在未來幾個(gè)月內(nèi)快速消耗完畢。事實(shí)上,早在去年12月,便傳出英偉達(dá)計(jì)劃在2024年第一季度終止生產(chǎn)GTX 16系列GPU的消息。
    的頭像 發(fā)表于 03-05 16:10 ?508次閱讀

    NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”

    根據(jù)各方信息和路線圖,NVIDIA預(yù)計(jì)會(huì)在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”。
    的頭像 發(fā)表于 03-04 09:33 ?1163次閱讀
    <b class='flag-5'>NVIDIA</b>將在今年第二季度發(fā)布Blackwell<b class='flag-5'>架構(gòu)</b>的新一代<b class='flag-5'>GPU</b>加速器“B100”

    NVIDIA的Maxwell GPU架構(gòu)功耗不可思議

    整整10年前的2013年2月19日,NVIDIA正式推出了新一代Maxwell GPU架構(gòu),它有著極高的能效,出場方式也非常特別。
    的頭像 發(fā)表于 02-19 16:39 ?875次閱讀
    <b class='flag-5'>NVIDIA</b>的Maxwell <b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>功耗不可思議

    巨頭豪購35萬塊NVIDIA最強(qiáng)GPU H100

    NVIDIA AI GPU無疑是當(dāng)下的硬通貨,科技巨頭小型企業(yè)都在搶。
    的頭像 發(fā)表于 01-29 09:58 ?954次閱讀
    巨頭豪購35萬塊<b class='flag-5'>NVIDIA</b>最強(qiáng)<b class='flag-5'>GPU</b> H100

    揭秘GPU: 高端GPU架構(gòu)設(shè)計(jì)的挑戰(zhàn)

    在計(jì)算領(lǐng)域,GPU(圖形處理單元)一直是性能飛躍的代表。眾所周知,高端GPU的設(shè)計(jì)充滿了挑戰(zhàn)。GPU架構(gòu)創(chuàng)新,為軟件承接大模型訓(xùn)練和推理場景的人工智能計(jì)算提供了持續(xù)提升的硬件基礎(chǔ)。
    的頭像 發(fā)表于 12-21 08:28 ?801次閱讀
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>設(shè)計(jì)的挑戰(zhàn)

    NVIDIA GPU的核心架構(gòu)架構(gòu)演進(jìn)

    在探討 NVIDIA GPU 架構(gòu)之前,我們先來了解一些相關(guān)的基本知識(shí)。GPU 的概念,是由 NVIDIA 公司在 1999 年發(fā)布 Gef
    發(fā)表于 11-21 09:40 ?1286次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心<b class='flag-5'>架構(gòu)</b>及<b class='flag-5'>架構(gòu)</b>演進(jìn)

    NVIDIA 校招 | 芯片架構(gòu)團(tuán)隊(duì)正在熱招!

    認(rèn)識(shí)我們 在 NVIDIA, 我們有這樣一個(gè)團(tuán)隊(duì) —— TPC Arch ( GPU 核心 TPC 架構(gòu) ) 團(tuán)隊(duì),各路大神在這里集結(jié),他們深度剖析 GPU 的性能瓶頸,潛心研究下一代
    的頭像 發(fā)表于 11-01 20:25 ?349次閱讀