精品久久久久久成人AV,麻豆精品,亚洲av无码片区一区二区三区

在現(xiàn)代GPU發(fā)展史上，2006年是一個(gè)不能錯(cuò)過的節(jié)點(diǎn)——這一年AMD以54億美元的代價(jià)收購了ATI公司，從此手握CPU及GPU兩張好牌，AMD此后一直以此為榮，強(qiáng)調(diào)他們是業(yè)界唯一能夠同時(shí)提供高性能CPU及高性能GPU的公司，CPU拳打NVIDIA，GPU腳踢英特爾。當(dāng)年另外一件事就是微軟在DX10 API上推出了統(tǒng)一渲染架構(gòu)，NVIDIA 2006年發(fā)布的G80架構(gòu)GeForce 8800 GTX顯卡率先支持統(tǒng)一渲染，從此NVIDIA的CUDA也閃亮登場了。

2006年發(fā)生的這兩件事本質(zhì)上沒什么關(guān)聯(lián)，但是回想起當(dāng)年及之后的GPU發(fā)展情況，總?cè)滩蛔″谙胍幌氯绻?dāng)年ATI沒被AMD收購，ATI、NVIDIA兩家GPU公司今天的發(fā)展會(huì)如何？因?yàn)樵?006年前后，ATI在獨(dú)顯GPU市場上的份額與NVIDIA并沒有多大差距，05年之前市場份額甚至還領(lǐng)先一些，但2006年被收購之后由于兩家公司需要整合，AMD/ATI兩邊的CPU、GPU產(chǎn)品路線圖都不免受到影響，也是從那個(gè)時(shí)候AMD顯卡的份額不斷下滑，與NVIDIA的差距不斷拉大，從曾經(jīng)的55開變成了46開、37開，直到今年初雙方的差距已經(jīng)是28開了。

Reddit上有帖子討論了2002年到2017年GPU市場的份額變化

NVIDIA做大靠的是AMD收購ATI的機(jī)遇嗎？也許有天時(shí)地利的因素，但從根本上來說雙方差距的拉大還是源于產(chǎn)品/技術(shù)的差異，NVIDIA在G80架構(gòu)之后就開始占上風(fēng)了，期間雖然也有GTX 480這樣的翻車事故，但總體上還是一路上揚(yáng)的，40nm Fermi費(fèi)米架構(gòu)之后Kepler、Maxwell、Pascal、Volta（這代只有Titan V這一個(gè)桌面版顯卡），再到去年的Turing圖靈顯卡，NVIDAI在GPU市場上的地位已經(jīng)穩(wěn)如狗了，AMD近幾代顯卡掀不起大風(fēng)大浪了。

NVIDIA的GPU路線圖已經(jīng)四五年沒更新了，最新的還是15年版

NVIDIA以往會(huì)在GTC大會(huì)上提前兩三年公布GPU路線圖，不過2015年之后更新過Pascal顯卡之后就不再推新的GPU路線圖了，Turing圖靈顯卡發(fā)布之前就沒在路線圖上出現(xiàn)過，圖靈之后的GPU架構(gòu)官方也是守口如瓶，目前的說法稱之為Amper安培，但最終是否如此還是未知數(shù)。

今天的超能課堂里我們就來回顧下NVIDIA GPU的發(fā)展過程，回頭來看下這10年中NVIDIA GPU都經(jīng)歷了怎樣的變化。同樣地，后續(xù)還有AMD的GPU發(fā)展路程姊妹篇，敬請期待。

NVIDIA G80到GF100架構(gòu)：40nm費(fèi)米GPU的教訓(xùn)

NVIDIA的GPU發(fā)展史少說也要從G80時(shí)代CUDA架構(gòu)開始講起，不過限于篇幅原因，這里不打算再挖墳這么深了，G80及衍生版的G92核心在NVIDIA GPU中非常經(jīng)典，馬甲卡當(dāng)初就是形容這一時(shí)期變化的，可以說花樣頻出，比現(xiàn)在的刀法精湛多了。

microway之前總結(jié)過GF100架構(gòu)及之前的NVIDIA GPU架構(gòu)情況

曾經(jīng)有段時(shí)間業(yè)界形容AMD、NVIDA在GPU策略上的不同是“AMD擅長小核心，性能適中，但是低功耗、NVIDIA偏重大核心，性能強(qiáng)，但功耗高、成本更貴”，NVIDIA在GT200核心上確實(shí)是大核心策略，在GF100核心上達(dá)到了巔峰，從SP單精度、DP雙精度配比上大家應(yīng)該可以看出來，這時(shí)候NVIDIA已經(jīng)在大幅提升GPU的計(jì)算性能了。

在40nm Fermi費(fèi)米架構(gòu)中，NVIDIA一下子將CUDA核心數(shù)提升到了512個(gè)，是GT200核心的兩倍，而且單雙精度達(dá)到了1：2，大量核心用于雙精度計(jì)算。但是第一代費(fèi)米核心的GTX 480顯卡也因此翻車了，還記得那個(gè)著名的顯卡紅外溫度100°C+的圖片嗎？說的就是GTX 480時(shí)代的事。

當(dāng)年的GTX 480顯卡（上）與GTX 580顯卡（下）

GTX 480在功耗、發(fā)熱上的翻車教訓(xùn)導(dǎo)致NVIDIA一度很難堪，直到后來推出了GTX 580顯卡才有所緩解。

總的來說，40nm費(fèi)米架構(gòu)這一代，NVIDIA在GPU設(shè)計(jì)上有了一次飛躍，規(guī)格大幅提升，不僅注重游戲性能，也重視計(jì)算性能，為此塞入了更多的雙精度計(jì)算單元，但也因此帶來了諸多問題，GTX 480翻車事故帶給NVIDIA很多教訓(xùn)，多多少少都影響了后來的GPU架構(gòu)設(shè)計(jì)。

2012年NVIDIA Kepler架構(gòu)：游戲、計(jì)算GPU分離，NVIDIA后發(fā)制人

距離GTX 580顯卡發(fā)布一年半時(shí)間后，2012年3月22日NVIDIA推出了GTX 680顯卡，由此28nm工藝的Kepler架構(gòu)閃亮登場。這時(shí)候AMD基于全新GCN架構(gòu)的HD 7970顯卡已經(jīng)發(fā)布將近3個(gè)月了（海外市場2011年12月底發(fā)布，國內(nèi)是次年1月初），后者當(dāng)時(shí)光芒萬丈，GCN架構(gòu)同時(shí)融合了計(jì)算及游戲的優(yōu)點(diǎn)，性能比之前的VLIW架構(gòu)顯卡有了明顯進(jìn)步，而且還首發(fā)了臺(tái)積電28nm工藝、PCIe 3.0等等。

GTX 680發(fā)布于2012年3月底

GTX 680顯卡使用的是Kepler家族中的GK104核心，但GK104反應(yīng)的架構(gòu)設(shè)計(jì)思路早在GF100到GF104、GF114架構(gòu)中就有所體現(xiàn)了，那就是減少SM單元數(shù)（NVIDA這代的正式稱呼是SMX單元），提升每組SM單元中的CUDA核心數(shù)，GF100時(shí)代每組SM單元還是32個(gè)CUDA核心，GF104/GF114則是每組SM單元48個(gè)CUDA核心，而到了Kepler時(shí)代，每組SM單元的CUDA核心數(shù)一下子提升到了192個(gè)，紋理單元也增加到16組，前端渲染單元也增加到四組，同時(shí)SFU以及LD/ST單元也是水漲船高，增加到32組，紋理單元再次翻倍，8組SMX單元總計(jì)有1536個(gè)流處理器、128個(gè)紋理單元以及32個(gè)ROP單元。

GF110 SM單元（左）、GF114 SM單元（中）以及GK104 SMX單元（右）對比

除了SM單元大變之外，NVIDIA在Kepler架構(gòu)中還做了一項(xiàng)重要改變——從Kepler開始，NVIDIA以往堅(jiān)持的Core：Shader=1：2的分頻模式已經(jīng)沒有了，以前采用這種方式是因?yàn)楹诵念l率不能大幅提高，為了提高性能就必須讓CUDA的核心頻率增加一倍，但是這也意味著更高的能耗。

GK104架構(gòu)的一大特點(diǎn)就是CUDA規(guī)模大幅增長

GTX 680中NVIDIA將SMX單元中的CUDA核心數(shù)提高至原來的3倍，而且核心頻率也達(dá)到1GHz以上，不再需要Shader異步了，二者將同頻運(yùn)行，有助于降低顯卡功耗，因此GTX 680在CUDA數(shù)量暴增的同時(shí)功耗更低，而每瓦性能比更是提高了一倍。

在Kepler時(shí)代，NVIDIA還改變了一個(gè)潛規(guī)則——以往GPU發(fā)布是首發(fā)大核心，比如費(fèi)米時(shí)代的GF100到GF104/GF106，而Kepler時(shí)代是首發(fā)GK104，更大的核心GK110是后面才發(fā)布的。不過這次改變也只是Kepler時(shí)代出現(xiàn)的，在后面的Pascal、Volta及現(xiàn)在的Turing中多是大核心先發(fā)（GTC大會(huì)上首發(fā)，Tesla計(jì)算卡先用），GX104/106核心后續(xù)才會(huì)跟進(jìn)。

GTX 680顯卡的發(fā)布解決了NVIDIA的燃眉之急，游戲性能小幅領(lǐng)先AMD的HD 7970，扳回了一局，不過計(jì)算性能上不如后者，畢竟GK104并不是為計(jì)算而生的架構(gòu)。對NVIDIA來說，Kepler是他們真正貫徹了游戲、計(jì)算卡徹底分離的產(chǎn)品，想要更好的計(jì)算性能？那就找大核心的GK110核心吧。

2012的GTC大會(huì)上NVIDIA就展示了GK110大核心的威力，年底的SC超算大會(huì)上正式發(fā)布了基于GK110的Tesla K20X及Tesla K20加速卡，完整版GK110核心擁有15組SMX單元，總計(jì)2880個(gè)CUDA核心，集成了71億晶體管，核心面積也達(dá)到了551mm^2。

從GTX到NVIDIA GPU架構(gòu)的變遷史

GK110核心的SMX單元中依然有192個(gè)CUDA核心，但DP雙精度單元數(shù)量從GK104的8個(gè)提升到了64組，這樣一來但雙精度的比例就變成了1：3，雖然還沒有達(dá)到費(fèi)米時(shí)代1：2那么夸張的地步，但遠(yuǎn)高于GK104的1：24了，再加上總性能的提升，GK110核心的計(jì)算性能總體來說還是進(jìn)步的。

此外，GK110不僅僅是計(jì)算規(guī)模的增加，還增加了一些計(jì)算專用的新技術(shù)，比如NVIDIA開發(fā)的Grid Management Unit、GPUDirect、Hyper-Q以及Dynamic Parallelism動(dòng)態(tài)并行技術(shù)。

在消費(fèi)級顯卡中，GK110首先用于2013年3月發(fā)布的GTX Titan顯卡中，自此NVIDIA也開辟了一條新的產(chǎn)品線——Titan顯卡，售價(jià)是999美元起步，比當(dāng)時(shí)的高端顯卡翻倍。

此外，Titan顯卡的公版設(shè)計(jì)也與之前的顯卡大為不同，并影響了后面的GTX XX80/80 Ti系列公版顯卡的設(shè)計(jì)。

Titan顯卡不是一般人買得起的，2013年11月份NVIDIA又推出了基于GK110核心的GTX 780系列顯卡，其中GTX 780 Ti使用的是GK110-425-B1新核心，與此前的GK110還有所不同，核心面積更小一些，而且啟用了完整版SMX單元，導(dǎo)致它的規(guī)格實(shí)際上比Titan顯卡更好，性能更強(qiáng)，以致于后面NVIDIA又推出了完整版GK110核心的Titan Black顯卡。

在Kpler架構(gòu)的尾聲階段，NVIDIA還推出了GK210核心，它可以說是GK110核心的再改良版，也被稱為Kepler 2.0，CUDA計(jì)算能力從GK104的3.0、GK110的3.5升級到了CUDA 3.7。

此外，NVIDIA并沒有改變CUDA核心數(shù)或者CUDA的架構(gòu)，他們改進(jìn)的只是SMX單元之間的內(nèi)存子系統(tǒng)，GK110（B）的SMX單元擁有256KB寄存器文件，64KB共享緩存，GK210的規(guī)模翻倍，擁有512KB寄存器文件，128KB共享緩存，因此它改進(jìn)了SMX單元的數(shù)據(jù)吞吐量，提高了效率，確保CUDA核心的更容易頻繁使用。

不過GK210架構(gòu)主要是用在計(jì)算卡上，消費(fèi)級顯卡中沒有，所以DIY玩家的影響力非常少，倒是有同樣Kpler 2.0的GK208等核心用于低端的GT 740/730/720及移動(dòng)版產(chǎn)品中。

2014年NVIDIA Maxwell架構(gòu)：SMM單元又重組，更注重能效

在Kpler時(shí)代，NVIDIA顯卡從AMD HD 7970顯卡的陰影中走出來了，GK104核心的GTX 680追上了HD 7970，但沒有全面優(yōu)勢，GK110大核心的GTX 780系列性能上有絕對優(yōu)勢了，只是功耗要高，但此時(shí)的NVIDIA已經(jīng)掌握主動(dòng)權(quán)了，畢竟AMD后來推出HD 7970繼任者的R9 290X同樣存在功耗、發(fā)熱的問題。

根據(jù)NVIDIA的路線圖，Kepler之后就是Maxwell架構(gòu)了，這時(shí)候制程工藝還是28nm，Maxwell架構(gòu)的重點(diǎn)則是改進(jìn)能效。在這個(gè)階段，NVIDIA又上演了一次出人意料的舉動(dòng)，Maxwell架構(gòu)既不是GM200也不是GM204，而是GM107，用在了GTX 750 Ti及GTX 750顯卡，從命名上也不是更新一代的，還是沿用了GTX 700系列的。

GM107核心使用的是Maxwel一代架構(gòu)，其最大變化就是將SM單元（這一代稱為SMM單元）再次重組，從Kpler時(shí)代的每組SM單元192個(gè)CUDA核心減少到了每組128個(gè)，但是每個(gè)SMM單元將將擁有更多的邏輯控制電路，便于精確控制，這使得GM107核心的每核心效能提升了35%，每瓦功耗比提升了一倍。

這種全新的 SM 架構(gòu)可大幅提升節(jié)能性，而且在著色器有限的工作場合中可令每個(gè)CUDA核心的性能提升 35%。實(shí)現(xiàn)這些進(jìn)步需要對架構(gòu)進(jìn)行大量重大更改。 NVIDIA重新編寫了SM調(diào)度器架構(gòu)和算法，使其更加智能，避免了不必要的停頓，同時(shí)進(jìn)一步降低了調(diào)度每條指令所需的能耗。

當(dāng)然，SMM單元也有很多改進(jìn)的地方，比如L2緩存容量從之前的256KB大幅增加到2MB，H.264及NVENC編碼/解碼能力也提升了，指令周期性能也改善了。

反映到顯卡上，GTX 750 Ti及GTX 750顯卡擁有極好的能效比，游戲功耗比同期的HD 7770、GTX 660甚至GTX 650 Ti功耗要低很多，而且溫度、噪音也非常低，這款顯卡可以說是近年來的一代經(jīng)典。

在GM107核心的Maxwell一代架構(gòu)之后，NVIDIA又在2014年9月份推出了GTX 980/970顯卡，它們使用的是GM204核心，也被稱為Maxwell 2.0架構(gòu)。整個(gè)GM204核心可分為4組GPC單元，每組GPC則包含4個(gè)SMM單元，每個(gè)SMM單元又包含128個(gè)CUDA核心，8個(gè)紋理單元以及一個(gè)多邊形引擎單元（PolyMorph Engine 3.0），總計(jì)2048個(gè)CUDA核心，128個(gè)紋理單元。

在桌面級顯卡命名上，NVIDIA這次跳過了GTX 800系列（OEM及移動(dòng)版GPU上有GTX 800系列），直接進(jìn)入了GTX 900系列，GTX 980使用的是GM204-400核心，搭配4GB GDDR5顯存，但它的性能已經(jīng)超過了GK110大核心的GTX 780 Ti顯卡，TDP則從250W直降到165W，整機(jī)功耗測試中也印證了功耗的大幅下降，可以說能效優(yōu)勢非常明顯，不論是對AMD的顯卡還是對自家上代顯卡而言都是如此，能效簡直是碾壓般的存在。

在GM107、GM204、GM206核心之后，NVIDIA在Titan X顯卡上又使用了GM200核心，而且是完整版的GM200-400核心，該卡發(fā)布于2015年3月18日,它使用的GM200核心擁有6組GPC單元，24組SMM單元，每組SMM單元128個(gè)CUDA核心，總計(jì)3072個(gè)CUDA核心，而顯存控制器也從之前4組64bit GDDR5變成了6組，位寬384bit。

不過6月1日NVIDIA又推出了GTX 980 Ti顯卡，使用的也是GM200大核心，但是閹割版的GM200-310核心，CUDA核心數(shù)為2816個(gè)。GTX 980 Ti顯卡的詳細(xì)規(guī)格如下：

2016年NVIDIA Pascal架構(gòu)：16nm制程紅利，計(jì)算游戲核心再分離

時(shí)間很快到了2016年，4月初的GTC大會(huì)上NVIDIA發(fā)布了Tesla P100加速卡，使用的是GP100核心，這是pascal架構(gòu)的大核心，制程工藝升級到了16nm，這種工藝則是高性能工藝，所以在Pascal顯卡上其GPU頻率大幅提升，起步就達(dá)到了1.6GHz，加速頻率達(dá)到2GHz稀松平常。

在Pascal顯卡上，最大的特色就是先進(jìn)工藝帶來的制程紅利，不過這時(shí)候的GPU架構(gòu)再次出現(xiàn)了游戲、計(jì)算的分離，出現(xiàn)了GP100、GP102兩種大核心，而且使用的架構(gòu)、顯存都是不同的，其中GP100是純粹的計(jì)算核心，不僅有3584個(gè)單精度CUDA核心，雙精度核心也達(dá)到了1792個(gè)，重新回到了1：2的比例。

此外，計(jì)算用的GP100核心使用的是HBM 2顯存，等效位寬4096bit，帶寬達(dá)到了720GB/s，雖然沒有實(shí)現(xiàn)HBM2顯存1TB/s的滿速帶寬，但帶寬已經(jīng)比當(dāng)時(shí)的GDDR5顯存大幅提升了，只不過HBM2顯存實(shí)在太貴了，別說2016年，直到2019年的今天都遠(yuǎn)未普及。

2016年7月份NVIDIA推出了Titan X Pascal顯卡，它使用的也是16nm Pascal架構(gòu)，但核心是GP102，全規(guī)格的GP102核心確實(shí)可以稱為目前最強(qiáng)大的微架構(gòu)：120億晶體管、3584個(gè)流處理器、12GB GDDR5X 顯存、384-Bit位寬，相比Tesla P10的HBM 2顯存和NVLink有所妥協(xié)，所以顯存帶寬為480GB/s，8+6Pin供電，顯示接口提供Display Port 1.4、HDMI 2.0b以及雙鏈DVI，最大支持7680*4320@60Hz輸出，性能上達(dá)到11TFLOPS。

在Titan X Pascal之外，桌面的GTX 1080 Ti顯卡也是GP102核心，除了顯存容量、位寬的變化之外，GP102核心的SM單元架構(gòu)也跟GP100核心不同，后者為了追求更高的計(jì)算性能，每組SM單元的CUDA核心數(shù)減少到了64個(gè)，但集成了更多組SM單元，高達(dá)56組，而GP102核心雖然也是3584個(gè)CUDA核心總數(shù)，但只有28組，每組SM單元的數(shù)量回歸到了Maxwell的128個(gè)，所以這一代游戲及計(jì)算再次分離，本質(zhì)上來說GP100是真正的Pascal核心，而GP102核心是16nm加強(qiáng)版的Maxwell架構(gòu)。

從GTX 1080的GP104到GTX 1080 Ti的GP102核心，它們的SM單元架構(gòu)倒是一致的，只是CUDA核心數(shù)量的區(qū)別。

除此之外，GTX 1080系列顯卡在在技術(shù)上也比GTX 980系列有所增強(qiáng)，使用了頻率更高的GDDR5X顯存及更先進(jìn)的內(nèi)存壓縮算法，改進(jìn)了異步運(yùn)算及對VR的支持。

2017年NVIDIA Volta：真正為計(jì)算而生的GPU，支持AI加速

在NVIDIA的路線圖上，原本Maxwell之后是Volta，后者技術(shù)邁進(jìn)的更多，但因?yàn)榉N種原因，Volta顯卡進(jìn)度不如預(yù)期，所以中間多了個(gè)Pascal顯卡，這也可以解釋為什么GP102/104核心的架構(gòu)其實(shí)比Maxwell沒什么質(zhì)的變化。

但是Volta就不同了，這又是一款真正為計(jì)算而生的顯卡架構(gòu)了，與Pascal相比，GV100核心的CUDA核心數(shù)一下子增加到了5120個(gè)，盡管使用了16nm改良版的12nm FFN工藝，但它各方面規(guī)格都很驚人——815mm2核心面積、211億晶體管、5120個(gè)CUDA核心、15TFLOPS浮點(diǎn)性能等等。

在GV100大核心中，每組GPC單元是14個(gè)SM單元，總數(shù)應(yīng)該是84組SM單元，但是現(xiàn)在Tesla V100跟Tesla P100一樣都不是完全體，前者啟用了56組SM單元，后者啟用了80組SM單元，總計(jì)80x64=5120個(gè)CUDA核心。

除此之外還有FP64單元，GV100依然延續(xù)了GP100中FP32：FP64=2：1的比例，每個(gè)SM單元中有32個(gè)FP64單元，理論上有2688個(gè)FP64單元，實(shí)際啟用的是2560個(gè)。

更重要的是，Volta架構(gòu)在傳統(tǒng)的單雙精度計(jì)算之外還增加了專用的Tensor Core張量單元，用于深度學(xué)習(xí)、AI運(yùn)算等，在GV100大核心中，每組SM單元中還有8個(gè)Tensor單元，這樣整個(gè)SM單元中就是FP32：FP64：Tensor=64：32：8的比例存在，GV100也因此有了Tensor計(jì)算能力這個(gè)指標(biāo)，Tesla P100的Tensor計(jì)算能力高達(dá)120TFLOPS，NVIDIA宣稱它的Tensor性能是Pascal架構(gòu)的12倍。

Volta架構(gòu)如此之特殊，以致于NVIDIA并沒有推出對應(yīng)的消費(fèi)級產(chǎn)品，除了TITAN V這一款顯卡，TITAN V從Tesla V100的4096-bit、16GB縮減為3072-bit、12GB的HBM2顯存，顯存頻率850MHz，等效數(shù)據(jù)頻率1700MHz，帶寬高達(dá)652.8GB/s，另外TITAN V的L2緩存減少到4.5MB，這些使得在深度學(xué)習(xí)運(yùn)算性能上稍不如Tesla V100（112TFLOPS），顯卡供電接口是6+8pin，顯卡TDP 250W，顯示接口為3個(gè)DP+1個(gè)HDMI。

2018年NVIDIA Turing架構(gòu)：追光十二年，RTX全新品牌誕生

Volta這一代沒有什么主流游戲卡問世，但這也沒影響NVIDIA的顯卡布局，GTX 10系列顯卡時(shí)代恰逢礦卡市場再次火爆，導(dǎo)致GTX 1060等顯卡完全不愁銷路，2017到2018年上半年的時(shí)候NVIDIA及AMD都不擔(dān)心互相搶市場了，光是賣礦卡就大賺特賺了，所以GTX 10系列的Pascal顯卡升級換代周期長達(dá)2年多，發(fā)布2年之后不光沒有退市，還沒有降價(jià)，簡直是顯卡市場上的奇跡。

不過2018年下半年了，礦卡崩了，NVIDIA及顯卡廠商即便有礦卡庫存問題，還是要推新架構(gòu)，8月底的德國科隆游戲展上NVIDIA正式發(fā)布了Turing圖靈架構(gòu)，當(dāng)然這次其實(shí)是游戲展之前的SIGRAPH大會(huì)上現(xiàn)發(fā)布了面向工作站的Quadro RTX 8000/6000系列專業(yè)卡。

對于圖靈顯卡，我們已經(jīng)很熟悉了，這一代顯卡最大的變化首先是全新的品牌命名，從GTX變成了RTX，而RTX代表就是實(shí)時(shí)光線追蹤技術(shù)，因?yàn)檫@是圖靈顯卡技術(shù)升級最多的地方，NVIDIA CEO黃仁勛在發(fā)布會(huì)熱情表態(tài)圖靈是他們12年來GPU架構(gòu)變化最大的一次，原因就是RTX，通過專用的RT Core核心，NVIDIA實(shí)現(xiàn)了游戲中可用的實(shí)時(shí)光線追蹤渲染。

除了RTX之外，圖靈顯卡也支持Volta的Tensor Core，可以用于AI加速，NVIDIA之前也提供了多種顯卡可用的AI玩法，比如DLSS抗鋸齒技術(shù)，不過相比RTX光追技術(shù)，AI加速在游戲中應(yīng)用太少，不夠吸引人。

在SM單元架構(gòu)中，圖靈這一代又有所不同了，不同于Pascal架構(gòu)中的GP102/GP104核心，更像是Volta架構(gòu)的GV100大核心，因?yàn)槊拷MSM單元又變成了64個(gè)CUDA核心，其中RTX 2080 Ti使用的TU102核心一共分為6組GPC單元，每組GPC單元又擁有12個(gè)SM單元，一共是72個(gè)SM單元，但RTX 2080 Ti也只用到其中的68個(gè)而已，算下來68×64=4352個(gè)CUDA流處理器。

至于RTX 2080顯卡使用的TU104核心，完整版的TU104核心依然是6組GPC單元，不過每組GPC改為8個(gè)SM單元，一共是6×8=48個(gè)，而RTX 2080的GPU核心是TU104-400，只用上了46組，還有預(yù)留有2組空缺的，46×64=2944個(gè)，規(guī)模要比RTX 2080 Ti小多了。

支持RTX光追是圖靈顯卡的特色，不過RTX光追除了游戲數(shù)量的問題之外，還有一個(gè)問題就是它對性能的要求還是太高了，所以在圖靈顯卡這一代中NVIDIA的市場策略也不同，支持RTX技術(shù)的顯卡主要是RTX Titan、RTX 2080 Ti、RTX 2080、RTX 2070及RTX 2060，而不支持RTX的則變成了GTX 16系列，包括GTX 1660 Ti、GTX 1660及剛剛發(fā)布的GTX 1650顯卡。

總結(jié)：五代GPU性能大幅提升，能效更高，但價(jià)格也更高

從2012年的Kepler顯卡到今天為止，NVIDIA的顯卡已經(jīng)推出了五代架構(gòu)，如果算上每代中的大核心與游戲核心，那就是至少10款了，這些顯卡的制程工藝也從28nm一路升級到16nm、12nm。在游戲性能上，根據(jù)超能網(wǎng)的顯卡天梯榜，如今的RTX 2080 Ti顯卡的性能是GTX 480顯卡的7倍左右，而GPU的晶體管數(shù)量也從30億增長到了210億，與性能增幅基本同步。

如果考慮到性能、功耗，那么多年來NVIDIA顯卡的能效增長還是很明顯的，畢竟大核心的TDP功耗多年來一直維持在250-300W之間，但性能已經(jīng)增長了6-7倍。

此外，前面我們沒有詳細(xì)提及歷代顯卡的價(jià)格，但是這個(gè)趨勢也很明顯了，GTX 400到GTX 700階段中，高端顯卡的售價(jià)都是3999元，但是這幾年來價(jià)格已經(jīng)水水漲船高，NVIDIA這邊尤其明顯，Titan顯卡從最初7999元的價(jià)格一路漲到了2萬元，而主流市場上的旗艦顯卡價(jià)格也漲到了6000元以上，RTX 20這一代漲價(jià)更多，RTX 2080 Ti售價(jià)直奔9999元，這是以往Titan顯卡的級別了。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

顯卡芯片

顯卡芯片

+關(guān)注

關(guān)注
0

文章
12

瀏覽量
10944
游戲開發(fā)

游戲開發(fā)

+關(guān)注

關(guān)注
0

文章
27

瀏覽量
8194
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3680

瀏覽量
90479

原文標(biāo)題：【歷史】從GTX到RTX，NVIDIA GPU架構(gòu)的變遷史

文章出處：【微信號：TechSugar，微信公眾號：TechSugar】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

EPYC9004處理器 6.7 Sapphire Rapids 微架構(gòu)Xeon處理器 6.8 Tesla Dojo超級計(jì)算機(jī)和D處理器第7章從圖形到計(jì)算的 GPU

發(fā)表于 10-15 22:08

暴漲預(yù)警！NVIDIA GPU供應(yīng)大跳水

gpu

jf_02331860

發(fā)布于 :2024年07月26日 09:41:42

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

1.8TB的GPU到GPU互連速度、InfiniBand網(wǎng)絡(luò)和NVIDIA Magnum IO?軟件的第五代NVLink技術(shù)，GB200 NVL72性能顯著提升。此外，GB200 N

發(fā)表于 05-13 17:16

NVIDIA推出兩款基于NVIDIA Ampere架構(gòu)的全新臺(tái)式機(jī)GPU

兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。

發(fā)表于 04-26 11:25 ?516次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實(shí)踐中，唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于

發(fā)表于 04-20 09:39 ?569次閱讀

RTX 5880 Ada Generation GPU與RTX? A6000 GPU對比

NVIDIA RTX? 5880 Ada Generation GPU 是目前國內(nèi)重量級 GPU，基于全新 NVIDIA Ada Lovelace

發(fā)表于 04-19 10:20 ?1401次閱讀

全新NVIDIA RTX A400和A1000 GPU全面加強(qiáng)AI設(shè)計(jì)與生產(chǎn)力工作流

兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。

發(fā)表于 04-18 10:29 ?401次閱讀

英偉達(dá)GTX 16系列GPU全面停產(chǎn)，無替代型號

品牌廠商，相關(guān) GPU 預(yù)計(jì)將會(huì)在 1 到 3 個(gè)月的時(shí)間內(nèi)消化完庫存。實(shí)際上，去年 12 月就有消息稱英偉達(dá)計(jì)劃從 2024 年第一季度開始

發(fā)表于 03-06 18:32 ?638次閱讀

NVIDIA暫停生產(chǎn)GTX 16系列GPU，預(yù)計(jì)一到三個(gè)月完成庫存消化

如今，這些芯片剩余庫存已分配至各大AIC廠商運(yùn)作，預(yù)期在未來幾個(gè)月內(nèi)快速消耗完畢。事實(shí)上，早在去年12月，便傳出英偉達(dá)計(jì)劃在2024年第一季度終止生產(chǎn)GTX 16系列GPU的消息。

發(fā)表于 03-05 16:10 ?508次閱讀

NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”

根據(jù)各方信息和路線圖，NVIDIA預(yù)計(jì)會(huì)在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”。

發(fā)表于 03-04 09:33 ?1163次閱讀

NVIDIA的Maxwell GPU架構(gòu)功耗不可思議

整整10年前的2013年2月19日，NVIDIA正式推出了新一代Maxwell GPU架構(gòu)，它有著極高的能效，出場方式也非常特別。

發(fā)表于 02-19 16:39 ?875次閱讀

巨頭豪購35萬塊NVIDIA最強(qiáng)GPU H100

NVIDIA AI GPU無疑是當(dāng)下的硬通貨，從科技巨頭到小型企業(yè)都在搶。

發(fā)表于 01-29 09:58 ?954次閱讀

揭秘GPU：高端GPU架構(gòu)設(shè)計(jì)的挑戰(zhàn)

在計(jì)算領(lǐng)域，GPU（圖形處理單元）一直是性能飛躍的代表。眾所周知，高端GPU的設(shè)計(jì)充滿了挑戰(zhàn)。GPU的架構(gòu)創(chuàng)新，為軟件承接大模型訓(xùn)練和推理場景的人工智能計(jì)算提供了持續(xù)提升的硬件基礎(chǔ)。

發(fā)表于 12-21 08:28 ?801次閱讀

NVIDIA GPU的核心架構(gòu)及架構(gòu)演進(jìn)

在探討 NVIDIA GPU 架構(gòu)之前，我們先來了解一些相關(guān)的基本知識(shí)。GPU 的概念，是由 NVIDIA 公司在 1999 年發(fā)布 Gef

發(fā)表于 11-21 09:40 ?1286次閱讀

NVIDIA 校招 | 芯片架構(gòu)團(tuán)隊(duì)正在熱招！

認(rèn)識(shí)我們在 NVIDIA, 我們有這樣一個(gè)團(tuán)隊(duì) —— TPC Arch ( GPU 核心 TPC 架構(gòu) ) 團(tuán)隊(duì)，各路大神在這里集結(jié)，他們深度剖析 GPU 的性能瓶頸，潛心研究下一代

發(fā)表于 11-01 20:25 ?349次閱讀