來源:新浪VR
在Reddit問答中,NVIDIA回答了游戲玩家和新聞界最棘手的問題,包括SM結(jié)構(gòu),內(nèi)存緩沖區(qū),RTX IO等。第一個問題是相對于RTX 3080基本上沒有變化的內(nèi)存緩沖區(qū)到它的前身。
NVIDIA的賈斯汀·沃克(Justin Walker)在回答該問題時解釋說,根據(jù)該公司的分析,10GB足以以4K超高速度運行所有現(xiàn)有和即將推出的游戲,而不會遇到任何內(nèi)存瓶頸。此外,他還透露,所有最新的AAA游戲,例如《古墓麗影》,《地鐵出埃及記》,《奧德賽》,《無主之地3》,在RTX 3080(4K)上只有4-6GB的內(nèi)存使用情況下都能很好地運行。最后,沃克承認(rèn),擁有更多的內(nèi)存總是更好,但是將其增加到10GB以上將使3080不必要地變得更高。
[Justin Walker] 我們一直在分析最新游戲的內(nèi)存需求,并定期與游戲開發(fā)者進(jìn)行審查,以了解他們對當(dāng)前和即將推出的游戲的內(nèi)存需求。3080的目標(biāo)是以最高可能的價格最大化所有設(shè)置,以高達(dá)4k的分辨率提供出色的性能。
為此,您需要一個功能強大的GPU,具有高速內(nèi)存和足夠的內(nèi)存以滿足游戲需求。舉幾個例子-如果您看《古墓麗影》,《刺客信條:奧德賽》,《地鐵出埃及記》,《德軍總部》,《戰(zhàn)爭機器5》,《無主之地3》和《荒野大鏢客2》,它們在3080上以4k的最大設(shè)置運行(包括任何適用的高價) res texture packs)和RTX On(如果游戲支持),您將獲得60-100fps的范圍,并使用4GB至6GB的任何內(nèi)存。
額外的內(nèi)存總是很不錯,但是會增加顯卡的價格,因此我們需要找到合適的平衡點。
安培流多處理器(SM)
每個SM有兩個數(shù)據(jù)路徑或流水線。四個分區(qū)中的每個分區(qū)都由兩個ALU集群組成:一組16個FP32內(nèi)核以及一組32個FP32和INT16。作為這種新分區(qū)的結(jié)果,每個Ampere SM分區(qū)可以每個時鐘執(zhí)行32條FP32指令,或者每個周期執(zhí)行16條FP32和16條INT32指令。實際上,您要用整數(shù)性能來換取兩倍的浮點功能。幸運的是,由于大多數(shù)圖形工作負(fù)載都是FP32,因此應(yīng)該可以發(fā)揮NVIDIA的優(yōu)勢。
總體而言,所有四個SM分區(qū)組合在一起可以每個時鐘執(zhí)行128個FP32操作或每個時鐘執(zhí)行64個FP32和64個INT32操作。
感謝Andreas Schilling的樣機
與Turing SM相比,Ampere 30系列SM的主要設(shè)計目標(biāo)之一是實現(xiàn)FP32操作的兩倍吞吐量。為了實現(xiàn)此目標(biāo),Ampere SM包括針對FP32和INT32操作的新數(shù)據(jù)路徑設(shè)計。每個分區(qū)中的一個數(shù)據(jù)路徑由16個FP32 CUDA內(nèi)核組成,每個時鐘能夠執(zhí)行16個FP32操作。另一個數(shù)據(jù)路徑包括16個FP32 CUDA內(nèi)核和16個INT32內(nèi)核。作為這種新設(shè)計的結(jié)果,每個Ampere SM分區(qū)每個時鐘能夠執(zhí)行32個FP32操作,或者每個時鐘能夠執(zhí)行16個FP32和16 INT32操作。所有四個SM分區(qū)組合在一起,每個時鐘可執(zhí)行128 FP32操作,是Turing SM FP32速率的兩倍,或者每個時鐘執(zhí)行64 FP32和64 INT32操作。
要使數(shù)學(xué)吞吐量增加一倍,就需要將支持它的數(shù)據(jù)路徑增加一倍,這就是為什么Ampere SM還將SM的共享內(nèi)存和L1緩存性能提高一倍的原因。(每個Ampere SM為128字節(jié)/時鐘,而在Turing中為64字節(jié)/時鐘)。GeForce RTX 3080的總L1帶寬為219 GB /秒,而GeForce RTX 2080 Super則為116 GB /秒。
GPC是主要的高級硬件模塊,所有關(guān)鍵圖形處理單元都位于GPC內(nèi)部。每個GPC都有一個專用的光柵引擎,現(xiàn)在還包括兩個ROP分區(qū)(每個分區(qū)包含八個ROP單元),這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關(guān)NVIDIA Ampere架構(gòu)的更多詳細(xì)信息,請參見NVIDIA的Ampere架構(gòu)白皮書,該白皮書將在未來幾天內(nèi)發(fā)布。
NVIDIA的Tony Tamasi
為了允許使用兩個數(shù)據(jù)路徑和2倍的FP32性能,L1緩存帶寬(和相關(guān)的共享內(nèi)存)也必須加倍:每個Ampere SM 128字節(jié)/時鐘,而Turing中64字節(jié)/時鐘。RTX 3080的L1總帶寬為219 GB /秒,而RTX 2080 Super的總L1帶寬為116 GB /秒。
柵格后端也被拋光?,F(xiàn)在,每個GPC都有一個帶有兩個ROP分區(qū)的柵格引擎,每個分區(qū)打包八個ROP。這意味著您有16個ROP,而不是每個32位內(nèi)存控制器8個。這導(dǎo)致RTX 3080的總ROP計數(shù)為160,而3090的總ROP計數(shù)為192。