NVIDIA的Ampere SM詳細(xì)說明以及RTX 3080限于10GB內(nèi)存的原因

VR/AR

2020

09/06

19:15

新浪VR

評(píng)論

來源：新浪VR

在Reddit問答中，NVIDIA回答了游戲玩家和新聞界最棘手的問題，包括SM結(jié)構(gòu)，內(nèi)存緩沖區(qū)，RTX IO等。第一個(gè)問題是相對(duì)于RTX 3080基本上沒有變化的內(nèi)存緩沖區(qū)到它的前身。

NVIDIA的賈斯汀·沃克（Justin Walker）在回答該問題時(shí)解釋說，根據(jù)該公司的分析，10GB足以以4K超高速度運(yùn)行所有現(xiàn)有和即將推出的游戲，而不會(huì)遇到任何內(nèi)存瓶頸。此外，他還透露，所有最新的AAA游戲，例如《古墓麗影》，《地鐵出埃及記》，《奧德賽》，《無主之地3》，在RTX 3080（4K）上只有4-6GB的內(nèi)存使用情況下都能很好地運(yùn)行。最后，沃克承認(rèn)，擁有更多的內(nèi)存總是更好，但是將其增加到10GB以上將使3080不必要地變得更高。

[Justin Walker] 我們一直在分析最新游戲的內(nèi)存需求，并定期與游戲開發(fā)者進(jìn)行審查，以了解他們對(duì)當(dāng)前和即將推出的游戲的內(nèi)存需求。3080的目標(biāo)是以最高可能的價(jià)格最大化所有設(shè)置，以高達(dá)4k的分辨率提供出色的性能。

為此，您需要一個(gè)功能強(qiáng)大的GPU，具有高速內(nèi)存和足夠的內(nèi)存以滿足游戲需求。舉幾個(gè)例子-如果您看《古墓麗影》，《刺客信條：奧德賽》，《地鐵出埃及記》，《德軍總部》，《戰(zhàn)爭(zhēng)機(jī)器5》，《無主之地3》和《荒野大鏢客2》，它們?cè)?080上以4k的最大設(shè)置運(yùn)行（包括任何適用的高價(jià)） res texture packs）和RTX On（如果游戲支持），您將獲得60-100fps的范圍，并使用4GB至6GB的任何內(nèi)存。

額外的內(nèi)存總是很不錯(cuò)，但是會(huì)增加顯卡的價(jià)格，因此我們需要找到合適的平衡點(diǎn)。

安培流多處理器（SM）

每個(gè)SM有兩個(gè)數(shù)據(jù)路徑或流水線。四個(gè)分區(qū)中的每個(gè)分區(qū)都由兩個(gè)ALU集群組成：一組16個(gè)FP32內(nèi)核以及一組32個(gè)FP32和INT16。作為這種新分區(qū)的結(jié)果，每個(gè)Ampere SM分區(qū)可以每個(gè)時(shí)鐘執(zhí)行32條FP32指令，或者每個(gè)周期執(zhí)行16條FP32和16條INT32指令。實(shí)際上，您要用整數(shù)性能來?yè)Q取兩倍的浮點(diǎn)功能。幸運(yùn)的是，由于大多數(shù)圖形工作負(fù)載都是FP32，因此應(yīng)該可以發(fā)揮NVIDIA的優(yōu)勢(shì)。

總體而言，所有四個(gè)SM分區(qū)組合在一起可以每個(gè)時(shí)鐘執(zhí)行128個(gè)FP32操作或每個(gè)時(shí)鐘執(zhí)行64個(gè)FP32和64個(gè)INT32操作。

感謝Andreas Schilling的樣機(jī)

與Turing SM相比，Ampere 30系列SM的主要設(shè)計(jì)目標(biāo)之一是實(shí)現(xiàn)FP32操作的兩倍吞吐量。為了實(shí)現(xiàn)此目標(biāo)，Ampere SM包括針對(duì)FP32和INT32操作的新數(shù)據(jù)路徑設(shè)計(jì)。每個(gè)分區(qū)中的一個(gè)數(shù)據(jù)路徑由16個(gè)FP32 CUDA內(nèi)核組成，每個(gè)時(shí)鐘能夠執(zhí)行16個(gè)FP32操作。另一個(gè)數(shù)據(jù)路徑包括16個(gè)FP32 CUDA內(nèi)核和16個(gè)INT32內(nèi)核。作為這種新設(shè)計(jì)的結(jié)果，每個(gè)Ampere SM分區(qū)每個(gè)時(shí)鐘能夠執(zhí)行32個(gè)FP32操作，或者每個(gè)時(shí)鐘能夠執(zhí)行16個(gè)FP32和16 INT32操作。所有四個(gè)SM分區(qū)組合在一起，每個(gè)時(shí)鐘可執(zhí)行128 FP32操作，是Turing SM FP32速率的兩倍，或者每個(gè)時(shí)鐘執(zhí)行64 FP32和64 INT32操作。

要使數(shù)學(xué)吞吐量增加一倍，就需要將支持它的數(shù)據(jù)路徑增加一倍，這就是為什么Ampere SM還將SM的共享內(nèi)存和L1緩存性能提高一倍的原因。（每個(gè)Ampere SM為128字節(jié)/時(shí)鐘，而在Turing中為64字節(jié)/時(shí)鐘）。GeForce RTX 3080的總L1帶寬為219 GB /秒，而GeForce RTX 2080 Super則為116 GB /秒。

GPC是主要的高級(jí)硬件模塊，所有關(guān)鍵圖形處理單元都位于GPC內(nèi)部。每個(gè)GPC都有一個(gè)專用的光柵引擎，現(xiàn)在還包括兩個(gè)ROP分區(qū)（每個(gè)分區(qū)包含八個(gè)ROP單元），這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關(guān)NVIDIA Ampere架構(gòu)的更多詳細(xì)信息，請(qǐng)參見NVIDIA的Ampere架構(gòu)白皮書，該白皮書將在未來幾天內(nèi)發(fā)布。

NVIDIA的Tony Tamasi

為了允許使用兩個(gè)數(shù)據(jù)路徑和2倍的FP32性能，L1緩存帶寬（和相關(guān)的共享內(nèi)存）也必須加倍：每個(gè)Ampere SM 128字節(jié)/時(shí)鐘，而Turing中64字節(jié)/時(shí)鐘。RTX 3080的L1總帶寬為219 GB /秒，而RTX 2080 Super的總L1帶寬為116 GB /秒。

柵格后端也被拋光。現(xiàn)在，每個(gè)GPC都有一個(gè)帶有兩個(gè)ROP分區(qū)的柵格引擎，每個(gè)分區(qū)打包八個(gè)ROP。這意味著您有16個(gè)ROP，而不是每個(gè)32位內(nèi)存控制器8個(gè)。這導(dǎo)致RTX 3080的總ROP計(jì)數(shù)為160，而3090的總ROP計(jì)數(shù)為192。

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

高通公司發(fā)布SD 8cx Gen2：比英特爾的Lakefield快51

高通公司今天宣布了其第二代Snapdragon 8cx SoC，旨在與低功耗（15W）PC市場(chǎng)中的現(xiàn)代x86 CPU競(jìng)爭(zhēng)。到目前為止，基于ARM的設(shè)備未能在PC領(lǐng)域建立立足之地，這在很大程度上是由于性能低下，而性能低下本身就...