[XF 開箱] 效能 2 倍 UP!CUDA 大量增加‧第三代光追‧DLSS 3 NVIDIA GeForce RTX 4090

- 辛尼 - 2022-10-11

序言

NVIDIA 在上個月的發布會,終於宣布正式推出下一代顯示核心架構 Ada,同場分別介紹將會推出 GeForce RTX 4090、GeForce RTX 4080 16GB 及 GeForce RTX 4080 12GB 三款,而率先推出市場就會是最旗艦的 GeForce RTX 4090,其餘兩款 GeForce RTX 4080 則會於 11 月推出。在全新架講之下,用家最關注自然是當中的效能增長,而根據官方當時公布的資料,在部份遊戲之下,配搭全新 DLSS 3 技術,效能可以較 GeForce RTX 3090 提升 1 倍或以上。

 

全新 Ada Lovelace 架構

NVIDIA 今次推出的 RTX 40 系列顯示卡,將會採用全新 Ada Lovelace 架構(以下簡稱 Ada 架構),亦是 NVIDIA 首次使用 TSMC 4N 定製工藝,隨著使用更先進的工藝,令到 GPU 核心內的電晶體數量能夠大幅增加,較上代 Ampere 架構增加 70%,並且能夠讓核心在更高的時脈之下運作,從多個技術的提升之下,令到今次 RTX 40 系列的效能得到提升之餘,最重要是 TGP 不會大幅提升,以首先推出的 GeForce RTX 4090 為例,當中的 TGP 就與 GeForce RTX 3090 Ti 同樣是 450W。

GeForce RTX 40 系列採用全新 Ada Lovelace 架構

率先推出的 RTX 4090 以 12 組 2GB GDDR6X 提供 24GB 容量

Founder Edition 同樣會有一組 PCIe 5.0 轉 PCIe 8-pin 的電線

 

第三代 RT Core 及 DLSS 3

對於所有玩家,遊戲的效能自然是越高越好,但由於現時越來越多遊戲為了提供更逼真的畫面,都會加入不同的畫質強化技術,而近年最受歡迎就必然是 Ray Tracing,能夠令到遊戲內四周的物件,擁有更逼真的光影效果,但由於需要大量的運算,因此往往在啟用 Ray Tracing 後,遊戲效能都會有相當明顯的下降,為了作出彌補效能上的不足,因此 NVIDIA DLSS 的出現就能填補效能。今次 RTX 40 系列,Ada 架構下最重要的更新就是採用第三代 RT Core,當中主要是新增 2 個全新元素,分別是 Opacity Micromap Engine 與及 Desplaced Micro-Mesh Engine,從而令到針對 Ray Tracing 的效能可以提升 2 倍。至於 DLSS 方面,在 Ada 架構下就採用全新 Optical Flow Accelerator 與及 AI 運算技術,把當中的效能提升超越 DLSS 2 2 倍或以上,並且能夠保留甚至擁有更高的畫質,並且降低遊戲的延遲值。根據目前最新的資訊,將會有超過 35 款遊戲會相繼支援 DLSS 3 技術,當中 Super People、Loopmancer、Justic Fuyun Court、Microsoft Flight Simulator 與及 A Plague Tale:Requiem 更會於 10 月內支援 DLSS 3。

 

全新 GeForce RTX 40 系列

根據 NVIDIA 一直以來的慣例,在首發的時候都會先推出高階型號,緊隨之後會推出針對中階玩家的型號,今次 RTX 40 同樣是先發布 GeForce RTX 4090 與及 2 款 GeForce RTX 4080。首先是最旗艦的 RTX 4090,將會擁有完整的 Ada 架構核心,擁有 16384 個 CUDA,上代的 RTX 3090 Ti 只有 10752 個。另外就是 SMs 和 TCPs 的數量,RTX 4090 分別擁有 128 個和 64 個,而 RTX 3090 Ti 則只有 84 個及 42 個。至於負責 Ray Tracing 的 RT Core,RTX 4090 就有 128 個(第三代),而 RTX 3090 Ti 為 84 個(第二代)。負責 AI 學習運算的 Tensor Core 方面,RTX 4090 同樣升級至第四代,並擁有 512 個,至於 RTX 3090 Ti 則是 336 個(第三代)。隨著規格的大幅提升以至採用更多新技術,使 RTX 4090 的運算效能較 RTX 3090 Ti 提升一倍,例如 FP32/FP16 TFLOPS 就由 40 提升至 82.6,而 INT32  TOPS 亦由 20 增加至 41.3,針對 Ray Tracing 的 RT TFLOPS 更由 78.1 大幅提升至 191。GeForce RTX 4090 還有一個特點,就是當中的基本時脈大幅提升至 2.23GHz,Boost 核心時脈更高達 2.52GHz。記憶體方面算是 RTX 4090 沒有升級的地方,同樣是採用 24GB 384-bit GDDR6X,時脈亦同樣為 21Gbps。

GeForce RTX 4090 同樣會採用雙風扇前吹後吸的散熱方式

至於另外兩款就同樣屬於 RTX 4080,當中主要分別在於記憶體配搭之上,其中 16GB 版本會採用 256-bit GDDRX,而 12GB 版本則採用 192-bit GDDRX,因此兩者在記憶體頻寬上就分別是 716.8GB/s 與及 504GB/s。除此之外,RTX 4080 16GB 分別擁有 76 個 SMs、38 個 TPCs、112 個 ROPs、9728 個 CUDA、304 個 Tensor Cores 與及 76 個 RT Cores。至於 12GB 版本會再略為縮減至 60 個 SMs、30 個 TPCs、80 個 ROPs、7680 個 CUDA、240 個 Tensor Cores 與及 60 個 RT Cores,因此整體效能上 16GB 版本的 RTX 4080 將會相當明顯領先 12GB 版本。

 

效能測試比較

由於今次率先推出為 GeForce RTX 4090,因此測試上,會以 GeForce RTX 3090 和 GeForce RTX 3090 Ti 作比較。測試項目上,則會以 3DMark 與及 3 款遊戲針對遊戲效能測試;3DMark Feature Test、V-Ray Benchmark、Blender Benchmark、Geekbench 則是針對渲染部份的測試;PugetBench for Premiere Pro 則是測試影片轉換的效能。

公版 RTX 4090 的核心基本時脈為 2235MHz,Boost 核心時脈為 2520MHz,記憶體則是 21Gbps

3DMark

3DMark(Feature Test)

Blender Benchmark

V-Ray Benchmark

Greekbench 5

短評:從大部份的測試項目上,都可以看到 RTX 4090 的效能完全壓到上代的 RTX 3090 Ti 和 RTX 3090,而且當中的升幅都相當明顯,3DMark 的 3D 效能部份都有 50% 以上。至於針對顯示卡其他功能的 Feature Test,效能提升就更為明顯,例如 Raytracing 的測試更有超過一倍的增長,至於 3DMark 下針對 DLSS 的測試,同樣是 DLSS 2 之下,RTX 4090 的效能都比 RTX 3090 Ti 和 3090 分別提升 65% 及 79%。這個優勢在其他測試程式上都可以看到,Blender Benchmark 當中的 Monster 測試之中,效能提升同樣超過一倍,而 V-Ray Benchmark 針對 Ray Tracing 的效能升幅同樣高。

PugetBench for Premiere Pro

短評:至於針對影片編輯的 PugetBench for Premiere Pro 測試,RTX 4090 憑著擁有更多的 CUDA 數量,與及更高時脈和架構技術,在 GPU 部份的測試同樣領先上代 RTX 3090 Ti 約 15%。

CS:GO

Marvel’s Spider-Man Remastered

Cyberpunk 2077

短評:實際遊戲測試部份,對於 CS:GO 這類對顯示卡效能要求不算太高的遊戲,RTX 4090 就並未有太明顯的差別,同樣有超過 400FPS 的效能水平。至於較新戲如 Marvel’s Spider-Man Remastered,就能發揮到 RTX 4090 的效能,在 4K 最高畫質下,其效能都比 RTX 3090 Ti 高出 50% 以上,達到接近 160FPS,而就算開啟 Ray Tracing 之下仍然有超過 120FPS 的效能。至於 DLSS 部份,遊戲目前在這個部份仍未完善,加上仍未提供 DLSS 3 的支援,因此當中的效能並未有大幅的增長,但 RTX 4090 仍然較 RTX 3090 Ti 和 RTX 3090 高出 50% 以上。Cyberpunk 2077 作為其中一款率先加入對 DLSS 3 的支援,首先在 4K Ultra 畫質下,RTX 4090 都有 78FPS,較 RTX 3090 Ti 和 RTX 3090 不足 60FPS 有很大的提升,雖然在開啟 Ray Tracing Ultra 之下,RTX 4090 的效能同樣會下降至 50FPS 以下,但只要配合 DLSS 3 Ultra Performance,其效能就即時提升至 180FPS,至於 RTX 3090 Ti 和 RTX 3090 在 DLSS 2 Ultra Performance 的幫助之下,亦只有 80FPS 左右。

溫度及功耗測試

NVIDIA GeForce RTX 4090 的 TGP 與 GeForce RTX 3090 Ti 相同,在更高時脈之下或者會增加功耗,這部份就會比較三款顯示卡的整體功耗,並加入 GeForce RTX 4090 Founder Edition  的溫度測試作參考,始終各大廠商的散熱器設計都會與 Founder Edition 有所不同。

由於 Founder Edition 為雙風扇,因此風扇較大並且採用一前一後的設計

顯示卡表面的散熱器配合大量密集式的鰭片以增加散熱面積

拆解後可以看到 RTX 4090 的 PCB 其實相當細小

除了與核心接觸部份外,針對記憶體和供電模組部份都加入凹凸設計以增加接觸面

Founder Edition 採用 6 條導熱管把核心的熱力帶走

在自動轉速下,核心全負載時溫度約 67 度

把風扇轉速固定至 100%,則可把核心溫度降至 52 度

整體功耗上,無論是 RTX 4090、RTX 3090 Ti 或 RTX 3090 都是大約 440W 左右

 

總結

經過測試,NVIDIA 今次推出的 GeForce RTX 4090 在全新核心架構與及各種升級的技術之下,無論是遊戲效能以至專業領域的渲染層面上,都比起 RTX 30 系列有十分明顯的提升。尤其是針對遊戲效能提升的 DLSS 3,比起 DLSS 2 可進一步提升遊戲的效能,以配合現時開始流行的 4K 遊戲。當然,現時的遊戲要支援 DLSS 3 就必需等待廠商推出相關的更新,但根據不同的消息指出,各大遊戲開發廠商都會在短時間內,推出針對 DLSS 3 的更新,現家只要配搭 RTX 40 系列顯示卡,就能獲得更好的遊戲體驗。