請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

NVIDIA Ada Lovelace架構解析:GeForce RTX 40系列性能翻倍的秘辛

4Gamers

更新於 2022年09月22日01:17 • 發布於 2022年09月21日19:00 • 羽神翼
進化再進化
NVIDIA GeForce RTX 40 Series Ada Lovelace Architecture

GeForce RTX 40 系列 GPU 正式亮相後,NVIDIA 進一步解釋 Ada Lovelace 架構的特性。

Ada Lovelace 核心架構

NVIDIA GeForce RTX 40 Series Ada Lovelace Architecture
NVIDIA GeForce RTX 40 Series Ada Lovelace Architecture

Ada Lovelace 架構的基礎其實很類似前一代的 Ampere 架構,同樣以 SM (Streaming Multiprocessor) 為構成單位,每組 SM 內含 128 個 CUDA Core、1 個 RT Core 和 4 個 Tensor Core。

這 128 個 CUDA Core 和 Ampere 架構一樣,其中一半專責處理 FP32(32 位元浮點數,又稱單精度浮點數)運算,另一半則可依需求,在 INT32(32 位整數)運算和 FP32 運算之間動態切換。

根據 NVIDIA 提供的資料,完整的 Ada Lovelace 架構 AD102 晶片擁有 144 組 SM,這包含多達 18432 個 CUDA Core、144 個第 3 代 RT Core 和 576 個第 4 代 Tensor Core,並且配倍 2 個可處理 AV1 編碼的第 8 代 NVENC 編碼器,整體規模比前代大了不少。

另外在 TSMC 台積電 4nm,4N NVIDIA 客製化製程的加持下,AD102 晶片的電晶體數量來到 763 億個,且 Boost 時脈可達 2.5 GHz。在同樣功耗下,性能表現可達 Ampere 架構的 2 倍。而且相較於 Ampere 架構大約在 350W 左右就達到效能頂點,Ada Lovelace 架構可一路增加至 450W,依舊維持有效的效能成長。

除了規模擴大和時脈提升,Ada Lovelace 架構還有幾項創新功能。

著色器執行重新排序(Shader Excution Reordering, SER)

Shader Excution Reordering in NVIDIA Ada Lovelace Architecture

GPU 以平行處理能力著稱,但程式發出的指令請求並不一定同時送來。再者,遇到光線追蹤的工作負載時,因為有著來自各種方向的光線在不同接觸表面上反彈,導致 GPU 需要因應不同的執行緒來處理不同的著色器,因此是出了名的難以平行處理,效率也相當低下。

透過著色器執行重新排序,把同類型的指令即時編排在一起,再同時發送給 GPU 進行處理,進而提高 GPU 的資源效率,這可讓光線追蹤的效能提升至 2 ~ 3 倍,整體遊戲效能也可提升 25%。

Displaced Micro-Mashes

Displaced Micro-Mashes in NVIDIA Ada Lovelace Architecture
Displaced Micro-Mashes in NVIDIA Ada Lovelace Architecture

為了增加 3D 物件的真實性,一般情況下會在本來的多邊形增加更的細節層次(level of detail)。Ampere 架構中,必須為每一個產生的細節的多邊形 3D 座標資料,建構 BVH (Bounding volume hierarchy),再做光線處理。

Ada Lovelace 架構加入 Displaced Micro-Mashes,運用曲面細分(Tessellation)的手法,這些產生的資料不需要完整的 3D 座標,而是類似資料壓縮概念的獨特資料,而且只需要對原生三角形建構 BVH,可提升 BVH 處理速度達 10 倍,並減低 VRAM 占用率至 20 分之 1。

Opacity Micro-Maps

Opacity Micro-Maps in NVIDIA Ada Lovelace Architecture
Opacity Micro-Maps in NVIDIA Ada Lovelace Architecture
Opacity Micro-Maps in NVIDIA Ada Lovelace Architecture

Opacity Micro-Maps 則是在第 3 代 RT Core 新增半透明的定義。以往 Ampere 架構遇到像是樹葉間隙或霧氣等複雜的場景,會把工作丟回 Streaming Multiprocessor 處理,但效率低下。現在 Ada Lovelace 架構有了這層定義後,就能有效運用第 3 代 RT Core 加速處理。

DLSS 3

NVIDIA DLSS 3
NVIDIA DLSS 3

前日的報導已大致講明 DLSS 3 的原理特性,這邊再稍微補充幾點。

與過往 DLSS 2 以前相比,DLSS 3 新增的特色機制就是運用類似「內插補幀」的手法,在原生兩張畫格之間,產生新的畫格。而原有的 DLSS 機制也可在較低的原生解析度,以 Super Resolution 的方式擴增成 4 倍(長寬各 2 倍相乘)解析度像素。

因此,在這兩種機制的同時作用下,DLSS 3 總共可運用傳統原生渲染顯示的像素,產生額外 7 倍的像素內容。這代表執行 DLSS 3 時,其中 8 分之 7 的像素資料是透過 AI 生成的。

NVIDIA DLSS 3
NVIDIA DLSS 3

從表格中可以看到,DLSS 3 包含 GeForce GTX 900 系列以後就能支援的 NVIDIA Reflex 技術、GeForce RTX 20 系列開始支援的 DLSS Super Resolution 技術,以及 GeForce RTX 40 系列獨有的 DLSS Frame Generation 技術。

對於遊戲開發者來說,DLSS 2 要升級到 DLSS 3 其實相當簡單,引擎資料只要多提供 Reflex Marker 即可,這也可促進更已有 DLSS 2 的 AAA 遊戲加速導入 NVIDIA Reflex 低延遲技術。

總結

NVIDIA GeForce RTX 40 Series Ada Lovelace Architecture

在以上幾種創新技術和規模擴大的加持下,Ada Lovelace 架構 GPU 才有能力打出相較於前代 2 ~ 4 倍的效能表現。欲知更多有關 GeForce RTX 40 系列 GPU 的效能表現,敬請鎖定我們的追蹤與評測報導。

查看原始文章
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...