新智元 - 英偉達神秘「變形」GPU曝光！5nm工藝，兩種形態隨心變－鑽石舞台

新智元報道

編輯：小鹹魚好睏

【新智元導讀】英偉達似乎把明年要發的新GPU提前自曝了！一個出現在論文裡的神秘顯卡GPU-N有着779TFLOPs的FP16性能，是A100的2.5倍。非常接近傳聞中比A100強3倍的下一代Hopper GH100。

近日，在英偉達團隊發表的新論文中提到了一個神秘的顯卡：GPU-N。

據網友推測，這很可能就是下一代Hopper GH100芯片的內部代號。

https://dl.acm.org/doi/10.1145/3484505

英偉達在這篇「GPU Domain Specialization via Composable On-Package Architecture」（通過可組合式封裝架構實現GPU領域的專業化）的論文中，談到了下一代GPU設計。

研究人員認為，當前要想提升深度學習性能，最實用的解決方案應該是最大限度地提高低精度矩陣計算的吞吐量。

簡單來說，GPU-N有134個SM單元（A100中為104個SM）；8576個CUDA核心（比A100多24%）；60MB的二級緩存（比A100多50%）；2.687TB/秒的DRAM帶寬（可擴展至6.3TB/秒）；高達100GB的HBM2e（通過COPA實現可擴展到233GB），以及6144位內存總線。

全新COPA-GPU架構

「GPU-N」採用了一種叫COPA的設計。

目前，當GPU以擴大其低精度矩陣計算吞吐量的方式來提高深度學習（DL）性能時，吞吐量和存儲系統能力之間的平衡會被打破。

英偉達團隊最終得出一個結論，基於FP32（或更大）的HPC和基於FP16（或更小）的DL，兩者的工作負載是不一樣的。那麼，運行兩種任務的GPU架構也不應該完全一樣。

而如果非得要求GPU滿足不同的架構要求，去做一個融合設計，會導致任何一個應用領域的配置都不是最優的。

因此，可以給每個領域提供專用的GPU產品的可組合的（COPA-GPU）架構是解決這些不同需求的最實用的方案。

COPA-GPU利用多芯片模塊分解，可以做到最大限度地支持GPU模塊復用，以及每個應用領域的內存系統定製化。

英偉達表示，COPA-GPU可以通過對基線GPU架構進行模塊化增強，使其具有高達4倍的片外帶寬、32倍的包內緩存和2.3倍的DRAM帶寬和容量，同時支持面向HPC的縮減設計和面向DL的專業化產品。

這項工作探索了實現可組合的GPU所必需的微架構設計，並評估了可組合架構為HPC、DL訓練和DL推理提供的性能增益。

實驗表明，與一個融合的GPU設計相比，一個對DL任務進行過優化的COPA-GPU具有16倍大的緩存容量和1.6倍高的DRAM帶寬。

每個GPU的訓練和推理性能分別提高了31%和35%，並在擴展的訓練場景中減少了50%的GPU使用數量。

從紙面上的性能來看，「GPU-N」的時鐘頻率為1.4GHz（與A100的理論值相同），可以達到24.2 TFLOPs的FP32（是A100的1.24倍）和779 TFLOPs的FP16（是A100的2.5倍）。

與AMD的MI200相比，GPU-N的FP32的性能還不到一半（95.7 TFLOPs vs 24.2 TFLOPs），但GPU-N的FP16的性能卻高出2.15倍（383TFLOPs vs 779TFLOPs）。

規格

NVIDIA V100

NVIDIA A100

GPU-N

SMs

108

134

GPU頻率（GHz）

1.4

FP32（TFLOPS）

15.7

19.5

24.2

FP16（TFLOPS）

125

312

779

L2緩存（MB）

DRAM帶寬（GB/s）

900

1,555

2,687

DRAM容量（GB）

100

根據以往的信息可以推斷，NVIDIA的H100加速器將基於MCM解決方案，並且會基於台積電的5nm工藝。

雖然不知道每個SM中的核心數量，但如果依然保持64個的話，那麼最終就會有18,432個核心，比GA100多2.25倍。

Hopper還可以利用更多的FP64、FP16和Tensor內核，這將極大地提高性能。

GH100很可能會在每個GPU模塊上啟用144個SM單元中的134個。但是，如果不使用GPU稀疏性，英偉達不太可能達到與MI200相同的FP32或FP64 Flops。

此外，論文中還談到了兩種基於下一代架構的領域專用COPA-GPU，一種用於HPC，一種用於DL領域。

HPC變體採用的是非常標準的設計方案，包括MCM GPU設計和各自的HBM/MC+HBM（IO）芯片，但DL變體真的是一個很特殊的設計。

DL變體在一個完全獨立的芯片上安裝了一個巨大的緩存，與GPU模塊相互連接。具有高達960/1920 MB的LLC（Last-Level-Cache），HBM2e DRAM容量也高達233GB，帶寬高達6.3TB/s。

但是網友表示，英偉達似乎已經決定將重點放在DL性能上，因為FP32和FP64（HPC）性能的增長僅僅是來源於SM數量的增加。

這很可能在最後達不到傳聞中的3倍性能。

鑑於英偉達已經發布了相關的信息，Hopper顯卡很可能會在2022年GTC的大會上亮相。

規格預測

Tesla V100 (SXM2)

NVIDIA A100 (SXM4)

NVIDIA H100 (SMX4?)

GPU

GV100 (Volta)

GA100 (Ampere)

GH100 (Hopper)

製程

12nm

7nm

5nm

晶體管

21.1億

54.2億

TBD

芯片尺寸

815平方毫米

826平方毫米

TBD

SMs

108

134

TPCs

TBD

FP32 CUDA核心

5120

6912

8576

FP64 CUDA核心

2560

3456

4288

張量核心

640

432

TBD

紋理單元

320

432

TBD

頻率

1530 MHz

1410 MHz

~1400 MHz

TOPs（DNN/AI）

125 TOPs

1248 TOPs

TBD

FP16計算

30.4 TFLOPs

312 TFLOPs

779 TFLOPs

FP32計算

15.7 TFLOPs

19.4 TFLOPs

24.2 TFLOPs

FP64計算

7.80 TFLOPs

19.5 TFLOPs

24.2 TFLOPs

顯存類型

4096-bit HBM2

6144-bit HBM2e

顯存容量

16 GB @ 900 GB/s

最高 40 GB @ 1.6 TB/s

最高 80 GB @ 1.6 TB/s

最高 100 GB @ 2.687 TB/s

L2緩存

6144 KB

40960 KB

81920 KB

TDP

300W

400W

~450-500W

參考資料：

https://wccftech.com/mysterious-nvidia-gpu-n-could-be-next-gen-hopper-gh100-in-disguise-with-134-sms-8576-cores-2-68-tb-s-bandwidth-simulated-performance-benchmarks-shown/