來源:本文內容編譯自the next platform,謝謝。
在一年左右的時間裡,隨着「Grace」Arm 服務器 CPU 的推出,Nvidia 的任何人相信或大聲說並非數據中心中的每個工作負載都需要 GPU 加速並不是異端邪說。
在某種程度上,隨着 BlueField 系列基於 Arm 的 DPU 處理器的採用,這種轉變已經在 Nvidia 的系統架構中發生。但隨着 Grace CPU 的發布,在一年前的 GTC 2021 大會上進行了預覽,在2023 年上半年的某個時候,如果一切順利,Nvidia 將立即成為 Arm 服務器芯片的可靠供應商,可以在條款上與之競爭每瓦的性能,我們假設,每瓦的每美元成本,同時具有最好的 X86、Arm 或 Power 架構。對於英偉達來說,從 GPU 加速器供應商轉變為主機 CPU 供應商——以及擁有大量自己的向量數學能力的主機 CPU ——這將是一個重要事件。非常重要的事情——將能夠運行整個 Nvidia HPC 和 AI 堆棧,包括編譯器、庫和其他系統軟件。Grace CPU 將與 Hopper GPU 完全匹敵,COBOL 發明前美國海軍少將可能會在隱喻意義上表示贊同。
十多年來,我們一直在倡導 Nvidia 將 Arm 服務器芯片推向市場,當 Nvidia 聯合創始人兼首席執行官 Jensen Huang在 1 月份宣布「Project Denver」Arm 服務器計劃時,我們對這種可能性感到興奮。2011 年,第一波 Arm 服務器芯片試圖衝破數據中心的大門。2014 年,當兩個 Denver Arm 內核出現在 Tegra K1 「superchip」 混合 CPU-GPU 芯片上時,街上的消息是 Nvidia 提出了自己的 CPU 指令集架構 (ISA),並在此基礎上模擬 Arm ISA,而且,重要的是,它也能夠模擬 X86 ISA。(Transmeta 早在 20 年前就嘗試過這樣做,還記得嗎?)想象一下,如果 Nvidia 推出了可以模擬 Xeon 或 Opteron(現在是 Epyc)並且還可以運行 Arm 工作負載的全功能 Denver 服務器芯片,那麼可能會引發訴訟,也許,它自己的原生模式。. . .
但遺憾的是,我們不得不再等十幾年,英偉達以 400 億美元從軟銀收購 Arm Holdings 的交易落空,英偉達的更清潔的 Arm 服務器芯片計劃才出現。我們認為這是 Nvidia 在提出 SoftBank 提議之前最初的計劃——我們和 Huang 開玩笑說我們想要 Nvidia 的 Arm 服務器芯片,但 Nvidia 不需要Victor Kiam併購買整個公司。
也就是說,我們了解整個 Arm 的千載難逢的機會——從財務上來講,這是一個很好的機會,但主要是 Nvidia 股票,它像現金一樣支出,但實際上不是現金。而且我們還完全理解了未來 Aarmv9 架構的影響,以及許多機器學習工作——當然大部分推理和可能的一些訓練——將保留在 CPU 上並且不會遷移到 GPU 或其他加速器這一事實。正如我們在 2021 年 3 月仔細研究 Armv9 公告時所說的那樣就在 Grace 的努力獲得成功後的幾周和 Arm Holdings 交易宣布的 8 個月後,英偉達想要收購 Arm:它可以獲得矢量、矩陣和數字信號處理知識產權的許可資金,這將是添加到各種 CPU 正是因為系統架構師不想進行 GPU 卸載。
進行任何類型的卸載都存在編碼和安全隱患——加密加速器、在線 FPGA 加速器或 GPU 加速器——許多企業和組織不想處理它們。那些需要 10 倍或 100 倍更好的 AI 性能和 10 倍更好的 HPC 性能的人別無選擇,只能使用 GPU——除非他們想製造具有大量內核和大量矢量引擎的定製 CPU。富士通在日本 RIKEN 實驗室的「Fugaku」超級計算機上使用 A64FX Arm CPU 做到了這一點,國家並行計算機工程與技術研究中心為無錫國家超級計算中心的「太湖之光」和「海洋之光」超級計算機分別配備了神威SW26010和SW26010- pro處理器。這兩款機器都有令人印象深刻的結果。但高性價比和低功耗並不是這兩款機器的特點。(Fugaku三年前在 Green500 超級計算機排名中名列前茅,但已被英偉達「Ampere」A100 GPU 加速器加速的一長串機器推下榜單。「Hopper」H100 GPU 加速器只會讓這些比較變得更糟,而且隨着據我們所知,目前還沒有 A64FX-2 芯片與 A64FX 相比工藝縮小、時鐘速度提高、功率降低或價格/性能改進。
儘管如此,許多企業和組織仍將做出選擇,要麼支付數百萬美元將其 C、C++ 和 Fortran 代碼拆開以進行 GPU 卸載,要麼支付更多電費並花費更長的時間來得出答案並在 zippy CPU 上運行 AI 工作負載,該 CPU 可以很好地使用內存子系統進行矩陣和矢量數學運算,但與 GPU 加速器的skinny sprinter HBM 內存相比,內存子系統具有大量內存。
這就是 Grace CPU 對 Nvidia 如此重要的原因之一,Grace 將運行 Nvidia 為在 GPU 上運行而創建的所有軟件的聲明也是如此。
讓我們直接從 Huang 的 GTC 2022 主題演講的頂部寫下這一點:「Grace 將在人工智能、數據分析、科學計算和超大規模計算方面表現出色,Grace 將受到 Nvidia 的所有軟件平台的歡迎——Nvidia RTX、HPC、英偉達 AI 和 Omniverse。」
Nvidia 加速計算高級總監 Paresh Kharya 對此更明確一點,因為在 Grace 上受到歡迎的軟件與在 Grace上運行的軟件不同:「我們正在按計劃執行我們的 CPU 路線圖,並且Grace CPU 還將運行 Nvidia 的所有計算堆棧,包括 Nvidia RTX、HPC、Nvidia AI 和 Omniverse,這是我們在產品中使用 Arm CPU 的十多年旅程的延續,包括三年前的一個關鍵里程碑,當時我們宣布將 CUDA 以及我們的全套 HPC 和 AI 軟件引入 Arm。」
這是我們了解到的關於 Grace CPU 的第一個重要的新事物。如果客戶想要它,它可以獨立運行,並且它可以進行任何類型的計算,就 Nvidia 而言,GPU 可以做到。
第二個重要的事情是,運行 HPC 或 AI 工作負載的混合 CPU-GPU 系統需要主機處理器,它們需要 CPU 和 GPU 之間更緊密的耦合,並且它們需要基於這兩種設備中儘可能相似技術的一致內存。這是迄今為止,尚未完成的事情。藍色巨人用 Power9 芯片展示了它上面有一對 NVLink 端口,它可以在具有 HBM2 內存的 Nvidia V100 GPU 網絡和 Power9 芯片上的 DRAM 之間相對無縫地共享內存。但是帶寬並不是那麼平衡。CPU 對自己內存的訪問速度相對較慢,它成為機器中 GPU 集群的一種 DRAM 控制器,它們之間的對話速度要快得多。不同的是,進入 GPU 的 CPU 內存帶寬為 64 GB/秒,而 GPU 相互通信時的帶寬為 8,000 GB/秒。(這是一個假設的比較,使用了每張卡運行速度為 2 TB/秒的 HBM2e 內存,而不是運行速度為 3 TB/秒的高端 Hopper H100 封裝中的 HBM3 內存。)
正如我們在一年前展示的那樣,通過結合 Grace-Hopper 混合芯片,Grace CPU 可以鏈接到它們的低功耗 DDR5 內存(它們像 GPU 加速器上的 HBM 內存一樣在封裝上安裝),NVLink 端口加起來多達500 GB/秒的總帶寬,在 Grace CPU 集合之間有 500 GB/秒的 NVLink 端口,因此它們可以共享數據,並且在 Grace CPU 和 Hopper GPU 之間也有 500 GB/秒的鏈接。這就是 Nvidia 現在將其稱為 NVLink Chip to Chip,或簡稱為 NVLink C2C,它首次提供許可,以便其他芯片可以配備它。再一次,正如我們一年前所說:這種架構 Nvidia 可能正在創建 NVLink 內存,NVLink SerDes 直接鏈接到某種緩衝 LPDRR5 內存,就像 IBM 在 Power10 芯片中使用自己的信令 SerDes 作為 NUMA、I/O 和帶有緩衝 DDR5 內存的內存鏈接。
目前尚不清楚英偉達是否會將 Grace CPU 作為獨立產品出售給超大規模製造商、雲構建商、OEM 或 ODM 以創建自己的系統。在這一點上,我們知道有兩種不同的 Grace 變體即將上市,它們看起來像是高端 Hopper GPU 加速器中使用的 SXM5 外形尺寸的變體:
上圖左側是 Grace-Hopper 模塊,將 CPU 和 GPU 通過 NVLink 緊密耦合在一個包中,右側是一對 Grace CPU,每個都有 72 個內核,512 GB 主存和 500 GB/秒的主內存帶寬。
如果您在下面非常仔細地查看 Grace 裸片的細節。
然後你會看到每個 Grace die 都有四個象限的內核。其中兩個象限各有 18 個內核,兩個象限各有 24 個內核,這是一個奇怪的比例,但確實如此。每個裸片有 84 個內核,看起來很容易擴展到 96 個內核,並在兩個象限中增加了另一行 12 個內核。在上面的模型中,芯片彼此旋轉 180 度,這對於整個封裝的平衡原因可能很重要。
每個 Grace die 都有 8 組 LPDDR5X 內存,我們假設它們來自三星,如果是這樣的話,它的運行頻率為 4.23 GHz,並且似乎在八個內存通道上提供了 62.5 GB/秒的帶寬。Nvidia 安裝在 Grace 封裝上的 LPDDR5X 內存具有 ECC 錯誤檢測和糾正清理功能,這是服務器工作負載所必需的。因此,在 Grace-Grace 對中,CPU 芯片與其主內存之間有 1 TB 的內存和總計 1 TB/秒的內存帶寬。(據我們所知,兩個 Grace 芯片之間有一個 900 GB/秒的 NVLink 端口。)兩個 Grace 芯片上還有 396 MB 的 L3 高速緩存,每個 Grace 芯片 198 MB,每個內核 2.75 MB . 如果緩存的產量是 100%,那就是。如果緩存的產量不是 100%,因為 CPU 的產量不是只有 84 個核心中的 72 個處於活動狀態,
目前尚不清楚 Grace CPU 中的內核是什麼,但我們確信它們實現了 Armv9 指令集,並且我們認為它將成為市場上首批這樣做的 CPU 之一。(我們預計 Armv9 Graviton4 將在今年 11 月推出,如果 Amazon Web Services 保持其每年發布本土 CPU 的節奏,並從 2023 年初開始向其雲中發貨。)但「波塞冬」平台似乎不太可能以及它們的 N3 和 V2 內核(這些是我們對Gravitron3 中使用的「Zeus」V1 Armv8.9 內核和「Perseus」N2 Armv9 內核的繼任者的命名,目前還沒有人發貨) 將準備好被扔進格蕾絲模具中。但是,Nvidia 總是有可能創建一個定製的 Armv9 內核,該內核具有兩個 256 位寬的 SVE2 向量,並且還使用其他 Armv9 功能。畢竟,Nvidia 不必等待 Arm 將 Poseidon 內核投入該領域,它也可以做各種定製的 ISA 工作,就像多年前在 Project Denver 所做的那樣。
不要假設它們只是 Perseus N2 核心就是我們所說的。展望未來,即使 Grace 1 芯片確實使用 N2 內核,也不要假設 Grace 2 不會是定製內核。Nvidia 在定製方面非常重視。我們有理由確定 Grace 將由台積電以 5 納米工藝實現——比 Nvidia 在 Hopper GPU 上使用的定製 4N 工藝略胖——但如果 Grace 也在定製中實現也不要感到驚訝4N 工藝縮小模具並降低性能。
憑藉Grace-Grace double-whammy模塊,Nvidia 預計該芯片將在 SPECrate2017_int_base 整數基準測試中提供超過 740 的評級。很難猜測 Grace 單元的時鐘速度可能在哪裡,但是兩個 CPU(包括內存)的功耗只有 500 瓦,我們預計它在 2 GHz 左右,可能高達 2.3 GHz。如果是這種情況,那麼這兩個 128 位 SVE2 FMA 向量單元每個內核每個時鐘可以執行 8 次浮點運算,即在 2 GHz 和 2.3 GHz 上運行的浮點數學運算中,在 FP64 雙精度下為 2.3 teraflops 和 2.65 teraflops。這不是很大,請注意。但它與許多其他 CPU 具有競爭力,尤其是那些針對超大規模處理器的 CPU。也就是說,我們認為 Nvidia 很有可能希望在其 Grace 內核中擁有一對 256 位 SVE2 向量,以將浮點性能提高一倍。這將使其與來自 AWS 的 Graviton3 相提並論,後者使用針對 HPC 和 AI 工作負載的「Zeus」V1 內核。
我們會看到的。
這將我們帶到了 Grace-Hopper 混合 CPU-GPU 模塊:
這基本上是卡上完整的加速計算單元。除了用於軟件和暫存器的閃存以及與外部世界的鏈接之外,它不需要任何其他東西。默認情況下,運行速度為 900 GB/秒的 NVLink 端口存在。目前尚不清楚 Grace-Hopper 模塊中將使用哪種 Hopper 芯片,但我們強烈懷疑它將是 GPU 的減速版本,就像在 Hopper H100 GPU 加速器的 PCI-Express 5.0 版本中使用的那樣,它具有其 80 GB 的 HBM3 內存提供 2 TB/秒的帶寬。這與 Nvidia 一年前為 Grace 制定的概述相吻合,GPU 及其 HBM3 內存堆棧僅消耗 350 瓦。這意味着 Grace-Hopper 封裝的功耗約為 600 瓦,總內存為 592 GB——略低於上表所示的 600 GB,但 Nvidia 正在四捨五入。
需要記住的一點是,Huang 在他的主題演講中表明,Grace GPU 和 Hopper GPU 的比率不是靜態的。當涉及到系統架構時,這將是極其有限的,因為並非所有工作負載都具有相同的 CPU 與 GPU 比率。以下是黃展示的一些可能性:
左側是帶有 400 Gb/sec ConnectX-7 適配器的 Grace 模塊,可以安全地假設每個計算模塊如果在整個系統中共享數據都需要自己的網絡接口。NVLink 將用於在一個節點內將這些組件捆綁在一起,如果看到 Nvidia 提出在盒子內的 NVSwitch 上運行的可組合性軟件以及跨盒子的 NVLink Switch 以使 CPU 和 GPU 模塊的機架可組合,這將是一件有趣的事情。(我們將對此進行思考。)
上圖中有趣的一個顯示了一個獨立的 Grace CPU,它具有 512 GB 內存,連接到 SXM5 外形尺寸的兩個獨立 Hopper GPU。這看起來像一個 MiniITX 風格的板。之後,它只是一個 Grace-Grace 模塊與兩個、四個或八個 SXM5 版本的 Hopper GPU 的組合。我們假設每對 GPU 都需要一個 NVSwitch 3 ASIC 將 CPU 鏈接到 GPU,而 Grace-Grace 模塊和 GPU 之間的鏈接可能還需要另一個 NVSwitch ASIC。(我們在這個故事中討論了新的 NVSwitch 和 NVLink Switch 設備和拓撲。)目前尚不清楚,但我們將找出並跟進。
點擊文末【閱讀原文】,可查看英文原文內容。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。
今天是《半導體行業觀察》為您分享的第2991內容,歡迎關注。
推薦閱讀
★人才短缺,芯片產業的這個細分賽道亟待破局
★華為的傳感布局
★芯片泡沫里的初創危機
半導體行業觀察

『半導體第一垂直媒體』
實時 專業 原創 深度
識別二維碼,回復下方關鍵詞,閱讀更多
晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝
回復 投稿,看《如何成為「半導體行業觀察」的一員 》
回復 搜索,還能輕鬆找到其他你感興趣的文章!
