半導體行業觀察 - 這個將用1.5nm工藝生產的芯片，突破了性能瓶頸？－鑽石舞台

來源：內容由半導體行業觀察（ID：icbank）編譯自nextplatform，謝謝。

在經歷了近六十年的變得更小、更快、更冷和更便宜之後，現在每一代的晶體管都變得越來越昂貴。於是有人可能會說，在可預見的未來，這將比任何其他因素更能推動系統架構的選擇。

要麼晶圓廠設備的標線尺寸會限制我們，要麼組件之間的互聯互通，無論它們是在 2D、2.5D 還是 3D 配置的單個插槽上，都會限制我們。我們發現Chiplet架構可能是不可避免的，而且很有趣，我們承認chiplet方法有可能提高單個組件的良率，從而降低半導體成本，但chiplet的使用也會增加封裝製造成本，而且存在價格，並且可能是計算效率和熱量的巨大代價，因為沒有非常接近其緩存和主存儲器的單片計算元素。

也許我們應該在 450 毫米晶圓技術上投入更多？但這可能行不通，因為這樣做的話，用於切割晶圓的硅錠將比現在的主流產品重 3 倍，冷卻時間也需要 2 到 4 倍，而且在製造過程中自動處理晶圓的現代晶圓廠中的所有機器都必須與蝕刻設備一起更換。

有一段時間，計算和內存的 3D 堆疊似乎是解決這個難題的唯一途徑，但即使這樣也面臨着巨大的工程和經濟挑戰。

考慮到這一點，我們閱讀了日本理研（RIKEN）超級計算實驗室主任、東京工業大學長期教授Satoshi Matsuoka在工業與應用數學學會在線期刊上發表的一篇新論文，以及RIKEN 超級計算性能研究團隊的負責人 Jens Domke 在去年交付的「Fugaku」系統之後，從理論上談到了超級計算設計。

是的，晶體管密度仍在增加並將繼續增加，但這絕不是英特爾聯合創始人摩爾在 1965 年和 1975 年的開創性論文中提出的重點。重點是不斷降低的晶體管將推動計算行業向前發展，以指數速度，這肯定發生了。但現在，一切都變得更難了，而且更熱、更貴。直到我們能夠深入到物理宇宙的 BIOS 的微代碼並改變一些基本定律，這就像蝕刻在硅晶片上的 CMOS 半導體技術一樣。

回顧一下：由 IBM System/360 大型機的傳奇架構師 Gene Amdahl 創造的Amdahl’s Law有許多措辭，我們常見的是——系統的速度取決於其最慢的組件。這個想法是由 Amdahl 在 1967 年美國信息處理學會聯合會春季會議上提出的：「通過優化系統的單個部分獲得的整體性能改進受到實際使用改進部分的時間分數的限制。。」應用程序越並行，加速就越大，這就是 HPC 領域中通常所說的強擴展性。

像許多偉大的想法一樣，它似乎很明顯，但Amdahl’s Law對各種高性能計算都有巨大的影響，而不僅僅是模擬和建模。

Gustafson’s Law也是如此，該定律在 1988 年由 HPC 傳奇人物和應用數學家John Gustafson 和Edwin Barsis在計算機協會的一篇名為《 Reevaluating Amdahl’s Law》的文章中提出，當時他是桑迪亞國家實驗室的計算機科學和數學主任。論文出來的時候，Gustafson 在桑迪亞工作。

如果需要簡明對比，Gustafson’s Law 類似於狹義相對論，Amdahl’s Law更像廣義相對論。Amdahl’s Law是關於一個固定問題如何隨着硬件的變化而擴展，但桑迪亞團隊專注於一個不斷變化的問題如何隨着硬件的變化而擴展，並且隨着時間的推移可以提供更高的模擬分辨率——並試圖制定一種方法來衡量所有硬件的效率。它的假設之一是工作負載的串行部分不會像並行部分那樣增長。

《紐約時報》有一篇關於桑迪亞並行計算算法突破的引人入勝的文章，這是互聯網上為數不多的對 Barsis 的引用之一。並且，引用 Barsis的話，它很好地描述了Gustafson’s Law的弱縮放原則：「我們不會不斷地將平行部分分解得越來越小。我們不斷地讓整個問題變得越來越大。」

描述過去三年半的 HPC 產業並捕捉Gustafson’s Law的精神是多麼富有詩意的方式。這就是通過巧妙的硬件和軟件工程儘可能地欺騙Amdahl’s Law。

這讓我們一路回到 RIKEN 實驗室和post-Fugaku世界、SIAM 上的論文，以及Matsuoka在最近由布魯克海文國家實驗室主辦的 Modsim 研討會上的演講。

這是松岡從普渡大學彼得·伯梅爾的系列講座中提取的圖表，顯示了這兩個定律在 2D 中的相互作用：

這是 Matsuoka 和 Domke 為 SIAM 文章製作的精美 3D 圖表：

Matsuoka 和 Domke 在 SIAM 論文中寫道：「超級計算社區通常將 Amdahl’s Law視為強縮放定律，根據該定律，使用更多計算節點可以加速給定的可並行化部分工作負載並縮短求解時間。」「但這條定律也適用於加速器，潛在的加速受到算法加速部分和不可加速部分的比率的限制。此外，稱為Gustafson’s Law的第二個基本觀察也通過基於可並行化或可加速部分在多個節點上的弱縮放程度來限制問題的可實現加速來管理現代 HPC。通過增加整體工作負載並保持每個節點的恆定工作量來實現這一點。

作者說，上面第二張圖表的要點是，一個完美的加速器可以產生「顯著的加速」，在上面的圖表中大約是 10,000 倍，但是加速器內的任何Amdahl’s Law和任何Gustafson’s Law都會導致效率低下。分布式加速器集合的效率低下和計算節點之間的數據傳輸都阻礙了可擴展性。您可以在設計下一代超級計算機之前對其進行量化。這就是Matsuoka在 Modsim 2022 上冗長而詳細的演講的全部內容。

這讓我們回顧 FugakuNext strawman關於預計在 2028 年至 2030 年之間為 RIKEN 打造下一代超級計算機的假設提案，我們在 4 月份的一篇論文中對此進行了報道，當時 RIKEN 和其他大學研究人員在全球，共同對 AMD Milan-X Epyc 7773X 大型緩存處理器的 HPC 性能進行基準測試。事實證明，該領域現在有兩個 FukaguNext strawman，一個是具有大量堆疊 L2 緩存的加速 CPU（如 A64FX），另一個是 Matsuoka 在他的 Modsim 2022 演示中展示的混合 CPU/加速器具有大量 3D 堆疊內存和緩存以提供強大擴展能力的設備。

最初的 AMD Milan-X 測試使用 MiniFE 有限元分析應用程序，證明使用適合 L3 緩存的數據集，MiniFE 例程的運行速度提高了 3 倍。大緩存減少了Amdahl’s Law的一大瓶頸——主內存。換句話說，最後一級緩存（L2 緩存或 L3 緩存，取決於架構）是新的主內存。突然間，我們回想起了 1990 年代後期的服務器。. . .

無論如何，RIKEN 然後推斷出具有大量堆疊 L2 緩存的未來 A64FX 處理器的外觀以及它的性能。該 A64FX 大緩存 (LARC) 處理器在 A64FXNext 處理器上堆疊了 8 個 L2 緩存進行了模擬，具有 384 MB 的 L2 緩存，帶寬為 1.5 GB/秒，並且被建模在一個 FugakuNext socket上，其性能上較當前的當前 Fugaku socket平均提高了 10 倍。

漂亮，不是嗎？而且它不是像 A64FX 這樣具有強大矢量引擎的 CPU。並不是說 RIKEN 已經做出了這樣或那樣的決定。這兩個strawmen 系統現在只是一個實驗。但他們肯定會為提案和設計決策提供信息。

這種具有前瞻性的混合 FugakuNext 計算引擎具有通用 CPU——毫無疑問基於 Arm 架構——並具有粗粒度可重構陣列 (CGRA) 加速器。根據 Matsuoka 的說法，這些可能是具有時鐘級同步的 GPU、類似 Xilinx 或 Intel 的 FPGA 結構，或者稱為可配置空間架構或 CSA 的 Intel 數據流引擎，我們早在2018 年的專利申請中就聽到了這些信息。。

您還會注意到，在 CPU 和加速器的頂部都堆疊了 2D SRAM 緩存，並且 CPU 的 SRAM 頂部堆疊了 DRAM。該中介層還具有 12 個 1 Tb/sec 硅光子網絡端口，可直接從封裝中取出。RIKEN 估計這種芯片將採用 1.5 納米工藝進行蝕刻。

這種潛在的 FugakuNext socket在 FP16 精度下每個節點的性能將超過 1 petaflops，這可能意味着在 FP32 單精度下超過 500 teraflops，在 FP64 雙精度下超過 250 teraflops，並且 SRAM 帶寬的內存帶寬超過 20 TB/秒. 這個潛在的 FugakuNext 系統將有大約 80,000 個節點，總內存帶寬介於 2 EB/秒和 3 EB/秒之間，混合精度性能大約 100 exaflops，消耗大約 30 兆瓦的電量。

這聽起來很合理的願望。問題是：它可以製造嗎？人們都能負擔得起嗎？

★ 點擊文末【閱讀原文】，可查看本文原文鏈接！

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點讚同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第3175內容，歡迎關注。

鑽石舞台

鑽石鑽石亮晶晶

半導體行業觀察 - 這個將用1.5nm工藝生產的芯片，突破了性能瓶頸？

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣