半導體行業觀察 - 英特爾瘋狂炫技，展示極致的小芯片設計－鑽石舞台

來源：本文內容編譯自IEEE，謝謝。

周一，英特爾公布了將為Aurora 超級計算機提供動力的處理器的新細節，該超級計算機旨在成為美國首批突破 exaflop障礙的高性能計算機 (HPC)之一，十億個高精度浮動 -每秒計算點數。英特爾研究員Wilfred Gomes告訴工程師本周幾乎參加了IEEE 國際固態電路會議，並詳細講述了該處理器是如何將英特爾的 2D 和 3D 小芯片集成技術推向了極限。

該處理器名為 Ponte Vecchio，是一個結合了多個計算、緩存、網絡和內存硅片或「小芯片」的封裝。封裝中的每塊tile都是使用不同的工藝技術製成的，這是一種稱為異構集成的趨勢的鮮明例子。

結果是英特爾將 3,100 平方毫米的硅（幾乎等於四個Nvidia A100 GPU）封裝到 2,330 平方毫米的芯片中。那是跨越 47 個硅片的超過 1000 億個晶體管。

Ponte Vecchio 由使用 3D 和 2D 技術連接的多個計算、緩存、I/O 和內存塊組成。

資料來源：英特爾公司。

Ponte Vecchio 是 3D 集成方面的大師級課程。每個 Ponte Vecchio 處理器實際上是使用英特爾的 2D 集成技術 Co-EMIB 捆綁在一起的兩個鏡像小芯片集。Co-EMIB 在兩個 3D 小芯片堆棧之間形成高密度互連的橋樑。橋本身是嵌入封裝有機基板中的一小塊硅。硅上的互連線可以比有機襯底上的更窄。Ponte Vecchio 與封裝基板的普通連接相距 100 微米，而在 Co-EMIB 芯片中它們的密度幾乎是其兩倍。Co-EMIB 芯片還將高帶寬內存 (HBM) 和 Xe Link I/O 小芯片連接到「基礎芯片」，即最大的小芯片，其他芯片堆疊在其上。

Ponte Vecchio 的部分。

資料來源：英特爾公司。

每組八個計算塊、四個稱為 RAMBO 塊的 SRAM 高速緩存小芯片和八個用於從處理器散熱的空白「熱」塊垂直連接到一個基本塊。該基礎提供高速緩存內存和允許任何計算塊訪問任何內存的網絡。

值得注意的是，這些tile是根據適合其性能要求和產量的不同製造技術製造的。後一個術語，即每個晶圓可用芯片的比例，在像 Ponte Vecchio 這樣的小芯片集成中尤為重要，因為將壞tile連接到好tile意味着你已經毀掉了很多昂貴的硅片。計算塊需要頂級性能，因此它們是使用 TSMC 的 N5（通常稱為 5 納米）工藝製造的。RAMBO tile 和 base tile 都使用 Intel 7（通常稱為 7 納米）工藝。HBM 是 DRAM 的 3D 堆棧，使用與其他小芯片的邏輯技術完全不同的工藝，Xe Link tile 是使用台積電的 N7 工藝製成的。

處理器的不同部分使用不同的製造工藝製造，例如 Intel 7 和 TSMC N5。英特爾的 Foveros 技術創建 3D 互連，其 Co-EMIB 進行水平連接。資料來源：英特爾公司。

基礎芯片還使用了英特爾的 3D 堆疊技術，稱為 Foveros。該技術在兩個芯片之間建立了密集的芯片到芯片垂直連接陣列。這些連接相距僅 36 微米，是通過「面對面」連接芯片實現的；也就是說，一個芯片的頂部接合到另一個芯片的頂部。信號和電源通過硅通孔進入這個堆棧，相當寬的垂直互連直接穿過大部分硅。Ponte Vecchio 上使用的 Foveros 技術是對用於製造英特爾Lakefield 移動處理器的技術的改進，使信號連接的密度增加了一倍。

不用說，這一切都不容易。Gomes 說，它在良率、時鐘電路、熱調節和功率傳輸方面進行了創新。為了根據需要提高或降低性能，每個計算塊可以在不同的電壓下運行和時鐘頻率。時鐘信號源自基礎芯片，但每個計算塊都可以以自己的速率運行。提供電壓更加複雜。英特爾工程師選擇為處理器提供高於正常電壓（1.8 伏）的電壓，以便他們可以簡化封裝結構，因為電流需求較低。基礎塊中的電路將電壓降低到接近 0.7 伏以用於計算塊，並且每個計算塊必須在基礎塊中有自己的電源域。這種能力的關鍵是新型高效電感器，稱為同軸磁性集成電感器。因為這些都內置在封裝基板中，所以在向計算塊提供電壓之前，電路實際上在基礎塊和封裝之間來回蜿蜒。

從複雜的 3D 芯片堆棧中釋放熱量並非易事。資料來源：英特爾公司。

Ponte Vecchio 的功耗為 600 瓦，因此確保可以從 3D 堆棧中提取熱量始終是重中之重。英特爾工程師使用的tile除了從設計中的活動小芯片中吸走熱量外，沒有其他功能。儘管各個部分具有不同的高度，但他們還在整個小芯片聚集體的頂部塗上了導熱金屬。最上面是基於焊料的熱界面材料 (STIM) 和集成散熱器。Gomes 說，不同的tile在液體冷卻和空氣冷卻下都有不同的工作溫度限制，但該解決方案設法將它們全部保持在範圍內。

Gomes 說：「Ponte Vecchio 的願景是讓計算民主化並將 petaflops 帶入主流。」每個 Ponte Vecchio 系統每秒能夠進行超過 45 萬億次 32 位浮點運算 (teraflops)。四個這樣的系統與兩個 Sapphire Rapids CPU 一起構成一個完整的計算系統。這些將結合在一起，總共超過 54,000 個 Ponte Vecchios 和 18,000 個 Sapphire Rapids，形成 Aurora，這是一款針對 2 exaflops 的機器。

Gomes 指出，從 2008 年的第一台 petaflop 超級計算機（每秒可計算 100 萬億次計算）到今天的 exaflops，用了 14 年時間。將性能提高 1000 倍「是一項非常艱巨的任務，它需要在許多領域進行多項創新，」他說。但隨着製造工藝、封裝、供電、內存、熱控制和處理器架構的改進，Gomes 告訴工程師，下一個千倍的增長可以在短短六年內完成，而不是再過 14 年。

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點讚同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第2963內容，歡迎關注。

鑽石舞台

鑽石鑽石亮晶晶

半導體行業觀察 - 英特爾瘋狂炫技，展示極致的小芯片設計

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣