close

來源:本文內容編譯自IEEE,謝謝。


周一,英特爾公布了將為Aurora 超級計算機提供動力的處理器的新細節,該超級計算機旨在成為美國首批突破 exaflop障礙的高性能計算機 (HPC)之一,十億個高精度浮動 -每秒計算點數。英特爾研究員Wilfred Gomes告訴工程師本周幾乎參加了IEEE 國際固態電路會議,並詳細講述了該處理器是如何將英特爾的 2D 和 3D 小芯片集成技術推向了極限。

該處理器名為 Ponte Vecchio,是一個結合了多個計算、緩存、網絡和內存硅片或「小芯片」的封裝。封裝中的每塊tile都是使用不同的工藝技術製成的,這是一種稱為異構集成的趨勢的鮮明例子。

結果是英特爾將 3,100 平方毫米的硅(幾乎等於四個Nvidia A100 GPU)封裝到 2,330 平方毫米的芯片中。那是跨越 47 個硅片的超過 1000 億個晶體管。
Ponte Vecchio 由使用 3D 和 2D 技術連接的多個計算、緩存、I/O 和內存塊組成。
資料來源:英特爾公司。

Ponte Vecchio 是 3D 集成方面的大師級課程。每個 Ponte Vecchio 處理器實際上是使用英特爾的 2D 集成技術 Co-EMIB 捆綁在一起的兩個鏡像小芯片集。Co-EMIB 在兩個 3D 小芯片堆棧之間形成高密度互連的橋樑。橋本身是嵌入封裝有機基板中的一小塊硅。硅上的互連線可以比有機襯底上的更窄。Ponte Vecchio 與封裝基板的普通連接相距 100 微米,而在 Co-EMIB 芯片中它們的密度幾乎是其兩倍。Co-EMIB 芯片還將高帶寬內存 (HBM) 和 Xe Link I/O 小芯片連接到「基礎芯片」,即最大的小芯片,其他芯片堆疊在其上。

Ponte Vecchio 的部分。
資料來源:英特爾公司。

每組八個計算塊、四個稱為 RAMBO 塊的 SRAM 高速緩存小芯片和八個用於從處理器散熱的空白「熱」塊垂直連接到一個基本塊。該基礎提供高速緩存內存和允許任何計算塊訪問任何內存的網絡。

值得注意的是,這些tile是根據適合其性能要求和產量的不同製造技術製造的。後一個術語,即每個晶圓可用芯片的比例,在像 Ponte Vecchio 這樣的小芯片集成中尤為重要,因為將壞tile連接到好tile意味着你已經毀掉了很多昂貴的硅片。計算塊需要頂級性能,因此它們是使用 TSMC 的 N5(通常稱為 5 納米)工藝製造的。RAMBO tile 和 base tile 都使用 Intel 7(通常稱為 7 納米)工藝。HBM 是 DRAM 的 3D 堆棧,使用與其他小芯片的邏輯技術完全不同的工藝,Xe Link tile 是使用台積電的 N7 工藝製成的。

處理器的不同部分使用不同的製造工藝製造,例如 Intel 7 和 TSMC N5。英特爾的 Foveros 技術創建 3D 互連,其 Co-EMIB 進行水平連接。資料來源:英特爾公司。

基礎芯片還使用了英特爾的 3D 堆疊技術,稱為 Foveros。該技術在兩個芯片之間建立了密集的芯片到芯片垂直連接陣列。這些連接相距僅 36 微米,是通過「面對面」連接芯片實現的;也就是說,一個芯片的頂部接合到另一個芯片的頂部。信號和電源通過硅通孔進入這個堆棧,相當寬的垂直互連直接穿過大部分硅。Ponte Vecchio 上使用的 Foveros 技術是對用於製造英特爾Lakefield 移動處理器的技術的改進,使信號連接的密度增加了一倍。

不用說,這一切都不容易。Gomes 說,它在良率、時鐘電路、熱調節和功率傳輸方面進行了創新。為了根據需要提高或降低性能,每個計算塊可以在不同的電壓下運行和時鐘頻率。時鐘信號源自基礎芯片,但每個計算塊都可以以自己的速率運行。提供電壓更加複雜。英特爾工程師選擇為處理器提供高於正常電壓(1.8 伏)的電壓,以便他們可以簡化封裝結構,因為電流需求較低。基礎塊中的電路將電壓降低到接近 0.7 伏以用於計算塊,並且每個計算塊必須在基礎塊中有自己的電源域。這種能力的關鍵是新型高效電感器,稱為同軸磁性集成電感器。因為這些都內置在封裝基板中,所以在向計算塊提供電壓之前,電路實際上在基礎塊和封裝之間來回蜿蜒。

從複雜的 3D 芯片堆棧中釋放熱量並非易事。資料來源:英特爾公司。

Ponte Vecchio 的功耗為 600 瓦,因此確保可以從 3D 堆棧中提取熱量始終是重中之重。英特爾工程師使用的tile除了從設計中的活動小芯片中吸走熱量外,沒有其他功能。儘管各個部分具有不同的高度,但他們還在整個小芯片聚集體的頂部塗上了導熱金屬。最上面是基於焊料的熱界面材料 (STIM) 和集成散熱器。Gomes 說,不同的tile在液體冷卻和空氣冷卻下都有不同的工作溫度限制,但該解決方案設法將它們全部保持在範圍內。

Gomes 說:「Ponte Vecchio 的願景是讓計算民主化並將 petaflops 帶入主流。」每個 Ponte Vecchio 系統每秒能夠進行超過 45 萬億次 32 位浮點運算 (teraflops)。四個這樣的系統與兩個 Sapphire Rapids CPU 一起構成一個完整的計算系統。這些將結合在一起,總共超過 54,000 個 Ponte Vecchios 和 18,000 個 Sapphire Rapids,形成 Aurora,這是一款針對 2 exaflops 的機器。

Gomes 指出,從 2008 年的第一台 petaflop 超級計算機(每秒可計算 100 萬億次計算)到今天的 exaflops,用了 14 年時間。將性能提高 1000 倍「是一項非常艱巨的任務,它需要在許多領域進行多項創新,」他說。但隨着製造工藝、封裝、供電、內存、熱控制和處理器架構的改進,Gomes 告訴工程師,下一個千倍的增長可以在短短六年內完成,而不是再過 14 年。

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。


今天是《半導體行業觀察》為您分享的第2963內容,歡迎關注。

推薦閱讀

★台積電又贏了

★SiC/GaN,海外巨頭瘋狂擴產!

★半導體材料全面告急

半導體行業觀察


『半導體第一垂直媒體』

實時 專業 原創 深度

識別二維碼,回復下方關鍵詞,閱讀更多

晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝

回復 投稿,看《如何成為「半導體行業觀察」的一員 》

回復 搜索,還能輕鬆找到其他你感興趣的文章!

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()