
來源:內容由半導體行業觀察(ID:icbank)編譯自spectrum,謝謝。
「藍色巨人」的z16計算機及其核心的的高速緩存設計為平台提供了新的相關性。
IBM最近推出了名為IBM z16的大型計算機新系列,儘管這一事件並不是什麼頭版新聞,除了一些媒體的慶祝之外。然而,大型機在當今科技領域的重要性不斷下降,並不意味着它正在消失。想想IBM對z16的實時人工智能處理欺詐交易的吹捧吧。(IBM還將z16稱為「業界首個量子安全系統」。)這些激進的說法可能會讓z16走上重振大型機平台的道路。所有這些能力的核心是硅。事實上,z16的基礎是IBM的Telum芯片,它本身就是去年夏天才推出的。這種芯片的架構使IBM今天正在推進的人工智能大型機成為可能。Telum最吸引人的地方在於它新穎的緩存設計方法。緩存是每個微處理器的關鍵設計組件,對處理器的整體性能有着巨大的影響。緩存就像存儲櫃,能夠存儲數據,或者在處理器的門口提前緩存數據。這在當今運行速度非常快的處理器(通常是千兆赫)中尤其重要,以至於每當系統需要等待數據時,寶貴的時鐘周期就會被浪費掉。雖然一些科技媒體認為Telum的緩存操作是「魔法」,但它實際上只是一種智能工程。在Telum芯片之前產生的芯片使用了四層緩存:最近的一級緩存是一級(L1),下一級緩存是二級(L2),以此類推,直到你到達四級(L4)。傳統上,緩存層次結構是在芯片上使用L1、L2和L3構建的,而L4不在芯片上。每個級別的大小隨着您的操作而增加,並且它們離處理器引擎本身越遠,延遲也越長。使用新的Telum芯片,IBM消除了物理L3和L4緩存。他們是如何做到這一點的,這是一項工程壯舉,花了五年時間才實現。IBM 研究員ChristianJacobi說:「我們對 Telum 芯片所做的事情是,我們完全重新設計了這些緩存的工作方式,以使更多的數據比我們過去所做的更接近處理器內核。」 IBM zSystems 系統架構和設計首席技術官。「為此,我們將二級緩存增加了四倍。我們現在有一個 32 MB 的二級緩存。」這個L2緩存的大小與大多數其他服務器芯片的0.5兆字節或1兆字節的緩存形成了鮮明的對比。為了讓這個大得多的L2緩存有效地工作,IBM優化了訪問模式,以及處理器核心如何獲得非常大的32 MB緩存(8個核心256 MB),從而具有極低的延遲。Jacobi 說:「我們不再受控制邏輯的限制,控制邏輯可以確定數據在緩存中的實際位置,然後將請求發送到緩存的正確區域,然後緩慢地將數據移到那裡。」「我們正在設計它,使我們真正只受電力傳輸延遲的限制,以獲取數據,觸發讀取數組中的數據,然後將數據流回需要的地方。」「我們試圖為每個核心用戶提供他們需要的東西,然後他們不需要的東西就變成了可自由支配的空間。」——Christian Jacobi。就實際數據而言,Telum芯片的最佳延時小於3納秒,平均延時為3.6納秒。「我們已經優化了這個訪問管道,通過它,我們為我們創造了巨大的性能優勢,」Jacobi補充說。Jacobi和他的團隊看到了通過增加L2緩存的大小來消除物理L3和L4緩存的好處,但他們仍然希望獲得L3和L4緩存固有的額外存儲空間所帶來的性能優勢。為了保持這些好處,他們決定重塑和重新定義緩存之間的交互方式。所以他們開始意識到——一個芯片有8個核,每個核都有自己的緩存——並不是每個核都一直一樣忙。在每個核心的工作負載需要使用自己的私有緩存時,會發生瞬時轉移。「這次行動對我們來說是一個巨大的機會,」 Jacobi解釋說。「如果一個核心在其L2上非常繁忙,實際上需要超過32mb的內存,而芯片上的另一個核心使用較少的緩存,我可以使用芯片上的另一個L2作為非常繁忙的緩存的溢出位置。」這就是為什麼Jacobi和他的團隊提出了虛擬L3緩存的概念。虛擬L3緩存平衡了未充分利用的L2緩存,將其作為溢出空間用於其他超額使用的L2緩存。當需要訪問數據時,仍然可以從非常非常靠近核心的32mb緩存中檢索數據。事實上,芯片上的溢出空間因此有效地達到最大值 32 x 8 =256 MB。如果其他核心不做任何事情,理論上它們的所有緩存都可以作為單個核心的溢出來使用——現在它的延遲仍然非常低,只有 12 納秒。他說:「我們試圖為每個核心提供他們需要的東西,然後他們不需要的東西就會成為核心可以從中受益的自由空間。」「因為我們仍在優化,以獲得非常低的延遲,所以實際上這就像一個L3,但它是由物理L2緩存組成的,而不是在芯片上自己的一塊硅區域。」雖然一些科技媒體將這種操作稱為「魔法」,但它實際上只是一種智能工程。Jacobi解釋說,芯片會定期測量每個緩存的繁忙程度。通過IBM內置到Telum中的啟發式算法,它可以確定在最後一微秒內,它在這個緩存上非常活躍,而在另一個緩存上不太活躍。有了這些信息,芯片就會重定向流量,並使用鄰近的緩存作為溢出。與此同時,它繼續測量它的緩存變換對其他緩存的活躍程度。Jacobi指出,這種架構還提供了一種乾淨的方法,允許集成在大型機中的專用硬件加速器(例如能夠實時欺詐檢測的AI加速器)訪問CPU緩存中的數據。*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。
今天是《半導體行業觀察》為您分享的第3027內容,歡迎關注。
★無掩膜光刻,有機會嗎?
★模擬芯片公司奔向12英寸
★開局狂跌的芯片巨頭
『半導體第一垂直媒體』
實時 專業 原創 深度
識別二維碼,回復下方關鍵詞,閱讀更多
晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝
回復 投稿,看《如何成為「半導體行業觀察」的一員 》
回復 搜索,還能輕鬆找到其他你感興趣的文章!