close

來源:內容來自半導體行業觀察(ID:icbank)綜合,謝謝。


Arm表示,公司在去年推出的第一代Armv9 CPU是一個里程碑式。這不僅是對於 Arm,更重要是對於我們擴展的生態系統。在Arm看來,Armv9 架構推動的進步將對科技行業和未來十年的計算產生持久的影響。

在近日,Arm正式對外發布其第二代基於 Armv9 的 CPU。其中包括Arm Cortex-X3和Arm Cortex-A715,以及Arm Cortex-A510和 DSU-110(DynamIQ 共享單元)的重要更新。新的 Armv9 CPU 和更新構成了Arm 新的全面計算解決方案 (TCS22)的基礎。

Arm表示,新的 Armv9 CPU 展示了其對釋放計算性能的承諾。新的 Cortex-X3 和 Cortex-A715 以及對 Cortex-A510 和 DSU-110 的升級都旨在突破峰值性能的極限並提供卓越的持續性能和效率。作為多功能 CPU 集群的一部分,Arm旨在通過在下一代消費設備上提供出色的用戶體驗來激勵合作夥伴並吸引最終用戶。


Cortex-X3:將 X 因素帶入性能

據Arm介紹,新的 Cortex-X3 是 Arm 的第三代 Cortex-X CPU。它是Cortex-X 定製計劃的產物,允許參與的合作夥伴塑造最終產品設計。Cortex-X3 專為極致性能而設計,代表了 IPC 連續第三年實現兩位數增長。這一強勁的 IPC 成績能讓 Android 旗艦智能手機和 Windows on Arm 筆記本電腦設備的性能領先地位。

Arm表示,Cortex-X3 針對一系列基準測試和應用程序,與最新的 Android 旗艦智能手機相比,其性能提高了 25%。

在筆記本電腦領域,與最新的主流筆記本電腦相比,Cortex-X3 的單線程性能提高了 34%。一致的性能和微架構改進為強大的 Cortex-X CPU 產品組合奠定了堅實的基礎。

從Arm的介紹我們得知,全新的DSU 能在 Cortex-X3 上支持多達 12 個內核和 16M L3 緩存,可實現跨筆記本電腦和台式設備、移動設備、DTV 等設備的可擴展性。

據theregister報道,Arm 的 Cortex-X3 CPU 設計至少考慮了英特爾功能更強大的主流筆記本電腦處理器之一。這是Arm 在運行 SPECRate2017_int_base 單線程基準測試以模擬其 CPU 內核設計(時鐘頻率相當於 3.6GHz、1MB L2 和 16MB L3 緩存)後得出的結論。

他們指出,Arm 相信其 Cortex-X3 內核在運行通用應用程序代碼時可以勝過 Core i7 的 P 內核。面向輕薄筆記本電腦的 28 瓦英特爾部件具有四個性能內核和八個效率內核,而基於 Arm 的競爭性現實世界片上系統(無論何時或如果有的話)將需要多個 Cortex 內核.

Arm 表示,X3 的進步部分歸功於每時鐘指令 (IPC) 比 X2 提高了 11%,這標誌着 Cortex-X 系列的 IPC 連續第二年實現兩位數增長。這使得 X3 成為 Arm 產品組合中「性能最高的 CPU」。然而,一旦我們考慮到轉向即將到來的 3nm 製造工藝的預期收益,這一收益將擴大到 25%。Arm 預計該內核的性能將在筆記本電腦市場進一步擴展,與中端英特爾 i7-1260P 相比,性能提升高達 34%。不過,Cortex-X3 仍然不會趕上Apple 的 M1 和 M2,但希望縮小差距。

「這是關於最佳用戶體驗的,無論你的應用程序需要峰值性能還是用戶響應時間非常關鍵,」Arm 中央工程組織的首席 CPU 架構師兼研究員 Chris Abernathy 在與記者的簡報中說.

在進行微架構更改之前,X3 有幾點值得注意。Arm 現在堅定地致力於其僅 64 位的路線圖,因此 Cortex-X3 是僅 AArch64 的內核,就像其前身一樣。Arm 表示,由於傳統的 AArch32 支持已被刪除,因此它專注於優化設計。重要的是,Cortex-X3 與 Cortex-X2 保持在同一版本的 Armv9 架構上,使其與現有內核的 ISA 兼容。

Cortex-X3 實現同比兩位數的性能提升絕非易事,而 Arm 這次究竟是如何做到這一點的,歸結為核心前端的大量工作。換句話說,Arm 已經優化了它如何讓核心的執行單元有很多事情要做,從而使它們能夠更好地發揮潛力。部分歸功於 AArch64 指令的可預測性。

前端的細節包括改進的分支預測準確性和更低的延遲,這要歸功於用於間接分支(帶指針的分支)的新專用結構。分支目標緩衝區 (BTB) 已顯著增長,受益於 Arm 分支預測算法的高精度。L1 BTB 緩存容量增加了 50%,L0 BTB 容量增加了 10 倍。後者允許核心在 BTB 經常出現的工作負載中實現性能提升。由於 BTB 的整體大小,Arm 還必須包含第三個 L2 緩存級別。

要理解這一變化,您需要注意 Arm 的分支預測器作為解耦指令預取運行,在內核的其餘部分之前運行以最大程度地減少流水線停頓(bubbles)。這可能是具有大型代碼庫的工作負載的瓶頸,並且 Arm 希望最大限度地提高其面積占用的性能。增加 BTB 的大小,特別是在 L0 時,可以讓更多正確的指令準備好填充指令提示,從而減少採用分支的氣泡(bubbles)並最大限度地提高 CPU 性能。

為此,Arm 還擴展了獲取深度,允許預測器提前獲取更多指令以利用大型 BTB。同樣,這也有助於減少指令管道中的停頓次數,因為 CPU 什麼也不做。Arm 聲稱,總體結果是預測的分支平均延遲減少 12.2%,前端停頓減少 3%,每千個分支的錯誤預測減少 6%。

現在還有一個更小、更高效的微操作(解碼指令)緩存。它現在比 X2 小 50%,回到與 X1 相同的 1.5K 條目,這要歸功於減少抖動的改進填充算法。這種較小的 mop 緩存還允許 Arm 將總流水線深度從 10 個周期減少到 9 個周期,從而減少發生分支錯誤預測和刷新流水線時的懲罰。

Arm 計劃通過其Total Compute Solutions計劃提供 X3 設計,該計劃提供一系列「專用」芯片設計配置,將各種技術結合在一起,包括其不斷擴大的 GPU 設計組合。

繼去年的 X2 之後,X3 的發布正值Arm希望通過硅合作夥伴在筆記本電腦領域獲得更大的立足點,這些合作夥伴授權 Arm 的技術來製造與英特爾和 AMD 的基於 x86 的處理器競爭的芯片。除了筆記本電腦,Armv9 X3 還針對高端 Android 智能手機。


Cortex-A715:實現完美平衡的高效性能

Arm表示,對於 Cortex-A715,他們正在加倍關注 Cortex-A700 CPU 的關鍵價值主張——即終極高效性能。arm對 Cortex-A715 設計進行了一系列有針對性的改進,包括分支預測精度和數據預取。一致的 IPC 增益意味着 Cortex-A715 現在達到了與已有 2 年歷史的 Arm Cortex-X1 CPU 性能相匹配的重要里程碑。

arm強調,Cortex-A715 為其合作夥伴提供了性能和效率的完美平衡。與Arm Cortex-A710 CPU (ISO 工藝)相比,這包括在相同性能下提高 20% 的能效,在相同功率下提高 5% 的性能。

這種對高效性能的推動使 Cortex-A715 成為 big.LITTLE CPU 集群的 CPU 集群主力。作為 TCS22 的一部分,CPU 可以與 Cortex-X3 和 Cortex-A510 CPU 內核配對。

正如Arm 所示,Cortex-A715 取代了上一代 Cortex-A710,繼續提供比 X 系列更平衡的性能和能耗方法。不過,它仍然是一個繁重的內核,如上所述,Arm 表示 A715 在配備相同的時鐘和緩存時提供與舊版 Cortex-X1 內核相同的性能。就像 Cortex-X3 一樣,A715 的大部分改進都在前端。

與 A710 相比,更值得注意的變化之一是新內核僅為 64 位。由於沒有 AArch32 指令,Arm 的指令解碼器的大小與其前身相比縮小了 4 倍,所有這些解碼器現在都可以處理 NEON、SVE2 和其他指令。總體而言,它們在面積、功率和執行方面的效率更高。

在 Arm 改進解碼器時,它同時還把 i-cache從 4 通道切換到每周期 5 條指令,並將指令融合從 mop-cache 集成到 i-cache,兩者都針對具有大容量的代碼進行了優化指令操作。這樣做的結果就是讓mop-cache可以完全消失了。Arm 指出,它在實際工作負載中並沒有那麼頻繁,因此並不是特別節能,尤其是在轉向 5 寬解碼時。移除 mop-cache 可降低整體功耗,使內核的能效提高 20%。

分支預測的準確性也得到了調整,方向預測能力翻了一番,同時改進了分支歷史算法。結果是錯誤預測減少了 5%,這有助於提高執行核心的性能和效率。帶寬已擴展,每個周期支持兩個分支,支持條件分支和 3 階段預測管道以減少延遲。

相關報道指出,Cortex-A715的執行核心與 A710 保持不變(也許是為什麼 Arm 選擇將名稱增加 5,而不是 10?),這部分解釋了這一代較小的性能提升。其餘的更改在後端;有兩倍多的數據緩存來增加 CPU 的並行讀寫能力,並產生更少的緩存衝突以提高電源效率。A715 L2 翻譯後備緩衝區 (TLB) 現在具有 3 倍的頁面文件範圍,具有更多條目和針對連續頁面的特殊優化,並且每個條目的翻譯數量增加了 2 倍,從而提高了性能。Arm 還提高了現有數據預取引擎的準確性,減少了 DRAM 流量並有助於整體節能。

總而言之,Arm 的 Cortex-A715 是 A710 的更精簡版本。放棄傳統的 AArch32 ,並優化前端和後端會產生小的性能提升,但更大的收穫是功率優化。作為大多數移動場景的主力,Cortex-A715 比以往任何時候都更高效——電池壽命的福音。然而,這也可能說明該設計可能已經完成,Arm 將需要進行更大的設計改革,以在下一次將中核性能提升一個檔次。


Cortex-A510的效率升級

除了上述 CPU,arm還對去年推出的「LITTLE」Armv9 CPU Cortex-A510 進行了更新,該 CPU 主要為高效率而設計。arm表示,在該cpu上,他們保持了 2021 版本的性能,但提供了卓越的效率,這就使得其功耗降低了 5%。進而將公司的「LITTLE」CPU 內核的終極效率推向了全新的高度,更低的功耗意味着最終用戶的電池壽命更長。

從相關報道可以看到,改進後的 A510 可將功耗降低多達 5%,同時改進時序,從而優化頻率。作為替代品,明年的智能手機將在低功耗任務中更加高效。有趣的是,改進後的 A510 可以配置 AArch32 支持——原來只有 AArch64——這將該核心帶入傳統移動、物聯網和其他市場。因此,就 Arm 的合作夥伴如何使用核心而言,它更加靈活一些。

報道指出,Arm 最新的動態共享單元 (DSU) 現在在單個集群中的支持性能獲得了提升,例如其DSU 在 Cortex-X3 上支持多達 12 個內核和 16M L3 緩存,可實現跨筆記本電腦和台式設備、移動設備、DTV 等設備的可擴展性。

報道指出,與上一代相比,新更新的 DSU-110 支持的內核數量增加了 50%,同時支持最新的 ISA 功能。這些變化提高了我們合作夥伴的靈活性,並提供了資源來充分發揮我們 CPU 的潛力,從而改善用戶體驗。我們的合作夥伴現在可以針對具有新配置(例如 8 個 Cortex-X3 CPU 內核和 4 個 Cortex-A715 CPU 內核)的高端筆記本電腦設備,解鎖新一代消費設備。

Arm表示,公司推出的big.LITTLE 技術於 2011 年首次推出,現已成為全球消費類設備(包括智能手機、筆記本電腦和 DTV)最常用的異構處理架構。然後,arm的DynamIQ 技術將大 CPU 和小 CPU 組合成一個完全集成的單一集群。big.LITTLE CPU 集群的靈活性非常適合多線程工作負載。該技術可以適應跨消費設備的動態使用模式,例如用於遊戲和網頁瀏覽的高處理強度,以及用於短信、電子郵件和音頻的更長時間的低處理強度任務。

Arm同時強調,公司的 big.LITTLE 證明了其對計算的清晰願景,並體現了 Arm 解決方案為我們的合作夥伴和更廣泛的生態系統提供的靈活性。無論是計算密集型遊戲還是低強度消息傳遞,big.LITTLE CPU 集群配置都能為用戶提供最佳體驗。

通過構建在 Armv9 安全功能的堅實基礎上,arm希望能使開發人員能夠創建最好、最安全的應用程序。通過將這些功能集成到硬件中,arm的 CPU 可提供卓越的安全性,而不會影響峰值性能或功率。

藉助全新的 CPU,arm表示公司將繼續突破專業處理的界限。這些最新的 CPU 集群也可在廣泛的下一代設備中實現多種功率、性能和面積矢量的可擴展性。多功能且功能強大的 Armv9 CPU 集群可為未來十年提供計算能力,並支持 Arm 的下一代創新。


支持光追的GPU,釋放遊戲性能

在發布全新CPU的同時,Arm還帶來了新一代的CPU。

Arm 也強調,公司每年都會發布面向移動市場的全新優質 GPU。然而,Arm今年決定更進一步,通過推出名為「Immortalis」的全新旗艦 GPU,確保最佳體驗。這將其GPU 範圍擴展到 Mali 之外,Mali 是迄今為止全球出貨量最大的 GPU,已達到 80 億個。

Immortalis 專為上市的最好的旗艦智能手機而設計,其設計的核心是卓越的遊戲體驗。Immortalis-G715 以最高性能和最佳圖形功能提供終極遊戲體驗。其中一個功能是光線追蹤,Immortalis-G715 是第一款在移動設備上提供基於硬件的光線追蹤支持的 Arm GPU。

除了新的旗艦 GPU 之外,Arm還推出了新的高級Arm Mali-G715 GPU,它為移動設備帶來了新的和更新的圖形和 GPU 功能。其中包括用於顯著節能和進一步提升遊戲性能的可變速率着色,以及改進的執行引擎。高級系列中的第二款 GPU Arm Mali-G615 GPU - 提供相同的功能,但與 Mali-G715 的 7-9 個內核相比,內核數量為 6 個或更少。

按照Arm的說法,支持性能和效率是他們在移動設備上實現更多機器學習 (ML) 和智能的驅動力,而公司全新的 GPU 也的確提供了 2 倍的架構 ML 改進。GPU 可以更適合移動設備上的一系列 ML 工作負載,例如圖像處理和精度靈活性,以獲得更高級的用戶體驗。

首先看Immortalis-G715方面,據arm介紹,這是公司第一款提供專為移動設備設計的基於硬件的光線追蹤支持的 Arm GPU。光線追蹤是一種計算機圖形技術,它通過對單個光線在場景周圍的路徑進行建模來生成逼真的光照和陰影。從本質上講,這提供了更逼真的遊戲體驗。

挑戰在於,光線追蹤技術可以在整個移動 SoC 上使用大量的功率、能量和面積。然而,Immortalis-G715 上的光線追蹤僅使用了 4% 的着色器核心區域,同時通過硬件加速實現了 300% 以上的性能提升。

arm同時談到,公司去年的 Mali-G710 已經支持基於軟件的光線追蹤。聯發科已經在其旗艦產品Dimensity 9000 芯片組中利用了這一功能,該芯片組已用於 OPPO 的 Find X5 Pro Dimensity 版本等旗艦智能手機。Immortalis-G715 中光線追蹤的硬件加速將提升遊戲性能,並為未來的旗艦智能手機帶來更逼真和身臨其境的體驗。

Arm 認為,光線追蹤代表了移動遊戲內容的範式轉變。我們決定現在在 Immortalis-G715 上引入基於硬件的光線追蹤支持,因為我們的合作夥伴已經準備好,硬件已經準備好,並且開發者生態系統已經(即將)準備就緒。

當 Immortalis-G715 於 2023 年初出現在旗艦智能手機中時,我們認為這是生態系統開始探索其遊戲內容的光線追蹤技術的基礎。隨着未來幾年技術的不斷發展,這將有助於為在移動設備上全面過渡到光線追蹤做好準備。

從相關報道可以看到,Arm 最新的 GPU 使用的其第四代 Valhall 圖形架構,該架構在2019 年的 Mali-G77 上取代了前一代產品 Bifrost。Immortalis-G715、Mali-G715 和 Mali-G615 的核心是共享相同的圖形 DNA。有一個改進的執行引擎,我們稍後會介紹它,以及對可變速率着色 (VRS) 的支持。VRS 可以通過解耦光柵化和着色頻率將性能提高多達 40%。一些手機遊戲現在已經支持可變速率着色有一段時間了,Arm 現在在這裡達到了與高通的 Adreno GPU 相同的功能。

除了支持光線追蹤之外,這些 GPU 之間唯一真正的區別是它們支持的核心數量和內存配置。因此,期待在旗艦 SoC 中看到 Immortalis,而 G715 和 G615 的性能點則略低。下表概述了設置的比較方式。

讓我們回到改進後的執行引擎,Arm 稱之為 Execution Engine Evolution。除了支持可變速率着色之外,還有一個經過調整的融合乘加 (FMA) 模塊。現在,每個內核中的 FMA 單元數量增加了一倍,每個 FMA 中還有一個專用的乘法累加 (MMUL) 塊。這使得 Arm 的最大計算能力翻了一番,尤其是對於機器學習工作負載,同時僅將核心的面積大小增加了 27%。每個引擎仍然有兩個數據路徑集群,因此每個內核有四個 FMA 單元。

Arm 在更廣泛的着色器核心上進行了其他改進。高几何遊戲的 Tiler 峰值三角形吞吐量為 3 倍,FP16 混合器吞吐量為 2 倍,用於多樣本抗鋸齒的新 FP16 硬件,以及細節級別案例的 2 倍紋理映射器速度。Arm 固定速率壓縮 (AFRC) 首次出現在高級層中,之前已包含在通常更受內存帶寬限制的低端內核中。現在還有一個軟件可編程的 L2 哈希(32K x 32K 分辨率),為開發人員提供了更大的哈希算法選擇靈活性。

這完全是針對實際工作負載優化圖形內核的一個案例,允許 Arm 從其 Valhal 架構中獲得更多的性能和效率,至少就其高級 Mali 內核而言。

Arm 的光線追蹤單元 (RTU) 是直接內置在着色器核心中的可選附加組件,而不是外部加速器,這意味着性能會隨着核心數量的增加而擴展。根據 Arm 的基準測試,微型 RTU 占用的着色器內核不到 4%,但提供的光線追蹤性能比沒有硬件加速的情況下高出 300% 以上。RTU 包含用於框和三角形邊界框檢測的專用加速單元,與標準 FMA 單元相比,大大加快了執行這些計算所需的時間。

值得注意的是,有不同程度的光線追蹤支持。Arm 的實施並沒有加速邊界體積分層 (BVH) 處理,與遊戲機中的支持相比,它是一種計算成本更高的光線追蹤實施,但面積和功耗成本更小。因此,我們不應該期望視覺複雜性或幀速率接近高端空間,儘管考慮到移動與桌面層圖形的功率、性能和面積限制,這總是有些意料之中的。

與其他實現一樣,Arm 使用混合光柵化和線追蹤方法。因此,預計可以從光線的使用中受益的對光、影和反射的更適度的增強,而不是對圖形保真度的大修。

最後但並非最不重要的一點是,Arm 正在為開發人員提供更多服務。arm的新 GPU 得到廣泛而全面的開發人員資源和工具集的支持,可優化所有移動遊戲應用程序的性能和效率。

★ 點擊文末【閱讀原文】,可查看本文原文鏈接!


*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第3085內容,歡迎關注。

推薦閱讀

★台積電先進封裝,最新進展

★EUV光刻機最新路線圖

★車用SiC,迎來800V風口

半導體行業觀察


『半導體第一垂直媒體』

實時 專業 原創 深度

識別二維碼,回復下方關鍵詞,閱讀更多

晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝

回復 投稿,看《如何成為「半導體行業觀察」的一員 》

回復 搜索,還能輕鬆找到其他你感興趣的文章!

點擊閱讀原文,可查看本文
原文鏈接!

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()