close


今日凌晨,MLPerf公布最新的推理榜單,MLPerf是全球最權威的AI基準測試之一,由圖靈獎得主大衛·帕特森(David Patterson)聯合谷歌、斯坦福大學、哈佛大學等共同成立。本次在參與跑分的結果中,我們在提交者一欄看到了不少中國廠商的名字,除了老常客浪潮、新華三之外,我們還久違地看到了來自中國的芯片公司以自己研發的加速芯片參與評測,拿下了多項世界第一的好成績,比如最近推出了首款新品的壁仞科技(欲了解該產品,參考之前報道《專訪壁仞科技高管:解構公司首顆7nm GPU》)。

我們查看了MLPerf此前歷年的評測結果,壁仞科技是繼阿里平頭哥(含光800,2019年)之後,第二個成功在MLPerf榜單拿到全球第一的國內廠商。同時,壁仞科技的BR104也是唯一一個在MLPerf推理榜單超越A100的國產芯片(含光800上榜時對標的產品是NVIDIA T4)。這也意味着,當前英偉達A100和H100在國內禁售情況不明之下,國內的應用廠商有了靠譜的國產替代芯片選擇,並且根據MLPerf最新發布的榜單結果,該國產替代BR104在算力性能指標上,還要優於A100。另外,算力性能指標是BR104兩倍的BR00,極有可能是H100的國產替代芯片Plan B。

據了解,壁仞本次提供了一款搭載8張壁礪104板卡的服務器(壁礪104板卡基於今年8月發布的BR104芯片),參加了數據中心場景的Closed Division(固定任務)評測,並提交了ResNet50和BERT兩個模型的數據(同時包括了Offline模式和Server模式)。按照壁仞科技所說,之所以選擇BERT和ResNet50兩個模型參加評選,主要考慮在於這兩個模型,特別是BERT模型是其目標客戶應用最廣泛、最重要的模型。

特別是壁仞科技此次參加的Closed Division(固定任務)類別的評測,要求參評者在模型完全一致且接近產業應用實際環境下進行性能的測試,是目前業內最公平最具說服力的測試。而壁仞科技所屬的「available」類別,則對應包括A100在內的在售產品,因此通過此次的成績,壁仞科技將能夠以第三方權威數據向廣大客戶展示BR104芯片,乃至整個BR100系列芯片的實際落地商用能力。

標準測試結果顯示,壁仞科技的BR104在ResNet50(Offline)和BERT(Offline & Server, 99.9%精度)兩個模型下,均拿下了單卡性能全球第一的成績。在BERT模型的評選中,BR104甚至還同時拿下了Offline模式和Server模式全球第一的成績,性能1.58倍於英偉達提交的,基於8張A100的機型。

除了壁仞自己提交的系統外,其合作夥伴浪潮信息還提交了一款搭載4張壁礪104板卡的服務器。此次是浪潮信息首次提交基於國產廠商產品的服務器測試成績。但依託BR104的優秀性能,在所有的4卡機型中,浪潮提交的服務器在ResNet50(Offline)和BERT(Offline & Server, 99.9%精度)兩個模型下,也拿到了全球第一的成績。

作為國際上最權威、最有影響力的基準測試之一,MLPerf為及時跟蹤和評測迅速發展的AI計算需求與性能而生的。哪些能夠經過這個測試考驗的企業,也足以證明了他們的實力。我們認為,壁仞科技這次在MLPerf上展現出的產品性能,與其原創芯片架構設計有莫大的關係。

在早前舉辦的全球半導體行業盛會Hotchips,壁仞科技也參與了演講。該公司的兩位聯合創始人,總裁徐凌傑先生和CTO洪洲先生也在會上進一步披露了BR100系列的更多細節。

據會上介紹,BR100系列的設計目的主要是通過5個「C」,來加速未來數據中心規模的各種計算任務。如下圖所示,這5個C包括:計算密度(Compute density)、連接性(Connectivity)、擁有成本(Cost of Ownership)、軟硬件協同設計(Co-design hardware and software)和數據中心基礎設施的兼容性(Compatibility with datacenter infrastructure)。

SPC是BR100系列的核心計算單元。它由EU(執行單元)和L1緩存,以及分布式L2緩存組成。EU是執行標量、向量和張量運算以及數據存取的核心模塊,除指令緩存、線程束調度器(warp scheduler)和計算任務發射單元(dispatch unit)外,主要包括了流式處理單元(V-core)、張量加速引擎(T-core)、線程本地寄存器(Thread Local Register file)、數據處理引擎、數據存取加速單元TDA等。

SPC中,最少每4個EU可以組成一個CU(計算單元),共享一組L1緩存。在CU內部,線程組都是同步的,且CU是可以進一步擴展的,可以是4/8/16個EU組成1個CU。

V-core是通用SIMT處理器,是BR100 SPC的核心,具有與通用計算相關的全套ISA(指令集),包括支持FP32/FP16/INT32/INT16等精度的ALU,特殊函數,數據存取、預處理,對T-core的控制以及對常見/長尾深度學習算子的支持等。此外,BR100系列的V-core還具有許多相比傳統GPU的增強特性,例如C-Warp協同併發模式等。

C-Warp是V-core中的一種增強的線程併發模式,能夠提供比傳統SIMT的warp控制模式更高的並發性。

T-core是SPC中的專用張量加速引擎,為2.5D的混合架構,整個SPC相當於一個大的通用矩陣乘加單元GEMM。相比單純的2D加速單元,在相同的吞吐率下,2.5D混合GEMM的延遲更小;相比較小的3D MMA,2.5D混合GEMM在大多數負載下都有更好的數據重用性,因此可以在相同的數據吞吐率下大大降低對於內存帶寬和緩存空間的占用。除此之外,如果要單純做更大的3D MMA,繞線的複雜性會導致其擴展性不佳,而2.5D混合GEMM架構正是一個更好的解決方案。

TF32+是壁仞提出的一種針對AI訓練的數據類型。它具有8位指數和15位尾數,是NVIDIA TF32精度的32倍。之所以要提出TF32+,首先是因為在有些模型訓練的過程中,FP16/TF32的10位尾數並不足夠使得這些模型收斂,這會使得開發新的模型的過程變得更慢。多出的5位尾數將使得訓練模型收斂的速度更快,或者使得它們的權重數據更精確。

此外,TF32+反映了壁仞硬件架構的核心特徵——也即復用基於BF16的8位乘法器,從而簡化T-core的設計。在壁仞的硬件上,它具有比TF32更加精確和高效的AI訓練計算效能。除此之外,它的使用方法與TF32類似,也即用戶只需要聲明FP32變量類型,在DNN張量加速庫中會被自動轉換為TF32+。用戶對這一轉換過程無感知,並且最終MMA的輸出結果也為FP32。除此之外,在壁仞的硬件中還支持FP32 MMA的數據類型,能夠提供比CPU的原生FP32更高的矩陣乘計算精度,從而更好地支持混合精度的AI訓練。

軟件方面,壁仞開發了BIRENSUPA軟件棧,核心編程模型具有C/C++的編程接口和運行時API,風格與主流的GPGPU開發語言和編程範式類似。它能夠使得開發者在BR100上非常容易地進行編程開發,同時帶來較小的代碼遷移工作量。


*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第3155內容,歡迎關注。

推薦閱讀

★USB發展簡史:從「通用」走向通用

★2nm那麼難,日本成嗎?

★淘汰賽開打,國產芯片公司的五種「死法」

半導體行業觀察


『半導體第一垂直媒體』

實時 專業 原創 深度

識別二維碼,回復下方關鍵詞,閱讀更多

晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝

回復 投稿,看《如何成為「半導體行業觀察」的一員 》

回復 搜索,還能輕鬆找到其他你感興趣的文章!

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()