DPU自2020年爆火至今已有2年,從目前行業的關注度來看,DPU帶來的機遇已經基本形成共識。世界範圍來看,DPU競爭激烈,國外大廠英偉達、AMD、英特爾、高通、博通一線廠商均開始在DPU方向發力,DPU已經成為很重要的一個賽道。最好的時代就在當下。
DPU火熱兩年,我們對其又有了新認識
首先讓我們再來看看,DPU為何會在2020年左右火起來呢?此前的解釋:摩爾定律的放緩與全球數據量的爆發這個正在迅速激化的矛盾通常被作為處理器專用化的大背景,但是該大背景雖然有一定的合理性,但是還是過於模糊,並沒有更好的解釋出DPU「橫空出世」的原因。中科馭數發布的《專⽤數據處理器 (DPU)技術白皮書》中對這一原因做了另外的解釋:通過比較網絡帶寬的增長趨勢和通用CPU性能增長趨勢,能發現一個有趣的現象:帶寬性能增速比(RBP,Ratio of Bandwidth and Performance growth rate)失調。

2010年前,網絡的帶寬年化增長大約是30%,到2015年微增到35%,然後在近年達到45%。相對應的,CPU的性能增長從10年前的23%,下降到12%,並在近年直接降低到3%。在這三個時間段內,RBP指標從1附近,上升到3,並在近年超過了10!如果在網絡帶寬增速與CPU性能增速近乎持平,RGR~1,IO壓力尚未顯現出來,那麼當目前RBP達到10倍的情形下,CPU幾乎已經無法直接應對網絡帶寬的增速。因此,帶寬性能增速比的失調激化了對DPU的需求。
那麼什麼是DPU?關於DPU的定義很多,DPU是以數據為中心構造的專用處理器,採用軟件定義技術路線支撐基礎設施層資源虛擬化、存儲、安全、服務質量管理等服務。DPU是下一代「算力網絡」的核心支撐組件。
其實DPU是什麼不重要,重要的是DPU能做什麼。如果從功能角度來看DPU,英偉達認為DPU的功能是,用來把數據在正確的時間放到正確的位置。什麼叫正確的時間放到正確的位置?正確的時間指的是必須延遲要滿足要求,帶寬要能達到數據量,自己的數據帶寬要做到匹配;正確的位置指的是要把所有的遠程資源都本地化,所有的跨節點訪問都要做的跟訪問本地的資源是一樣的。
那麼,DPU的市場價值是怎樣的呢?很多人會認為DPU是一顆專用芯片,一旦專用化,就代表你需要很多定製化,定製化以後就會非標,一旦非標價值就很低,其實這是一個認知的誤區。定製化、專用化、標準化這三者是完全不相關的概念:專用化強調的是應用場景,跟最後的價值高低沒有直接關係;定製化是技術實現的路徑選擇;標準化是為了降低邊際成本。那麼DPU是否能標準化?中科馭數創始人兼CEO鄢貴海表示,我們覺得,DPU肯定是個好東西,標準化也能做成,但是有挑戰。
DPU特有的挑戰,要求芯片廠商必須軟硬兼施
任何一個新技術在做產業化的過程中,都會面臨一些特定的挑戰,DPU也不例外,而且其面臨的挑戰還不小。
DPU很大的一個應用挑戰就是跨平台下的「適配」問題,DPU要與當下的CPU以及各種操作系統進行適配,這非常考驗DPU廠商的技術實力。而且加之DPU本身特有的挑戰主要有需求比較碎片化、軟件生態不夠成熟。當然DPU還有一些行業共性的挑戰,比如芯片量產供應鏈的問題和高水平研發人員的短缺問題。
所以DPU必是一個軟硬兼施的產業,「如果不做軟件,DPU整個功能和性能都沒法得到充分的釋放,這就導致最後你要去兼容各種奇形怪狀上層的系統,那些系統比應用還碎片化。」鄢貴海指出。
正因為如此,我們可以看到,英偉達為其BlueField DPU特意打造了DOCA軟件框架,DOCA能將BlueField DPU提供的硬件能力做軟件抽象和封裝,以SDK Library的形式提供友好的可編程接口,提高應用開發的效率。
中科馭數從2018年就提出了「軟件定義加速器「的發展路徑,四年磨一劍,中科馭數自研的HADOS系統已經迭代到第三代,直接對標英偉達的DOCA。在中科馭數看來,HADOS是解決DPU眾多挑戰的最重要的一招棋。下圖展示了DOCA、OneAPI和HADOS的比較。得益於中科馭數自研的軟件開發平台HADOS,馭數產品靈活度高、穩定性強、兼容性好,全面適配國內外多種操作系統,大幅降低應用軟件開發難度。

DOCA、OneAPI與HADOS比較分析(需要指明的是,OneAPI本身並不提供DPU設備,而是構建一個軟件框架來整合業界現有的異構計算設備)(來源:2021《專用數據處理器(DPU)技術白皮書》)
第一批國內做DPU的廠商發展到哪一步了?
芯片算力的發展有三個要素:第一,性能必須要高;第二是生產率,主要看系統能不能做的更好用,學習成本更低,以及兼容性做到最廣;第三是成本能不能儘量做到優勢。
對一個初創公司來說,大抵都是從第一點開始做起,循序漸進。那第一批國內創業做DPU的廠商發展到哪一步了?拿中科馭數來說,目前大致處在第二階段,不管是DPU的核心架構還是軟件的頻繁迭代,以及跟國產品牌適配等等,這些都是為了解決DPU產品能好用、易用的問題。
接下來就是解決第三個成本的問題,今天單顆DPU成本還比較高,主要原因是:大規模化還沒起來,AMD認為10萬顆以上才算上量,就服務端的CPU來看,確實還是一個比較不錯的量。那麼DPU能達到怎樣的體量呢?鄢貴海表示:「DPU最後的量不會低於服務器的量,這就意味着我們還有很大的空間去通過規模效應降低我們產品的成本。這也是馭數從現階段基本形成商業閉環,到發展成為產業比較重要位置的公司,要突破的最後一道屏障。」
中科馭數的DPU也是按照算力發展的三大要素這樣的路徑演化:其K1主要用於交易風控;K2開始進入了數據中心的一些場景,而且K2在功能和性能上都有了較大的提升,第二代DPU芯片K2預計近期回片,這也是國內目前功能定義相對較完整的首顆DPU芯片;到明年,K2的增強版主頻提高到800MHz,功耗優化60%,面積優化75%等等,並進一步拓寬DPU的應用領域,完善DPU功能設置;K3設計方案已經完成,今年第四季度將啟動研發K3有望對標甚至超越BF3、MtEvans。可以看出,中科馭數作為國內第一批研究DPU芯片的企業,其芯片迭代的節奏正在有條不紊的進行中。
值得一提的是,中科馭數在落地場景的選擇上,首先瞄準的是超低時延的金融場景。在金融場景,對於DPU來說,超低延遲網卡是剛需,必須要做到1.7μs才是超低時延。而在這個場景下,處於長期被國外廠商壟斷的局面,直到去年,AMD占據90%以上的市場份額,剩下的幾乎被英偉達占據,還有思科。中科馭數做了4年,才在這個場景躋身為行業第四個玩家,打破了國際廠商的壟斷。接下來,中科馭數將發力更廣闊的數據中心和5G邊緣計算等雲原生場景,預計到2022年底,中科馭數將成為國內DPU行業在雲原生應用上首個大訂單。
所以接下來的重頭戲將是K2芯片。據中科馭數CTO盧文岩博士的總結,中科馭數的K2-DPU主要有五大優勢:
1)技術先進:通過架構創新,首創KPU芯片架構,可集成數百異構處理器核;
2)功能完備:K2從指標和功能覆蓋面來看,相比一線廠商相比是不弱的,K2-DPU可以覆蓋虛擬化、網絡、計算、存儲、安全等全功能;
3)性能高:具體到各功能來看,其中在DPU中很關鍵的一個功能網絡處理的引擎方面,中科馭數的K2可以直接對標業界領先的AMD方案,達到400Gbps,轉發延遲小於5μs;再者,被認為是下一代數據中心互聯核心的RDMA協議,目前能商用的RDMA的引擎只有英偉達,但是現在中科馭數RDMA引擎已經做到在鏈接數和延時等多方面功能和性能直接對標英偉達。此外,K2無論是性能還是時延方面遠超FPGA智能網卡方案,
4)成熟度高:已達到量產標準,2023年全面量產;
5)生態完善:HADOS軟件已經批量部署。
日前,中科馭數宣布完成超以往輪次融資規模的數億元B輪融資,本輪融資將進一步加速馭數DPU芯片的研發迭代和產業布局,加速構建DPU芯片的生態體系,為數據中心下一代算力架構變革,提供純國產核心級基礎設施,繼續保持DPU賽道的領跑地位。
寫在最後
對於DPU乃至整個半導體產業而言,當下我們正處於百年未有之大變局。新基建、東數西算以及運營商的算力網絡規劃等給國產DPU行業帶來了重要的機遇。在這樣的背景下,國產DPU廠商應當利用好國產信創行業的發展機遇,紮實推進核心功能的自主研發,把產品做好;走開放的系統,與CPU、OS、網絡等廠商,相互融合,共創繁榮。同時,構築與國內其他類型DPU研發團隊寫作共贏的機制,早日將DPU發展成為行業新的生產力。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。
今天是《半導體行業觀察》為您分享的第3177期內容,歡迎關注。
推薦閱讀
★芯片大廠,跌跌不休
★音頻芯片出貨超35億顆,專注聲學設計,AKM發力汽車市場
★蓄力加速跑,蓉矽半導體NovuSiC® MOSFET正式發布
半導體行業觀察

『半導體第一垂直媒體』
實時 專業 原創 深度
識別二維碼,回復下方關鍵詞,閱讀更多
晶圓|集成電路|設備|汽車芯片|存儲|台積電|AI|封裝
回復 投稿,看《如何成為「半導體行業觀察」的一員 》
回復 搜索,還能輕鬆找到其他你感興趣的文章!
