在剛結束的CES上,車載計算芯片成為了展會的重頭戲,汽車自動駕駛成為了行業巨頭爭奪的熱門市場。安霸也發布了其搭載最新一代CVflow架構的汽車域控制器芯片——CV3系列。
本文從CV3出發,看到當前汽車域控制器的市場需求和走向;以及如何在市場發展前期多樣化的局面下,把握車載計算芯片的專用性和通用性的平衡。
從L2+到L4:多路徑、百花齊放
當前的智能汽車的ADAS處在蓬勃發展的階段,正在實現從L2+到L4的邁進。SAE將L0~L2級定義為駕駛輔助類,L3~L5級定義為自動駕駛類。在當前的自動駕駛發展階段,目前既有特斯拉蔚來這種新勢力車廠、也有谷歌百度這種大型IT公司、也有亞馬遜阿里這樣的雲服務商、也有福特大眾傳統車企、也有小米蘋果這樣的消費類廠商。從不同的定位、不同的落地場景和不同的技術儲備出發,也就有着不同的考量,所以ADAS當前的技術路線也呈現多樣性。
到車載計算芯片的定義上,PPA雖然是一致的追求,但具體的架構、片上接口資源和特性等也就各不相同。不同的芯片廠商例如高通、TI、英偉達等,結合自己對於ADAS應用的理解,也就開發出了不一樣的產品。
「關於自動駕駛的產業生態,尤其是在中國,會有多種發展路徑。很多家公司因為它落地場景不一樣,對成本要求不一樣,會採取非常不一樣的路徑。」安霸中國區總經理馮羽濤分享到,「有非常多的公司採取了不同的發展路徑,有一些是直接進入全自動駕駛的方向,它會跳過前面部分。大家常用的自動駕駛L1、L2的分級,後面直接研發到全自動駕駛,但是也有很多公司會採取逐漸發展的方式,多種路徑在國內都會存在,而且在快速發展期會非常多樣化。」所以,在這個蓬勃發展的初期過程,各個公司的智能駕駛方案的會從其落地場景出發,平衡其傳感器配置以及系統整體成本。
在市場和行業的當前發展階段,沒有強合作綁定關係的汽車計算芯片的廠商,在進行自己的產品定義的時候,需要在ADAS專用的前提下,架構上有一定的張力,也就是通用性,保證能夠適應各種不同的技術路線,不同的ADAS處理算法。這也就是安霸最新的CV3系列芯片的定義出發點,馮羽濤表示,「安霸作為芯片供應商,我是希望能夠服務於所有的這些自動駕駛廠商。所以我們對自動駕駛的判斷就像我開篇說的,我覺得會多種發展路徑,多傳感器感知融合,這也是CV3的設計思路。」
汽車計算芯片——算法為先優化架構
在ADAS興起之前,汽車上對於圖像和視頻的採集最終都是需要人來觀看處理,ISP相關技術是關鍵。所以安霸最初涉足汽車電子領域,專注行車記錄儀和電子後視鏡等圖像和視頻處理芯片,當時的「算法優先」考慮於處理好顏色、對比度和清晰度等細節。在這個階段,安霸就開始奉行「算法優先」的理念,A12、H22和H32芯片架構非常適合這些圖像處理的算法需求,這也是其在這一領域首先取得成功的關鍵原因。
而後隨着駕駛輔助應用的興起,AI視覺感知技術成為了關鍵。AI視覺感知對於算法的依賴程度更高,為了實現更高的計算效率,需要架構與算法實現更緊密的耦合。安霸於2015年收購了有着25年自動駕駛經驗的VisLab公司,深入了解自動駕駛汽車的算法對於芯片的需求,做出適應更多算法和自動駕駛的AI加速硬件架構CVflow,這一架構下的產品有CV2x系列、CV2FS系列和CV5系列。而後又在2021年收購了傲酷,這是一家全球領先的4D成像雷達算法公司,可以用較少的硬件資源達到非常清晰的雷達成像。通過對傲酷的算法吸收,安霸在雷達感知與視覺融合算法有了更深入的理解。
通過這些一系列的在視覺、雷達等傳感器數據處理算法上的積累和沉澱,安霸在此次CES上推出了搭載新一代CVflow架構的CV3系列,實現ADAS專用的同時又保證了算法的通用性,布局汽車AI域控制器領域。
因為是專門為算法優化的架構,所以不能單純的看TOPS這一參數,安霸的芯片在算力表達上有所不同,從CV2x系列產品開始就用「eTOPS」來表示。
e代表着Equivalent,也就是等效TOPS的意思。將同一個神經網絡運算,跑在CVflow架構的芯片上和跑在GPU上來進行對比。如果能把相同的神經網絡算法跑到等效的這麼快,就叫做Equivalent TOPS,簡稱eTOPS。這是源自專用的CVflow更接近系統表現的算力的一種表達。
單芯片域控制器CV3:高算力、雷達和視覺原始數據融合
新一代的CV3為單芯片域控制器,首發的型號為最高性能的旗艦版,後續會在旗艦版的基礎上陸續推出新的低成本型號。CV3採用了和CV5相同的5nm低功耗製程,內置了16個Arm Cortex-A78AE內核,搭載了新一代的CVflow架構,AI算力高達500 eTOPS,比CV2系列提高了42倍,每瓦性能比提高了4倍。單芯片集成多傳感器進行集中化AI感知處理(包括高像素視覺處理、毫米波雷達、激光雷達和超聲波雷達)、多傳感器深度融合以及自動駕駛車的路徑規劃。
新一代的CVflow中包含NVP和GVP兩個向量處理器,從命名就可以看出,一個是專門做神經網絡的向量處理,一個是通用的向量處理。NVP針對4bit、8bit、16bit這種定點運算有着專門的優化。GVP對16bit、32bit浮點運算的支持比較好。
據馮羽濤分享,新一代CVflow的設計思路來自於和當前行業客戶的深入溝通。目前很多客戶的算法是混合的,既有傳統算法,也有神經網絡的算法。定點運算和浮點運算需求混合存在,所以針對不同的需求設計了不同的向量處理資源,來實現更高效率的處理。例如最近非常流行的Transformer網絡,需要的運算就是直接的多維向量矩陣乘法,這種計算需求在NVP上處理的效率就會高很多,安霸也在NVP中對這一網絡進行了專門的硬件支持。
此外,CVflow的靈活性不僅僅體現在針對不同計算需求的處理上,在整個CV3的產品map里,也可以通過調整CVflow中NVP和GVP的數量,來調整芯片的計算資源,結合其他的芯片資源的調整,實現產品型號由高到低的布局。
CV3的另一個特點在於可以將雷達數據和視頻數據在原始的數據集上進行處理,實現傳感器數據的深度融合計算。這也是行業內傳感器融合的一個發展趨勢,在前端完成原始數據的分析、學習和融合處理。
據安霸中國區市場營銷副總裁郄建軍分享,在視頻和雷達的融合方面,一般的做法都是「後融合」或目標級融合。而在CV3芯片裡就可以做「前融合」,也就是視頻的像素和雷達的點雲做原始數據級的融合。這種融合的挑戰在於處理的數據量很大,處理的實時性要求更高。需要保證點雲和像素對位準確,時空同步做的非常好。CV3上的這種「前融合」會使感知的整體性能包括置信度大幅度提升,誤檢率、漏檢率大幅度下降。CV3中結合了傲酷的4D成像雷達算法,在和視頻做前融合以後,整體性能可以做到類似低線束激光雷達的效果,在某種程度上可以取代低線束激光雷達。
從CV2的4核A53到CV3的16核A78AE(4個集群),是跟進Arm架構的升級,響應某些用戶對於傳統算法和算力提升的需求。採用四個集群的設計,也是從系統開發的角度出發,可以分別在不同的集群上部署不同的功能,實現更為獨立的軟件開發。結合CV3支持20個攝像頭的接入,這些特性對於有「硬件預埋」需求的廠商而言,也是非常必要的,保證一定的硬件資源冗餘。
總 結
當安霸在2015年收購VisLab的時候,VisLab自己做的自動駕駛demo車裡,後備箱裡滿滿的PC處理器。當時安霸就想到,下一代能夠用一顆芯片取代這滿滿一後備箱的PC處理器,達到同樣的計算能力。現在CV3的出現,單芯片高算力、前置雷達和視覺原始數據融合、靈活的CVflow架構、4集群16核的通用計算能力…已經將這一願景達成。
在當前百舸爭流的ADAS賽道上,既要做ADAS算法專用的芯片,架構上優化算法 ,堅持算法優先策略;又要考慮各家不同算法的需求、不同傳感器的需求、實現一定的通用性。CV3的出現,可以幫助不同類型的玩家,讓ADAS從L2+到L4的發展更加精彩。


添加管理員微信