
後摩智能點亮首款基於SRAM的「存算一體」大算力AI芯片,迎戰自動駕駛芯片算力焦慮。

封面來源 | IC photo
近年來,自動駕駛的普及以肉眼可見的速度加快,根據1月12日工信部數據,2021年新能源汽車銷售352.1萬輛,其中搭載組合輔助駕駛系統的乘用車新車市場占比達到20%。而兩年前,L2級輔助駕駛的滲透率僅為3.3%。相伴而生的,是汽車「大腦」自動駕駛AI芯片的競爭加劇。英偉達、英特爾等老牌芯片企業早就瞄準了這一賽道,特斯拉、蔚來、小鵬等車企,黑芝麻、地平線、芯馳科技、寒武紀、後摩智能等國內芯片廠商也都紛紛入局。比如,蔚來汽車有自研芯片的計劃;高通去年宣布和寶馬合作,2025年使用高通驍龍Ride自動駕駛平台;初創公司有的直接聚焦在自動駕駛上,也有的業務範圍更廣,覆蓋自動駕駛、智能座艙、中央網關、高可靠MCU等;收購、合作等關係網也在不斷變動,這一戰場的發令槍已經拉響了。然而,與常見的數據中心AI芯片不同,應用於汽車場景的AI芯片,在算力、功耗、性能方面都提出了更極端的要求。在摩爾定律逐漸失效、「存儲牆」問題日益凸顯的當下,汽車AI芯片到底需要提供多大算力?何種路徑才是突破摩爾定律的存儲牆壁壘的最接近落地方法?面對山頭林立、秩序井然的芯片市場,初創公司的市場機遇和差異化優勢又是什麼?
一筆取捨賬,自動駕駛需要多少算力過去幾年中,用于衡量一款自動駕駛芯片最直接的標準之一,就是算力高低。自動駕駛級別越高時,產生的數據越多,對芯片的算力要求也就越高。2014年時,最早應用Mobileye的第一代EyeQ芯片,算力只有0.256TOPS;2015年,就已有專門面向自動駕駛的平台,每年要迭代1-2次;英偉達也預告將在2025年上市1000T算力的Atlan芯片。算力的不斷提升,是否意味着自動駕駛的需求已經得到了滿足,自動駕駛玩家們可以跑出算力焦慮了?一方面,大算力也意味着更高的成本。實際上在現有的自動駕駛芯片中,單片算力很難滿足高級別自動駕駛的需求,車企或自動駕駛企業多會採取「堆料」的方式,用芯片數量的增加來實現大算力。成本的增加不可避免,難以推動自動駕駛技術的規模化應用,車企也很難實現技術和商業的平衡。另一方面,除了對算力需求高,智能駕駛場景也對芯片的功耗和散熱有很高的要求。服務於豐田的創業者Amnon Shashua曾在多個場合表示過,效率比算力更重要。具體解釋,算力、功耗、成本就像是一個三角架構,一角的增減要用另一角來填補才行。1000Tops的芯片參數,並不意味着這塊芯片在實際應用中能夠發揮出1000Tops的真實性能。在當前的馮·諾伊曼架構當中,內存系統的性能提升速度大幅落後於處理器的性能提升速度,有限的內存帶寬無法保證數據高速傳輸,形成了一道「存儲牆」。一方面,大量的計算單元受限於帶寬的限制,無法發揮作用,造成算力利用率很低;另一方面,數據來回傳輸又會產生巨大功耗,進一步加大汽車電動化大潮下的里程焦慮。因此,僅僅簡單用算力高低來評估,遠遠達不到自動駕駛的需求。汽車AI芯片不僅需要大算力,更要有實際利用率的大算力,而且能夠保障低功耗、低延遲以及可承受的成本。存算一體,金字塔從頭建起用GDDR 或HBM來解決存儲牆問題的馮·諾依曼架構策略;算法和芯片高度綁定在一起的DSA方案;以及存算一體的方案。HBM是目前業內超大算力芯片常用的方案之一,其優勢在於能夠暫時緩解「存儲牆」的困擾,但其性能天花板明顯,並且成本較高。DSA方案以犧牲靈活性換取效率提升,算法和硬件高度耦合,適用於已經成熟的AI算法,但並不適用於正處於快速迭代的自動駕駛AI算法中。最後是存算一體方案,這是一項誕生於實驗室的新興技術,其創新性在於打破了傳統·馮諾伊曼架構局限性,實現了計算與存儲模塊一體化的整合創新,解決了傳統芯片架構中計算與存儲模塊間巨大的數據傳輸延遲、能量損耗痛點,既增加了數據處理速度,又大大降低了數據傳輸的功耗,從而使芯片能效比(即每瓦能提供的算力)得到2-3個數量級(>100倍)的提升。達摩院計算技術實驗室科學家鄭宏忠曾講過:「存算一體是顛覆性的芯片技術,它天然擁有高性能、高帶寬和高能效的優勢,可以從底層架構上解決後摩爾定律時代芯片的性能和能耗問題。」因此,存算一體架構可以把算力做的更大,其芯片算力天花板比傳統馮·諾依曼架構更高;同時,大幅降低了數據傳輸的能量損耗,提升了能效比;另外,還能得到更低的延時,存儲和計算單元之間數據搬運的減少,大幅縮短了系統響應時間。更重要的是,用存算一體架構做大算力AI芯片另一大優勢在於成本控制。不依賴於GDDR 或HBM,存算一體芯片的成本能夠相應的降低50%~70%。換句話說,真正創新架構的AI芯片是將上文中提到的算力、功耗、成本三角形結構從原來的位置往上挪了三個檔位。不僅可以提高算力,還可以達到降低功耗、控制成本的效果。摘取「高掛的果實」最近幾年,在缺芯的時代背景下,隨着政策支持的不斷加碼,我們看到國內半導體產業迎來了發展的良機。芯片的「國產替代」已經在很多細分領域取得了進展,深受資本市場青睞。但是資本市場也有越來越多的人意識到,熱門芯片賽道的「國產替代」創業項目已經日趨飽和。一部分嗅覺敏銳的投資人開始關注後摩爾時代的「創新架構」,認為要想在純市場化競爭中挑戰英偉達等國際芯片巨頭,必須另闢蹊徑。於是差異化的技術創新成為芯片投資中的重要策略。HBM、DSA、存算一體都屬於芯片行業當前的技術創新路徑,三者對比來看,存算一體可以算作是一條難度最大、顛覆性最強、風險最高,但差異化和創新性也最顯著的路徑。近年來,國內外湧現出不少專注於存算一體芯片的新興創企,巨頭們紛紛加快了產業布局,資本也對其青睞有加。國內最近一筆相關融資來自今年4月,國內存算一體明星創企「後摩智能」宣布獲得數億人民幣Pre-A+輪融資。不過,一直以來,傳統的存算一體研究大多集中在低功耗、低算力的「小」芯片場景中,比如語音、AIoT、安防等邊緣領域。能夠應用在車載AI的存算一體「大」算力芯片,即便在學術界也是一大難題,產業界敢於迎戰者更是屈指可數。想要將二者融合,既需要存儲單元陣列、AI core、工具鏈等各個方面都需要有深厚積累的團隊,又需要進行整體的協同優化設計,才能最終實現一款高效的基於存算一體的大算力AI芯片。5月23日,後摩智能首款基於SRAM的存算一體大算力AI芯片已成功點亮,並跑通智能駕駛算法模型。首次在存內計算架構上跑通了智能駕駛場景下多場景、多任務算法模型,為高級別智能駕駛提供了一條全新的技術路徑。存算一體很難,存算一體大芯片更難。但在產業巨頭林立,市場秩序森嚴的芯片產業,新興創企若是只願意選擇容易走的路、採摘「低垂的果實」,是難以取得成功的。在保證存算一體帶來的高能效比、高性價比的前提下,又能將其成功擴展到滿足自動駕駛「大」算力需求的級別,屬於產業中「高掛的果實」。從成立之初就聚焦於存算一體大算力芯片的後摩智能,正是瞄準了這一道路。以團隊組成來說,後摩智能的核心創始團隊既有來自美國普林斯頓大學、UCSB, Penn State大學等海內外知名高校的學術人才,又有在AMD、Nvidia、華為海思、地平線等一線芯片企業中擁有豐富大芯片設計與實戰經驗的產業專家。今年5月大算力存算一體芯片宣布點亮,對於後摩智能來說,離摘取「高掛的果實」已經越來越近了。傳統高算力芯片山頭林立,後來者想要在現有賽道上實現超越,確實是充滿挑戰的。但隨着HBM等昂貴方案的不斷的提出,馮·諾伊曼架構的最後一絲紅利已經被榨乾,市場迫切地需要新架構、新出路。
在AI算法快速迭代,摩爾定律逐漸失效的當下,我們期待看到越來越多像後摩智能這樣願意投身於基礎創新的芯片創企,不斷推進產業走向下一個時代。
