36氪 - 自動駕駛芯片的算力焦慮，「存算一體」能解決嗎？－鑽石舞台

Jun 23 Thu 2022 15:31
36氪 - 自動駕駛芯片的算力焦慮，「存算一體」能解決嗎？

後摩智能點亮首款基於SRAM的「存算一體」大算力AI芯片，迎戰自動駕駛芯片算力焦慮。

封面來源 | IC photo

自動駕駛芯片，越來越「熱鬧」了。

近年來，自動駕駛的普及以肉眼可見的速度加快，根據1月12日工信部數據，2021年新能源汽車銷售352.1萬輛，其中搭載組合輔助駕駛系統的乘用車新車市場占比達到20%。而兩年前，L2級輔助駕駛的滲透率僅為3.3%。

相伴而生的，是汽車「大腦」自動駕駛AI芯片的競爭加劇。

英偉達、英特爾等老牌芯片企業早就瞄準了這一賽道，特斯拉、蔚來、小鵬等車企，黑芝麻、地平線、芯馳科技、寒武紀、後摩智能等國內芯片廠商也都紛紛入局。

比如，蔚來汽車有自研芯片的計劃；高通去年宣布和寶馬合作，2025年使用高通驍龍Ride自動駕駛平台；初創公司有的直接聚焦在自動駕駛上，也有的業務範圍更廣，覆蓋自動駕駛、智能座艙、中央網關、高可靠MCU等；收購、合作等關係網也在不斷變動，這一戰場的發令槍已經拉響了。

然而，與常見的數據中心AI芯片不同，應用於汽車場景的AI芯片，在算力、功耗、性能方面都提出了更極端的要求。

在摩爾定律逐漸失效、「存儲牆」問題日益凸顯的當下，汽車AI芯片到底需要提供多大算力？何種路徑才是突破摩爾定律的存儲牆壁壘的最接近落地方法？面對山頭林立、秩序井然的芯片市場，初創公司的市場機遇和差異化優勢又是什麼？

「存算一體」也許是個值得研究的答案。

一筆取捨賬，自動駕駛需要多少算力

過去幾年中，用于衡量一款自動駕駛芯片最直接的標準之一，就是算力高低。

自動駕駛級別越高時，產生的數據越多，對芯片的算力要求也就越高。

2014年時，最早應用Mobileye的第一代EyeQ芯片，算力只有0.256TOPS；2015年，就已有專門面向自動駕駛的平台，每年要迭代1-2次；英偉達也預告將在2025年上市1000T算力的Atlan芯片。

算力的不斷提升，是否意味着自動駕駛的需求已經得到了滿足，自動駕駛玩家們可以跑出算力焦慮了？

遠還沒有。

一方面，大算力也意味着更高的成本。實際上在現有的自動駕駛芯片中，單片算力很難滿足高級別自動駕駛的需求，車企或自動駕駛企業多會採取「堆料」的方式，用芯片數量的增加來實現大算力。成本的增加不可避免，難以推動自動駕駛技術的規模化應用，車企也很難實現技術和商業的平衡。

另一方面，除了對算力需求高，智能駕駛場景也對芯片的功耗和散熱有很高的要求。服務於豐田的創業者Amnon Shashua曾在多個場合表示過，效率比算力更重要。具體解釋，算力、功耗、成本就像是一個三角架構，一角的增減要用另一角來填補才行。

除此之外，「算力」並不真正代表着「性能」。

1000Tops的芯片參數，並不意味着這塊芯片在實際應用中能夠發揮出1000Tops的真實性能。

在當前的馮·諾伊曼架構當中，內存系統的性能提升速度大幅落後於處理器的性能提升速度，有限的內存帶寬無法保證數據高速傳輸，形成了一道「存儲牆」。

一方面，大量的計算單元受限於帶寬的限制，無法發揮作用，造成算力利用率很低；另一方面，數據來回傳輸又會產生巨大功耗，進一步加大汽車電動化大潮下的里程焦慮。

因此，僅僅簡單用算力高低來評估，遠遠達不到自動駕駛的需求。

汽車AI芯片不僅需要大算力，更要有實際利用率的大算力，而且能夠保障低功耗、低延遲以及可承受的成本。

存算一體，金字塔從頭建起

為了解決「存儲牆」問題，當前業內主要有三種方案：

用GDDR 或HBM來解決存儲牆問題的馮·諾依曼架構策略；算法和芯片高度綁定在一起的DSA方案；以及存算一體的方案。

HBM是目前業內超大算力芯片常用的方案之一，其優勢在於能夠暫時緩解「存儲牆」的困擾，但其性能天花板明顯，並且成本較高。

DSA方案以犧牲靈活性換取效率提升，算法和硬件高度耦合，適用於已經成熟的AI算法，但並不適用於正處於快速迭代的自動駕駛AI算法中。

最後是存算一體方案，這是一項誕生於實驗室的新興技術，其創新性在於打破了傳統·馮諾伊曼架構局限性，實現了計算與存儲模塊一體化的整合創新，解決了傳統芯片架構中計算與存儲模塊間巨大的數據傳輸延遲、能量損耗痛點，既增加了數據處理速度，又大大降低了數據傳輸的功耗，從而使芯片能效比（即每瓦能提供的算力）得到2-3個數量級（>100倍）的提升。

達摩院計算技術實驗室科學家鄭宏忠曾講過：「存算一體是顛覆性的芯片技術，它天然擁有高性能、高帶寬和高能效的優勢，可以從底層架構上解決後摩爾定律時代芯片的性能和能耗問題。」

因此，存算一體架構可以把算力做的更大，其芯片算力天花板比傳統馮·諾依曼架構更高；同時，大幅降低了數據傳輸的能量損耗，提升了能效比；另外，還能得到更低的延時，存儲和計算單元之間數據搬運的減少，大幅縮短了系統響應時間。

更重要的是，用存算一體架構做大算力AI芯片另一大優勢在於成本控制。不依賴於GDDR 或HBM,存算一體芯片的成本能夠相應的降低50%～70%。

換句話說，真正創新架構的AI芯片是將上文中提到的算力、功耗、成本三角形結構從原來的位置往上挪了三個檔位。不僅可以提高算力，還可以達到降低功耗、控制成本的效果。