
2022年9月20日美國太平洋時間上午8點,英偉達2022年GTC大會召開,對於自動駕駛行業來說,最引人注目的自然是最新自動駕駛芯片Thor。
圖片來源:英偉達
英偉達取消了2021年GTC大會上所發布的Atlan,改用Thor取代,單從名字上,Thor就更勝一籌,Atlan取自亞特蘭蒂斯神話,是Orin的父親,不過在神話里,Atlan從未出場,是一個已經死掉的國王,而Thor想必大家都知道,就是雷神Thor。據英偉達的描述,中國吉利旗下的極氪已經確定使用Thor,搭載Thor的車型預計在2025年底上市。
圖片來源:英偉達
一是超高AI性能,擁有770億晶體管,而上一代的Orin是170億晶體管。AI性能為2000 TFLOPS@FP8。如果是INT8格式,估計可以達到4000TOPS。二是支持FP8格式,英偉達、英特爾和ARM三家聯合力推FP8格式標準,力圖打通訓練與推理之間的鴻溝。三是超高CPU性能,Thor的CPU可能是ARM的服務器CPU架構V2或更先進的波塞冬平台。
四是統一座艙、自動駕駛和自動泊車,一顆芯片包打天下。
為什麼放棄Atlan,最主要原因可能是因為FP8格式的支持,從英偉達對Atlan的性能描述是1000TOPS推斷,Atlan不支持FP8格式,而FP8是英偉達的戰略方向。
圖片來源:英偉達
2022年9月,英偉達、英特爾和ARM聯合發布一篇論文《FP8 FORMATS FOR DEEP LEARNING》(鏈接為:https://arxiv.org/pdf/2209.05433.pdf)。
圖片來源:ARVIX.ORG
FP8值得深度分析,我們都知道,人工智能或者說深度學習分兩步,第一步是訓練,訓練的數據精度要求比較高,通常是FP64或FP32,即單精度和雙精度。推理階段一般是INT8,即整數8位。理論上推理階段使用整數8位將會降低很多精度,但實際使用中不得不這樣做:一是存儲模型的尺寸,32位或16位太高了,比如自動駕駛用的圖像識別模型ResNet-50 v1.5的參數量大概是25M個FP32,如果通信時轉成FP16,則通信的梯度大小大概是50MB,但因為AllReduce的通信量大概是梯度大小的2倍,所以通信量大概是100MB。存儲尺寸大約是200-220MB,這個尺寸根本放不進L3緩存,因此成本高,效率低。
二是FP16或FP32的吞吐量不夠,會卡住。
三是浮點運算複雜,很多計算架構不支持浮點運算,需要添加單獨的浮點運算處理器,浮點運算也比較消耗時間。因此推理端改用整數運算,大大降低運算難度。但是整數8位的精度太低了,難免會影響準確度,要知道深度學習自動駕駛,無法識別目標就認為是背景,直接不減速撞上去,此類事故層出不窮。

圖片來源:ARVIX.ORG
INT8的取值範圍有兩種,一種是負128到正127,另一種是0到255。INT8占一個字節,即8比特,每個二進制可以存儲0和1兩個數值,那麼8個2次方即256種排列組合,256個數。INT16即2的16次方,即65504。
圖片來源:ARVIX.ORG
FP32 是單精度浮點數,用8bit 表示指數,23bit 表示小數;FP16半精度浮點數,用5bit 表示指數,10bit 表示小數;BF16是對FP32單精度浮點數截斷數據,即用8bit 表示指數,7bit 表示小數。TF32是英偉達獨創的一種格式,一種截短的 Float32 數據格式,將 FP32 中 23 個尾數位截短為10 bits,而指數位仍為 8 bits,總長度為 19 (=1 + 8 + 10) bits,嚴格地說應該叫FP19。
圖片來源:ARVIX.ORG
浮點格式能夠更加精確地表示10進位制的數,特別是帶小數點的數,傳感器的數值大多如此,因此數據訓練必須用浮點。
圖片來源:ARVIX.ORG
ARM、英特爾和英偉達合作的FP8格式分為兩個標準:一個是E4M3,即1個符號,4個指數,3個尾數,精度高但動態範圍小。
另一個是E5M2,即1個符號,5個指數,2個尾數,動態範圍高但精度低。英偉達以GPU起家,GPU最初就是為浮點運算而生的,到目前為止,GPU也就三家,英特爾、英偉達和AMD,門檻極高。而目前所有的AI推理端運算都是為整數定點運算設計的,無法對應浮點運算,如果轉為浮點運算,難度將激增,也就是說如果想和英偉達對標,單獨的AI芯片廠家將無能為力,會被拖死。英偉達的另一個野心是用FP8格式,不僅橫掃推理端,訓練端也使用FP8格式。大部分的自動駕駛數據訓練都是英偉達芯片做的,如果訓練也用FP8格式,速度會飛速增加,精度略有下降。而轉到推理端,如果用FP8格式,那麼訓練和推理無縫連接,效率和準確度都輕鬆秒殺整數8位推理。也就是說用了英偉達的訓練芯片,也得用英偉達的推理芯片,單獨的AI芯片廠家無生存之地。
圖片來源:ARM
ARM Neoverse即ARM的服務器產品線,這條產品線又分三條,首先是追求高性能的V系列,其次是追求效率的N系列,最後是追求吞吐量的E系列。亞馬遜的Graviton、阿里的倚天系列和華為的鯤鵬系列都是ARM V系列服務器的代表作。V2代號Demeter,即希臘神話中的農業之神,也是歐洲有機食品的最高等級認證,Poseidon是希臘神話的海洋之神波塞冬,同時也掌管馬匹,賜給人類第一匹馬,據說特洛伊的木馬計實際源自波塞冬。按照時間線,英偉達似乎是趕不上波塞冬這班車的,因為Thor肯定是2022年初甚至2021年底就開始確定CPU架構了,但也許ARM特別照顧英偉達,英偉達也有可能使用波塞冬平台。波塞冬平台目前未獲得任何公開信息。
圖片來源:ARM
V2主要增加了L2緩存,當然與之配合也得至少是5納米製造工藝,深度學習方面則對BF16有支持。
支持DDR5。圖片來源:ARM

圖片來源:ARM
最關鍵是支持最新的Chiplet標準UCIe,當然CXL也支持。
圖片來源:ARM
一顆芯片包打天下,包括自動泊車、自動駕駛、Infotainment、儀表、電子後視鏡、電子倒車鏡、駕駛者行為監測。一顆芯片至少運行三種操作系統,三個獨立的計算域。英偉達在9月20日的會上還推出了最廉價的Orin,即Orin Nano,其有兩個版本,低配只有20TOPS,可能只有4核A78AE,512個CUDA單元,16個Tensor核心;高配40TOPS,有6核A78AE,1024個CUDA單元,32個Tensor核心。這樣Orin就有高中低4個版本,估計Thor也是如此。英偉達最大的敵人不是高通,也不是Mobileye,而是美國政府,以目前中美摩擦螺旋上升態勢,英偉達芯片遲早被美國禁止出口或被中國禁止進口,這只是個時間問題,筆者認為吉利肯定有後備計劃,那就是吉利和ARM合資的芯擎科技。佐研君:18600021096(同微信)
佐思2022年研究報告撰寫計劃
智能網聯汽車產業鏈全景圖(2022年8月版)
自主品牌主機廠自動駕駛汽車視覺(上)高精度地圖合資品牌主機廠自動駕駛汽車視覺(國外)高精度定位商用車自動駕駛汽車仿真(上)OEM信息安全低速自動駕駛汽車仿真(下)汽車網關ADAS與自動駕駛Tier1-國內激光雷達-國內篇行泊一體研究ADAS與自動駕駛Tier1-國外激光雷達-國外篇紅外夜視自動駕駛與座艙域控制器毫米波雷達車載語音乘用車底盤域控車用超聲波雷達人機交互域控制器排名分析Radar拆解汽車VCU研究激光和毫米波雷達排名充電基礎設施800V高壓平台E/E架構汽車電機控制器燃料電池汽車分時租賃混合動力報告一體化電池共享出行及自動駕駛汽車PCB研究汽車OS研究EV熱管理系統IGBT及SiC研究線控底盤汽車功率電子汽車線束滑板底盤無線通訊模組合資品牌ADAS電控懸架汽車5G融合自主品牌ADAS轉向系統合資品牌車聯網農機自動駕駛ADAS數據年報自主品牌車聯網港口自動駕駛汽車MCU研究專用車自動駕駛飛行汽車傳感器芯片礦山自動駕駛汽車智能座艙自動駕駛芯片無人接駁車商用車車聯網自動駕駛重卡無人配送車座艙多屏與聯屏智能座艙設計無人零售車研究智能汽車個性化商用車ADAS智能座艙Tier1汽車多模態交互座艙SOC商用車智能座艙TSP廠商及產品汽車座椅儀表和中控顯示OTA研究汽車照明智能後視鏡AUTOSAR研究汽車EDR研究行車記錄儀軟件定義汽車模塊化報告汽車數字鑰匙Waymo智能網聯布局造車新勢力-蔚來汽車UWB研究HUD行業研究車載DMS汽車雲服務研究自動駕駛法規V2X和車路協同L4自動駕駛自動駕駛標準和認證路側智能感知L2自動駕駛智能網聯測試基地路側邊緣計算環視市場研究(本土篇)PBV及汽車機器人汽車eCall系統環視市場研究(合資篇)汽車功能安全電裝新四化乘用車T-Box汽車音響研究電驅動與動力域研究商用車T-Box線控制動研究多域計算和區域控制器T-Box排名分析智慧停車研究數據閉環研究乘用車攝像頭季報汽車信息安全硬件汽車鎂合金壓鑄
ADAS/智能汽車月報 |汽車座艙電子月報|汽車視覺和汽車雷達月報 | 電池、電機、電控月報 |車載信息系統月報|乘用車ACC數據月報|前視數據月報|HUD月報|AEB月報|APA數據月報|LKS數據月報|前雷達數據月報