毫末結合自動駕駛相關技術發展的規律和自動駕駛近十年的發展歷史,將近十年的自動駕駛技術發展分成了三個階段。每個階段都有自己典型的技術特徵,主要從運行里程規模、感知技術實現方法、認知技術實現方法以及技術模式的迭代方式四個維度進行分析。自動駕駛1.0時代 —— 早期的硬件驅動方式
自動駕駛2.0時代 —— 最近幾年的軟件驅動方式
自動駕駛3.0時代 —— 即將很快發生,並將持續發展的數據驅動方式
硬件驅動時代——在最開始,自動駕駛車輛主要是用來參加一些比賽項目,比賽場地的路況也比較簡單,比如有一個比賽是在沙漠環境裡進行,要求從a點行駛到b點,基本上沒有什麼交通規則,主要能力是能夠準確並及時地躲避障礙物。參賽的自動駕駛車輛在傳感器配置上武裝到了牙齒,車上掛滿了各種大大小小傳感器。在感知上主要依靠激光雷達,在認知上也基本使用規則的方式來實現。由於車輛整體成本比較高,所以車輛數量有限,同時技術效果一般,由此導致自動駕駛里程規模比較少,大致在100萬公里左右。軟件驅動時代——雖然有了更大算力的AI芯片,車上車規級傳感器個數也在快速增加,但是基本上還是處於一個後融合的時代。在感知方面,各個傳感器各自為戰,系統先得到單個傳感器的識別結果,然後進行感知結果的融合;在認知方向,依然是人工規則為主,系統開始能夠理解交通規則,比如車道線和紅綠燈,包括跟人的交互等,但還是只能靠專家的經驗理解周圍的環境;在訓練模式上開始用到機器學習的方法,但用的模型都比較小,用的數據量也比較少;同時,由於整體成本的下降和效果的提升,自動駕駛里程規模也快速在增加,達到上千萬公里。數據驅動時代——為了能夠做出數據通道和計算中心,以便可以更高效地獲取數據,並把數據轉化為知識。在感知方向,系統用多個傳感器、不同模態傳感器的原始數據聯合輸出感知結果;在認知方向,通過大量人駕數據抽取可解釋的場景化駕駛常識,在配以AI的實時計算,可以更加擬人化地融入社會交通流中;在訓練模式上也發生了很多變化,主要是從小模型少數據,轉成大模型和真正的大數據。因此,導致需要的數據規模也在急劇增加 ——大約需要1億公里以上的輔助駕駛里程所產出的數據。顧維灝表示,數據驅動時代,是完全不一樣的時代,大模型+海量數據「雙劍合璧」,數據開啟自訓練模式;感知技術上,用多模態傳感器聯合輸出結果;認知技術上,以可解釋的場景化駕駛常識為主;自動駕駛里程由硬件驅動、軟件驅動時代的百萬公里、上千萬公里,直接飆升到了1億公里以上。一個企業,如果是以數據驅動為核心,並且以上4個維度的技術條件並行成立才能稱為真正進入自動駕駛3.0時代。毫末一直在為自動駕駛3.0時代做準備,在運行里程規模、感知、認知、技術迭代模式上,都是按照數據驅動的方式建設。毫末城市NOH「進城」在即,業界最關注的是自動駕駛功能是否能應對城市複雜的交通路況,比如城市道路經常不定時的養護;有的路段大型車輛密集,遮擋和截斷嚴重;周圍車輛的行為導致自車變道空間狹窄,變道困難;還經常遇到打開的車門等等。面對複雜的城市工況,毫末的城市NOH又是如何應對的?顧維灝在演講中表示,在技術路線上毫末城市NOH採用「重感知、輕地圖、大算力」的路線,通過對MANA進行六大功能升級,毫末有信心讓城市NOH成為更懂中國路況的城市導航輔助駕駛功能。為了解決城市NOH面臨的複雜交通路況挑戰,數據智能體系MANA在自動駕駛城市場景中進行了功能升級,解決了如下幾個方面的問題:如何在自動駕駛領域應用大模型,如何讓數據發揮更大的價值,如何使用重感知技術解決現實空間理解問題,如何使用人類世界的交互接口,如何讓仿真更真,如何讓自動駕駛系統運動起來更像人。技術趨勢在不斷發展,首先的挑戰就是,如何在自動駕駛領域應用大模型?業界常用的方式是監督學習,不論是簡單的單任務模型,還是複雜些的多任務模型都屬於這個範疇。顧維灝認為:「雖然我們有自動標註的手段,但是樣本標註的時間成本和金錢成本還是很高,我們需要有一種能夠直接使用大量無標註數據的方法,這樣才能更高效地發揮出毫末在數據規模方面的優勢。我們選擇的方式是將所有的感知任務backbone都統一,然後利用無標註數據先訓練好這個統一backbone並鎖定,模型剩餘部分再用經過標註的樣本來訓練。」做Backbone的預訓練,毫末是以BEV結構下的3D空間重建一致性為目標。和一般的mask重建圖片或者視頻的訓練目標相比,這種基於3d空間一致性的自監督訓練能夠更有效迫使模型理解道路場景的三維結構,從而更好地適應自動駕駛的各種感知任務需求。MANA通過使用大規模量產車無標註數據的自監督學習方法打造模型效果,相比於只用少量經過標註的樣本做訓練,訓練效果提升3倍以上。第二,構建增量式學習訓練平台 - 提高大數據使用效率解決了大模型,接下來就要考慮解決大數據的問題。數據越來越多,達到上億公里的時候便會面臨新的挑戰:存在量數據規模巨大的前提下,如何讓模型能夠在對新場景保持敏感的同時不會陷入可怕的「遺忘性災難」。比如,一個算法模型能夠很好地應用於小轎車的識別,現在增加了對卡車識別的應用,因而需要對卡車這個新場景能夠快速響應,但最後卻可能出現導致模型對「舊」場景的適配度嚴重下降的情況。解決這個問題最普通最直觀的做法就是用全量數據再次精細地訓練模型,但是這種做法太貴太慢。為了解決上面問題,MANA構建了一個增量式的學習訓練平台。顧維灝講到:「在訓練過程中,我們並不會使用全量存量數據,而是抽取部分存量數據加上新數據組合成一個混合數據集。訓練時要求新模型和舊模型的輸出保持儘量一致,對新數據的擬合儘量好。相比常規做法,我們達到同樣的精度可以節省80%以上的算力,收斂時間也可以提升6倍以上。」第三,利用重感知技術解決空間理解問題 - 擺脫對高精地圖的依賴在高精地圖使用的問題上,毫末選擇的是「重感知輕地圖」的路線,在城市實現導航自動駕駛只用和人類駕駛員一樣的普通導航地圖而不依賴業界常用的高精地圖。選擇這條路線的一個主要技術原因就是城市場景里的道路環境發生變化的頻率遠遠高於高速場景,目前城市道路的高精地圖的更新頻率跟不上道路環境的變化。因此,在城市工況下,高精地圖地圖作為自動駕駛的「超遠距離」傳感器,它的置信度也會降低很多。毫末的解決方案就是使用Transformer建立強感知的時空理解能力。通過使用時序的transformer模型在BEV空間上做了虛擬實時建圖,實時建圖技術中常用的綜合長時間多幀信息來消除抖動,穩定遞推的思路還是非常有用的。所以毫末用時序的transformer模型在BEV空間上做了虛擬實時建圖,通過這種方式讓感知車道線的輸出更加準確和穩定,在這個時空下對障礙物的判斷也更準確,讓城市導航自動駕駛告別高精地圖依賴。毫末通過視頻示意了transformer實時構建的過程,右側是6個攝像頭的輸入,左側是實時構建的結果。視頻中紅色是車道線,綠色是道路邊緣,藍色是人行道、停止線等其他道路標線。顧維灝提到,如果時間足夠長,他們也可以還原出整條道路。使用強大實時感知能力,已經可以解決部分的道路模糊、複雜路口、環島等問題,整個過程只需要普通導航地圖裡面的相對可靠的拓撲信息即可,就像自己開車一樣。第四,使用人類世界的交互接口能力 - 感知能力更准在過去,系統主要是用傳感器感知和算法預測周圍交通參與者的意圖。當車輛進入城市環境,交通參與者的活動變得更複雜了,預測的挑戰變得更大。其實當今現實世界中,整個交通系統,從道路到車輛,在設計的時候都主要考慮的是滿足人類的需求。所以如果一個自動駕駛系統具備適配和使用這些人類世界的交互接口的能力,那將事半功倍,可以自然地融入實際交通環境,提供舒適流暢的駕駛體驗。MANA通過升級車上感知系統,比如,對車輛信號燈狀態包括剎車燈和轉向燈進行專門識別,讓駕駛員在處理前車急剎、緊急切入等場景中更安全和舒適。仿真主要有三個層次的工作。一個是基礎仿真能力,仿真環境和運動的基礎能力,主要衡量的是精準性;一個是構建場景的能力,主要看的是效率;另一個是定義場景的能力,主要看有效性。之前的幾次AI DAY中毫末分享了仿真的第一層和第二層的能力。本次重分享第三層的能力,即如何更有效定義場景的能力。特別是城市路口,它是城市中最複雜的場景。面對路口這一城市最複雜場景,MANA在仿真系統中引入了真實交通流場景,毫末通過與阿里以及德清政府合作,利用路端設備將路口處每時每刻的真實交通流都記錄下來,再通過log2world的方式導入到仿真引擎裡面,加上駕駛員模型之後,就可以用於路口場景的調試驗證。但是,實采的真實交通流場景中,大部分場景的重複度也比較高,毫末利用交通環境熵來計算場景價值,挑選出高價值場景轉化為仿真測試用例,提高了整個產品的通過性。隨着測試的深入,數據的累積,毫末發現過去用的分場景微模型方法漸漸顯露弊端,有的時候運動起來太機械,舒適感不足。所以毫末借鑑多模態大模型的方法來更好解決認知問題,讓系統的動作更加擬人,具備常識。具體做法是對覆蓋海量人駕進行深度理解,構建毫末自動駕駛場景庫,並基於典型場景挖掘海量司機的實際駕駛行為,構建TaskPromt,訓練一個基於時空Attention的駕駛決策預訓練大模型,使得自動駕駛決策更像人類實際駕駛行為,以保證實現自動駕駛決策的可控、可解釋。在複雜的城市中,使得毫末NOH在路口左拐、右拐等各種場景種,不但能結合實際情況選擇最優路線保證安全,還能學習人類駕駛特點,給出最合理的行為序列和參數,體感更像老司機。◆九章 - 2021年度文章大合集
◆當候選人說「看好自動駕駛產業的前景」時,我會心存警惕——九章智駕創業一周年回顧(上)
◆數據收集得不夠多、算法迭代得不夠快,就「沒人喜歡我」————九章智駕創業一周年回顧(下)
◆從第一性原理談談如何做好智駕產品
◆激光雷達:905與1550的戰爭
◆小馬智行進軍前裝量產,從自研域控制器入手?