close

機器之心原創

作者:澤南

毫末智行的 HPilot,不到一年時間就站上了國內智能駕駛第一。


自動駕駛前進的速度,比我們想象得要快一些:今年,全場景輔助駕駛就會在國內落地了。

4 月 19 日,毫末智行在 AI DAY 活動正式推出「城市智慧領航輔助駕駛系統」NOH,並預計將於年中量產落地。


「2021 年,毫末智行提出中國自動駕駛的新範式,也就是毫末智行的致勝公式:以領先的數據智能體系,乘以穩定的量產能力乘以安全,之後再乘上生態的 N 次方。毫末智行的致勝公式源於毫末對自動駕駛行業的深刻理解,是毫末智行自動駕駛技術產業化落地的重要舉措,」毫末智行董事長張凱在活動中說道。

隨着技術的發展,高級別智能駕駛正處在大規模量產的前夜。為毫末所有智能駕駛產品提供技術動力支撐的自研數據智能體系 MANA 正發揮出巨大優勢。

智能駕駛領域裡,毫末智行已經進入領先者隊列,這家公司剛剛公布了最新輔助駕駛總里程記錄:已突破 700 萬公里,用戶使用總時長超過 13 萬小時。

在毫末產品規模量產的進展上,去年 3 月,毫末智行在品牌開放日活動中展示了 HPilot 1.0 系統,5 月實現量產落地。截止今年 4 月,HPilot 已登陸魏牌摩卡、坦克 300 城市版、魏牌瑪奇朵 DHT、魏牌拿鐵 DHT、哈弗神獸、坦克 500 六款車型,成為國內應用量最多的自動駕駛系統。


「最近一年,自動駕駛的基礎技術發生了很多變化,車載芯片算力不斷提升,Transformer 跨模態模型獲得應用,攝像頭清晰度增加。在感知技術進化的前提下,輔助駕駛實現的方法也在發生改變,」毫末智行 CEO 顧維灝說道。

在城市輔助駕駛任務上,MANA 從感知到認知層面的能力都有了大幅度升級。

MANA 進化:學會看紅綠燈,多模態 Transformer

從高速路到城市輔助駕駛,路況的複雜程度成倍增長,讓汽車學會如何看紅綠燈並識別對應的車道線就是重要的挑戰之一。

從 AI 技術的角度看,這就是一個小目標檢測問題:交通燈的狀態會動態變化,又具有明顯地方特色,橫着的、豎着的、三個的、五個的、有待轉的、有倒計時的,形色各異。智能駕駛系統必須區分每個燈具體指示哪條線路。


毫末給出的解決方法是通過圖像合成和遷移學習加快技術的迭代,其中主要的挑戰是實現真實數據和合成數據的混合訓練。通過圖像合成技術,毫末的工程師擴大了機器學習的樣本量,彌補了真實場景數據樣本不均衡的問題。

在不完全依賴高精地圖的情況下,若想成功實現紅綠燈識別,需要完成燈型和狀態的檢測,同時也要完成在視野中多組紅綠燈中識別目標燈組的綁路操作。毫末智行設計了一個針對紅綠燈檢測及綁路的「雙流」感知模型,將紅綠燈檢測和綁路問題分解成兩個通道。


據毫末介紹,這種技術類似於人腦的視覺感知通道,其中 ventral stream 主要攜帶物體檢測及識別信息,主要負責識別通路(what),dorsal stream 主要攜帶視野中位置及空間關係的信息,主要負責尋找路線(where)。

在雙流模型中,ventral 通路主要負責紅綠燈的識別信息,包含對紅綠燈燈箱的檢測和燈型的分類,分別輸出紅綠燈的顏色、形狀和朝向信息。Dorsal 通路主要負責紅綠燈綁路,輸出目標車道的紅綠燈燈組,其通過訓練生成特徵圖,獲得真實圖像中經常出現紅綠燈位置的位置概率。

隨後,模型利用空間注意力機制將二者結合起來,雙流模型將輸出綁路後的目標車道紅綠燈通行狀態。


訓練完成後,毫末智行對這些模型進行了大量測試,在不同城市、不同距離、不同轉向目標、不同光線的條件下均實現了準確的效果。

Transformer 架構是當前人工智能領域最熱門的技術。過去一年裡,視覺 Transformer(ViT)已經成為視覺識別的強大支柱。由於性能強大,其在自動駕駛的各獨立傳感器中都獲得了應用。

人們發現,Transformer 結構可為自動駕駛帶來幾種優勢:更高效地利用模型體量和數據,通過注意力結構融合多模態數據,減少對於標註數據的依賴。


在多傳感器融合的嘗試中,交叉注意力機制(Cross Attention)被用來作為多模態數據的融合工具,大量減少了人工先驗的介入,可以讓基於優化的端到端算法和數據驅動更方便的結合,進一步發揮 Transformer 架構的潛力。


毫末智行根據智能駕駛任務的特點提出了自己的 BEV Transfomer,利用注意力機制解決了多相機視角拼接問題,在車道線識別任務上取得了進步。

具體來說,新系統在得到攝像頭數據後,首先對 2D 圖像用 Resnet + FPN 進行處理,之後進行 BEV Mapping,利用 Cross Attention 來動態的確定某一幀圖像中的內容在相機所屬 BEV 空間中的位置。通過多個 Cross Attention,最終組成一個完整的 BEV 空間。

當視覺特徵完成 BEV 投射之後,就天然具備了和 LiDAR 模型的融合能力。最後,算法又通過 History BEV 加入與時間有關的特徵,進一步提升識別的準確率和連續性。


在自動駕駛中應用 Transformer 可謂最前沿的嘗試,獲得的回報也非常可觀。特斯拉 AI 總監 Andrej Karpathy 曾介紹了特斯拉 FSD 基於 Transformer 的 BEV 網絡結構,由於 BEV 空間下的感知結果與決策規劃所在的坐標系是統一的,因此感知與後續模塊通過 BEV 變換可以緊密聯繫到一起。此外,BEV 方法可以有效融合多傳感器的輸出,讓近處大目標尺寸估計和追蹤都變得更加準確。該方法的使用確立了 FSD 在視覺感知的領先地位。

那毫末 BEV Transfomer 的實現效果如何呢?毫末表示新的方法對自車姿態的容忍度更高,在複雜路面縱向誤差表現更好,對於路面起伏的魯棒性更高。另外,利用多相機輸出內容相互輔助,擴充了檢測視野,自動駕駛對周圍事物的響應也更快。

目前在業內,只有毫末智行和特斯拉在自動駕駛視覺上大規模應用了 Transformer 架構。此類感知算法在穩定成熟後,將逐步替換基於 CNN 的感知算法。

用大模型實現自動駕駛「認知」能力

城市自動駕駛面臨的複雜問題往往超過感知層面。在更高層次的認知問題上,毫末智行也有一些新成果。比如非常微妙的路口博弈場景的左轉待轉時,輔助駕駛車輛需要等待前方掉頭車,還需觀察避讓對向直行車輛、與對向右轉車交互。

處理這樣的場景,過去自動駕駛算法需要寫非常多的規則式場景判定和參數,代碼難以調試。當規則越來越多的時候,就會引發邏輯爆炸,導致規則失效。毫末則使用機器學習模型來替換手寫規則和參數,獲得更廣泛的適用性。

毫末提出的 TarsGo 模型目前可以處理很多複雜的輔助駕駛場景,如環島、輔路匯入、壓速變道等等。


去年,阿里提出了 10 萬億參數超大規模中文預訓練模型 M6,成為國內首個實現商業化落地的多模態大模型。毫末智行和阿里達摩院進行了合作,使用 M6 對自動駕駛數據進行圖像可解釋性標註,獲得了前所未有的效果。

通過注意力機制,AI 模型可以用熱力圖方式量化出與周圍交通參與者的安全風險,近距離用紅色表示,輸出 Attention High,而中距離用黃色表示,輸出 Attention Middle。


M6 在自動駕駛領域的應用體現了 AI 能力的普惠化 —— 以往被其他行業使用的數據,現在也可以迭代提升自動駕駛能力了。

毫末智行還與阿里合作,基於 128 卡 A100 集群,實現了 Swin Transformer 模型分布式訓練,探索了混合精度訓練、算子和編譯的優化,使大模型訓練成本降低了 60%,加速比超過 96%。


在機器學習任務中,數據處理經常占用大部分時間。毫末智行還通過標註過程自動化,將數據標註的效率自動化率提升到了 80%,大幅減少了自動駕駛算法訓練的成本。

通過與大算力平台深度融合,自動駕駛認知能力得到了飛速提升,這些技術進步終於讓城市智能駕駛成為了可能。

國內首個量產城市輔助駕駛系統 HPILOT 3.0,今年上線

目前,國內高速公路里程約 16 萬公里,城市道路里程則早已突破 1000 萬公里,在其範圍內還有 40 萬個城市路口和 130 萬個紅綠燈。根據毫末的數據,在城市場景下的通勤,有 85% 是擁堵和半擁堵情況。擁堵變道、借道繞障、路口博弈、非機動車出現是城市輔助駕駛必須面臨的問題。

毫末目前已完成了城市 NOH 的全部功能開發,其數據智能體系 MANA 的學習時長達 197273 小時,虛擬駕齡相當於人類司機 2 萬年。

毫末即將推出的下一代城市智能駕駛系統 HPilot 3.0 將配備 AI 算力 360T,高速緩存 144M,CPU 計算能力達到 200K+DMIPS 的新一代自動駕駛芯片。全車搭載 2 個激光雷達、12 個攝像頭,5 個毫米波雷達形成的多冗餘感知體系。


城市 NOH 能夠根據導航路線在城市環境中應對各種複雜交通場景,實現城市區域內點到點安全、輕鬆的智慧出行。根據目前的測試,該系統實現了 70% 路口通過率,變道成功率 90%。

僅用一年多時間,毫末智行就幫助長城完成了智能駕駛能力的升級,率先站在了下一階段城市智能駕駛的起跑線上。在國內除毫末智行外,目前僅有小鵬明確表示將在今年上線城市輔助駕駛能力。

毫末為今年制定的目標是 NOH 系統覆蓋超過 30 款新車。在未來兩年,搭載毫末輔助駕駛系統的乘用車數量將超過 100 萬台。按照這一目標,毫末將在未來持續保持中國量產自動駕駛第一名的位置。


「隨着自動駕駛、輔助駕駛的成熟,這些新技術不僅能夠有效保障交通參與者的生命安全,還能夠逐步釋放駕駛者的駕駛時間,緩解駕駛疲勞,獲得出行效用的提升,」顧維灝表示。

在大規模量產後,毫末智行智能駕駛的核心——MANA數據智能,勢必將會隨數據和技術的積累,在業內樹立標杆。

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()