close

點擊下方卡片,關注「新機器視覺」公眾號

視覺/圖像重磅乾貨,第一時間送達


來源 |月明星稀風蕭蕭@知乎、3D視覺工坊
來源 |https://zhuanlan.zhihu.com/p/419187044

今天,我將分享一個 ICCV 2021 中的工作,基於視覺感知的多傳感器融合點雲語義分割方法《Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation》。

備註:論文連接、代碼連接見文末

1. Introduction
語義分割是計算機視覺的關鍵問題之一,它可以提供細粒度環境信息。因此在許多應用,比如機器人和自動駕駛中,都有極其重要的應用。

根據使用傳感器的種類,目前的語義分割方法可以分為三類:基於攝像頭的方法,基於激光雷達的方法和基於多傳感器融合的方法。

基於相機的方法,也就是以Deeplab[1]為代表的2D語義分割方法。由於RGB圖像擁有豐富的顏色、紋理等表徵信息,並且得益於公開數據集的豐富性,基於相機的語義分割方法已經取得了極大的進展。但是,由於相機是被動傳感器,它很容易受到光線的干擾,所以採集到的數據是經常存在噪聲,對於自動駕駛等應用來說這是非常危險的。因此,近年來越來越多的研究者關注基於激光雷達的3D語義分割方法,提出了RangeNet[2]等方法。由於激光雷達是一個主動傳感器,因此可以提供可靠的環境信息,此外,它還能提供空間幾何信息。但是,激光雷達採集到的數據往往非常稀疏和不規則的,並且也缺乏顏色和紋理信息,這使得單純基於激光雷達數據去進行細粒度的語義分割是非常具有挑戰性的。

因此,一個非常直接的想法就是融合相機和激光雷達的兩種傳感器的數據來共同完成語義分割任務。
2. Motivation
已有基於多傳感器數據的語義分割方法,比如RGBAL[3]和PointPainting[4],採用球面投影的方式將點雲投影到圖像上,獲取相關的像素信息,然後將相關的圖像像素投影回點雲空間,在點雲空間上進行多傳感器融合。然而這種方式會導致相機傳感器中的數據損失嚴重,如圖1左邊所示,汽車和摩托車在投影之後紋理、形狀等視覺感知信息都嚴重丟失。


針對上述問題,作者提出基於透視投影的融合方法,來保留足夠多的圖像信息,如上圖右邊所示。


然而,如上圖所示,由於透視投影得到的點雲非常稀疏,這導致神經網絡只能提取到局部點雲的特徵,而難以從稀疏的點雲中提取到物體的視覺感知特徵。

為了解決上述問題,作者提出了一種全新的多傳感器感知融合方案(PMF),來有效地融合來自相機和激光雷達兩個傳感器的信息。本文的主要貢獻包括以下三點:

第一,提出了一種全新的多傳感器感知融合方案(PMF),可以有效地融合來自相機和激光雷達兩個傳感器的信息。

第二,提出的多傳感器融合方法在光照極度不利(如黑夜)和點雲極度稀疏的情況下,依然可以達到理想的語義分割效果。尤其在有視覺對抗樣本的情況下,本文方法依然可以達到理想的語義分割效果。

第三,提出了一種全新的perception-aware loss,可以促進網絡捕捉不同模態的感知信息(RGB圖像的顏色和紋理,激光雷達數據的幾何形狀)。

所提出的方法在大規模數據集如SemanticKITTI、nuScenes和Sensat上均可以達到排名靠前的結果。並通過一系列的消融實驗驗證了本方法的優勢和合理性。
3. Method3.1. Overview
PMF方法首先使用透視投影(Perspective projection)將激光雷達數據投影到相機坐標中。然後,通過一個雙流網絡提取多模態數據的特徵,並將多模態特徵通過多個基於殘差的融合塊(Residual-based fusion block)融合。最後,通過將感知損失函數(Perception-aware loss)引入網絡的訓練,來量化兩種模式之間的感知差異,並幫助網絡學習到不同模態的感知特徵(RGB圖像的顏色和紋理,激光雷達數據的幾何形狀)。其結構如上圖所示,主要包含三個主要的模塊。

3.2. 模塊一:Perspective projection
考慮到之前的方法一般採用球面投影的方式將點雲投影到圖像上,獲取相關的像素信息,然後將相關的圖像像素投影回點雲空間,在點雲空間上進行多傳感器融合。而這導致了嚴重的信息損失。為了解決這個問題,作者提出基於透視投影的融合方法,通過把激光雷達數據投影到相機坐標系下,來保留足夠多的相機傳感器數據。
把激光雷達數據投影到圖像的過程藉助已知的標定參數來實現。對於投影之後的每個激光雷達點,採用跟backbone方法SalsaNext[5]一樣的設計,即保留(d, x, y, z, r)五個維度的特徵。其中,d表示深度值。

3.3. 模塊二:Two stream network with residual-based fusion modules
由於相機數據和激光雷達數據所包含的信息之間存在顯着差異,因此,使用雙分支的網絡來分別處理不同模態的數據。

對於多模態特徵的融合,由於考慮到相機數據很容易受到光照和天氣條件的影響,導致來自相機的數據可能是不可靠的。因此,作者設計了Residual-based的融合方式,只把融合的特徵作為激光雷達特徵的補充,而激光雷達特徵保持不變。除此之外,為了進一步消除融合特徵中噪聲信息的干擾,作者還加入Attention Module,來選擇性的把融合之後的特徵加入到激光雷達的特徵中。

通過以上的設計,使得最終得到的融合特徵更加可靠。

3.4. 模塊三:Perception-aware loss
從預測結果來看,由於激光雷達分支難以從稀疏點雲中捕捉感知特徵,即只有在物體邊緣以及有投影到的數據的地方,特徵才被激活。相比之下,相機分支卻可以很好地從稠密的圖像數據中學習到數據的特徵,如上圖所見,相機分支在物體內部的特徵被激活,並且特徵變化具有連續性。

因此,本文提出了一種Perception-aware loss,來使網絡可以更好的利用以上提到的各個分支的預測優勢,最終達到更好的預測效果。具體設計如下:


為了利用圖像分支的特徵來提升點雲分支的預測效果,首先在等式(1)中定義預測熵,然後根據等式(2)進一步計算預測置信度。由於並非來自相機分支的所有信息都是有效的,比如在物體的邊緣,預測置信度會比較低,因此,通過等式(3)來衡量來自相機分支信息的重要性。由於希望不同模態的預測結果應該在語義上的分布是相似的,因此,在這裡引入了KL散度。最終,通過公式(4)來計算激光雷達分支的Perception-aware Loss。

如公式(4)所述,對於激光雷達分支,完整的損失函數包含Perception-aware Loss、Focal Loss以及Lov´asz softmax Loss。

受Mutual Learning機制的啟發,相機分支損失函數的設計採用和激光雷達分支相似的方案。
4. Experiments
在這一部分,展示了PMF在不同激光雷達數據集和不同天氣情況下的泛化性實驗結果,並引入一個對抗性實驗來驗證PMF在輸入對抗攻擊樣本情況下的魯邦性能。實驗結果證明,PMF在多種情況下都具有很好的泛化性,並且可以在對抗攻擊中保持高魯棒性。
4.1. Results on SemanticKITTI
為了評估本方法在SemanticKITTI上的精度,將PMF與幾種最先進的激光雷達語義分割方法進行了比較。由於SemanticKITTI只提供前視圖攝像機的圖像,因此本方法將點雲投影到透視圖中,並只保留圖像上的可用點來構建SemanticKITTI的一個子集。為了評估的公平性,作者使用其他方法公開的最先進的訓練模型在前視圖數據上進行評估。


實驗結果如上表所示。可以看出,PMF在基於投影的方法中達到最好性能。例如,PMF在mIoU中的性能優於SalsaNext4.5%。然而,PMF的性能比最先進的三維卷積方法,即Cylinder3D[6]相比差1.0%。但是考慮到遠距離感知對自動駕駛汽車的安全性也至關重要,因此作者還進行了基於距離的評估。


實驗結果證明,當距離大於30米時,PMF的性能超過了Cylinder3D[6],達到最好性能。作者認為,這是由於相機數據可以為遠處物體提供了更多的信息,因此基於融合的方法在遠距離上優於僅使用激光雷達數據的方法。這也表明基於PMF更適合於解決稀疏激光雷達數據的語義分割任務。
4.2. Results on nuScenes
論文也在一個更複雜、也更稀疏的數據集nuScenes上進一步評估了所提出的方法。nuScenes的點雲比SemanticKITTI的點雲更稀疏(35k點/幀 vs. 125k點/幀)。


實驗結果如上表所示。從結果來看,PMF 在 nuScenes 數據集上實現了最佳性能。這些結果與預期一致,即,由於PMF集成了RGB圖像,因此能夠在更加稀疏的點雲條件下依然能達到理想的語義分割效果。


除此之外,如上圖所示,PMF方法在夜晚也具有很好的語義分割效果,再一次證明了PMF方法的魯棒性。更多的可視化結果請查看論文附錄。
4.3. Results on SensatUrban
在投稿之後,此篇文章的方法還參加了SensatUrban ICCV2021競賽。
注意,因為SensatUrban數據集上數據形式的限制,所以無法使用透視投影,因此採用的是基於鳥瞰圖的投影方式來處理數據的。其他關於實施方案的細節見GitHub。

4.4. Adversarial Analysis
由於真實世界總是存在一些會讓汽車迷惑的場景,比如貼在公交車上的海報以及藝術家畫在地面上的塗鴉。作者希望汽車在行駛過程中不會被這些場景所迷惑,否則這對於自動駕駛汽車來說將是十分危險的。


因此,為了模擬這種真實世界的場景,進一步驗證方法的魯棒性,作者從其他場景剪裁了一些物體(如上圖的汽車和人),並粘貼在目標場景中來得到新的相機數據,但是並沒有改變場景的激光雷達數據。
從上圖的結果表明,單純基於相機數據的方法很容易把這些粘貼上去的假物體識別為真實物體,而基於多傳感器數據的PMF卻不會受到這些假物體的干擾,並且可以實現精確的語義分割效果。更多的對抗攻擊實驗結果見附錄。
值得注意的是,在這個實驗中並沒有使用額外的對抗攻擊訓練方法來訓練PMF。
4.5. Effect of perception-aware loss
為了驗證Perception-aware loss的影響,作者可視化了在有Perception-aware loss和沒有Perception-aware loss情況下的激光雷達分支的預測。從上圖的可視化效果來看,加入Perception-aware loss訓練的模型可以學習到汽車的完整形狀,而baseline模型只關注點的局部特徵。這證明了Perception-aware loss的引入可以幫助激光雷達分支更好的學習到圖像的信息。

5. Conclusion
最後總結一下,本文提出了一個有效的融合相機和激光雷達數據的語義分割方法PMF。與現有的在激光雷達坐標系中進行特徵融合的方法不同,本方法將激光雷達數據投影到相機坐標系中,使這兩種模態的感知特徵(RGB圖像的顏色和紋理,激光雷達數據的幾何形狀)能夠協同融合。在兩個基準數據集上的實驗結果和對抗攻擊實驗的結果表明了該方法的優越性。表明了,通過融合來自相機和激光雷達的互補信息,PMF對複雜的戶外場景和光照變化具有高度的魯棒性。未來,作者將嘗試提高 PMF 的效率,並將其擴展到其他自動駕駛任務上。

論文連接
Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation
(https://openaccess.thecvf.com/content/ICCV2021/papers/Zhuang_Perception-Aware_Multi-Sensor_Fusion_for_3D_LiDAR_Semantic_Segmentation_ICCV_2021_paper.pdf)

代碼連接
GitHub - ICEORY/PMF: Perception-aware multi-sensor fusion for 3D LiDAR semantic segmentation (ICCV 2021)(https://github.com/ICEORY/PMF)

參考文獻

[1] Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs."IEEE transactions on pattern analysis and machine intelligence40.4 (2017): 834-848.
[2] Milioto, Andres, et al. "Rangenet++: Fast and accurate lidar semantic segmentation."2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).IEEE, 2019.
[3] El Madawi, Khaled, et al. "Rgb and lidar fusion based 3d semantic segmentation for autonomous driving."2019 IEEE Intelligent Transportation Systems Conference (ITSC). IEEE, 2019.
[4] Vora, Sourabh, et al. "Pointpainting: Sequential fusion for 3d object detection."Proceedings of theIEEE/CVF conference on computer vision and pattern recognition.2020.
[5] Cortinhal, Tiago, George Tzelepis, and Eren Erdal Aksoy. "SalsaNext: Fast, uncertainty-aware semantic segmentation of LiDAR point clouds."International Symposium on Visual Computing. Springer, Cham, 2020.
[6] Zhu, Xinge, et al. "Cylindrical and asymmetrical 3d convolution networks for lidar segmentation."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

本文僅做學術分享,如有侵權,請聯繫刪文。

—THE END—
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()