PTT: Point-Track-Transformer Module for 3D Single Object Tracking in Point Clouds
論文已於今年六月份中稿機器人領域頂會IROS 2021。
論文地址:https://arxiv.org/abs/2108.06455
作者單位:東北大學(瀋陽)
代碼整理中,即將開源:
https://github.com/shanjiayao/PTT
實驗視頻鏈接:
bilibili: https://www.bilibili.com/video/BV1Uf4y157UE/
YouTube:https://www.youtube.com/watch?v=lttRtYXxUic
主要貢獻:
一個針對基於點雲三維單目標跟蹤的Point-Track-Transformer (PTT)模塊,可以在追蹤過程中有效權衡點雲特徵以聚焦於更深層次的目標線索。
一個嵌入了PTT組件的PTT-NET網絡,可進行端到端的訓練。這是第一個基於點雲應用transformer到三維目標跟蹤任務的方法。(截止投稿時)
圖1: 與現有的三維單目標跟蹤方法相比,我們的PTT模塊在計算相似度特徵後根據特徵的重要性對特徵進行加權,以提高跟蹤器的性能。
摘要:
三維單目標跟蹤是機器人技術中的一個關鍵問題。本文提出了一種基於點雲的三維單目標跟蹤的transformer 模塊:Point-Track-Transformer (PTT)。PTT模塊包含特徵嵌入、位置編碼和自注意力三個模塊特徵計算。特徵嵌入旨在將語義信息相似的特徵在嵌入空間中放置得更近。位置編碼用於將原始點雲坐標編碼為高維可分辨特徵。自注意通過計算注意權重產生更細化的注意力特徵。此外,我們將PTT模塊嵌入到開源方法P2B中來構建PTT-NET。在KITTI數據集上的實驗表明,我們的PTT-Net顯著的超越了現有的基於點雲的單目標跟蹤方法(漲了10個點)。此外,PTT-Net還可以在 1080Ti GPU上實現實時性能(40fps)。我們的代碼是面向機器人社區的開源代碼,網址是https:https://github.com/shanjiayao/PTT。
圖2: PTT組件結構示意圖
方法:
特徵嵌入:該工作採用線性層完成特徵嵌入操作,對輸入點雲特徵進行映射;將點雲特徵從D維映射到M維,用於將語義信息相似的特徵在嵌入空間中放置得更近。
位置編碼:由於三維點雲坐標本身自帶位置屬性,就是位置編碼的自然輸入。因此,我們直接利用輸入的點雲坐標作為位置編碼模塊的輸入。此外,我們利用相對坐標使網絡更好地捕捉點與點之間的空間相關性和局部幾何形狀信息。
自注意力:自注意力部分,我們採用vector attention的結構來計算對輸入特徵進行加權。公式如下:
PTT-Net:
為了證明我們的PTT組件的有效性,我們將我們的PTT組件嵌入到開源工作P2B中,構建了我們的PTT-Net網絡。我們分別將PTT組件加在P2B網絡的種子投票階段和提議框生成階段。具體如下圖所示:
圖3: PTT-Net網絡結構示意圖
定量實驗結果:
表1:KITTI數據集上車輛類別跟蹤結果
相較於baseline方法,漲了10個點。
定性實驗結果:
加入PTT組件後,算法在點雲稀疏場景下,跟蹤性能有顯著提升。
