豐色 發自 凹非寺量子位 報道 | 公眾號 QbitAI
只需第一幀圖像+邊界提示,就能將視頻中各物體「摳」出來並進行軌跡跟蹤:
該方法通過在視頻中引入注意力機制,成功地解決此前採用了無監督學習的多目標分割和跟蹤方法的一些不足。
現在的它,不僅可以泛化到更多樣、視覺上更複雜的視頻中,還能處理更長的視頻序列。
通過實驗還發現,相比此前的模型,谷歌這個新方法在MOVi數據集上的mIoU直接提高了近30%。
為「動態摳圖」引入注意力機制
方法被命名為SAVi(Slot Attention for Video)。
而此前的無監督目標分割和跟蹤方法最大的問題,就是只能應用到非常簡單的視頻上。
為了處理視覺效果更複雜的視頻,SAVi採用弱監督學習:
(1)以光流(optical flow)預測為訓練目標,並引入注意力機制;
(2)在第一幀圖像上給出初始提示(一般是框出待分割物體,或者給出物體上單個點的坐標),進行分割指導。
具體來說,受到常微分方程的「預測-校正器」方法的啟發,SAVi對每個可見的視頻幀執行預測和校正步驟。
為了描述視頻物體隨時間變化的狀態,包括與其它物體的交互,SAVi在進行光流預測時在slot之間使用自注意力。
slot就是指視頻中各物體,用不同顏色區分。
校正階段,帶有輸入的slot-normalized交叉注意用於校正(更新)slot表示集。
然後預測器的輸出根據時間來初始化矯正器,使模型最終能夠以一致的方式隨時間跟蹤物體。
△SAVi模型架構圖
在訓練中,每個視頻被分成六個6幀子序列,第一幀接收提示信號,每幀兩輪slot注意力。
在完全無監督視頻分割中,研究人員以64的batch size訓練了十萬步。
沒有提示,也能進行簡單視頻的分割和跟蹤
在CATER數據集上,測試表明,SAVi架構完全適用於無監督的物體表示學習。
在光流條件監督的情況下,SAVi在MOVi數據集上獲得72.1%的mIoU,比基線模型CRW和T-VOS分別高了近30%和近20%。
SAVi在MOVi++數據集上的mIoU得分為45.9%,比T-VOS略高一點,比CRW低了5%。
另外,還可以看到,在第一幀圖像上給出質心形式的提示效果會比邊界框好一點,但區別不大。
值得注意的是,即使沒有任何提示,該方法也能分割一些具有簡單紋理的動態場景,比如在數據集Sketchy上。
不過,在將SAVi完全用於現實世界裡的複雜視頻時,還有一些挑戰需克服:
1、所採用的訓練方法假設在訓練時光流信息是可用的,而在真實視頻中,這不一樣有;
2、研究中所涉及的都是一些簡單物體的基本運動,現實遠比這個複雜。
最後,作者表示,SAVi在分割和跟蹤方面仍然表現出色,在第一幀給出提示信息的做法也可能會衍生出各種相關的半監督方法。
論文地址:https://arxiv.org/abs.2111.12594
參考鏈接:[1]https://slot-attention-video.github.io/(代碼即將開源)[2]https://www.marktechpost.com/2021/11/28/google-research-open-sources-savi-an-object-centric-architecture-that-extends-the-slot-attention-mechanism-to-videos/
— 完 —
一鍵三連「分享」「點讚」和「在看」
科技前沿進展日日相見 ~