關注公眾號,發現CV技術之美
▊寫在前面
視頻文本檢索的挑戰包括視覺網絡結構的設計 和訓練數據的性質 ,因為可用的大規模視頻文本訓練數據集 (例如HowTo100M) 是noisy的,因此只能通過大量的計算才能達到競爭力的性能。
▊1. 論文和代碼地址

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval
論文:https://arxiv.org/abs/2104.00650
代碼:https://github.com/m-bain/frozen-in-time
▊2. Motivation
視覺語言任務的快速發展主要歸功於三個方面的改進:新的神經網絡結構 (例如,用於文本和視覺輸入的Transformer);新的大規模數據集 ;能夠處理標籤噪聲的新損失函數 。但是,它們的發展主要在兩個獨立的賽道上進行: 一個用於圖像,一個用於視頻。
在本文中,作者嘗試統一這兩個賽道,提出了一種雙編碼器結構,該結構利用Transformer視覺編碼器的靈活性來從帶有字幕的圖像、或帶有字幕的視頻片段或兩者進行訓練 (如上圖所示)。作者通過將圖像視為 「時間凍結(frozen in time)」 的視頻特例來做到這一點。
▊3. 方法
視覺編碼器將圖像或視頻片段作為輸入,該圖像或視頻片段由分辨率為的個幀組成,其中圖像的M = 1。文本編碼器將標記化的單詞序列作為輸入。
Spatio-temporal patches遵循VIT和Timesformer中的設置,將輸入視頻片段劃分為大小為P×P的M×N個不重疊的時空塊,其中。
Transformer inputPatch通過2D卷積層處理,並且輸出flatten,形成用於輸入到Transformer的嵌入序列,其中D取決於卷積層中卷積核的數量。
學習到的時間和空間位置嵌入,被添加到每個輸入token:
幀m內的所有patch都被賦予相同的時間位置,不同時間的相同位置的patch被賦予了相同的空間位置。從而使模型能夠感知patch的時間和空間位置。
視頻序列被送到一堆時空Transformer塊中。作者對 Divided Space-Time Attention做了一個小修改,將塊輸入和時間注意力輸出之間的殘差連接替換為塊輸入和空間注意力輸出之間的殘差連接。
文本編碼器架構是一種多層雙向Transformer編碼器,在自然語言處理任務中顯示出巨大的成功。對於最終文本編碼,作者使用最終層的 [CLS] token輸出。
Projection to common text-video space文本和視頻編碼都通過單個線性層投影到一個公共維度。作者通過在兩個投影嵌入之間執行點積來計算文本和視頻之間的相似度。
Efficiency本文的模型具有獨立的雙編碼器路徑 ,僅需要視頻和文本嵌入之間的點積。這確保了檢索推理的成本較低,因為它是可索引的,即它允許使用快速近似最近鄰搜索,並且在推理時可擴展到非常大規模的檢索。
在檢索中,batch中匹配的文本-視頻對被視為正樣本對,批次中的所有其他成對組合被視為負樣本對。在訓練過程中,需要最小化兩個損失函數,即視頻到文本和文本到視頻:
其中,和分別是第i個視頻和第j個文本在大小為B的batch中的歸一化嵌入,σ 是溫度參數。
Joint image-video training在這項工作中,作者在圖像-文本對和視頻-文本對上進行聯合訓練,利用兩者進行更大規模的預訓練。本文的聯合訓練策略包括在圖像和視頻數據集之間的batch交替進行。由於注意力機制與輸入幀的平方成比例,因此圖像數據的batch相比於視頻數據可以設置的更大。
Weight initialisation and pretraining作者使用在ImageNet-21k上訓練的ViT權重初始化時空Transformer模型中的空間注意權重,並將時間注意權重初始化為零。殘差連接的意義在於,在這樣的初始化設置下,模型開始相當於每個輸入幀上的ViT,從而允許模型隨着訓練的進行逐漸學習關注時間。
時空Transformer結構允許可變長度的輸入序列,因此可以處理可變數量的輸入視頻幀。但是,如果模型僅在長度為m的視頻上進行了訓練,則僅在中學習時間位置嵌入。因此,將模型應用於長度為M的序列的輸入視頻需要添加。
給定包含L個幀的視頻,作者將其細分為M個相等的片段,其中M是視頻編碼器的所需幀數。在訓練過程中,作者從每個片段中統一採樣一個幀。在測試時,作者對每個片段中的第i幀進行採樣,以獲得視頻嵌入。使用步幅S 確定i的值,從而產生視頻嵌入數組。這些視頻嵌入的平均值用作視頻的最終嵌入。
▊4.實驗
在本文中,作者提出了一個新的視頻-文本預訓練數據集WebVid2M,上圖給出了一些樣本示例。
上表為不同視頻-文本的預訓練數據集的統計結果。
4.2. Ablation Study上表展示了MSR-VTT數據集上本文方法的fine-tuning和zero-shot的text-to-video實驗結果。


▊5. 總結
在本文中,作者提出了一種用於文本視頻檢索的端到端訓練的雙編碼器模型,該模型旨在利用大規模圖像和視頻字幕數據集。
▊作者簡介
知乎/公眾號:FightingCV

END
歡迎加入「視頻檢索」交流群👇備註:檢索