我愛計算機視覺 - ICCV2021- 牛津大學新的預訓練視頻文本數據集WebVid-2M，設計用於端到端檢索的聯合視頻和圖像編碼器！代碼已開源！－鑽石舞台

關注公眾號，發現CV技術之美

▊寫在前面

視頻文本檢索的挑戰包括視覺網絡結構的設計和訓練數據的性質，因為可用的大規模視頻文本訓練數據集 (例如HowTo100M) 是noisy的，因此只能通過大量的計算才能達到競爭力的性能。

作者在本文中解決了這兩個挑戰，並提出了一種端到端可訓練模型，該模型旨在利用大規模圖像和視頻字幕數據集。本文的模型是對最近的ViT和Timesformer結構的修改和擴展，並且包括在空間和時間上的注意力。

該模型是靈活的，可以獨立或結合在圖像和視頻文本數據集上進行訓練。模型將圖像視為視頻的frozen snapshots開始，然後在接受視頻數據集訓練時逐漸學會attend到時間上下文。

此外，作者還提供了一個新的視頻文本預訓練數據集WebVid-2M ，包括200萬多個視頻，這些視頻帶有從互聯網上抓取的弱字幕。儘管對數據集的訓練要小一個數量級，但實驗表明，這種方法在標準的下游視頻檢索基準 (包括msr-vtt，MSVD，DiDeMo和LSMDC) 上產生了SOTA的結果。

▊1. 論文和代碼地址

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

論文：https://arxiv.org/abs/2104.00650

代碼：https://github.com/m-bain/frozen-in-time

▊2. Motivation

視覺語言任務的快速發展主要歸功於三個方面的改進：新的神經網絡結構（例如，用於文本和視覺輸入的Transformer）；新的大規模數據集；能夠處理標籤噪聲的新損失函數。但是，它們的發展主要在兩個獨立的賽道上進行: 一個用於圖像，一個用於視頻。

兩者之間唯一的共同聯繫是，視頻網絡通常是通過在圖像數據集上預訓練圖像網絡來初始化的。考慮到圖像和視頻在多個任務上傳達的信息重疊，這種工作分離是次優的。例如，儘管對某些人類動作進行分類需要對視頻幀進行時間排序，但許多動作可以從它們在幀上的分布甚至單個幀中進行分類。

在本文中，作者嘗試統一這兩個賽道，提出了一種雙編碼器結構，該結構利用Transformer視覺編碼器的靈活性來從帶有字幕的圖像、或帶有字幕的視頻片段或兩者進行訓練 (如上圖所示)。作者通過將圖像視為「時間凍結（frozen in time）」的視頻特例來做到這一點。

使用基於Tranformer的結構使模型能夠訓練可變長度序列，只需將圖像視為單個幀視頻。此外，與許多最近的視頻文本雙編碼方法不同，作者不使用在外部圖像數據集上預先訓練，然後固定的一組「專家網絡」，而是端到端訓練模型。

作者通過爬取web以獲取超過200萬個視頻-文本對的大規模視頻文本字幕數據集WebVid-2M來促進這種端到端訓練，此外，還利用大規模圖像字幕數據集，如Conceptual Captions。

▊3. 方法

3.1. Model ArchitectureInput

視覺編碼器將圖像或視頻片段作為輸入，該圖像或視頻片段由分辨率為的個幀組成，其中圖像的M = 1。文本編碼器將標記化的單詞序列作為輸入。

Spatio-temporal patches

遵循VIT和Timesformer中的設置，將輸入視頻片段劃分為大小為P×P的M×N個不重疊的時空塊，其中。

Transformer input

Patch通過2D卷積層處理，並且輸出flatten，形成用於輸入到Transformer的嵌入序列，其中D取決於卷積層中卷積核的數量。

學習到的時間和空間位置嵌入，被添加到每個輸入token:

幀m內的所有patch都被賦予相同的時間位置，不同時間的相同位置的patch被賦予了相同的空間位置。從而使模型能夠感知patch的時間和空間位置。

此外，將學習的 [CLS] token 連接到序列的開頭，該序列用於產生Transformer的最終的視覺輸出嵌入。

Space-time self-attention blocks

視頻序列被送到一堆時空Transformer塊中。作者對 Divided Space-Time Attention做了一個小修改，將塊輸入和時間注意力輸出之間的殘差連接替換為塊輸入和空間注意力輸出之間的殘差連接。

每個塊在先前塊的輸出上依次執行時間自注意，然後執行空間自注意。視頻片段嵌入是從最終塊的 [CLS] token獲得的。

Text encoding

文本編碼器架構是一種多層雙向Transformer編碼器，在自然語言處理任務中顯示出巨大的成功。對於最終文本編碼，作者使用最終層的 [CLS] token輸出。

Projection to common text-video space

文本和視頻編碼都通過單個線性層投影到一個公共維度。作者通過在兩個投影嵌入之間執行點積來計算文本和視頻之間的相似度。

Efficiency

本文的模型具有獨立的雙編碼器路徑，僅需要視頻和文本嵌入之間的點積。這確保了檢索推理的成本較低，因為它是可索引的，即它允許使用快速近似最近鄰搜索，並且在推理時可擴展到非常大規模的檢索。

給定目標圖庫中的t個文本查詢和v個視頻，模型的檢索複雜度為。相比之下，將文本和視頻作為輸入到單編碼器的ClipBERT的檢索複雜度為，因為必須將每個文本-視頻組合之後輸入到模型中。

3.2. Training StrategyLoss

在檢索中，batch中匹配的文本-視頻對被視為正樣本對，批次中的所有其他成對組合被視為負樣本對。在訓練過程中，需要最小化兩個損失函數，即視頻到文本和文本到視頻：

其中，和分別是第i個視頻和第j個文本在大小為B的batch中的歸一化嵌入，σ 是溫度參數。

Joint image-video training

在這項工作中，作者在圖像-文本對和視頻-文本對上進行聯合訓練，利用兩者進行更大規模的預訓練。本文的聯合訓練策略包括在圖像和視頻數據集之間的batch交替進行。由於注意力機制與輸入幀的平方成比例，因此圖像數據的batch相比於視頻數據可以設置的更大。

Weight initialisation and pretraining

作者使用在ImageNet-21k上訓練的ViT權重初始化時空Transformer模型中的空間注意權重，並將時間注意權重初始化為零。殘差連接的意義在於，在這樣的初始化設置下，模型開始相當於每個輸入幀上的ViT，從而允許模型隨着訓練的進行逐漸學習關注時間。

由於transformer架構在大規模預訓練中取得了很大的成功，作者使用了兩個大規模文本圖像/視頻數據集，並採用了聯合訓練策略，從而大大提高了性能。

Temporal curriculum learning

時空Transformer結構允許可變長度的輸入序列，因此可以處理可變數量的輸入視頻幀。但是，如果模型僅在長度為m的視頻上進行了訓練，則僅在中學習時間位置嵌入。因此，將模型應用於長度為M的序列的輸入視頻需要添加。

作者研究了兩種時間擴展方法: 插值（interpolation）和零填充（zero-padding）。零填充為將0填充到，允許模型在訓練時從頭開始學習額外的時間位置。另外，可以使用插值來對時間維度中的時間嵌入進行上採樣，即。作者研究了兩種插值方法: 最近鄰法和雙線性法。

Frame sampling

給定包含L個幀的視頻，作者將其細分為M個相等的片段，其中M是視頻編碼器的所需幀數。在訓練過程中，作者從每個片段中統一採樣一個幀。在測試時，作者對每個片段中的第i幀進行採樣，以獲得視頻嵌入。使用步幅S 確定i的值，從而產生視頻嵌入數組。這些視頻嵌入的平均值用作視頻的最終嵌入。

▊4.實驗

4.1. Pretraining Datasets

在本文中，作者提出了一個新的視頻-文本預訓練數據集WebVid2M，上圖給出了一些樣本示例。

上表為不同視頻-文本的預訓練數據集的統計結果。

4.2. Ablation Study

上表展示了本文模型在不同預訓練數據集下的實驗結果，可以看出CC3M + WebVid2M數據集上的預訓練結果是最好的。

4.3. Curriculum strategy

上表展示了不同幀數的實驗結果。

上圖顯示了msr-vtt測試集上各種模型的zero-shot性能，以及相應的總訓練時間。

4.4. Comparison to the State of the Art

上表展示了MSR-VTT數據集上本文方法的fine-tuning和zero-shot的text-to-video實驗結果。

上表展示了MSVD數據集上本文方法的text-to-video實驗結果。

上表展示了DiDeMo數據集上本文方法的text-to-video實驗結果。

▊5. 總結

在本文中，作者提出了一種用於文本視頻檢索的端到端訓練的雙編碼器模型，該模型旨在利用大規模圖像和視頻字幕數據集。

本文的模型在許多下游基準上實現了SOTA的性能，但是作者注意到本文的模型的性能尚未達到飽和，通過加入更多預訓練的數據集（如HowTo100M，Google3BN），可以進一步發掘本文模型的性能潛力。

▊作者簡介

研究領域：FightingCV公眾號運營者，研究方向為多模態內容理解，專注於解決視覺模態和語言模態相結合的任務，促進Vision-Language模型的實地應用。

知乎/公眾號：FightingCV

END

歡迎加入「視頻檢索」交流群👇備註：檢索

小馬

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

全站分類：不設分類
個人分類：不設分類
此分類上一篇：我愛學邏輯 - 一天一題學判斷【252】類比
此分類下一篇：我愛計算機視覺 - 被放養導致申博論文難產，該不該硬gang導師？
上一篇：我愛學邏輯 - 一天一題學判斷【252】類比
下一篇：我愛計算機視覺 - 被放養導致申博論文難產，該不該硬gang導師？

鑽石舞台

鑽石鑽石亮晶晶

我愛計算機視覺 - ICCV2021- 牛津大學新的預訓練視頻文本數據集WebVid-2M，設計用於端到端檢索的聯合視頻和圖像編碼器！代碼已開源！

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

我愛計算機視覺 - ICCV2021- 牛津大學新的預訓練視頻文本數據集WebVid-2M，設計用於端到端檢索的聯合視頻和圖像編碼器！代碼已開源！

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結