在本文中,阿里安全、澳大利亞斯威本科技大學和 EPFL 的研究者提出了一種新型 ViT 模型(Robust Vision Transformer, RVT),以及兩項提高 ViT 魯棒性的訓練技術:位置相關的注意力縮放(PAAS)和基於圖像塊的數據增強。RVT 顯著提升了視覺分類的魯棒性和泛化性,在多個 ImageNet 魯棒性基準上取得了 SOTA 效果。上述研究成果已被 CVPR 2022 收錄。儘管深度神經網絡在視覺識別任務上已經取得了巨大成功,但其在對抗攻擊和數據域偏移下的脆弱性一直被詬病。針對該問題,大量在對抗樣本和域偏移下的識別魯棒性研究被提出,這些研究通常從更強的數據增強、模型正則、訓練策略、更優的網絡結構設計方面提升深度模型的魯棒性。其中,大多數魯棒性研究將 CNN 結構作為前提假設,所提出的魯棒訓練方案也僅適用於 CNN 結構。近年來,Dosovitskiy 等人提出 ViT 模型,它將 transformer 結構引入計算機視覺,並在圖像分類任務上優於 CNN。得益於其強大的建模能力,基於 transformer 的視覺結構迅速占領了各種任務的排行榜,包括目標檢測和語義分割等。隨着 ViT 開始撼動 CNN 模型的統治地位,針對新型 ViT 模型的魯棒訓練方法需要被提出。目前已有研究開始對比 ViT 和 CNN 之間的魯棒性,並通過實驗得出 ViT 在通用擾動上的識別能力強於 CNN,然而該研究僅僅得出經驗性的初步結論,缺乏對 ViT 模型每個組件和設計單元的具體分析。另一方面,大量 ViT 變體,例如 Swin、PVT 等相繼提出。所有 ViT 的變體均只考慮模型在正常樣本上的識別表現,缺乏在對抗和通用擾動下的魯棒性探討。在近日被 CPVR 2022 接收的論文《Towards Robust Vision Transformer》中,阿里巴巴人工智能治理與可持續發展研究中心 (AAIG) 的研究者首次對 ViT 模型的組成部分和設計單元進行拆解,並單獨對 ViT 中不同模塊的不同設計方法進行魯棒性探究。通過綜合研究結論,他們提出了一種更為魯棒的新型 ViT 模型 RVT,並在多個視覺分類的魯棒性和泛化性基準上優於 SOTA ViT 和卷積神經網絡。
論文地址:https://arxiv.org/abs/2105.07926
項目地址:https://github.com/alibaba/easyrobust/tree/main/RVT
下圖左為 RVT 模型的整體架構,圖右為 RVT 與不同 ViT 變體的比較。
研究者採用 DeiT-T 作為基準模型,採用 ImageNet 驗證集和 FGSM 攻擊算法下的準確率分別作為正常以及魯棒識別能力指標。下表 1 給出了不同位置嵌入的影響,位置嵌入對於形狀特徵的提取起到了關鍵作用,而不同位置嵌入方式並未發現顯著差異。
下表 2 分別展示了圖像塊特徵提取方式、自注意力範圍、以及不同前饋層和分類層形式的影響。實驗經驗性地發現使用卷積提取圖像塊特徵,並採用全局自注意力和用於分類的 CLS token,通常使得 ViT 具備更好的魯棒性。
下表 3 研究了當 ViT 採用類似 CNN 中階段性下採樣的設計,是否會影響魯棒性。當自注意力在大尺寸特徵圖上計算時,會引起計算量顯著增加,並大幅損害模型魯棒性,反之大尺度的自注意力層具備更好的魯棒性。
自注意力通常採用多頭的形式以增強表徵能力。由下表 4 看出,多頭注意力同時也增強了魯棒性,但當注意力頭持續增加至冗餘,模型表現不升反降,因此為選擇 ViT 選擇合適的注意力頭數是至關重要的。
根據以上發現,研究者提出了更加魯棒的新型 ViT 模型 RVT,相比原始 ViT 模型,RVT 具備魯棒性的同時,正常場景下識別能力更強,計算也更加高效。位置相關的自注意力縮放將點積注意力中縮放操作修改為更通用的版本,即點積注意力中,每一對 query-key 的點積會被可學習的位置重要性矩陣縮放,取代原始的常數
,d 為特徵維數。使用位置相關的自注意縮放可有效提升模型的魯棒性。如下圖所示,在對抗樣本輸入下,ViT 的自注意力圖出現噪聲並激活一些不相關區域,使用位置相關的自注意力縮放後,該噪聲被有效抑制,並只有對分類有幫助的相關位置被激活,間接提升了魯棒性。
傳統的數據增強通過提高訓練數據多樣性防止模型過擬合。相比 CNN,ViT 需要更大量訓練數據以收斂至最優,數據增強的作用因此尤為明顯。與 CNN 不同的是,ViT 將輸入圖像切分為圖像塊單獨提取特徵後,再送入注意力層。傳統數據增強對所有圖像塊使用相同增強方式,為針對 ViT 模型進一步提升訓練數據多樣性,本文提出對切分的圖像塊採用不同隨機數據增強,即對於切分後的各個圖像塊,再獨立做隨機裁剪縮放,隨機水平翻轉,添加隨機高斯噪聲等簡單圖像變換。與 MixUp、AugMix、RandAugment 類似,基於數據塊的數據增強也有助於 ViT 模型的魯棒性。通過對單個圖像塊做簡單隨機變換,等同於在圖像塊嵌入上添加有意義的干擾,在該干擾下的訓練有助於模型抵抗未知干擾,進而提升對抗攻擊下的識別率。研究者設計了三個規模的 RVT 模型用於實驗:RVT-T、RVT-S 和 RVT-B。將採用位置相關的自注意力縮放和基於圖像塊的數據增強兩項改進的 RVT 模型標註為 RVT*。評測數據集包含 ImageNet-1K 中的驗證集合、兩個白盒攻擊算法 FGSM 與 PGD、自然對抗樣本集合 ImageNet-A、模擬圖像損壞樣本集合 ImageNet-C、黑白剪貼畫圖像樣本集合 ImageNet-Sketch、人工創作非自然圖像樣本集合 ImageNet-R。實驗對比結果如表 5所示,RVT 在三個規模上均優於 CNN 和其他的 ViT 變體模型。對抗魯棒性上,提出的 RVT-Ti 及 RVT-S 模型在 FGSM 上均獲得了 10% 以上的提升。RVT-S * 在 ImageNet-C 上獲得 49.4 的 mCE,該結果優於大部分通用魯棒訓練方法。RVT-B * 在 ImageNet-A、ImageNet-R、ImageNet-Sketch 上分別取得 28.5%、48.7%、36.0% 的準確率,超越了目前的 SOTA,充分驗證了 RVT 應對測試數據域偏移的能力。
另外,除了應用於 RVT 模型之外,該研究提出的位置相關的自注意力縮放和基於圖像塊的數據增強還可廣泛應用於其他 ViT 模型。為驗證其效果,研究者採用 DeiT-Ti、ConViT-Ti、PiT-Ti 三個基礎模型,並分別在訓練過程中使用位置相關的自注意力縮放和基於圖像塊的數據增強,結果顯示三個基礎模型均獲得了顯著提升,結果如下表 8 所示。
研究者還採用 t-SNE 技術對 RVT 模型提取特徵進行降維及可視化,由下圖 4 可看出,在正常分類樣本和噪聲樣本上,RVT-S 的特徵均更加緊湊,類內樣本點靠近類簇,類間樣本相距較遠。該形態使得表徵更具判別性,更難以被攻破。
論文一作為阿里巴巴人工智能治理與可持續發展研究中心算法工程師毛瀟鋒,主要研究方向為計算機視覺,對抗機器學習等,曾在AAAI/CVPR/MM/TIP上發表論文。薛暉,阿里巴巴人工智能治理與可持續發展研究中心(AAIG)主任,帶領團隊在計算機視覺、自然語言處理、數據挖掘與網絡安全等領域的國際頂級會議和期刊上發表論文100多篇,多次在國際國內知名賽事中取得冠軍,獲授權國內國際專利60餘項,申請中專利達到200多項。
©THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com