夕小瑤的賣萌屋 - patch成為了ALL You Need？挑戰ViT、MLP-Mixer的簡單模型來了－鑽石舞台

文 | 機器之心編輯部源 | 機器之心

ViT（Vision Transformer）等視覺模型的強大性能，是來自於 Transformer，還是被忽略的 patch？有研究者提出了簡單 ConvMixer 模型進行證明，直接將 patch 作為輸入，實驗表明，ConvMixer 性能優於 ResNet 等經典視覺模型，並且在類似的參數計數和數據集大小方面也優於 ViT、MLP-Mixer 及其一些變體。

近年來，深度學習系統中的卷積神經網絡在處理計算機視覺任務中，一直占據主要地位。但最近，基於 Transformer 模型的架構，例如 ViT（Vision Transformer）架構（Dosovitskiy 等人，2020 年），在許多任務中都表現出了引人注目的性能，它們通常優於經典卷積網絡，尤其是在大型數據集上表現更佳。

我們可以假設，Transformer 成為視覺領域的主導架構只是時間問題，就像它們在 NLP 領域中一樣。然而，為了將 Transformer 應用於圖像領域，信息的表示方法必須改變：因為如果在每像素級別上應用 Transformer 中的自注意力層，它的計算成本將與每張圖像的像素數成二次方擴展，所以折衷的方法是首先將圖像分成多個 patch，再將這些 patch 線性嵌入，最後將 transformer 直接應用於此 patch 集合。

我們不禁會問：像 ViT 這種架構強大的性能是來自 Transformer ，還是至少部分是由於使用 patch 作為輸入表示實現的？

在本文中，研究者為後者提供了一些證據：具體而言，該研究提出了 ConvMixer，這是一個極其簡單的模型，在思想上與 ViT 和更基本的 MLP-Mixer 相似，這些模型直接將 patch 作為輸入進行操作，分離空間和通道維度的混合，並在整個網絡中保持相同的大小和分辨率。然而，相比之下，該研究提出的 ConvMixer 僅使用標準卷積來實現混合步驟。儘管它很簡單，但研究表明，除了優於 ResNet 等經典視覺模型之外，ConvMixer 在類似的參數計數和數據集大小方面也優於 ViT、MLP-Mixer 及其一些變體。

論文地址：https://openreview.net/pdf?id=TVHS5Y4dNvM

Github地址：https://github.com/tmp-iclr/convmixer

特斯拉 AI 高級總監 Andrej Karpathy 在其個人社交網站推特上感嘆道：我被新的 ConvMixer 架構震撼了。

有網友認為：「這項研究具有很重要的理論意義，因為它挑戰了 ViT 有效性的原因。」

還有網友表示：「作為消融實驗，我認為很有趣。我不認為這篇論文的目的是表達『 ConvMixer 是一個好的架構，值得研究者使用』，而是『這個簡單的架構有效的幫助我們縮小了其他模型最有價值的特性範圍』。」

一個簡單的模型：ConvMixer

ConvMixer 由一個 patch 嵌入層和一個簡單的全卷積塊的重複應用組成。該研究保持 patch 嵌入的空間結構，如下圖 2 所示。patch 大小為 p 和嵌入維度為 h 的 patch 嵌入可以實現具有 c_in 輸入通道、h 個輸出通道、內核大小 p 和步長 p 的卷積：

ConvMixer 塊本身由 depthwise 卷積（即組數等於通道數 h 的分組卷積）和 pointwise（即內核大小為 1 × 1）卷積組成。每個卷積之後是一個激活函數和激活後的 BatchNorm：

在 ConvMixer 塊的多次應用之後，執行全局池化以獲得大小為 h 的特徵向量，並將其傳遞給 softmax 分類器。

設計參數：ConvMixer 的實例化取決於四個參數：（1）寬度或隱藏維度 h（即 patch 嵌入的維度），（2）深度 d，或 ConvMixer 層的重複次數，（3 ) 控制模型內部分辨率的 patch 大小 p， (4) 深度卷積層的內核大小 k。研究者根據它們的隱藏維度和深度命名 ConvMixers，如 ConvMixer-h/d。他們將原始輸入大小 n 除以 patch 大小 p 作為內部分辨率；但是請注意，ConvMixers 支持可變大小的輸入。

動機：ConvMixer 架構基於混合思想。具體地，該研究選擇了 depthwise 卷積來混合空間位置，選擇 pointwise 卷積來混合通道位置。先前工作的一個關鍵思想是 MLP 和自注意力可以混合較遠的空間位置，即它們可以具有任意大的感受野。因此，該研究使用較大的內核卷積來混合較遠的空間位置。

實驗結果

研究者首先在 CIFAR-10 上執行了小規模的實驗，其中 ConvMixers 僅使用 0.7M 的參數實現了 96% 以上的準確率，驗證了卷積歸納偏置的數據高效性。

此外，研究者不使用任何預訓練或額外數據，在 ImageNet-1k 分類數據集上對 ConvMixers 進行了評估。他們將 ConvMixer 添加到 timm 框架中，並使用近乎標準的設置進行訓練，包括默認 timm 增強、RandAugment、mixup、CutMix、隨機刪除（random erasing）和梯度標準裁剪。

研究者還使用了 AdamW 優化器和一個簡單的 triangular 學習速度時間表。由於計算受限，他們沒有在 ImageNet 上進行超參數調整，並較競品模型訓練了更少的 epoch。

結果如下表 1 所示。參數量為 52M 的 ConvMixer-1536/20 在 ImageNet 上實現了 81.4% 的 top-1 準確率，參數量為 21M 的 ConvMixer-768/32 實現了 80.2% 的 top-1 準確率。更寬的 ConvMixers 在訓練 epoch 更少時出現收斂，但需要內存和計算。當卷積核更大時表現也很好：當卷積核大小從 K = 9 降至 K = 3 時，ConvMixer-1536/20 的準確率大約降了 1%。當 patch 更小時，ConvMixers 的表現明顯更好。因此，研究者認為，更大的 patch 需要更深的 ConvMixers。他們使用 ReLU 訓練了一個模型，以證明 GELU 是不必要的。

ConvMixers 模型和訓練設置與 DeiT 非常相似。在最近的各向同性模型中，研究者認為 DeiT 和 ResMLP 是最公平的競品模型，並且使用相同的過程訓練了 ResNet（它的原始結果已經過時了）。從表 1 和下圖 1 可以看到，ConvMixer 在給定的參數預算下實現了具有競爭力的結果：ConvMixer-1536/20 在使用明顯更少參數的情況下，優於 ResNet-152 和 ResMLP-B24，並能夠與 DeiT-B 競爭。不僅如此，ConvMixer-768/32 僅使用 ResNet-152 的 1/3 參數，就實現了與之相似的準確率。