PaperWeekly - 中科院、華為等提出Vision GNN，只使用圖神經網絡進行視覺任務－鑽石舞台

Jun 17 Fri 2022 06:31
PaperWeekly - 中科院、華為等提出Vision GNN，只使用圖神經網絡進行視覺任務

©作者 |周春鵬

單位 |浙江大學

研究方向 |計算機視覺

網絡結構在基於深度學習的計算機視覺系統中起着至關重要的作用。目前廣泛應用的卷積神經網絡和卷積神經轉換器將圖像視為網格或序列結構，難以靈活地捕捉不規則和複雜的目標。本文提出將圖像表示為圖（Graph）結構，並引入一種新的視覺圖卷積（Vision GNN, ViG）體系結構來提取視覺任務的圖級（Graph-Level）特徵。

首先，將圖像分割為多個塊（patch），這些塊被視為節點，並通過連接最近的鄰居節點來構建一個圖。基於圖像的圖表示（graph representation），通過建立 ViG 模型來實現所有節點之間的信息變換和交換。ViG 由兩個基本模塊組成：帶有圖卷積的Grapher模塊，用於聚合和更新圖信息；以及兩層線性層的 FFN 模塊（就是 MLP），用於節點特徵變換。在不同的模型尺寸下，分別建立了各向同性（isotropic）結構和金字塔（ pyramid）結構。

在圖像識別和目標檢測任務上的大量實驗證明了提出的 ViG 架構的優越性。希望本研究能對一般視覺任務上的神經網絡進行開創性的研究，為今後的研究提供有益的啟示和經驗。

論文標題：

Vision GNN: An Image is Worth Graph of Nodes

論文鏈接：

https://arxiv.org/abs/2206.00272

動機

在視覺任務中，CNNs，Transformer，MLP 都取得了很好的效果。CNNs 利用了平移不變性和局部性（the shift-invariance and locality）使用滑動窗口提取特徵；最近的 Transformer 和 MLP 將將圖像視為一系列的 patches。上述的考慮都是基於規則網格或序列表示，本文嘗試一種更靈活的圖結構。計算機視覺的一個基本任務是識別圖像中的物體。由於對象通常不是規則的方形，而以往的網絡如 ResNet 和 ViT 中常用的網格或序列結構往往會造成冗餘，難以處理這些不規則對象。

一個物體可以被看作是由各個部分組成的，例如：人大致可以分為頭、上身、四肢。這些由關節連接的部分自然形成一個圖結構。通過分析這個圖結構，我們能夠識別出人。此外，圖是一種廣義的數據結構，網格和序列可以看作是圖的一種特殊情況。將圖像視為圖形對於視覺感知來說更加靈活和有效。

因此，本文基於圖像的圖表示（graph representation）提出了 vision graph neural network (ViG)。本文應該是首次將圖神經網絡用於視覺任務，同時能取得很好的效果，在 ImageNet 分類任務上超過了 CNN (ResNet), MLP (CycleMLP) 和 transformer (Swin-T) 。

方法

2.1 ViG Block2.1.1 Graph Representation of Image

對於一張圖片，首先將圖片劃分為 N 個 patch，然後將進行特徵變換得到每一個 patch 對應的特徵，因此有：。這些特性可以看作是一組無序的節點，表示為。對於每一個節點找到窮最近的 K 個鄰居，然後加入一條有向邊從到。因此就得到了一個圖結構，其中 E 表示所有的邊集合。通過將圖像視為圖數據，因此可以利用 GCN 提取其表徵。

2.1.2Graph-level Processing

圖卷積層通過聚合相鄰節點的特徵來實現節點之間的信息交換。具體來說，圖卷積的操作如下：

其中和是聚合和更新操作中的可學習參數。更具體地說，聚合運算是通過聚合鄰居節點的特徵來計算節點的表示：

其中表示節點鄰居集合。為了方便和高效，這裡採用 max-relative graph convolution：

上面的處理可以表示為：

更進一步，引入了多頭注意力。首先將聚集特徵分成 h 個頭，然後分別用不同的權重更新這些頭。所有的頭可以並行更新，並連接為最終值：

新多頭更新操作使模型能夠在多個表示子空間中更新信息，有利於特徵的多樣性

2.1.3ViG block

以往的 GCNs 通常重複使用多個圖卷積層來提取圖數據的聚合特徵。深度 GCNs 的過平滑現象會降低節點特徵的判別性，導致視覺識別性能下降，如下圖所示。其中特徵多樣性通過判斷，其中。為了緩解這個問題，在 ViG 塊中引入了更多的特徵變換和非線性激活。

本文在圖卷積前後應用線性層，將節點特徵投影到同一個域，增加特徵多樣性。在圖卷積後插入一個非線性激活函數以避免層坍塌。我們稱升級後的模塊為 Grapher 模塊。在實際應用中，將 Grapher 模塊表示為：

為了進一步提高特徵轉換能力和緩解過平滑現象，在每個節點上使用前饋網絡 (FFN)。FFN 模塊是一個簡單的多層感知器，有兩個完全連接的層：

由 Grapher 模塊和 FFN 模塊疊加而成的 ViG 塊是構成網絡的基本構建單元。因此構建面向視覺任務的 ViG 網絡。與 ResGCN 相比，ViG 隨着層的深入能夠保持特徵多樣性，學習出判別性的表徵。

2.2Network Architecture

在計算機視覺領域，常用的 transformer 通常是 isotropic 的架構（如 ViT），而 CNN 更喜歡使用 pyramid 架構（如 ResNet）。為了與其他類型的神經網絡進行廣泛的比較，本文為 ViG 構建了兩種網絡結構，即各向同性結構和金字塔結構。

2.2.1Isotropic architecture

各向同性架構意味着主體在整個網絡中具有大小和形狀相同的特徵，如 ViT 和 ResMLP。本文構建了三種不同模型尺寸的各向同性 ViG 架構，分別為 ViG-ti、S 和 B，節點數設為 N =196。為了逐漸擴大接收場，這三種模型中隨着層深的增加，鄰居節點數 K 從 9 線性增加到 18。頭的數量默認設置為 h = 4。

2.2.2Pyramid architecture

金字塔架構考慮了圖像的多尺度特性，即隨着層越深提取空間尺寸越小的特徵，如 ResNet 和 PVT。經驗證據表明，金字塔結構對視覺任務是有效的。因此，本文利用先進的設計和建立了四個版本的金字塔 ViG 模型。

2.2.3Positional encoding

為了表示節點的位置信息，在每個節點特徵中添加一個位置編碼向量：

上式所描述的絕對位置編碼應用於各向同性和金字塔結構。對於金字塔 ViG，進一步使用 Swin Transformer 等高級設計，例如相對位置編碼。對於節點 i 和 j，它們之間的相對位置距離為，將其加入到特徵距離中構建圖。

實驗

具體實驗設置和分析請參考原文。

3.1 Main Results on ImageNet

3.2Ablation Study

3.3Visualization

為了更好地理解 ViG 模型是如何工作的，在 v - s 中可視化構造的圖結構。在上圖中，展示了兩個不同深度的樣本的圖形（第 1 塊和第 12 塊）。五角星是中心節點，相同顏色的節點是它的鄰居。兩個中心節點被可視化為繪製所有的邊將是混亂的。可以觀察到，提出的模型可以選擇與內容相關的節點作為一階鄰居。在淺層中，傾向於根據顏色、紋理等低級和局部特徵來選擇鄰居節點。在深層，中心節點的鄰居語義性更強，屬於同一類別。因此 VIG 網絡可以通過其內容和語義表示將節點逐漸連接起來，幫助更好地識別對象。