我愛計算機視覺 - 提高對抗性遷移能力，通過基於神經元歸屬的攻擊方法（CVPR 2022）－鑽石舞台

關注公眾號，發現CV技術之美

本篇文章分享CVPR 2022 論文『Improving Adversarial Transferability via Neuron Attribution-Based Attacks』,通過基於神經元歸屬的攻擊提高對抗性遷移能力。

詳細信息如下：

論文鏈接：https://arxiv.org/abs/2204.00008

項目鏈接：https://github.com/jpzhang1810/NAA

引言

該論文是關於對抗樣本可遷移性攻擊的文章。現有的特徵級攻擊通常會採用不準確的神經元重要性估計，這樣會降低了對抗樣本的可遷移性。在該論文中，作者提出了基於的神經元屬性的對抗攻擊，它通過更準確的神經元重要性估計來進行特徵級攻擊。

首先將模型的輸出完全歸因於中間層的每個神經元。然後，作者推導了神經元屬性的近似方案，以極大地減少計算開銷。最後，根據神經元的屬性結果對神經元進行加權，並發起特徵級攻擊。實驗結果也證實了論文中方法優越性。論文的代碼已經開源。

論文方法

特徵級別的攻擊在生成對抗樣本的過程中會破壞掉積極的特徵從而擴大消極的特徵。因此，由特徵級別生成的對抗樣本可有繼承誤導其它深度學習模型的高遷移性特徵。特徵級別攻擊的關鍵在於找到一個合適的方式去度量每一個神經元的重要程度。在該論文中作者引入了一個度量神經元重要程度的度量方式，名為神經元屬性，此外作者還基於神經元重要程度提出了基於神經元屬性的攻擊方式。

令為乾淨樣本，它對應的真實標籤為。為一個分類模型，則表示為的輸出。表示第層的激活值，其中表示在這個特徵圖中第個神經單元的激活值。表示對抗樣本，且有，其中表示範數，為對抗擾動。給定一個基準圖像，作者可以定義輸入圖片的屬性為

其中表示關於第個像素的偏導數。上公式說明的梯度是沿着給定的直線路徑進行積分的。根據路徑積分的微積分基本定理可以得到，只有當時，會有，即是一張全黑圖像，上述結論成立。令，則第層的第個神經元的屬性為
其中在選定每一層都成立。因此，神經元屬性反映了每個神經元到輸出真實的影響。為了實際中複雜的積分計算，作者在直線路徑中採樣了個虛擬樣本，並使用黎曼加和去估計該積分，然後改變加和的順序則有：

其中是路徑上虛擬的圖像。考慮到神經網絡中神經元的數量非常大，所以計算成本會非常高，為了降低計算複雜度，作者在上公式中做了一個簡單的假設進而簡化公式。一開始時，是關於的梯度，同時是關於每個像素梯度的加和，作者假定這兩個梯度是線性獨立的。

給定兩個相互獨立的序列和，則有，其中表示的是序列均值。進一步則有，，可以將以上公式的兩個大括號分別看成和，於是可以得到如下公式

根據路徑積分的基本定理可知

其中是第個神經元的激活值，其此時輸入的圖像是黑色圖像。令為，並且被看做融合注意力，一個簡單的形式為。反映了從基準圖像到輸入的直線上梯度的積分與神經元的關係。

綜上所述可以發現，原本神經元屬性的計算複雜度為，其中是目標層的高，是目標層的寬，是目標層通道數，而作者提出的方法計算複雜度為，在每一個梯度整合的步驟中只需要一個梯度操作，如果不進行簡化，則在每一個步驟中則需要進行1百萬次梯度操作；因此可知論文中的簡化方法大大降低了計算複雜度。考慮第層所有神經元屬性的計算公式為

生成對抗樣本的過程中有用的特徵被抑制，有害的特徵則會被放大。為了分析這兩種特徵的影響，作者試圖找出哪一種特徵主導了對抗樣本的可遷移性，利用一個超參數來平衡正面和負面屬性，此外，作者還區分不同值的神經元屬性的顯著程度。

例如，當調查減少一個大的積極屬性神經元是否比增加一個小的消極屬性神經元更有利於攻擊。為此，作者設計了多個線性或非線性變換函數，即，用於積極的神經元屬性和用消極神經元屬性。因此，目標層上所有神經元的加權屬性可以被計算為

最小化目標函數是要比直接最小化函數要好，因為同時考慮了神經元極性和數值兩方面。因此優化目標可以整理為如下所示：

其中作者利用動量迭代的方法去求解以上優化問題，具體的算法流程圖如下所示：

實驗結果

如下表所示為論文中的方法與與baseline方法在無防禦模型，對抗訓練模型和加載防禦模型的分別在白盒和黑盒條件下的攻擊效果。可以發現在白盒條件下，論文中的方法的攻擊成功率接近100%；在黑盒條件下，該方法也比其它的方法有更高的攻擊遷移率。

另外作者還比較了帶輸入變換的攻擊方法的效果，其中輸入變換方法分別是PIM和DIM。如下表所示為帶輸入變換的不同的攻擊方法在無防禦模型，對抗訓練模型和加載防禦模型的分別在白盒和黑盒條件下的攻擊效果。可以發現在黑盒條件下，論文中方法比其它的方法有更高的攻擊遷移率。

如下圖所示為消融實驗的實驗結果，作者主要分析了目標特徵層，積分步數和權重係數對遷移攻擊成功率的影響。右下圖的結果可知，對於不同的目標特徵層可以發現，中間的目標特徵層的遷移攻擊成功率最高，說明中間特徵層的特徵對遷移攻擊成功率有更大的影響。對於積分步數來說，當時可以達到最好的效果。對於權重係數來說，可以發現當時，遷移攻擊成功率達到最優的效果，由此可知，正面特徵和負面特徵同等重要。