關注公眾號,發現CV技術之美
本篇文章分享CVPR 2022 論文『Improving Adversarial Transferability via Neuron Attribution-Based Attacks』,通過基於神經元歸屬的攻擊提高對抗性遷移能力。
詳細信息如下:
論文鏈接:https://arxiv.org/abs/2204.00008
項目鏈接:https://github.com/jpzhang1810/NAA
01
引言
該論文是關於對抗樣本可遷移性攻擊的文章。現有的特徵級攻擊通常會採用不準確的神經元重要性估計,這樣會降低了對抗樣本的可遷移性。在該論文中,作者提出了基於的神經元屬性的對抗攻擊,它通過更準確的神經元重要性估計來進行特徵級攻擊。
首先將模型的輸出完全歸因於中間層的每個神經元。然後,作者推導了神經元屬性的近似方案,以極大地減少計算開銷。最後,根據神經元的屬性結果對神經元進行加權,並發起特徵級攻擊。實驗結果也證實了論文中方法優越性。論文的代碼已經開源。
02
論文方法
特徵級別的攻擊在生成對抗樣本的過程中會破壞掉積極的特徵從而擴大消極的特徵。因此,由特徵級別生成的對抗樣本可有繼承誤導其它深度學習模型的高遷移性特徵。特徵級別攻擊的關鍵在於找到一個合適的方式去度量每一個神經元的重要程度。在該論文中作者引入了一個度量神經元重要程度的度量方式,名為神經元屬性,此外作者還基於神經元重要程度提出了基於神經元屬性的攻擊方式。
令為乾淨樣本,它對應的真實標籤為。為一個分類模型,則表示為的輸出。表示第層的激活值,其中表示在這個特徵圖中第個神經單元的激活值。表示對抗樣本,且有,其中表示範數,為對抗擾動。 給定一個基準圖像,作者可以定義輸入圖片的屬性為
其中在選定每一層都成立。因此,神經元屬性反映了每個神經元到輸出真實的影響。為了實際中複雜的積分計算,作者在直線路徑中採樣了個虛擬樣本,並使用黎曼加和去估計該積分,然後改變加和的順序則有:
其中是路徑上虛擬的圖像。 考慮到神經網絡中神經元的數量非常大,所以計算成本會非常高,為了降低計算複雜度,作者在上公式中做了一個簡單的假設進而簡化公式。一開始時,是關於的梯度,同時是關於每個像素梯度的加和,作者假定這兩個梯度是線性獨立的。
根據路徑積分的基本定理可知
生成對抗樣本的過程中有用的特徵被抑制,有害的特徵則會被放大。為了分析這兩種特徵的影響,作者試圖找出哪一種特徵主導了對抗樣本的可遷移性,利用一個超參數來平衡正面和負面屬性,此外,作者還區分不同值的神經元屬性的顯著程度。
例如,當調查減少一個大的積極屬性神經元是否比增加一個小的消極屬性神經元更有利於攻擊。為此,作者設計了多個線性或非線性變換函數,即,用於積極的神經元屬性和用消極神經元屬性。因此,目標層上所有神經元的加權屬性可以被計算為
03
實驗結果
如下表所示為論文中的方法與與baseline方法在無防禦模型,對抗訓練模型和加載防禦模型的分別在白盒和黑盒條件下的攻擊效果。可以發現在白盒條件下,論文中的方法的攻擊成功率接近100%;在黑盒條件下,該方法也比其它的方法有更高的攻擊遷移率。
另外作者還比較了帶輸入變換的攻擊方法的效果,其中輸入變換方法分別是PIM和DIM。如下表所示為帶輸入變換的不同的攻擊方法在無防禦模型,對抗訓練模型和加載防禦模型的分別在白盒和黑盒條件下的攻擊效果。可以發現在黑盒條件下,論文中方法比其它的方法有更高的攻擊遷移率。

END
歡迎加入「對抗學習」交流群👇備註:Ad