來自美國東北大學、聖克拉拉大學和 Meta 的研究者提出對偶彩票假說(Dual Lottery Ticket Hypothesis,DLTH),隨機的子網絡都可以被轉換成中獎彩票。稀疏網絡訓練一直是深度學習中訓練神經網絡的難點。隨着網絡規模和數據量的不斷增加,訓練成本也不斷提升。如何有效的訓練稀疏網絡來維持合理的訓練開銷變得十分重要。另一方面,找到有效的稀疏網絡訓練方法對理解神經網絡的工作原理同樣很有幫助。近日,來自美國東北大學,聖克拉拉大學和 Meta 的研究者提出對偶彩票假說(Dual Lottery Ticket Hypothesis,DLTH)。不同於彩票假說(Lottery Ticket Hypothesis,LTH)驗證了隨機網絡中存在好的子網絡(中獎彩票),DLTH 驗證了在給定的隨機網絡中,隨機的子網絡都可以被轉換成中獎彩票。
論文地址:https://arxiv.org/abs/2203.04248
OpenReview: https://openreview.net/forum?id=fOsN52jn25l
論文代碼:https://github.com/yueb17/DLTH
2019 年,來自 MIT 的研究人員提出彩票假說(Lottery Ticket Hypothesis):給定一個初始化網絡,其中存在一個彩票子網絡(winning ticket)在被單獨訓練的情況下達到很好的效果。這個子網絡可以用傳統的預訓練加剪枝的方法得到。LTH 還是用了 iterative magnitude pruning 的策略來找到更好的彩票子網絡。LTH 揭示了神經網絡與其稀疏子網絡之間的關係,開啟了一個研究稀疏網絡訓練的新方向。給定隨機初始化的神經網絡,隨機的子網絡並不能達到理想的訓練效果。而 LTH 中的彩票子網絡是通過剪枝預訓練網絡得到的。但是 LTH 只驗證了彩票子網絡的存在性,並沒有探索彩票網絡的普遍性。相對應的,通過預訓練加剪枝的方法找到的彩票子網絡的結構是無法控制的。這同樣限制了彩票網絡在實際應用中的潛力。研究者受 LTH 啟發,探索了其對偶問題並提出對偶彩票假說 DLTH:給定隨機初始化的網絡,其隨機挑選的子網絡可以被轉換成彩票子網絡,並得到與 LTH 找到的彩票子網絡相當甚至更好的準確率。

同時,DLTH 提出了隨機子網絡變換(Random Sparse Network Transformation,RST)來驗證提出的 DLTH。給定隨機初始化網絡並確定隨機子網絡結構,RST 藉助網絡中其餘的權重(masked weights)來幫助被選中的子網絡(randomly selected sparse network)進行變換。具體而言,RST 通過藉助彩票池中所有的信息把一張隨機彩票轉換成了中獎彩票。RST 通過訓練完整的網絡來完成。在訓練過程中,RST 通過在未被選中的權重上添加一個逐漸增加的正則項,從而這部分權重的幅值逐漸變小,這部分權重的作用也逐漸被抑制,並在變換結束之後完全去掉這部分權重。而被選中的子網絡則進行正常訓練。最終得到被轉換好的稀疏子網絡。這一過程可以理解為 RST 把信息從網絡的其他部分擠到目標子網絡中(information extrusion),如下圖所示:
RST 方法在 cifar10,cifar100 以及 Imagenet 數據集上進行了測試,模型選擇 ResNet56 和 ResNet18。對比方法包括 LTH 及其變體,預訓練加剪枝,以及隨機子網絡 scratch training。實驗結果如下圖所示:

作者發現 RST 方法相比較於 LTH,普遍可以得到更好至少相當的結果,無論使用 one-shot 策略還是 iterative 策略。因此,所使用的 RST 很好的驗證了文章提出的 DLTH。直觀比較如下圖所示:對比 Pruning at Initialization(PI)PI 同樣在隨機網絡中選擇子網絡進行訓練。因此,PI 相關的研究同樣也是重要的對比方法。文章中,作者選擇了 Gradient Signal Preservation (GraSP)作為 PI 方法的代表,與提出的 RST 進行比較。具體結果如下圖所示:
實驗結果表明相比較於 GraSP,RST 方法普遍取得了更好的效果。本文從彩票假說(LTH)的研究視角出發,提出其對偶形式:對偶彩票假說(DLTH),從更廣泛的角度探究了神經網絡與其稀疏子網絡之間的關係。相應的,文章提出了隨機子網絡變換(RST)的方法來驗證 DLTH。在 benchmark 數據集與網絡上和眾多對比方法的比較表明 RST 方法有效的驗證了文章所提出的對偶彩票假說(DLTH)。
©THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com