PaperWeekly - 為什麼Pre Norm的效果不如Post Norm？－鑽石舞台

©PaperWeekly 原創 ·作者 | 蘇劍林

單位 | 追一科技

研究方向 | NLP、神經網絡

Pre Norm 與 Post Norm 之間的對比是一個「老生常談」的話題了，本博客就多次討論過這個問題，比如文章《淺談 Transformer 的初始化、參數化與標準化》[1]、《模型優化漫談：BERT 的初始標準差為什麼是 0.02？》等。目前比較明確的結論是：同一設置之下，Pre Norm 結構往往更容易訓練，但最終效果通常不如 Post Norm。Pre Norm 更容易訓練好理解，因為它的恆等路徑更突出，但為什麼它效果反而沒那麼好呢？

筆者之前也一直沒有好的答案，直到前些時間在知乎上看到 @唐翔昊的一個回復後才「恍然大悟」，原來這個問題竟然有一個非常直觀的理解！本文讓我們一起來學習一下。

基礎回顧

Pre Norm 和 Post Norm 的式子分別如下：

在 Transformer 中，這裡的主要指 Layer Normalization，但在一般的模型中，它也可以是 Batch Normalization、Instance Normalization 等，相關結論本質上是通用的。

在筆者找到的資料中，顯示 Post Norm 優於 Pre Norm 的工作有兩篇，一篇是《Understanding the Difficulty of Training Transformers》[2]，一篇是《RealFormer: Transformer Likes Residual Attention》[3]。另外，筆者自己也做過對比實驗，顯示 Post Norm 的結構遷移性能更加好，也就是說在 Pretraining 中，Pre Norm 和 Post Norm 都能做到大致相同的結果，但是 Post Norm 的 Finetune 效果明顯更好。

可能讀者會反問《On Layer Normalization in the Transformer Architecture》[4] 不是顯示 Pre Norm 要好於 Post Norm 嗎？這是不是矛盾了？其實這篇文章比較的是在完全相同的訓練設置下 Pre Norm 的效果要優於 Post Norm，這只能顯示出 Pre Norm 更容易訓練，因為 Post Norm 要達到自己的最優效果，不能用跟 Pre Norm 一樣的訓練配置（比如 Pre Norm 可以不加 Warmup 但 Post Norm 通常要加），所以結論並不矛盾。

直觀理解

為什麼 Pre Norm 的效果不如 Post Norm？知乎上 @唐翔昊給出的答案是：Pre Norm 的深度有「水分」！也就是說，一個層的 Pre Norm 模型，其實際等效層數不如層的 Post Norm 模型，而層數少了導致效果變差了。

具體怎麼理解呢？很簡單，對於 Pre Norm 模型我們迭代得到：

其中每一項都是同一量級的，那麼有，也就是說第層跟第層的差別就相當於與的差別，當較大時，兩者的相對差別是很小的，因此

這個意思是說，當比較大時，相差較小，所以與很接近，因此原本一個層的模型與層和，近似等效於一個更寬的層模型，所以在 Pre Norm 中多層疊加的結果更多是增加寬度而不是深度，層數越多，這個層就越「虛」。

說白了，Pre Norm 結構無形地增加了模型的寬度而降低了模型的深度，而我們知道深度通常比寬度更重要，所以是無形之中的降低深度導致最終效果變差了。而 Post Norm 剛剛相反，在《淺談 Transformer 的初始化、參數化與標準化》[1] 中我們就分析過，它每 Norm 一次就削弱一次恆等分支的權重，所以 Post Norm 反而是更突出殘差分支的，因此 Post Norm 中的層數更加「足秤」，一旦訓練好之後效果更優。

相關工作

前段時間號稱能訓練 1000 層 Transformer 的 DeepNet 想必不少讀者都聽說過，在其論文《DeepNet: Scaling Transformers to 1,000 Layers》[5] 中對 Pre Norm 的描述是：

However, the gradients of Pre-LN at bottom layers tend to be larger than attop layers, leading to a degradation in performance compared with Post-LN.

不少讀者當時可能並不理解這段話的邏輯關係，但看了前一節內容的解釋後，想必會有新的理解。

簡單來說，所謂「the gradients of Pre-LN at bottom layers tend to be larger than at top layers」，就是指 Pre Norm 結構會過度傾向於恆等分支（bottom layers），從而使得 Pre Norm 傾向於退化（degradation）為一個「淺而寬」的模型，最終不如同一深度的 Post Norm。這跟前面的直觀理解本質上是一致的。